CN111883149B - 一种带情感和韵律的语音转换方法及装置 - Google Patents

一种带情感和韵律的语音转换方法及装置 Download PDF

Info

Publication number
CN111883149B
CN111883149B CN202010751866.1A CN202010751866A CN111883149B CN 111883149 B CN111883149 B CN 111883149B CN 202010751866 A CN202010751866 A CN 202010751866A CN 111883149 B CN111883149 B CN 111883149B
Authority
CN
China
Prior art keywords
style
coding
content
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010751866.1A
Other languages
English (en)
Other versions
CN111883149A (zh
Inventor
朱海
王昆
周琳珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202010751866.1A priority Critical patent/CN111883149B/zh
Publication of CN111883149A publication Critical patent/CN111883149A/zh
Application granted granted Critical
Publication of CN111883149B publication Critical patent/CN111883149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种带情感和韵律的语音转换方法,包括训练阶段和转换阶段,本发明公开的带情感及韵律的语音转换方法及装置,使用带有注意力机制的风格编码层来计算说话人的风格编码向量,将风格编码向量与说话人语音声学特征一同输入带有bottle neck的自编码网络进行训练及转换,最后通过声码器将声学特征转换为音频。在传统语音转换方法的基础上,引入了说话人韵律、情感信息,使得转换的语音带有目标说话人语音的情感和韵律,该方法在多对多、集内对集内、集内对集外、集外对集外等说话人声音转换任务均有较高的相似度、较高的语音质量。

Description

一种带情感和韵律的语音转换方法及装置
技术领域
本发明涉及语音处理技术领域,具体的说,是一种带情感和韵律的语音转换方法及装置。
背景技术
语音转换(voice conversion)是一种保留源说话人语音的内容信息,并转换为目标说话人的声音的语音技术。该技术有着广泛的应用场景,如用户可以把自己的声音转换为自己喜欢的明星的声音,再如动漫迷们津津乐道的“变声蝴蝶结”,此外,语音转换技术的发展对与个性化语音合成、声纹识别、声纹安全等领域具有重要意义。
现有的语音转换方法从并行训练数据发展到非并行训练数据、一对多变换发展到多对多变换,有几种实现途径:一种是采用一定方法将非平行语料进行语音特征和参数对齐,然后训练模型,得到语音转换函数,该方法的语料对齐工作较为繁杂,语音转换效果较为有限;一种是对待转换语音数据进行语音识别得到识别文本,再利用目标说话人的语音合成模型进行语音合成,该种方法需要依赖语音识别以及个性化语音合成的发展;还有一种是直接对语音进行转换,从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征,构建转换函数,但该种方法特征提取工程较为繁杂,并且合成的语音自然度较低。
发明内容
本发明提供了一种带情感和韵律的语音转换方法及装置,用于解决上述问题。
本发明采用的技术方案是:提供一种带情感和韵律的语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
S11:获取多名说话人的训练语料,包含源说话人以及目标说话人;
S12:将获取的训练语料进行声学特征提取;
S13:确定风格编码层的token数量及维度,将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层,得到风格编码向量;
S14:将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器,以过滤语音的说话者信息,输出语音内容编码信息;
S15:将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器,得到重建后的源说话人的声学特征,以训练网络参数;
S16:将步骤S12提取的声学特征输入到声码器网络,训练声码器模型;
在所述训练阶段,提取的语音内容编码信息、风格编码向量为同一说话人的语音内容编码信息与风格编码向量;
将训练阶段训练后的网络参数用于语音转换阶段,所述转换阶段包括以下步骤:
S21:将待转换的源说话人、目标说话人语料进行声学特征提取;
S22:将待转换的源说话人、目标说话人语料的声学特征输入到风格编码层网络,得到源说话人、目标说话人的风格编码向量;
S23:将步骤S22得到的源说话人风格编码向量、步骤S21提取的待转换源说话人语料的声学特征输入到内容编码器、以过滤语音的说话者信息,输出语音内容编码信息;
S24:将步骤S23输出的语音内容编码信息、步骤S22得到的风格编码向量共同输入到解码器,得到目标说话人的声学特征;
S25:将步骤S24得到的经转换后的声学特征输入到经过S16训练后的声码器模型中,经声码器模型转换为音频;
在所述转换阶段,提取的语音内容编码信息、风格编码向量为不同说话人的语音内容编码信息与风格编码向量。
优选地,步骤S13中的token还包括:
每个token是由正态分布随机生成,token的数量以及每一个token的维度根据训练数据设定。
优选地,步骤S13中风格编码层网络结构包括:
参照编码层,用于对输入的声学特征生成参照编码向量;
风格标记层,利用注意力机制将不同的token与参照编码向量进行计算得到风格编码向量。
优选地,步骤S13中生成风格编码向量的过程包括:
将token以及参照编码向量一同输入到多头注意力网络,计算token与参照编码向量的相似度,利用计算所得的相似度得分再对token进行加权求和,最后计算得到风格编码向量;
所述注意力机制为dot-product attention、local-based attention或混合注意力机制。
优选地,步骤S14中内容编码器网络结构包括:
瓶颈层,包括使用双向LSTM或GRU网络,其输出分别经过下采样、上采样,最后输出语音内容编码信息。
优选地,步骤S14中内容编码器采用内容损失函数,所述内容损失函数为:
Figure BDA0002610267800000031
其中,
Figure BDA0002610267800000032
表示转换后的声学特征,S表示风格编码向量,EC()表示内容编码器网络,C表示内容编码向量。
优选地,步骤S15中解码器采用重建损失函数,所述重建损失函数为:
Figure BDA0002610267800000041
其中,X表示原始输入的声学特征,
Figure BDA0002610267800000042
表示转换后的声学特征。
优选地,步骤S16的声码器模型还包括:
声码器采用的网络结构为WavNET、WavRNN或MelGAN。
优选地,所述声学特征为梅尔频谱特征或线性频谱特征。
一种带情感和韵律的语音转换装置,其特征在于,包括:
声学特征提取模块,用于对输入语音提取声学特征;
风格编码生成模块,用于对输入的声学特征生成风格编码向量;
内容编码器模块,用于对输入的风格编码向量、语音声学特征输出语音内容编码信息;
解码器模块,用于对输入的风格编码向量、语音内容信息输出经转换后的声学特征;
声码器模块,用于将声学特征转换为音频。
本发明的有益效果是:本发明公开的带情感及韵律的语音转换方法及装置,使用带有注意力机制的风格编码层来计算说话人的风格编码向量,将风格编码向量与说话人语音声学特征一同输入带有bottle neck的自编码网络进行训练及转换,最后通过声码器将声学特征转换为音频。在传统语音转换方法的基础上,引入了说话人韵律、情感信息,使得转换的语音带有目标说话人语音的情感和韵律,该方法在多对多(many to many)、集内对集内(seen to seen)、集内对集外(seen to unseen)、集外对集外(unseen to unseen)等说话人声音转换任务均有较高的相似度、较高的语音质量。
附图说明
图1为本发明实施例公开的带情感和韵律的语音转换方法的训练阶段流程示意图;
图2为本发明实施例公开的带情感和韵律的语音转换方法的转换阶段流程示意图;
图3为本发明实施例公开的参照编码层网络结构示意图;
图4为本发明实施例公开的风格标记层网络结构示意图;
图5为本发明实施例公开的内容信息编码网络结构示意图;
图6为本发明实施例公开的解码网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
为了便于理解,本实施例中,源说话人可以理解为自己,目标说话人可以理解为某个明星。本发明用于将自己的声音转化为某个明星的声音。
本实施例公开一种带情感和韵律的语音转换方法,包括训练阶段和转换阶段,如图1所示,在训练阶段包括以下步骤:
S11.获取多名说话人的训练语料,包含源说话人(source speaker)以及目标说话人(target speaker);
可选的,现有一些质量较高的公共数据集可用来作为训练语料,如VCTK、LibriSpeech等,也可以采用自己录制的包含多说话人的语音数据。
S12.将获取的训练语料进行声学特征提取;
可选的,对训练语料提取梅尔频谱特征,具体的,参数选取如下:窗口大小为1024,步长为256,采样率为16000,梅尔维数80;并对频谱进行预加重、降噪、归一化、VAD检测等系列处理,最后得到声学特征。
S13.确定风格编码层(style encoder layer)的token数量及维度,将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层,得到风格编码向量(styleembedding)。
可选的,每个token是由正态分布随机生成,token的数量以及每一个token的维度根据训练数据设定。
可选的,风格编码层网络结构还包括:参照编码层,用于对输入的声学特征生成参照编码向量;风格标记层,利用注意力机制将不同的token与参照编码向量进行计算得到风格编码向量。
参照编码层网络结构结构如图2所示,由6层卷积核3×3、步长2×2的二维卷积堆叠而成,每层都使用了批归一化(batch normalization)以及relu激活函数,最后通过256个单元的GRU网络,得到256维参照编码向量;风格标记层网络结构如图3所示。
可选的,生成风格编码向量的过程包括:将token以及参照编码向量一同输入到多头注意力网络(multi-head attention),计算token与参照编码向量的相似度,利用计算所得的相似度对token进行加权求和,值得注意的是,所述注意力机制包括但不限于dot-product attention、local-basedattention或混合注意力机制。
具体的,以VCTK训练数据为例,token数量选为128,每一个token的维度为256,将正态分布随机生成128个256维的token以及由参照编码层生成的参照编码向量一同输入到多头注意力网络,其中多头注意力网络的num_heads为8,计算token与参照编码向量的相似度得分,再用相似度得分对128个token进行加权求和得到256维的风格编码向量。
S14.将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器(content encoder),以过滤语音的说话者信息,输出语音内容编码信息;
所述说话者信息是指说话者的音色、音调,即情感和韵律。S14这一步的目的是为了将说话者语音的音色、音调和语音内容分离开,只保留语音内容进行编码。
可选的,内容编码器中的瓶颈层(bottle neck layer),包括使用双向LSTM或GRU网络,其输出分别经过下采样、上采样,最后输出语音内容编码信息;
可选的,内容编码器采用的内容损失函数,所述内容损失函数为:
Figure BDA0002610267800000071
其中,
Figure BDA0002610267800000072
表示转换后的声学特征,S表示风格编码向量,EC()表示内容编码器网络,C表示内容编码向量。
具体的,如图4所示,内容信息编码器的网络结构包括:3层5×1的一维卷积层,通道数为512,每层都使用批归一化(batch normalization)与relu激活函数,卷积层的输出再通过两层的双向LSTM,bottle neck为32,即LSTM前向传播输出的维度等于后向传播输出的维度等于32,最后输出维度为64,最后再经过下采样与上采样得到语音内容编码信息。
S15.将步骤S14输出的语音内容信息、步骤S13得到的风格编码向量共同输入到解码器(decoder),得到重建后的源说话人的声学特征,以训练网络参数。
具体的,根据原始输入的源说话人的声学特征与重建后的源说话人的声学特征之间的拟合度训练网络参数。
可选的,解码器采用的重建损失函数,所述重建损失函数为:
Figure BDA0002610267800000081
其中,X表示原始输入的声学特征,
Figure BDA0002610267800000082
表示转换后的声学特征。
具体的,如图5所示,解码器网络结构为:3层5×1的一维卷积层,维度为512,3层LSTM,隐层维度为1024,1×1的卷积层,维度为80,4层5×1的一维卷积层,维度为512,最后输入到5×1的卷积层,维度为80,得到梅尔频谱特征,其中卷积层间均使用批归一化以及relu激活函数。
S16.将步骤S12提取的声学特征输入到声码器网络,训练声码器模型。
可选的,声码器模型采用的网络结构为WavNET、WavRNN或MelGAN。
在训练阶段,提取的语音内容编码信息、风格编码向量为同一说话人(包括源说话人或目标说话人)的语音内容编码信息与风格编码向量。
步骤S16中的声码器模型用于将声学特征转化为音频,通过训练声码器模型,可将音频转化的更加自然。
将训练阶段训练后的网络参数用于语音转换阶段,在语音转换阶段包括以下步骤:
S21.将待转换的源说话人、目标说话人语料进行声学特征提取;
S22.将待转换的源说话人、目标说话人语料的声学特征输入到风格编码层网络,得到源说话人、目标说话人的风格编码向量;
S23.将步骤S22得到的源说话人的风格编码向量、步骤S21提取的源说话人语料的声学特征输入到内容编码器,以过滤语音的说话者信息,输出语音内容编码信息;
S24.将步骤S23输出的语音内容编码信息、步骤S22得到的目标说话人的风格编码向量共同输入到解码器(decoder),得到目标说话人的声学特征;
S25.将步骤S24得到的经转换后的声学特征输入到经过S16训练后的声码器模型中,经声码器模型转换为音频。
可理解的是,转换阶段方法与训练阶段类似,转换阶段的网络参数由训练阶段得到,并且保证网络结构一致,转换阶段的声学特征提取方法与训练阶段保持一致,其不同点在于转换阶段提取的内容编码信息、风格编码向量为不同说话人(内容编码向量为源说话人,风格编码向量为目标说话人)的内容编码信息与风格编码向量。
可理解的是,所述训练阶段以及转换阶段述声学特征为梅尔频谱特征或线性频谱特征。
通过本实施例1提供的带情感和韵律的语音转换方法,使用带有注意力机制的风格编码层来计算说话人的风格编码向量,将风格编码向量与说话人语音声学特征一同输入到带有瓶颈层的自编码网络进行训练及转换,最后通过声码器将声学特征转换为音频。在传统语音转换方法的基础上,引入了说话人韵律、情感信息,使得转换的语音带有目标说话人语音的情感和韵律。
实施例2
本发明实施例所述带情感和韵律的语音转换装置,包括:
声学特征提取模块,用于对输入语音提取声学特征。
可选的,所述声学特征为梅尔频谱特征或线性频谱特征。
风格编码生成模块,用于对输入的声学特征生成风格编码向量。
可选的,风格编码层的每个token是由正态分布随机生成,token的数量以及每一个token的维度根据训练数据设定。
可选的,风格编码层网络结构还包括:参照编码层,用于对输入的声学特征生成参照编码向量;风格标记层,利用注意力机制将不同的token与参照编码向量进行计算得到风格编码向量。
参照编码层网络结构结构如图2所示,由6层卷积核3×3、步长2×2的二维卷积堆叠而成,每层都使用了批归一化(batch normalization)以及relu激活函数,最后通过256个单元的GRU网络,得到256维参照编码向量;风格标记层网络结构如图3所示。
可选的,生成风格编码向量的过程包括:将token以及参照编码向量一同输入到多头注意力网络(multi-head attention),计算token与参照编码向量的相似度,利用计算所得的相似度对token进行加权求和,值得注意的是,所述注意力机制为dot-productattention、local-based attention或混合注意力机制。
内容编码器模块,用于对输入的风格编码向量、语音声学特征输出语音内容编码信息。
可选的,内容编码器中的瓶颈层(bottle neck layer),包括但不限于使用双向LSTM或GRU网络,其输出分别经过下采样、上采样,最后输出语音内容编码信息。
可选的,内容编码器采用的内容损失函数为:
Figure BDA0002610267800000101
其中,
Figure BDA0002610267800000102
表示转换后的声学特征,S表示风格编码向量,EC()表示内容编码器网络,C表示内容编码向量。
内容信息编码器的网络结构如图4所示,包括:3层5×1的一维卷积层,通道数为512,每层都使用批归一化(batch normalization)与relu激活函数,卷积层的输出再通过两层的双向LSTM,bottle neck为32,即LSTM前向传播输出的维度等于后向传播输出的维度等于32,最后输出维度为64,最后再经过下采样与上采样得到内容信息编码向量。
解码器模块,用于对输入的风格编码向量、语音内容信息输出经转换后的声学特征。
可选的,解码器采用的重建损失函数为:
Figure BDA0002610267800000111
其中,X表示原始输入的声学特征,
Figure BDA0002610267800000112
表示转换后的声学特征。
解码器网络结构如图5所示,包括:3层5×1的一维卷积层,维度为512,3层LSTM,隐层维度为1024,1×1的卷积层,维度为80,4层5×1的一维卷积层,维度为512,最后输入到5×1的卷积层,维度为80,得到梅尔频谱特征,其中卷积层间均使用批归一化以及relu激活函数。
声码器模块,用于将声学特征转换为音频。
可选的,声码器采用的网络结构为WavNET、WavRNN或MelGAN。
通过本实施例2提供的带情感和韵律的语音转换装置,在多对多(many to many)、集内对集内(seen to seen)、集内对集外(seen to unseen)、集外对集外(unseen tounseen)等说话人声音转换任务上均有较高的相似度、较高的语音质量。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种带情感和韵律的语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
S11:获取多名说话人的训练语料,包含源说话人以及目标说话人;
S12:将获取的训练语料进行声学特征提取;
S13:确定风格编码层的token数量及维度,将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层,得到风格编码向量;
S14:将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器,以过滤语音的说话者信息,输出语音内容编码信息;所述说话者信息是指说话者的音色、音调,即情感和韵律;
S15:将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器,得到重建后的源说话人的声学特征,以训练解码器网络参数;
S16:将步骤S12提取的声学特征输入到声码器网络,训练声码器模型;
在所述训练阶段,提取的语音内容编码信息、风格编码向量为同一说话人的语音内容编码信息与风格编码向量;
将训练阶段训练后的网络参数用于语音转换阶段,所述转换阶段包括以下步骤:
S21:将待转换的源说话人、目标说话人语料进行声学特征提取;
S22:将待转换的源说话人、目标说话人语料的声学特征输入到风格编码层网络,得到源说话人、目标说话人的风格编码向量;
S23:将步骤S22得到的源说话人风格编码向量、步骤S21提取的待转换源说话人语料的声学特征输入到内容编码器、以过滤语音的说话者信息,输出语音内容编码信息;
S24:将步骤S23输出的语音内容编码信息、步骤S22得到的风格编码向量共同输入到解码器,得到目标说话人的声学特征;
S25:将步骤S24得到的经转换后的声学特征输入到经过S16训练后的声码器模型中,经声码器模型转换为音频;
在所述转换阶段,提取的语音内容编码信息、风格编码向量为不同说话人的语音内容编码信息与风格编码向量。
2.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S13中的token还包括:
每个token是由正态分布随机生成,token的数量以及每一个token的维度根据训练数据设定。
3.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S13中风格编码层网络结构包括:
参照编码层,用于对输入的声学特征生成参照编码向量;
风格标记层,利用注意力机制将不同的token与参照编码向量进行计算得到风格编码向量。
4.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S13中生成风格编码向量的过程包括:
将token以及参照编码向量一同输入到多头注意力网络,计算token与参照编码向量的相似度,利用计算所得的相似度得分再对token进行加权求和,最后计算得到风格编码向量;
所述注意力机制为dot-product attention、local-based attention或混合注意力机制。
5.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S14中内容编码器网络结构包括:
瓶颈层,包括使用双向LSTM或GRU网络,其输出分别经过下采样、上采样,最后输出语音内容编码信息。
6.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S14中内容编码器采用内容损失函数,所述内容损失函数为:
Figure FDA0003357840230000031
其中,
Figure FDA0003357840230000032
表示转换后的声学特征,S表示风格编码向量,EC()表示内容编码器网络,C表示内容编码向量。
7.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S15中解码器采用重建损失函数,所述重建损失函数为:
Figure FDA0003357840230000033
其中,X表示原始输入的声学特征,
Figure FDA0003357840230000034
表示转换后的声学特征。
8.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S16的声码器模型还包括:
声码器采用的网络结构为WavNET、WavRNN或MelGAN。
9.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,所述声学特征为梅尔频谱特征或线性频谱特征。
10.一种带情感和韵律的语音转换装置,其特征在于,包括:
声学特征提取模块,用于对输入语音提取声学特征;
风格编码生成模块,用于对输入的声学特征生成风格编码向量;
内容编码器模块,用于对输入的风格编码向量、语音声学特征输出语音内容编码信息;
解码器模块,用于对输入的风格编码向量、语音内容信息输出经转换后的声学特征;
声码器模块,用于将声学特征转换为音频;
所述装置实现带情感和韵律的语音转换时执行权利要求1-9任意一项所述的带情感和韵律的语音转换方法。
CN202010751866.1A 2020-07-30 2020-07-30 一种带情感和韵律的语音转换方法及装置 Active CN111883149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010751866.1A CN111883149B (zh) 2020-07-30 2020-07-30 一种带情感和韵律的语音转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010751866.1A CN111883149B (zh) 2020-07-30 2020-07-30 一种带情感和韵律的语音转换方法及装置

Publications (2)

Publication Number Publication Date
CN111883149A CN111883149A (zh) 2020-11-03
CN111883149B true CN111883149B (zh) 2022-02-01

Family

ID=73204600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010751866.1A Active CN111883149B (zh) 2020-07-30 2020-07-30 一种带情感和韵律的语音转换方法及装置

Country Status (1)

Country Link
CN (1) CN111883149B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112466275B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 语音转换及相应的模型训练方法、装置、设备及存储介质
CN112530403B (zh) * 2020-12-11 2022-08-26 上海交通大学 基于半平行语料的语音转换方法和系统
CN113129862B (zh) * 2021-04-22 2024-03-12 合肥工业大学 一种基于world-tacotron的语音合成方法、系统及服务器
CN113178201B (zh) * 2021-04-30 2024-06-28 平安科技(深圳)有限公司 基于无监督的语音转换方法、装置、设备及介质
CN113299270B (zh) * 2021-05-20 2024-05-31 平安科技(深圳)有限公司 语音合成系统的生成方法、装置、设备及存储介质
CN113327627B (zh) * 2021-05-24 2024-04-05 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统
CN113345411B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种变声方法、装置、设备和存储介质
CN113838452B (zh) 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113689868B (zh) * 2021-08-18 2022-09-13 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN113889069B (zh) * 2021-09-07 2024-04-19 武汉理工大学 一种基于可控最大熵自编码器的零样本语音风格迁移方法
CN117953906A (zh) * 2024-02-18 2024-04-30 暗物质(北京)智能科技有限公司 一种高保真的语音转换系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101105788B1 (ko) * 2011-03-29 2012-01-17 (주)범우티앤씨 이동통신단말기에서의 음성 변환 서비스 시스템 및 그 방법
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
WO2018218081A1 (en) * 2017-05-24 2018-11-29 Modulate, LLC System and method for voice-to-voice conversion
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN111276120A (zh) * 2020-01-21 2020-06-12 华为技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111508511A (zh) * 2019-01-30 2020-08-07 北京搜狗科技发展有限公司 实时变声方法及装置
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置
CN112466275A (zh) * 2020-11-30 2021-03-09 北京百度网讯科技有限公司 语音转换及相应的模型训练方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101105788B1 (ko) * 2011-03-29 2012-01-17 (주)범우티앤씨 이동통신단말기에서의 음성 변환 서비스 시스템 및 그 방법
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
WO2018218081A1 (en) * 2017-05-24 2018-11-29 Modulate, LLC System and method for voice-to-voice conversion
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN111508511A (zh) * 2019-01-30 2020-08-07 北京搜狗科技发展有限公司 实时变声方法及装置
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN111276120A (zh) * 2020-01-21 2020-06-12 华为技术有限公司 语音合成方法、装置和计算机可读存储介质
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置
CN112466275A (zh) * 2020-11-30 2021-03-09 北京百度网讯科技有限公司 语音转换及相应的模型训练方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Many-To-Many Voice Conversion Using Conditional Cycle-Consistent Adversarial Networks";Shindong Lee 等;《 ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing》;20200508;全文 *
"非平行文本条件下基于文本编码器、VAE和ACGAN的多对多语音转换研究";石杨;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20200215;全文 *

Also Published As

Publication number Publication date
CN111883149A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111883149B (zh) 一种带情感和韵律的语音转换方法及装置
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN109671442A (zh) 基于STARGAN与x向量的多对多说话人转换方法
Li et al. Ppg-based singing voice conversion with adversarial representation learning
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
CN111161695B (zh) 歌曲生成方法和装置
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
CN113035228A (zh) 声学特征提取方法、装置、设备及存储介质
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN114329041A (zh) 一种多媒体数据处理方法、装置以及可读存储介质
CN115101046A (zh) 一种特定说话人语音合成方法和装置
Jayashankar et al. Self-supervised representations for singing voice conversion
Kuan et al. Towards General-Purpose Text-Instruction-Guided Voice Conversion
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
Zhao et al. Research on voice cloning with a few samples
Shahid et al. Generative emotional ai for speech emotion recognition: The case for synthetic emotional speech augmentation
CN113066459B (zh) 基于旋律的歌曲信息合成方法、装置、设备及存储介质
CN112951256B (zh) 语音处理方法及装置
CN116665642A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN115966197A (zh) 语音合成方法、装置、电子设备和存储介质
CN115035904A (zh) 一种基于生成式对抗神经网络的高质量声码器模型
CN114446278A (zh) 语音合成方法及装置、设备以及存储介质
JP3058640B2 (ja) 符号化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant