JP5194197B2 - 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 - Google Patents
声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 Download PDFInfo
- Publication number
- JP5194197B2 JP5194197B2 JP2012551826A JP2012551826A JP5194197B2 JP 5194197 B2 JP5194197 B2 JP 5194197B2 JP 2012551826 A JP2012551826 A JP 2012551826A JP 2012551826 A JP2012551826 A JP 2012551826A JP 5194197 B2 JP5194197 B2 JP 5194197B2
- Authority
- JP
- Japan
- Prior art keywords
- vocal tract
- vowel
- shape information
- tract shape
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 567
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 193
- 238000000034 method Methods 0.000 title claims description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 31
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 31
- 238000002156 mixing Methods 0.000 claims description 104
- 238000003860 storage Methods 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000013459 approach Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 36
- 230000006870 function Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 14
- 230000005484 gravity Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000002194 synthesizing effect Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 7
- 239000000470 constituent Substances 0.000 description 6
- 230000008451 emotion Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000002955 isolation Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 6
- 206010051602 Laziness Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000008602 contraction Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241000255969 Pieris brassicae Species 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
機器やインタフェースにおいて音声出力機能は、操作方法や機器の状態をユーザーに知らせるなどの重要な役割を担っている。また、情報機器においては、音声出力機能は、ネットワークを介して取得したテキスト情報などを読み上げる機能としても用いられる。
声道形状を示す情報(以下、「声道形状情報」という)としては、例えば、声道断面積関数がある。図3は、人間の声道についての音響管モデルを示す。人間の声道とは、声帯から口唇までの空間である。
・線形予測係数は分析次数pに依存するが、PARCOR係数は分析の次数に依存しない。
・低次係数の値の変動はスペクトルへの影響が大きく、高次になるにつれて値の変動がスペクトルに与える影響が小さくなる。
・高次係数の値の変動のスペクトルへの影響は全周波数帯域に渡って平坦なものである。
次に、声道形状の変形について説明する。上述のように、声道の形状は、式(4)に示すPARCOR係数から求められる。ここでは、声道形状を変形するために、複数の声道形状情報を混合する。具体的には、複数の声道断面積関数の加重平均を求める代わりに、複数のPARCOR係数ベクトルの加重平均を求める。第i母音のPARCOR係数ベクトルは、式(5)で表される。
次に、母音を曖昧化するために複数の母音の声道形状情報を混合する手順を説明する。
図8は、実施の形態1における声質変換システム100の構成図である。
入力音声記憶部101は、入力音声情報と、入力音声情報と対応付けられた付属情報とを記憶している。入力音声情報とは、変換対象となる入力音声に関する情報である。具体的には、入力音声情報は、複数の音素で構成される音声の情報である。例えば、ある歌手が歌った音声等を予め録音しておくことにより、入力音声情報が準備される。より具体的には、入力音声記憶部101は、入力音声情報を声道情報と音源情報とに分離した形式で記憶している。
母音受付部102は、母音の音声を受け付ける。本実施の形態では、母音受付部102は、入力音声と同じ言語の母音の音声であって、互いに種類が異なる複数の母音の音声を受け付ける。互いに種類が異なる複数の母音の音声とは、複数の異なる種類の母音を含んでいれば良く、同じ種類の複数の母音を含んでも良い。
分析部103は、母音受付部102から母音の音響信号を受け付ける。分析部103は、母音受付部102で受け付けられた母音の音響信号に対して、付属情報を付与する。さらに、分析部103は、例えばLPC(Linear Predictive Coding)分析やARX(Auto−regressive Exogenous)分析などの分析方法を用いて各母音の音響信号を分析することにより、各母音の音響信号を声道情報と音源情報とに分離する。
第1母音声道情報記憶部104は、母音の種類毎に、少なくとも母音の第1声道形状情報を記憶している。つまり、第1母音声道情報記憶部104は、分析部103によって母音の種類毎に生成された複数の第1声道形状情報を記憶している。
混合部105は、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する。具体的には、混合部105は、母音の種類毎に、当該母音の第2声道形状情報が当該母音の第1声道形状情報よりも平均声道形状情報に近付くように、当該母音の第2声道形状情報を生成する。このように生成される第2声道形状情報は、曖昧化された声道形状情報に相当する。
平均声道情報算出部1051は、第1母音声道情報記憶部104に記憶された複数の第1声道形状情報を取得する。平均声道情報算出部1051は、取得した複数の第1声道形状情報を平均することにより、1つの平均声道形状情報を算出する。具体的な処理については、後述する。平均声道情報算出部1051は、混合声道情報生成部1052に平均声道形状情報を送信する。
混合声道情報生成部1052は、平均声道情報算出部1051から平均声道形状情報を受信する。また、混合声道情報生成部1052は、第1母音声道情報記憶部104に記憶された複数の第1声道形状情報を取得する。
第2母音声道情報記憶部107は、母音の種類別に、第2声道形状情報を記憶している。つまり、第2母音声道情報記憶部107は、混合部105によって母音の種類毎に生成された複数の第2声道形状情報を記憶している。
合成部108は、入力音声記憶部101に記憶されている入力音声情報を取得する。また、合成部108は、第2母音声道情報記憶部107に記憶されている母音の種類毎の第2声道形状情報を取得する。
出力部109は、合成部108から合成音信号を受信する。出力部109は、合成音信号を合成音として出力する。出力部109は、例えば、スピーカで構成される。
混合比率入力部110は、混合声道情報生成部1052で用いる混合比率を受け付ける。混合比率入力部110は、混合声道情報生成部1052に、受け付けた混合比率を送信する。
変換比率入力部111は、合成部108で用いる変換比率を受け付ける。変換比率入力部111は、合成部108に、受け付けた変換比率を送信する。
母音受付部102は、目標話者が発声した母音が含まれる音声を受け付ける。母音が含まれる音声とは、例えば、日本語の場合、日本語の5母音を「アー、イー、ウー、エー、オー」と発声したときの音声である。各母音の間隔は、500ms程度であれば良い。
分析部103は、母音受付部102が受け付けた音声に含まれる1つの母音の声道形状情報を第1声道形状情報として生成する。
分析部103は、生成された第1声道形状情報を、第1母音声道情報記憶部104に格納する。
分析部103は、母音受付部102が受け付けた音声に含まれる全ての種類の母音について、第1声道形状情報が生成されたか否かを判定する。例えば、分析部103は、母音受付部102が受け付けた音声に含まれる母音の種類情報を取得する。さらに、分析部103は、取得した母音の種類情報を参照して、音声に含まれる全ての種類の母音の第1声道形状情報が第1母音声道情報記憶部104に記憶されているか否かを判定する。ここで、全ての種類の母音の第1声道形状情報が第1母音声道情報記憶部104に記憶されている場合に、分析部103は、完了と判断する。一方、いずれかの種類の母音の第1声道形状情報が記憶されていない場合には、分析部103は、ステップS200の処理を行う。
平均声道情報算出部1051は、第1母音声道情報記憶部104に記憶されている全ての種類の母音の第1声道形状情報を用いて、1つの平均声道形状情報を算出する。
混合声道情報生成部1052は、ステップS100で受け付けられた音声に含まれる母音の種類毎に、平均声道形状情報と、第1母音声道情報記憶部104に記憶されている第1声道形状情報とを用いて、第2声道形状情報を生成する。
混合声道情報生成部1052は、第1母音声道情報記憶部104に記憶されている1つの母音の第1声道形状情報に平均声道形状情報を混合することによって、当該母音の第2声道形状情報を生成する。
混合声道情報生成部1052は、第2母音声道情報記憶部107に、ステップS601で生成れた第2声道形状情報を格納する。
混合声道情報生成部1052は、ステップS100で受け付けられた音声に含まれる全ての種類の母音について、ステップS602の処理が行われたか否かを判定する。例えば、混合声道情報生成部1052は、母音受付部102が受け付けた音声に含まれる母音の種類情報を取得する。そして、混合声道情報生成部1052は、取得した母音の種類情報を参照して、音声に含まれる全ての種類の母音の第2声道形状情報が第2母音声道情報記憶部107に記憶されているか否かを判定する。
合成部108は、第2母音声道情報記憶部107に記憶されている第2声道形状情報を用いて、入力音声記憶部101に記憶されている入力音声の声道形状情報を変換する。具体的には、合成部108は、入力音声に含まれる母音の声道形状情報を、入力音声に含まれる母音と同じ種類の母音の第2声道形状情報と混合することにより、入力音声の声道形状情報を変換する。
合成部108は、ステップS800で変換された入力音声の声道形状情報と、入力音声記憶部101に記憶されている入力音声の音源情報とを用いて、合成音を生成する。これにより、入力音声の声質が変換された合成音が生成される。つまり、声質変換システム100は、入力音声の特徴を変化させることができる。
次に、実際に入力音声の声質を変換する実験を行って効果を確認した結果について説明する。図13Aは、日本語の入力音声の声質を変換したときの実験結果を示す。ここでは、入力音声は、ある女性話者によって文発声された音声である。また、目標話者は、入力音声を発声した女性話者とは別の女性話者である。図13Aには、その目標話者が孤立発声した母音に基づいて入力音声の声質が変換された結果が示されている。
次に、実施の形態1の変形例について説明する。
次に、実施の形態2について説明する。
次に、実施の形態3について説明する。
101 入力音声記憶部
102 母音受付部
103 分析部
104 第1母音声道情報記憶部
105 混合部
107 第2母音声道情報記憶部
108、108a、108b 合成部
109 出力部
110 混合比率入力部
111 変換比率入力部
201、301、401 声道情報生成装置
202、302、402 声質変換装置
303 母音声道情報記憶部
304 母音声道情報入出力切替部
1021 マイクロホン
1022 表示部
1031 母音安定区間抽出部
1032 母音声道情報作成部
1051 平均声道情報算出部
1052 混合声道情報生成部
1081 母音変換部
1082 子音選択部
1083 声道情報記憶部
1084 子音変形部
1085 音声合成部
Claims (17)
- 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換システムであって、
互いに種類が異なる複数の母音の音声を受け付ける母音受付部と、
前記母音受付部によって受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、
前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部と、
入力音声の声道形状情報及び音源情報を取得し、前記入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える
声質変換システム。 - 前記混合部は、
前記母音の種類毎に生成された複数の第1声道形状情報を平均することにより、1つの平均声道形状情報を算出する平均声道情報算出部と、
前記母音受付部によって受け付けられた母音の種類毎に、当該母音の第1声道形状情報と前記平均声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合声道情報生成部とを備える
請求項1に記載の声質変換システム。 - 平均声道情報算出部は、前記複数の第1声道形状情報を重み付き算術平均することにより、前記平均声道形状情報を算出する
請求項2に記載の声質変換システム。 - 前記混合部は、前記入力音声に含まれる母音の局所的発話速度が大きいほど、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報が前記母音の種類毎に生成された複数の第1声道形状情報の平均に近付くように、前記第2声道形状情報を生成する
請求項1〜3のいずれか1項に記載の声質変換システム。 - 前記混合部は、母音の種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
請求項1〜4のいずれか1項に記載の声質変換システム。 - 前記混合部は、ユーザーによって設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
請求項1〜5のいずれか1項に記載の声質変換システム。 - 前記混合部は、前記入力音声の言語種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
請求項1〜6のいずれか1項に記載の声質変換システム。 - 前記声質変換システムは、さらに、
前記入力音声の声道形状情報及び音源情報が記憶されている入力音声記憶部を備え、
前記合成部は、前記入力音声記憶部から、前記入力音声の声道形状情報及び音源情報を取得する
請求項1〜7のいずれか1項に記載の声質変換システム。 - 入力音声の声質を変換する際に用いられる、声道の形状を示す声道形状情報を生成する声道情報生成装置であって、
互いに種類が異なる複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、
前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部とを備える
声道情報生成装置。 - さらに、
前記母音の種類毎に、前記第2声道形状情報を用いて合成音を生成する合成部と、
前記合成音を音声として出力する出力部とを備える
請求項9に記載の声道情報生成装置。 - 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換装置であって、
母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより生成された第2声道形状情報を記憶している母音声道情報記憶部と、
入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える
声質変換装置。 - 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換方法であって、
互いに種類が異なる複数の母音の音声を受け付ける母音受付ステップと、
前記母音受付ステップにおいて受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に第1声道形状情報を生成する分析ステップと、
前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合ステップと、
入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換する変換ステップと、
変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成ステップとを含む
声質変換方法。 - 入力音声の声質を変換する際に用いられる、声道の形状を示す声道形状情報を生成する声道情報生成方法であって、
互いに種類が異なる複数の母音の音声を分析することにより、前記母音の種類毎に第1声道形状情報を生成する分析ステップと、
前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合ステップとを含む
声道情報生成方法。 - 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換方法であって、
入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の第1声道形状情報及び前記入力音声に含まれる母音と異なる種類の母音の第1声道形状情報を混合することにより生成された、前記入力音声に含まれる母音と同じ種類の母音の第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換する変換ステップと、
変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成ステップとを含む
声質変換方法。 - 請求項12に記載の声質変換方法をコンピュータに実行させるためのプログラム。
- 請求項13に記載の声道情報生成方法をコンピュータに実行させるためのプログラム。
- 請求項14に記載の声質変換方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012551826A JP5194197B2 (ja) | 2011-07-14 | 2012-07-12 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011156042 | 2011-07-14 | ||
JP2011156042 | 2011-07-14 | ||
PCT/JP2012/004517 WO2013008471A1 (ja) | 2011-07-14 | 2012-07-12 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
JP2012551826A JP5194197B2 (ja) | 2011-07-14 | 2012-07-12 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5194197B2 true JP5194197B2 (ja) | 2013-05-08 |
JPWO2013008471A1 JPWO2013008471A1 (ja) | 2015-02-23 |
Family
ID=47505774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012551826A Expired - Fee Related JP5194197B2 (ja) | 2011-07-14 | 2012-07-12 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9240194B2 (ja) |
JP (1) | JP5194197B2 (ja) |
CN (1) | CN103370743A (ja) |
WO (1) | WO2013008471A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390085B2 (en) * | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
WO2016042626A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
WO2016111644A1 (en) * | 2015-01-05 | 2016-07-14 | Creative Technology Ltd | A method for signal processing of voice of a speaker |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109308892B (zh) * | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
WO2020136948A1 (ja) * | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
US11183168B2 (en) * | 2020-02-13 | 2021-11-23 | Tencent America LLC | Singing voice conversion |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282300A (ja) * | 2000-04-03 | 2001-10-12 | Sharp Corp | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
JP2006330343A (ja) * | 2005-05-26 | 2006-12-07 | Casio Comput Co Ltd | 声質変換装置、及びプログラム |
JP2007050143A (ja) * | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 声道断面積関数の推定装置及びコンピュータプログラム |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
WO2008148547A1 (en) * | 2007-06-06 | 2008-12-11 | Roche Diagnostics Gmbh | Detection of an analyte in a sample of hemolyzed whole blood |
WO2010035438A1 (ja) * | 2008-09-26 | 2010-04-01 | パナソニック株式会社 | 音声分析装置および音声分析方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
JPH0772900A (ja) | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
WO2006053256A2 (en) * | 2004-11-10 | 2006-05-18 | Voxonic, Inc. | Speech conversion system and method |
EP1859437A2 (en) * | 2005-03-14 | 2007-11-28 | Voxonic, Inc | An automatic donor ranking and selection system and method for voice conversion |
WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
US8255222B2 (en) * | 2007-08-10 | 2012-08-28 | Panasonic Corporation | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus |
-
2012
- 2012-07-12 JP JP2012551826A patent/JP5194197B2/ja not_active Expired - Fee Related
- 2012-07-12 CN CN2012800070696A patent/CN103370743A/zh active Pending
- 2012-07-12 WO PCT/JP2012/004517 patent/WO2013008471A1/ja active Application Filing
-
2013
- 2013-04-29 US US13/872,183 patent/US9240194B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282300A (ja) * | 2000-04-03 | 2001-10-12 | Sharp Corp | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
JP2006330343A (ja) * | 2005-05-26 | 2006-12-07 | Casio Comput Co Ltd | 声質変換装置、及びプログラム |
JP2007050143A (ja) * | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 声道断面積関数の推定装置及びコンピュータプログラム |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
WO2008148547A1 (en) * | 2007-06-06 | 2008-12-11 | Roche Diagnostics Gmbh | Detection of an analyte in a sample of hemolyzed whole blood |
WO2010035438A1 (ja) * | 2008-09-26 | 2010-04-01 | パナソニック株式会社 | 音声分析装置および音声分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103370743A (zh) | 2013-10-23 |
JPWO2013008471A1 (ja) | 2015-02-23 |
WO2013008471A1 (ja) | 2013-01-17 |
US20130238337A1 (en) | 2013-09-12 |
US9240194B2 (en) | 2016-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5194197B2 (ja) | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 | |
US12080273B2 (en) | Translation method and system using multilingual text-to-speech synthesis model | |
JP4125362B2 (ja) | 音声合成装置 | |
Tachibana et al. | Speech synthesis with various emotional expressions and speaking styles by style interpolation and morphing | |
Schröder | Expressive speech synthesis: Past, present, and possible futures | |
Toda et al. | Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Liu et al. | High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
JPH031200A (ja) | 規則型音声合成装置 | |
US20200365137A1 (en) | Text-to-speech (tts) processing | |
CN103403797A (zh) | 语音合成装置以及语音合成方法 | |
CN102473416A (zh) | 音质变换装置及其方法、元音信息制作装置及音质变换系统 | |
Burkhardt et al. | Emotional speech synthesis 20 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JPWO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
Tobing et al. | Articulatory controllable speech modification based on statistical feature mapping with Gaussian mixture models. | |
Eshghi et al. | An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech Enhancement | |
Hirose et al. | Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis | |
Hirose | Use of generation process model for improved control of fundamental frequency contours in HMM-based speech synthesis | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
Wu et al. | Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5194197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |