JP2015040903A - 音声処理装置、音声処理方法、及び、プログラム - Google Patents
音声処理装置、音声処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP2015040903A JP2015040903A JP2013170504A JP2013170504A JP2015040903A JP 2015040903 A JP2015040903 A JP 2015040903A JP 2013170504 A JP2013170504 A JP 2013170504A JP 2013170504 A JP2013170504 A JP 2013170504A JP 2015040903 A JP2015040903 A JP 2015040903A
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- speaker
- voice
- determination method
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 222
- 238000006243 chemical reaction Methods 0.000 claims abstract description 208
- 238000009826 distribution Methods 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 description 134
- 230000006978 adaptation Effects 0.000 description 41
- 238000001228 spectrum Methods 0.000 description 35
- 238000004364 calculation method Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 26
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Artificial Intelligence (AREA)
- Stereophonic System (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザが希望する声質変換を、容易に行う。
【解決手段】声質決定部は、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定する。本技術は、例えば、参照話者の音声を、目的話者の音声に変換する声質変換に適用することができる。
【選択図】図4
【解決手段】声質決定部は、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定する。本技術は、例えば、参照話者の音声を、目的話者の音声に変換する声質変換に適用することができる。
【選択図】図4
Description
本技術は、音声処理装置、音声処理方法、及び、プログラムに関し、特に、例えば、ユーザが希望する声質変換を、容易に行うことができるようにする音声処理装置、音声処理方法、及び、プログラムに関する。
近年、ウェアラブルカメラやマイク(マイクロフォン)を用いて、個人の生活を長時間記録し続けるライフログの研究が進んでいる。
マイクには、機器を装着している本人の音声の他、他人の音声が混入することがあり、この場合、ライフログには、ユーザ本人の音声の他、他人の音声も記録される。
ライフログの実用化にあたり、ユーザがライフログを公開することを想定すると、プライバシ保護の観点から、ライフログに記録された他人の音声を加工せずに、そのまま公開することは好ましくない。
他人のプライバシ保護の方法として、ライフログから、他人の音声を消去する方法がある。
しかしながら、ライフログに、例えば、ユーザ本人と他人との会話が記録(録音)されている場合には、他人の音声のみを消去すると、会話が不自然になり(あるいは、会話としての体をなさず)、ライフログの意義を損ねてしまうことがある。
したがって、プライバシ保護の方法として、音声を加工し、会話の文脈情報を保ったまま、他人の個人性だけを消去する個人性消去法の提案が要請されている。音声の個人性消去法としては、例えば、音声の声質を変換する声質変換がある。
例えば、特許文献1には、声質変換にあたり、声質変換の対象の話者である参照話者と、声質変換の目的とする声質の話者である目的話者とのペアについて、そのペアの数だけ、声質変換のための変換係数を持つのではなく、1又は複数の参照話者及び目的話者の少なくとも一方の音声を用いて、声質変換モデルを生成する学習を行い、所定の適応手法を用いて、声質変換モデルを、任意の参照話者及び任意の目的話者の少なくとも一方の音声に適応させて、任意又は特定の参照話者の音声を特定又は任意の目的話者の声質の音声に変換する技術が記載されている。
ところで、例えば、上述のような会話等の音声の声質変換にあたっては、ユーザが、その会話の場の雰囲気を残すような声質変換を希望する場合や、残さないような声質変換を希望する場合、さらには、会話の場の雰囲気を残すような声質変換の中でも、個人性をある程度残すような声質変換を希望する場合、個人性をなるべく消去するような声質変換を希望する場合等がある。
しかしながら、上述のような、ユーザが希望する声質変換が行われるように、目的話者(の声質)を指示することができるようなユーザI/Fを構成することは、困難であり、また、単に、目的話者(の声質)を指示するのでは、ユーザが希望する声質変換が行われるとは限らない。
本技術は、このような状況に鑑みてなされたものであり、ユーザが希望する声質変換を、容易に行うことができるようにするものである。
本技術の音声処理装置、又は、プログラムは、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部を備える音声処理装置、又は、そのような音声処理装置として、コンピュータを機能させるためのプログラムである。
本技術の音声処理方法は、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定するステップを含む音声処理方法である。
以上のような本技術においては、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法が決定され、その目的話者決定方法に従い、前記目的話者が決定される。
なお、音声処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本技術によれば、ユーザが希望する声質変換を、容易に行うことができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
<本技術を適用した音声個人性消去装置の一実施の形態>
図1は、本技術を適用した音声個人性消去装置の一実施の形態の構成例を示すブロック図である。
図1において、音声個人性消去装置は、学習部11、及び、声質変換部12を有し、声質変換を行うことにより、音声の個人性を消去する。
学習部11には、声質変換に用いる声質モデル等を求める学習(以下、声質モデル学習ともいう)に用いられる複数としてのZ人の話者#1,#2,...,#Zの同一の発話の音声が供給される。
学習部11は、そこに供給されるZ人の話者#1ないし#Zの音声を用いて、声質モデル学習を行うことにより、声質モデル、その他、声質変換に必要な情報を生成し、声質変換部12に供給する。
声質変換部12には、学習部11から、声質モデル等が供給される他、声質変換の対象の話者である参照話者の音声と、声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値wが供給される。
ここで、決定方法制御値wは、例えば、ユーザが図示せぬ操作部を操作することにより入力することや、図示せぬ上位のアプリケーションから与えること等ができる。
声質変換部12は、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定する。
さらに、声質変換部12は、学習部11からの声質モデル等を用いて、参照話者の音声から、目的話者決定方法に従って決定した目的話者の声質の音声を生成することにより、参照話者の音声を、目的話者の音声に声質変換して出力する。
なお、学習部11に音声が供給されるZ人の話者#1ないし#Zについては、そのZ人の話者#1ないし#Zの中に、参照話者が含まれていてもよいし、含まれていなくてもよい。
ここで、音声の個人性を消去する方法としては、例えば、参照話者の音声の基本周波数を上昇させる方法があり、音声の基本周波数を、一定の周波数まで上昇させることで、音声の個人性を消去することができる。
但し、音声の基本周波数を上昇させる方法では、音声の音色を決める因子である音声の周波数包絡の形状が、基本周波数の上昇とともに変化する。音色を決める周波数包絡の形状は、基本周波数の上昇には比例しないため、音声の基本周波数を上昇させる方法で得られる音声は、音声の自然さが損なわれ、実世界に存在する音声とは程遠い音声になる。
また、音声の個人性の消去は、音声の基本周波数ではなく、音色を変換する声質変換によって行うことができる。音色を変換する声質変換では、例えば、あらかじめ収録した音声の中から、参照話者とする音声と目的話者とする音声とのペアを用いて、音声の周波数包絡を変換するための変換係数が学習される。そして、学習により得られる変換係数を用いて、参照話者の音声が、目的話者の音声に変換される。
かかる声質変換では、ユーザが希望する目的話者の音声を用いて学習を行うことで、ユーザが希望する目的話者の音声への声質変換を行うことができる。
しかしながら、この場合、ユーザが希望する(声質の音声を発する)目的話者を、何らかの方法で指示する必要がある。
また、ユーザが希望する目的話者が指示される場合には、目的話者が一意に特定されるが、音声の個人性の消去では、ユーザが希望する目的話者が、特に存在しない場合があり、この場合、声質変換の目的話者を適切に決定する必要がある。
すなわち、例えば、ユーザA、並びに、他人B及びCの会話について、他人B及びCのプライバシ保護のために、他人B及びCの音声の声質変換を行う場合には、ユーザAが希望する目的話者は、特に存在しない。
しかしながら、この場合に、ユーザAが、他人B及びCの目的話者(他人B及びCの音声の声質変換を行うための目的話者)を指示しなければならないのは、面倒である。
また、他人B及びCの音声の声質変換を行う場合に、他人B及びCの目的話者として、例えば、同一の話者Dが指示されることは、好ましくない。ユーザA及び他人Bの会話と、ユーザA及び他人Cの会話とを区別することが困難となることや、他人B及びCの会話が成立しなくなることがあるからである。
ユーザA、並びに、他人B及びCの会話について、他人B及びCの音声の声質変換を行う場合には、そのユーザA、並びに、他人B及びCの3人の間の会話が成立するように、他人Bの目的話者と他人Cの目的話者とは、異なる話者とすることが必要である。すなわち、他人Bの目的話者として、話者Dを指示し、他人Cの目的話者として、話者Dとは異なる話者Eを指示する必要がある。
また、他人B及びCのプライバシ保護の観点からは、話者Dとしては、他人Bとは音声が似ていない話者を指示することが望ましく、話者Eとしても、他人Cとは音声が似ていない話者を指示することが望ましいことがある。
一方、場合によっては、ユーザAが、他人Bとは声質があまりにも異なる話者を、他人Bの目的話者にすることを希望しないことがある。他人Cについても、同様である。
さらに、ユーザA、並びに、他人B及びCの3人の会話の場の雰囲気を破壊せずに(できるだけ残しつつ)、他人B及びCの音声を、それぞれ、他人B及びCに似ていない音声に声質変換することを、ユーザAが希望することがある。
以上のように、ユーザが希望する声質変換としては、様々な声質変換があるが、ユーザが希望する声質変換を行うために、ユーザが、具体的な目的話者を指示しなければならないことは、面倒である。
また、ユーザが指示した目的話者によって、ユーザが希望する声質変換が行われるかどうかは、実際に、声質変換を行ってみなければ、分からないことがある。
すなわち、例えば、ユーザA、並びに、他人B及びCの3人の会話の場の雰囲気を破壊せずに、他人B及びCの音声を、それぞれ、他人B及びCに似ていない音声に声質変換することを、ユーザAが希望する場合に、ユーザAが、他人B及びCの目的話者として、それぞれ、話者D及びEを指示しても、ユーザAが想像していた声質とは異なる声質への声質変換が行われ、例えば、声質変換後の会話の雰囲気が、元の会話の場の雰囲気とはまったく異なる雰囲気になることがある。
そこで、図1の音声個人性消去装置では、声質変換部12において、決定方法制御値wに従って、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従って、目的話者を決定することにより、決定方法制御値wを与えるだけで、容易に、ユーザが希望する声質変換を行うことができるようになっている。
<学習部11の構成例>
図2は、図1の学習部11の構成例を示すブロック図である。
図2において、学習部11は、Z個の時間周波数変換部211,212,...,21Z、Z個の包絡算出部221,222,...,22Z、Z個の包絡特徴データベース231,232,...,23Z、(1個の)包絡空間生成部24、Z個の話者適応部251,252,...,25Z、(1個の)声質空間生成部26、及び、(1個の)声質モデルデータベース27を有する。
<時間周波数変換部21z>
時間周波数変換部21zには、声質モデル学習に用いる話者#zの音声が供給される。
時間周波数変換部21zは、そこに供給される話者#zの音声(信号)を、入力信号x(t)として、その入力信号x(t)の時間周波数情報を分析する。
すなわち、例えば、時間周波数変換部21zは、入力信号x(t)を、固定サイズの(時間)フレームで分割することにより、入力フレーム信号x~(n,l)を得る。
さらに、時間周波数変換部21zは、入力フレーム信号x~(n,l)に、例えば、式(1)の窓関数wana(n)を乗算することにより、式(2)の窓関数適用信号xW (n,l)を得る。
ここで、nは、入力フレーム信号x~(n,l)の時間のインデクスであり、入力フレーム信号x~(n,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、nは、n=0,1,...,N-1の値をとり、Nは、フレームのフレームサイズ、すなわち、1フレームの入力フレーム信号x~(n,l)のサンプル数を表す。
lは、(時間)フレームのインデクスであり、入力フレーム信号x~(n,l)が、入力信号x(t)の先頭から何フレーム目の信号であるのかを表す。また、lは、l=0,1,...,L-1の値をとり、Lは、入力信号x(t)から得られた入力フレーム信号x~(n,l)の数、すなわち、フレームの総数(総フレーム数)を表す。
さらに、πは、円周率を表す。
なお、式(1)の窓関数wana(n)は、ハニング窓の平方根であるが、窓関数wana(n)としては、ハニング窓以外の、例えば、ハミング窓や、ブラックマンハリス窓、その他の窓を採用することができる。
また、フレームサイズNは、入力信号x(t)のサンプリング周波数fsでサンプリングを行ったときの、1フレームの時間fsecに相当するサンプル数であり、R(x)を、所定の丸め関数とすると、式N=R(fs×fsec)で表される。
1フレームの時間fsecとしては、例えば、fsec=0.02[秒]を採用することができる。また、丸め関数R(x)としては、例えば、引数xを四捨五入する関数を採用することができる。但し、1フレームの時間fsecや、丸め関数R(x)は、これに限定されるものではない。
また、時間周波数変換部21zは、フレームを、入力信号x(t)上をシフトしながら、入力信号x(t)を、フレームサイズNのフレームの入力フレーム信号x~(n,l)に分割するが、その際のフレームのシフト量としては、例えば、フレームサイズNの50%を採用することができる。
この場合、あるフレームlの入力フレーム信号x~(n,l)の先頭側の半分は、その直前のフレームl-1の後ろ側の半分に一致する。
なお、フレームのシフト量は、フレームサイズNの50%に限定されるものではない。
式(2)の窓関数適用信号xW (n,l)が求められた後、時間周波数変換部21zは、窓関数適用信号xW (n,l)の時間周波数変換を行い、入力複素スペクトルX(k,l)を求める。
すなわち、時間周波数変換部21zは、例えば、式(3)及び式(4)に従って、時間領域の窓関数適用信号xW (n,l)を、周波数領域の入力複素スペクトルX(k,l)に変換する。
ここで、x~W(m,l)は、窓関数適用信号xW (n,l)に対して、ゼロ詰めを行ったゼロ詰め信号を表す。
mは、時間周波数変換の対象となるゼロ詰め信号x~W(m,l)の時間のインデクスであり、ゼロ詰め信号x~W(m,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、mは、m=0,1,...,N-1,N,...,M-1の値をとり、Mは、時間周波数変換に用いるサンプル値のサンプル数、すなわち、周波数変換の対象のサンプル数を表す。
kは、入力複素スペクトルX(k,l)の周波数のインデクスであり、入力複素スペクトルX(k,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、kは、k=0,1,...,K-1の値をとり、Kは、式K=M/2+1で表される。
さらに、iは、虚数単位(√(-1))を表す。
なお、式(4)では、時間周波数変換として、DFT(離散フーリエ変換)を採用しているが、時間周波数変換としては、その他、例えば、DCT(離散コサイン変換)や、MDCT(修正離散コサイン変換)その他の、時間領域から周波数領域への変換を採用することができる。
また、式(3)では、窓関数適用信号xW (n,l)に対して、ゼロ詰めを行った信号を、ゼロ詰め信号x~W(m,l)としているが、フレームサイズNが、DFTの対象のサンプル数Mに等しい場合には、窓関数適用信号xW (n,l)が、そのまま、ゼロ詰め信号x~W(m,l)として用いられ、式(4)のDFTの対象となる。
さらに、DFTの対象のサンプル数Mとしては、例えば、フレームサイズN以上の2のべき乗の値のうちの、フレームサイズNに最も近い値を採用することができる。但し、DFTの対象のサンプル数Mとしては、フレームサイズN以上の2のべき乗の値のうちの、フレームサイズNに最も近い値に限定されるものではない。
時間周波数変換部21zは、以上のようにして、話者#zについて求めた入力複素スペクトルX(k,l)を、包絡算出部22zに供給する。
<包絡算出部22z>
包絡算出部22zは、時間周波数変換部21zから供給される話者#zの入力複素スペクトル(以下、単に、スペクトルともいう)X(k,l)から、その微細構造を取り除き、スペクトルX(k,l)の包絡線に関する包絡情報を算出する。
すなわち、包絡算出部22zは、例えば、式(5)及び式(6)に従い、LFCC(線形周波数ケプストラム係数)を算出し、そのLFCCの低次の項(係数)を、時間周波数変換部21zからのスペクトルX(k,l)の包絡情報として抽出する。
ここで、C(j,l)は、スペクトルX(k,l)の包絡情報としてのLFCCを表し、以下、単に、ケプストラムともいう。
jは、ケプストラムC(j,l)の時間のインデクスであり、ケプストラムC(j,l)としてのサンプル値がフレームlの先頭から何サンプル点目のサンプル値であるのかを表す。また、jは、j=0,1,...,Jの値をとり、Jは、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数を表す。
なお、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数Jとしては、例えば、12を採用することができるが、スペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)の最大次数Jは、12に限定されるものではない。
また、スペクトルX(k,l)の包絡情報としては、LFCCの他、例えば、LPCC(線形予測ケプストラム係数)や、メル一般化ケプストラム、その他のケプストラムや、ケプストラム以外の、スペクトルX(k,l)の包絡線を表す情報を採用することができる。
包絡算出部22zは、以上のようにして、話者#zについて求めたスペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)を、包絡特徴量データベース23zに供給する。
包絡特徴量データベース23zは、包絡算出部22zから供給される、話者#zの包絡情報としてのケプストラムC(j,l)を記憶する。、
ここで、以下、話者#zの包絡情報としてのケプストラムC(j,l)を、Cz(j,l)とも記載する。
また、話者#zのケプストラムCz(j,l)のフレーム数を、Lzで表す。
<包絡空間生成部24>
包絡空間生成部24は、包絡特徴量データベース231ないし23Zそれぞれに記憶された包絡情報としてのケプストラムC1(j,l)ないしCZ(j,l)を用いて、包絡情報をモデル化した包絡情報モデルとしての、例えば、UBM-GMM(Universal Background Model - Gaussian Mixture Model)の学習(生成)を行う。
すなわち、包絡空間生成部24は、包絡特徴量データベース231ないし23Zそれぞれについて、包絡特徴量データベース23zに記憶されたLzフレーム(個)のケプストラムCz(j,l)から、L~/Z(<Lz)フレームのケプストラムCz(j,l)を、ランダムにサンプリングする。
Z個の包絡特徴量データベース231ないし23Zそれぞれについて、L~/ZフレームのケプストラムCz(j,l)が、ランダムにサンプリングされることで、合計で、L~フレームのケプストラムCz(j,l)が得られる。
ここで、包絡特徴量データベース23zに記憶されたLzフレームのケプストラムCz(j,l)からサンプリングされた話者#zのL~/ZフレームのケプストラムCz(j,l)を、話者ケプストラムC~z(j,l)ともいう。
また、話者#1ないし#ZそれぞれのL~/ZフレームのケプストラムCz(j,l)の集合であるL~フレームのケプストラムCz(j,l)を、以下、全話者ケプストラムC~(j,l)ともいう。
各話者#zの話者ケプストラムC~z(j,l)は、L~/Zフレームだけ存在するので、話者ケプストラムC~z(j,l)のインデクスlは、l=0,1,...,L~/Z-1の値をとる。
全話者ケプストラムC~(j,l)は、L~フレームだけ存在するので、全話者ケプストラムC~(j,l)のインデクスlは、l=0,1,...,L~-1の値をとる。
包絡空間生成部24では、全話者ケプストラムC~(j,l)を用いて、UBM-GMMの学習が、例えば、EM(Expectation Maximum)アルゴリズムに従って行われ、これにより、式(7)、式(8)、式(9)、式(10)、及び、式(11)に従って、UBM-GMMのモデルパラメータθ'p={μ'p,Σ'p,π'p}が求められる。
ここで、pは、GMM(UBM-GMM)を構成するガウス分布のインデクスであり、p=0,1,2,...,P-1の値をとる。Pは、GMMを構成するガウス分布の総数(GMMの混合数)を表す。
θ'p={μ'p,Σ'p,π'p}は、GMMのp番目(先頭を0番目とする)のガウス分布のパラメータを表す。μ'p及びΣ'pは、GMMのp番目のガウス分布の平均ベクトル、及び、共分散行列を、それぞれ表し、π'pは、GMMのp番目のガウス分布の重み(ここでは、全話者ケプストラムC~(j,l)が観測されるときのp番目のガウス分布の寄与率)を表す。
N(C~(j,l)|μ'p,Σ'p)は、p番目のガウス分布N(μ'p,Σ'p)(平均ベクトルがμ'p,で、共分散行列がΣ'pであるガウス分布)において、全話者ケプストラムC~(j,l)が観測される確率を表す。
上付きのTは、転置を表す。
包絡空間生成部24は、モデルパラメータθ'p={μ'p,Σ'p,π'p}の初期値として、例えば、ランダムな値を設定し、全話者ケプストラムC~(j,l)を、UBM-GMMの学習用のデータとして用い、式(7)ないし式(11)の演算を、例えば、あらかじめ定められた学習回数Uだけ繰り返すことで、包絡情報としてのケプストラムC1(j,l)ないしCZ(j,l)をモデル化した包絡情報モデルとしてのUBM-GMMを生成する学習を行う。
以上のようにして得られるUBM-GMMは、包絡情報としてのケプストラムCz(j,l)の包絡空間における、様々な話者の包絡情報の分布を表す。
包絡空間生成部24は、以上のようにして生成した包絡情報モデルとしてのUBM-GMM、すなわち、UBM-GMMのモデルパラメータθ'p={μ'p,Σ'p,π'p}を、話者適応部251ないし25Z、及び、声質変換部12に供給する。
さらに、包絡空間生成部24は、話者#zのL~/Zフレームの話者ケプストラムC~z(j,l)を、話者適応部25zに供給する。
なお、学習回数Uとしては、例えば、200、その他の、モデルパラメータθ'p={μ'p,Σ'p,π'p}の収束に十分な回数を採用することができる。
また、GMMの学習、すなわち、式(7)ないし式(11)の演算は、モデルパラメータθ'p={μ'p,Σ'p,π'p}が収束するまで行うことができる。
さらに、θ'p={μ'p,Σ'p,π'p}の初期値については、ランダムな値を設定する他、例えば、k-means法などのハードクラスタリングの手法を用いて設定することができる。
<話者適応部25z>
話者適応部25zは、包絡空間生成部24からの話者#zのL~/Zフレームの話者ケプストラムC~z(j,l)を用いて、同じく、包絡空間生成部25zからの包絡情報モデルとしてのUBM-GMMの話者適応を、例えば、MAP適応によって行うことで、話者#zに適応したGMMであるMAP-GMMを生成する。
すなわち、話者適応部25zは、式(12)、式(13)、式(14)、式(15)、式(16)、式(17)、及び、式(18)を演算することで、UBM-GMMの話者適応を行い、各話者#zに適応したMAP-GMMを生成する。
ここで、適応係数εには、適当な値が、あらかじめ設定される。
μz,p及びΣz,pは、話者#zに適応したMAP-GMMのp番目のガウス分布の平均ベクトル、及び、共分散行列を、それぞれ表す。
話者適応部25zは、以上のようにして、話者#zに適応したMAP-GMMを生成すると、そのMAP-GMMのモデルパラメータである平均ベクトルμz,pを用い、式(19)に従って、MAP-GMMを構成するP個のガウス分布の平均ベクトルμz,0,μz,1,...,μz,P-1をコンポーネントとする話者スーパベクトルSzを、話者#zの声質を表す声質パラメータとして生成し、声質空間生成部26に供給する。
<声質空間生成部26>
声質空間生成部26は、声質パラメータの空間である声質空間での、話者適応部25zから供給される声質パラメータとしての話者スーパベクトルSzの分布を、声質変換に用いる声質モデルとして生成する。
すなわち、声質空間生成部26は、話者適応部251ないし25Zから供給される声質パラメータとしての話者スーパベクトルS1ないしSZを、所定のクラス分け基準に従って、クラス分けし、各クラスの話者スーパベクトルSzの分布を、声質モデルとして生成する。
具体的には、例えば、声質空間生成部26は、式(20)及び式(21)に従って、声質モデルとしての各クラス#rの話者スーパベクトルSzの分布であるガウス分布の平均値(平均ベクトル)ψrと、共分散(共分散行列)φrとを求める。
ここで、クラス#rは、r=0,1,...,R-1の値をとり、Rは、クラスの総数を表す。
Arは、クラス#rに属する話者スーパベクトルSzの集合を表す。
Zrは、クラス#rに属する話者スーパベクトルSzの数を表し、Zrの総和(Z0+Z1+...+ZR-1)は、話者#1ないし#Zの総数Zに等しい。
声質空間生成部26は、以上のようにして求めたクラスごとの声質モデルとしての話者スーパベクトルSzのガウス分布(声質パラメータ分布)の平均値ψr及び共分散φrを、声質モデルデータベース27に供給する。
声質モデルデータベース27では、声質空間生成部26からのクラスごとの声質モデルとしての話者スーパベクトルSzのガウス分布の平均値ψr及び共分散φrが記憶される。
なお、話者スーパベクトルSzをクラス分けするクラスとしては、例えば、話者#zが、男性又は女性であることと、話者#zが、東洋人又は西洋人であることとの組み合わせを、クラス分け基準として、R=4(=2×2)個のクラスを採用することができる。
但し、話者スーパベクトルSzをクラス分けするクラスの総数Rや、クラス分け基準は、これに限定されるものではない。
<学習部11の処理>
図3は、図2の学習部11が行う声質モデル学習の処理を説明するフローチャートである。
ステップS11において、時間周波数変換部21zは、声質モデル学習に用いる話者#zの音声を取得し、その話者#zの音声(信号)を、入力信号x(t)として、その入力信号x(t)を、式(1)ないし式(4)に従って周波数変換することで、スペクトルX(k,l)を求める。
そして、時間周波数変換部21zは、スペクトルX(k,l)を、包絡算出部22zに供給して、処理は、ステップS11からステップS12に進む。
ステップS12では、包絡算出部22zは、時間周波数変換部21zからのスペクトルX(k,l)の包絡情報としてのケプストラムC(j,l)を、式(5)及び式(6)に従って求め、包絡特徴量データベース23zに供給して記憶させ、処理は、ステップS13に進む。
ステップS13では、包絡空間生成部24は、包絡特徴量データベース231ないし23Zそれぞれについて、包絡特徴量データベース23zに記憶されたケプストラムCz(j,l)から、L~/Zフレーム(サンプル)のケプストラムCz(j,l)を、話者ケプストラムC~z(j,l)として、ランダムにサンプリングすることで、合計で、L~フレームの話者ケプストラムC~z(j,l)を、UBM-GMMの学習に用いる学習データとなる全話者ケプストラムC~(j,l)として求める。
その後、処理は、ステップS13からステップS14に進み、包絡空間生成部24は、全話者ケプストラムC~(j,l)を用い、式(7)ないし式(11)に従って、UBM-GMMの学習を行うことで、包絡情報モデルとしてのUBM-GMMを生成する。
そして、包絡空間生成部24は、包絡情報モデルとしてのUBM-GMMを、話者適応部251ないし25Z、及び、声質変換部12に供給するとともに、話者#zのL~/Zフレームの話者ケプストラムC~z(j,l)を、話者適応部25zに供給して、処理は、ステップS14からステップS15に進む。
ステップS15では、話者適応部25zは、包絡空間生成部24からの話者#zのL~/Zフレームの話者ケプストラムC~z(j,l)を用いて、同じく、包絡空間生成部25zからの包絡情報モデルとしてのUBM-GMMの話者適応を、式(12)ないし式(18)に従って行うことで、話者#zに適応したMAP-GMMを生成し、処理は、ステップS16に進む。
ステップS16では、話者適応部25zは、話者#zに適応したMAP-GMMのモデルパラメータである平均ベクトルμz,pを用い、式(19)に従って、話者#zの声質パラメータとしての話者スーパベクトルSzを生成し、声質空間生成部26に供給して、処理は、ステップS17に進む。
ステップS17では、声質空間生成部26は、話者適応部251ないし25Zから供給される声質パラメータとしての話者スーパベクトルS1ないしSZをクラス分けし、各クラス#rの話者スーパベクトルSzを用い、式(20)及び式(21)に従って、クラス#rごとの話者スーパベクトルSzの平均値ψr及び共分散φrを、声質モデルとして求める。
そして、声質空間生成部26は、声質モデルとしてのクラス#rごとの話者スーパベクトルSzのガウス分布の平均値ψr及び共分散φrを、声質モデルデータベース27に供給して、処理は、ステップS17からステップS18に進む。
ステップS18では、声質モデルデータベース27が、声質空間生成部26からの声質モデルとしてのクラス#rごとの話者スーパベクトルSzのガウス分布の平均値ψr及び共分散φrを記憶し、声質モデル学習の処理は終了する。
なお、学習部11において、声質モデル学習は、例えば、声質変換部12において声質変換を行うときにリアルタイムで行うことができる。
また、学習部11において、声質モデル学習は、例えば、あらかじめ行うことができる。
学習部11において、声質モデル学習を、あらかじめ行う場合には、その声質モデル学習で得られる声質モデル、及び、包絡情報モデルとしてのUBM-GMMを、声質変換部12に、あらかじめ提供しておくことにより、図1の音声個人性消去装置は、学習部11を設けずに、声質変換部12だけで構成することができる。
<声質変換部12の構成例>
図4は、図1の声質変換部12の構成例を示すブロック図である。
図4において、声質変換部12は、時間周波数変換部31、包絡算出部32、話者適応部33、声質決定部34、及び、音声生成部35を有し、学習部11からの声質モデル等を用いて、参照話者の音声の周波数包絡を変換することで、参照話者の音声の声質変換を行う。
<時間周波数変換部31>
時間周波数変換部31には、参照話者の音声が供給される。
時間周波数変換部31は、図2の時間周波数変換部21zと同様にして、参照話者の音声の周波数変換を行うことで、スペクトルX(k,l)を求め、包絡算出部32、及び、音声生成部35に供給する。
<包絡算出部32>
包絡算出部32は、図2の包絡算出部22zと同様にして、時間周波数変換部31からのスペクトルX(k,l)から、参照話者の包絡情報としてのケプストラムC(j,l)を求め、話者適応部33に供給する。
ここで、参照話者の包絡情報としてのケプストラムC(j,l)を、以下、参照話者ケプストラムCorg(j,l)ともいう。
また、参照話者ケプストラムCorg(j,l)のフレーム数を、Lorgで表すこととする。参照話者ケプストラムCorg(j,l)のフレームのインデクスlは、l=0,1,...,Lorg-1の値をとる。
<話者適応部33>
話者適応部33には、包絡算出部32から、参照話者の包絡情報としての参照話者ケプストラムCorg(j,l)が供給される他、学習部11(図2)の包絡空間生成部24から、包絡情報モデルとしてのUBM-GMM(のモデルパラメータθ'p={μ'p,Σ'p,π'p})が供給される。
話者適応部33は、図2の話者適応部25zと同様にして、包絡算出部32からの参照話者ケプストラムCorg(j,l)を用いて、学習部11からのUBM-GMMの話者適応を行うことで、参照話者に適応したMAP-GMMを生成する。
さらに、話者適応部33は、図2の話者適応部25zと同様にして、参照話者に適応したMAP-GMMのモデルパラメータである平均ベクトルμorg,pを用い、MAP-GMMを構成するP個のガウス分布の平均ベクトルμorg,0,μorg,1,...,μorg,P-1をコンポーネントとする話者スーパベクトルSorg=[μorg,0 T,μorg,1 T,...,μorg,P-1 T]Tを、参照話者の声質を表す声質パラメータとして生成し、包絡算出部32からの参照話者ケプストラムCorg(j,l)とともに、声質決定部34に供給する。
<声質決定部34>
声質決定部34には、話者適応部33から、参照話者の声質パラメータとしての話者スーパベクトルSorg=[μorg,0 T,μorg,1 T,...,μorg,P-1 T]T、及び、参照話者ケプストラムCorg(j,l)が供給される他、決定方法制御値wが供給される。
さらに、声質決定部34には、学習部11(図2)の声質モデルデータベース27に記憶された声質モデルとしてのクラス#rごとの話者スーパベクトルSzの平均値ψr及び共分散φr(話者スーパベクトルSzの分布(声質パラメータ分布)を規定する平均値ψr及び共分散φr)が供給される。
声質決定部34は、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を、注目する注目決定方法として決定する。
そして、声質決定部34は、注目決定方法に従って、目的話者を決定する。
すなわち、声質決定部34は、声質モデルとしてのクラス#rごとの話者スーパベクトルSzの平均値ψr及び共分散φr、並びに、参照話者の声質パラメータとしての話者スーパベクトルSorgを用い、注目決定方法に従って、目的話者の声質パラメータとしての話者スーパベクトルStarを決定する(求める)。
ここで、本実施の形態では、目的話者決定方法として、例えば、第1の決定方法、第2の決定方法、及び、第3の決定方法の3通りの決定方法が用意されている。
そして、決定方法制御値wは、例えば、w=0,1,2の値をとり、声質決定部34は、決定方法制御値wに従って、注目決定方法を、第1ないし第3の決定方法のうちのいずれかに決定する。
例えば、決定方法制御値wが0である場合には、第1の決定方法が、注目決定方法に決定される。また、例えば、決定方法制御値wが1である場合には、第2の決定方法が、注目決定方法に決定され、決定方法制御値wが2である場合には、第3の決定方法が、注目決定方法に決定される。
第1の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(声質パラメータ分布)をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルS(が表す声質)を、目的話者の声質パラメータとしての話者スーパベクトルStarに決定する方法である。
第1の決定方法では、例えば、式(22)及び式(23)に従って、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布を用いて、目的話者の声質パラメータとしての話者スーパベクトルStarが決定される。
ここで、式(22)は、話者スーパベクトルStarが、平均値がψrで、共分散がφrのガウス分布N(ψr,φr)から生成されることを表す。
また、話者スーパベクトルStarのコンポーネントになっているμtar,pは、P個のガウス分布を有するGMMのp番目のガウス分布の平均ベクトルを表す。
第2の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルSzの分布(声質パラメータ分布)をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルS(が表す声質)を、目的話者の声質パラメータとしての話者スーパベクトルStar(が表す声質)に決定する方法である。
第2の決定方法では、例えば、式(24)及び式(25)に従って、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルSzの分布を用いて、目的話者の声質パラメータとしての話者スーパベクトルStarが決定される。
第3の決定方法は、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(声質パラメータ分布)内において、参照話者の声質パラメータとしての話者スーパベクトルSorgに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルS(が表す声質)を、目的話者の声質パラメータとしての話者スーパベクトルStarに決定する方法である。
第3の決定方法では、例えば、式(26)、式(27)、及び、式(28)に従って、参照話者の話者スーパベクトルSorgから見て、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの平均値ψrに対して点対称の方向の点であって、参照話者の話者スーパベクトルSorgから、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布の分散φrによって決まる距離Drにある点に対応する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルStarに決定される。
ここで、式(26)によれば、共分散φrの固有値erを次元方向に加算して得られる加算値の平方根が、距離Drとして用いられる。
また、||x||Fは、xのフロベニウスノルムを表す。
第1及び第3の決定方法では、いずれも、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(声質パラメータ分布)内に分布する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルStarに決定されるので、参照話者の音声の発話の場の雰囲気をある程度保存しつつ(残しつつ)、参照話者の音声の個人性を消去する声質変換を行うことができる。
また、第1の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(声質パラメータ分布)をランダムにサンプリングしたサンプリング点に対応する話者スーパベクトルSを、目的話者の声質パラメータとしての話者スーパベクトルStarに決定するので、参照話者の音声の発話の場に存在する各話者の声質パラメータとしての話者スーパベクトルの分布が大きく変わる可能性は小さい。
第2の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rとは異なるクラス#r'の話者スーパベクトルSzの分布(声質パラメータ分布)内に分布する話者スーパベクトルSが、目的話者の声質パラメータとしての話者スーパベクトルStarに決定されるので、参照話者の音声の発話の場の雰囲気を保存せず、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。
第3の決定方法では、参照話者の声質パラメータとしての話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布内において、参照話者の声質パラメータとしての話者スーパベクトルSorgに対応する点を所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルSを、目的話者の声質パラメータとしての話者スーパベクトルStarに決定するので、参照話者の音声の発話の場の雰囲気を保存し、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。
さらに、第3の決定方法では、目的話者の話者スーパベクトルStarが、参照話者の話者スーパベクトルSorgに対応する点を所定の点に対して点対称となる方向に移動した点に対応する話者スーパベクトルSに決定されるので、参照話者の話者スーパベクトルSorgが異なる場合には、目的話者の話者スーパベクトルStarも異なることになり、したがって、異なる参照話者については、異なる話者が目的話者に決定される。その結果、異なる参照話者に対して、同一の話者が目的話者に決定されることを防止することができる。
なお、参照話者の話者スーパベクトルSorgが属するクラス#rは、例えば、参照話者等のユーザが入力することができる。
また、参照話者の話者スーパベクトルSorgが属するクラス#rについては、声質決定部34において、参照話者の音声のピッチ周波数に基づいて、参照話者が男性及び女性のいずれであるかを認識するとともに、声質変換部12に、GPS(Global Positioning System)等を内蔵させ、そのGPSから得られる声質変換部12が存在する地域の情報gを関数f(g)に与えて得られる、声質変換部12が存在する地域が、西洋人及び東洋人のいずれが生活する地域であるかを認識した上で、それらの認識結果に基づいて、参照話者の話者スーパベクトルSorgが属するクラス#rを決定することができる。
その他、例えば、声質決定部34において、平均値ψrが、参照話者の話者スーパベクトルSorgに最も近い声質モデルとしての話者スーパベクトルSzの分布のクラス#rを、参照話者の話者スーパベクトルSorgが属するクラスに決定することができる。
声質決定部34は、目的話者の声質パラメータとしての話者スーパベクトルStarを決定すると、その話者スーパーベクトルStarから、目的話者の包絡情報としてのケプストラム(以下、目的話者ケプストラムともいう)Ctar(j,l)を、例えば、式(29)、式(30)、式(31)、式(31)、式(32)、式(33)、式(34)、及び、式(35)に従って求め、話者適応部33からの参照話者ケプストラムCorg(j,l)とともに、音声生成部35に供給する。
<音声生成部35>
音声生成部35は、包絡変換部41、及び、周波数時間変換部42を有し、参照話者の音声(のスペクトル)から、目的話者の声質の音声を生成して出力する。
<包絡変換部41>
包絡変換部41には、声質決定部34から、目的話者ケプストラムCtar(j,l)、及び、参照話者ケプストラムCorg(j,l)が供給される。さらに、包絡変換部41には、時間周波数変換部31から、参照話者(の音声)のスペクトルX(k,l)が供給される。
包絡変換部41は、目的話者ケプストラムCtar(j,l)、及び、参照話者ケプストラムCorg(j,l)を用いて、参照話者のスペクトルX(k,l)の包絡を変換する。
包絡変換部41は、参照話者のスペクトルX(k,l)の変換に使用する周波数包絡を得るために、参照話者ケプストラムCorg(j,l)、及び、目的話者ケプストラムCtar(j,l)の高域をゼロ詰めし、そのゼロ詰め後の参照話者ケプストラムCorg(j,l)、及び、目的話者ケプストラムCtar(j,l)を、式(36)及び式(37)に従って、ケプストラム領域(時間領域)の信号から周波数領域の信号に再変換する。
ここで、Vorg(k,l)は、参照話者の周波数領域上の包絡情報を表し、Vtar(k,l)は、目的話者の周波数領域上の包絡情報を表す。
包絡変換部41は、包絡情報Vorg(k,l)及びVtar(k,l)を用い、式(38)に従って、参照話者のスペクトルX(k,l)を、目的話者(の音声)のスペクトルY(k,l)に変換する。
包絡変換部41は、以上のようにして、目的話者のスペクトルY(k,l)を求めると、その目的話者のスペクトルY(k,l)を、周波数時間変換部42に供給する。
<周波数時間変換部42>
周波数時間変換部42は、包絡変換部41からの目的話者のスペクトルY(k,l)の周波数時間変換を、式(39)及び式(40)に従って行い、出力フレーム信号y~(n,l)を得る。
ここで、conj(x)は、xの虚数成分の符号を反転することを表す。
また、周波数時間変換部42の周波数時間変換としては、時間周波数変換部31の時間周波数変換の逆変換が採用される。本実施の形態では、時間周波数変換部31の時間周波数変換として、図2の時間周波数変換部21zと同様のDFT(式(4))が採用されているため、周波数時間変換部42の周波数時間変換としては、DFTの逆変換のIDFT (逆離散フーリエ変換)(式(40))が採用される。
周波数時間変換部42は、出力フレーム信号y~(n,l)を得た後、式(41)に従って、窓関数wsyn(n)を乗算し、さらに、式(42)に従って、オーバーラップ加算を行うことでフレーム合成を行う。そして、周波数時間変換部42は、フレーム合成の結果得られる目的話者の音声(信号)ycurr(n+lN)を、声質変換結果(参照話者の音声の声質変換の結果)として出力する。
ここで、ycurr(n+lN)、及び、yprev(n+lN)は、いずれも、声質変換結果としての音声を表すが、yprev(n+lN)は、フレームlの音声である出力フレーム信号y~(n,l)の直前までの声質変換結果としての音声を表し、ycurr(n+lN)は、フレームlの音声である出力フレーム信号y~(n,l)までの声質変換結果としての音声を表す。
また、式(41)の窓関数wsyn(n)は、時間周波数変換部31(及び時間周波数変換部21z)で用いられる式(1)の窓関数wana(n)と同一の窓関数であるが、窓関数wsyn(n)としては、その他、例えば、ハミング窓や矩形窓等を採用することができる。
<第1ないし第3の決定方法>
図5は、目的話者決定方法のうちの第1の決定方法の概要を説明するための図である。
第1の決定方法では、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(図中、点線で示す)がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルStarに決定される。
したがって、第1の決定方法によれば、声質変換によって、参照話者の音声の発話の場に存在する各話者の話者スーパベクトルの分布が大きく変わる可能性は小さい。
すなわち、目的話者の話者スーパベクトルStarは、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布内からサンプリングされるため、そのような目的話者の話者スーパベクトルStarを用いて行われる声質変換では、参照話者の音声の発話の場の雰囲気が保存される。
したがって、第1の決定方法によれば、参照話者の音声の発話の場の雰囲気を破壊せずに、音声の個人性を消去する声質変換を行うことができる。
図6は、目的話者決定方法のうちの第2の決定方法の概要を説明するための図である。
第2の決定方法は、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(図中、点線で示す)とは異なるクラス#r'の話者スーパベクトルSzの分布がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルStarに決定される。
したがって、第2の決定方法では、目的話者の話者スーパベクトルStarは、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布の外側からサンプリングされるため、そのような目的話者の話者スーパベクトルStarを用いて行われる声質変換では、参照話者の音声の発話の場の雰囲気が破壊され、さらに、声質変換後の音声は、参照話者とは大きく声質が異なる音声になる。
以上から、第2の決定方法によれば、参照話者の音声の発話の場の雰囲気を保存せず、かつ、参照話者の音声の個人性を、強力に消去する声質変換を行うことができる。
図7は、第1の決定方法で行われ得る声質変換の概要を説明するための図である。
第1の決定方法では、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(図中、点線で示す)がランダムにサンプリングされ、そのサンプリングの結果得られるサンプリング点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルStarに決定されるため、複数の参照話者に対して、同一の声質(、又は、似ている声質)の話者が、目的話者に決定されることが、可能性としてある。
この場合、複数の参照話者の音声が、声質変換後に区別することが困難になることがある。
第3の決定方法によれば、以上のように、複数の参照話者に対して、同一の声質の話者が、目的話者に決定されることを防止することができる。
図8は、目的話者決定方法のうちの第3の決定方法の概要を説明するための図である。
第3の決定方法では、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布(図中、点線で示す)内において、参照話者の話者スーパベクトルSorgから見て、クラス#rの話者スーパベクトルSzの分布の平均値ψrに対して点対称の方向の点であって、参照話者の話者スーパベクトルSorgから、クラス#rの話者スーパベクトルSzの分布の分散φrによって決まる距離Drにある点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルStarに決定される。
以上のように、第3の決定方法では、参照話者の話者スーパベクトルSorgが属するクラス#rの話者スーパベクトルSzの分布内において、参照話者の話者スーパベクトルSorgを、平均値ψrに向かって、距離Drだけ移動した点に対応する話者スーパベクトルSが、目的話者の話者スーパベクトルStarに決定されるので、参照話者の音声の発話の場の雰囲気を破壊せずに、音声の個人性を、強力に消去する声質変換を行うことができる。
さらに、第3の決定方法では、複数の参照話者については、その参照話者の声質が異なる限り、異なる声質の話者が、目的話者に決定される。したがって、複数の参照話者に対して、同一の声質の話者が、目的話者に決定されることを防止することができる。
以上のように、声質変換部12では、決定方法制御値wに従い、声質変換に用いる目的話者決定方法を決定し、その目的話者決定方法に従い、目的話者を決定するので、ユーザは、決定方法制御値wを指示するだけで、目的話者自体を指示しなくても、容易に、ユーザが希望する声質変換を行うことができる。
<声質変換部12の処理>
図9は、図4の声質変換部12が行う声質変換の処理を説明するフローチャートである。
声質変換部12は、参照話者の音声と、決定方法制御値wとが供給されると、参照話者の音声を、時間周波数変換部31に供給するとともに、決定方法制御値wを、声質決定部34に供給する。
そして、ステップS21において、時間周波数変換部31は、図2の時間周波数変換部21zと同様にして、参照話者の音声の周波数変換を行い、その結果得られるスペクトルX(k,l)を、包絡算出部32、及び、音声生成部35に供給して、処理は、ステップS22に進む。
ステップS22では、包絡算出部32は、図2の包絡算出部22zと同様にして、時間周波数変換部31からのスペクトルX(k,l)から、参照話者の包絡情報としてのケプストラムC(j,l)を求め、話者適応部33に供給して、処理は、ステップS23に進む。
ステップS23では、話者適応部33は、学習部11(図2)の包絡空間生成部24から、包絡情報モデルとしてのUBM-GMM(のモデルパラメータθ'p={μ'p,Σ'p,π'p})を取得し、処理は、ステップS24に進む。
ステップS24では、話者適応部33は、図2の話者適応部25zと同様にして、包絡算出部32からの参照話者ケプストラムCorg(j,l)を用いて、学習部11からのUBM-GMMの話者適応を行うことで、参照話者に適応したMAP-GMMを生成し、処理は、ステップS25に進む。
ステップS25では、話者適応部33は、図2の話者適応部25zと同様にして、参照話者に適応したMAP-GMMのモデルパラメータである平均ベクトルμorg,pを用い、MAP-GMMを構成するP個のガウス分布の平均ベクトルμorg,0,μorg,1,...,μorg,P-1をコンポーネントとする話者スーパベクトルSorg=[μorg,0 T,μorg,1 T,...,μorg,P-1 T]Tを、参照話者の声質を表す声質パラメータとして生成し、包絡算出部32からの参照話者ケプストラムCorg(j,l)とともに、声質決定部34に供給して、処理は、ステップS26に進む。
ステップS26では、声質決定部34は、外部から供給される決定方法制御値wを取得し、その決定方法制御値wに従い、例えば、上述した第1ないし第3の決定方法の中から、声質変換に用いる目的話者決定方法を、注目決定方法として決定して、処理は、ステップS27に進む。
なお、外部から決定方法制御値wが供給されない場合には、声質決定部34では、例えば、あらかじめ決められたデフォルトの値を、決定方法制御値wとして用いることができる。
ステップS27では、声質決定部34は、注目決定方法に従い、学習部11(図2)の声質モデルデータベース27に記憶された声質モデルとしてのクラス#rごとの話者スーパベクトルSzの平均値ψr及び共分散φr、並びに、話者適応部33から供給される参照話者の声質パラメータとしての話者スーパベクトルSorgを用いて、目的話者の声質パラメータとしての話者スーパベクトルStarを決定し(求め)、処理は、ステップS28に進む。
ステップS28では、声質決定部34は、目的話者の声質パラメータとしての話者スーパベクトルStarから、目的話者の包絡情報としてのケプストラムである目的話者ケプストラムCtar(j,l)を、式(29)ないし式(35)に従って求め、話者適応部33からの参照話者ケプストラムCorg(j,l)とともに、音声生成部35の包絡変換部41に供給して、処理は、ステップS29に進む。
ステップS29では、包絡変換部41は、式(36)及び式(37)に従って、声質決定部34からの目的話者ケプストラムCtar(j,l)、及び、参照話者ケプストラムCorg(j,l)を、周波数領域上の包絡情報Vtar(k,l)及びVorg(k,l)に変換し、処理は、ステップS30に進む。
ステップS30では、包絡変換部41は、包絡情報Vorg(k,l)及びVtar(k,l)を用い、式(38)に従って、声質決定部34からの参照話者のスペクトルX(k,l)を、目的話者(の音声)のスペクトルY(k,l)に変換し、周波数時間変換部42に供給して、処理は、ステップS31に進む。
ステップS31では、周波数時間変換部42は、包絡変換部41からの目的話者のスペクトルY(k,l)の周波数時間変換を、式(39)ないし式(42)に従って行い、その結果得られる目的話者の音声ycurr(n+lN)、すなわち、参照話者の音声の声質変換の結果を出力する。
<サーバクライアントシステムへの適用>
図10は、サーバクライアントシステムに適用した音声個人性消去装置を説明する図である。
図1の音声個人性消去装置は、いわゆるスタンドアロンの装置として構成する他、サーバクライアントシステムとして構成することができる。
図10Aは、音声個人性消去装置を適用したサーバクライアントシステムの第1の構成例を示すブロック図である。
図10Aでは、サーバは、学習部11を有し、クライアントは、声質変換部12を有する。
クライアントとしての声質変換部12は、サーバとしての学習部11から、声質モデル等の必要な情報を取得して、声質変換を行う。
図10Bは、音声個人性消去装置を適用したサーバクライアントシステムの第2の構成例を示すブロック図である。
図10Bでは、サーバは、学習部11、及び、声質変換部12を有し、クライアントは、図示せぬユーザI/F(Interface)を有する。
クライアントでは、ユーザが、ユーザI/Fから、参照話者の音声、及び、決定方法制御値wを入力し、サーバに送信する。
サーバでは、クライアントからの参照話者の音声、及び、決定方法制御値w、さらには、学習部11で得られる声質モデル等の必要な情報を用いて、声質変換が行われ、その声質変換結果としての音声が、クライアントに送信される。
クライアントでは、サーバからの声質変換結果としての音声が受信され、ユーザI/Fから出力される。
図10Cは、音声個人性消去装置を適用したサーバクライアントシステムの第3の構成例を示すブロック図である。
図10Cは、サーバは、学習部11と、声質変換部12の一部としての声質決定部34を有し、クライアントは、声質変換部12の残り(図4の時間周波数変換部31、包絡算出部32、話者適応部33、及び、音声生成部35)を有する。
クライアントでは、決定方法制御値wが、サーバに送信され、サーバにおいて、声質決定部34が、クライアントからの決定方法制御値wと、学習部11で得られる声質モデル等の必要な情報を用いて、上述した場合と同様の処理を行い、その結果得られる情報を、クライアントに送信する。
クライアントでは、声質変換部12において、参照話者の音声と、サーバから送信されてくる、声質決定部34で得られた情報を用いて、図9で説明した声質変換部12の処理のうちの、声質決定部34が行う処理を除いた処理が行われる。
なお、音声個人性消去装置を、サーバクライアントシステムに適用する場合には、声質変換部12を構成するブロックのうちの、声質決定部34以外のブロックを、サーバに設けることができる。
<本技術を適用したコンピュータの説明>
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図11は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
ここで、本実施の形態では、本技術を、音声の個人性を消去することを目的とする声質変換に適用した場合について説明したが、本技術は、音声の個人性を消去すること以外の目的の声質変換にも適用することができる。
また、本実施の形態では、決定方法制御値wが、0,1,2の3値のいずれかをとることとし、その決定方法制御値wに従って、第1ないし第3の決定方法の中から、声質変換に用いる目的話者決定方法を決定することとしたが、決定方法制御値wは、3値に限定されるものではなく、目的話者決定方法も、第1ないし第3の決定方法の3つの方法に限定されるものではない。すなわち、決定方法制御値wとしては、2値又は4値以上を採用することができ、目的話者決定方法としては、2つ又は4つ以上の方法を用意することができる。
さらに、声質変換の方法は、上述した方法に限定されるものではない。
なお、本技術は、以下のような構成をとることができる。
<1>
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
を備える音声処理装置。
<2>
声質変換の対象の話者である参照話者の音声から、前記目的話者の声質の音声を生成する音声生成部をさらに備える
<1>に記載の音声処理装置。
<3>
前記声質決定部は、声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いて、前記目的話者を決定する
<2>に記載の音声処理装置。
<4>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<5>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<4>に記載の音声処理装置。
<6>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<4>又は<5>に記載の音声処理装置。
<7>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<8>
前記声質決定部は、前記決定方法制御値に従い、
声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いる方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布を用いる方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<9>
前記声質決定部は、前記決定方法制御値に従い、
前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<10>
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する
ステップを含む音声処理方法。
<11>
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
として、コンピュータを機能させるためのプログラム。
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
を備える音声処理装置。
<2>
声質変換の対象の話者である参照話者の音声から、前記目的話者の声質の音声を生成する音声生成部をさらに備える
<1>に記載の音声処理装置。
<3>
前記声質決定部は、声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いて、前記目的話者を決定する
<2>に記載の音声処理装置。
<4>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<5>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<4>に記載の音声処理装置。
<6>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<4>又は<5>に記載の音声処理装置。
<7>
前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<8>
前記声質決定部は、前記決定方法制御値に従い、
声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いる方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布を用いる方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<9>
前記声質決定部は、前記決定方法制御値に従い、
前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
<3>に記載の音声処理装置。
<10>
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する
ステップを含む音声処理方法。
<11>
声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
として、コンピュータを機能させるためのプログラム。
11 学習部, 12 声質変換部, 211ないし21Z 時間周波数変換部, 221ないし22Z 包絡算出部,231ないし23Z 包絡特徴量データベース, 24 包絡空間生成部, 251ないし25Z 話者適応部, 26 声質空間生成部, 27 声質モデルデータベース, 31 時間周波数変換部, 32 包絡算出部, 33 話者適応部, 34 声質決定部, 35 音声生成部, 41 包絡変換部, 42 周波数時間変換部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体
Claims (11)
- 声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
を備える音声処理装置。 - 声質変換の対象の話者である参照話者の音声から、前記目的話者の声質の音声を生成する音声生成部をさらに備える
請求項1に記載の音声処理装置。 - 前記声質決定部は、声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いて、前記目的話者を決定する
請求項2に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項3に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項4に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項4に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項3に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、
声質を表す声質パラメータの声質空間内の、複数の話者の音声を用いて求められた前記声質パラメータの分布である声質パラメータ分布を用いる方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布を用いる方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項3に記載の音声処理装置。 - 前記声質決定部は、前記決定方法制御値に従い、
前記参照話者の声質パラメータが属する前記声質パラメータ分布をランダムにサンプリングし、そのサンプリングの結果得られるサンプリング点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
前記参照話者の声質パラメータが属する前記声質パラメータ分布内において、前記参照話者の声質パラメータに対応する点を、所定の点に対して点対称となる方向に移動した点に対応する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法、
又は、前記参照話者の声質パラメータが属する前記声質パラメータ分布とは異なる前記声質パラメータ分布内に分布する前記声質パラメータが表す声質を前記目的話者の声質に決定する方法
を、前記声質変換に用いる前記目的話者決定方法に決定する
請求項3に記載の音声処理装置。 - 声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する
ステップを含む音声処理方法。 - 声質変換の目的とする声質の話者である目的話者を決定する目的話者決定方法を指示する決定方法制御値に従い、前記声質変換に用いる前記目的話者決定方法を決定し、その目的話者決定方法に従い、前記目的話者を決定する声質決定部
として、コンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170504A JP2015040903A (ja) | 2013-08-20 | 2013-08-20 | 音声処理装置、音声処理方法、及び、プログラム |
US14/455,070 US9711161B2 (en) | 2013-08-20 | 2014-08-08 | Voice processing apparatus, voice processing method, and program |
CN201410398908.2A CN104424952B (zh) | 2013-08-20 | 2014-08-14 | 语音处理设备、语音处理方法以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013170504A JP2015040903A (ja) | 2013-08-20 | 2013-08-20 | 音声処理装置、音声処理方法、及び、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015040903A true JP2015040903A (ja) | 2015-03-02 |
Family
ID=52481156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013170504A Pending JP2015040903A (ja) | 2013-08-20 | 2013-08-20 | 音声処理装置、音声処理方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9711161B2 (ja) |
JP (1) | JP2015040903A (ja) |
CN (1) | CN104424952B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017146073A1 (ja) * | 2016-02-23 | 2017-08-31 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
US11475878B2 (en) | 2019-11-01 | 2022-10-18 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157975A (zh) * | 2015-04-27 | 2016-11-23 | 中国移动通信集团公司 | 一种确定语音质量的系统、方法及装置 |
CN105206280A (zh) * | 2015-09-14 | 2015-12-30 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
WO2018218081A1 (en) * | 2017-05-24 | 2018-11-29 | Modulate, LLC | System and method for voice-to-voice conversion |
EP3660842A4 (en) * | 2017-07-26 | 2020-09-02 | Nec Corporation | VOICE CONTROL DEVICE AND CONTROL PROCEDURE FOR IT |
US10832683B2 (en) * | 2017-11-29 | 2020-11-10 | ILLUMA Labs LLC. | System and method for efficient processing of universal background models for speaker recognition |
US10950243B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs Inc. | Method for reduced computation of t-matrix training for speaker recognition |
US10950244B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs LLC. | System and method for speaker authentication and identification |
CN108198566B (zh) * | 2018-01-24 | 2021-07-20 | 咪咕文化科技有限公司 | 信息处理方法及装置、电子设备及存储介质 |
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
KR102500255B1 (ko) * | 2022-03-03 | 2023-02-17 | (주)에이아이매틱스 | 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템 |
CN117746867B (zh) * | 2024-02-19 | 2024-05-24 | 深圳市友杰智新科技有限公司 | 语音识别加速方法、装置和设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6330428B1 (en) * | 1998-12-23 | 2001-12-11 | Nortel Networks Limited | Voice quality performance evaluator and method of operation in conjunction with a communication network |
US20070061413A1 (en) * | 2005-09-15 | 2007-03-15 | Larsen Eric J | System and method for obtaining user information from voices |
US7187764B2 (en) * | 2003-04-23 | 2007-03-06 | Siemens Communications, Inc. | Automatic speak-up indication for conference call attendees |
US8370132B1 (en) * | 2005-11-21 | 2013-02-05 | Verizon Services Corp. | Distributed apparatus and method for a perceptual quality measurement service |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
JP4241771B2 (ja) * | 2006-07-04 | 2009-03-18 | 株式会社東芝 | 音声認識装置及びその方法 |
JP4817250B2 (ja) | 2006-08-31 | 2011-11-16 | 国立大学法人 奈良先端科学技術大学院大学 | 声質変換モデル生成装置及び声質変換システム |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US20100086107A1 (en) * | 2008-09-26 | 2010-04-08 | Tzruya Yoav M | Voice-Recognition Based Advertising |
JP5144835B2 (ja) * | 2010-11-24 | 2013-02-13 | パナソニック株式会社 | うるささ判定システム、装置、方法およびプログラム |
KR101456974B1 (ko) * | 2013-05-21 | 2014-10-31 | 삼성전자 주식회사 | 사용자 단말기, 음성인식 서버 및 음성인식 가이드 방법 |
-
2013
- 2013-08-20 JP JP2013170504A patent/JP2015040903A/ja active Pending
-
2014
- 2014-08-08 US US14/455,070 patent/US9711161B2/en active Active
- 2014-08-14 CN CN201410398908.2A patent/CN104424952B/zh active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017146073A1 (ja) * | 2016-02-23 | 2017-08-31 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
US10311888B2 (en) | 2016-02-23 | 2019-06-04 | The University Of Electro-Communications | Voice quality conversion device, voice quality conversion method and program |
US11475878B2 (en) | 2019-11-01 | 2022-10-18 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
US11942077B2 (en) | 2019-11-01 | 2024-03-26 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
Also Published As
Publication number | Publication date |
---|---|
US9711161B2 (en) | 2017-07-18 |
CN104424952B (zh) | 2020-04-10 |
CN104424952A (zh) | 2015-03-18 |
US20150058015A1 (en) | 2015-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
US20240144945A1 (en) | Signal processing apparatus and method, training apparatus and method, and program | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
JP6783475B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
CN109308901A (zh) | 歌唱者识别方法和装置 | |
US20090177473A1 (en) | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech | |
KR20090120640A (ko) | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 | |
CN113205793A (zh) | 音频生成方法、装置、存储介质及电子设备 | |
Li et al. | A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Oh et al. | Vocabulary optimization process using similar phoneme recognition and feature extraction | |
JP6681264B2 (ja) | 音声加工装置、及びプログラム | |
Li et al. | Diverse and expressive speech prosody prediction with denoising diffusion probabilistic model | |
CN116543778A (zh) | 声码器训练方法、音频合成方法、介质、装置和计算设备 | |
CN113066472A (zh) | 合成语音处理方法及相关装置 | |
KR102455709B1 (ko) | 인공지능 기반 합성음성의 평가 자동화 방법 및 장치 | |
CN116863909B (zh) | 基于因子图的语音合成方法、装置及系统 | |
JP6470586B2 (ja) | 音声加工装置、及びプログラム | |
Roy et al. | Towards improving the intelligibility of dysarthric speech |