JP5194197B2 - 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 - Google Patents

声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 Download PDF

Info

Publication number
JP5194197B2
JP5194197B2 JP2012551826A JP2012551826A JP5194197B2 JP 5194197 B2 JP5194197 B2 JP 5194197B2 JP 2012551826 A JP2012551826 A JP 2012551826A JP 2012551826 A JP2012551826 A JP 2012551826A JP 5194197 B2 JP5194197 B2 JP 5194197B2
Authority
JP
Japan
Prior art keywords
vocal tract
vowel
shape information
tract shape
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012551826A
Other languages
English (en)
Other versions
JPWO2013008471A1 (ja
Inventor
孝浩 釜井
良文 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2012551826A priority Critical patent/JP5194197B2/ja
Application granted granted Critical
Publication of JP5194197B2 publication Critical patent/JP5194197B2/ja
Publication of JPWO2013008471A1 publication Critical patent/JPWO2013008471A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、声質変換技術に関する。
従来の声質変換技術としては、互いに異なる2つの話し方(例えば感情)で発声された同一内容の音声の対を大量に用意し、それらから2つの話し方の間の変換規則を学習する技術がある(例えば、特許文献1参照)。特許文献1に記載の声質変換技術では、学習モデルに基づいて無感情音声から感情音声への変換を行うことができる。
特許文献2記載の声質変換技術では孤立発声された少量の母音から特徴量を抽出することによって目的の音声への変換を実現している。
特開平7−72900号公報 国際公開第2008/142836号
しかしながら、上記の声質変換技術では、入力音声を滑らかで自然な音声に変換することができない場合がある。
そこで、本発明は、入力音声を滑らかで自然な音声に変換することができる声質変換システムを提供する。
本発明の一態様に係る声質変換システムは、声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換システムであって、互いに種類が異なる複数の母音の音声を受け付ける母音受付部と、前記母音受付部によって受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部と、入力音声の声道形状情報及び音源情報を取得し、前記入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROM(Compact Disc Read Only Memory)などの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されても良い。
本発明の一態様に係る声質変換システムによれば、入力音声を滑らかで自然な音声に変換することができる。
図1は、母音のスペクトル包絡の一例を示す模式図である。 図2Aは、孤立母音の第1及び第2フォルマント周波数の分布を示す図である。 図2Bは、文中母音の第1及び第2フォルマント周波数の分布を示す図である。 図3は、人間の声道についての音響管モデルを示す図である。 図4Aは、孤立母音と平均声道形状情報との関係を示す図である。 図4Bは、文中母音と平均声道形状情報との関係を示す図である。 図5Aは、孤立母音の第1及び第2フォルマント周波数の平均を示す図である。 図5Bは、文中母音の第1及び第2フォルマント周波数の平均を示す図である。 図6は、文中母音のF1−F2平均、孤立母音のF1−F2平均、及び平均声道形状情報の各々と、複数の文中母音の第1及び第2フォルマント周波数との二乗平均平方根誤差を示す図である。 図7は、F1−F2平面における各孤立母音の位置を平均声道形状情報の位置に向かって移動させたときの効果を説明するための図である。 図8は、実施の形態1における声質変換システムの構成図である。 図9は、実施の形態1における分析部の詳細な構成の一例を示す図である。 図10は、実施の形態1における合成部の詳細な構成の一例を示す図である。 図11Aは、実施の形態1における声質変換システムの処理動作を示すフローチャートである。 図11Bは、実施の形態1における声質変換システムの処理動作を示すフローチャートである。 図12は、実施の形態1における声質変換システムの処理動作を示すフローチャートである。 図13Aは、日本語の入力音声の声質を変換したときの実験結果を示す図である。 図13Bは、英語の入力音声の声質を変換したときの実験結果を示す図である。 図14は、F1−F2平面に英語の13母音を配置した図である。 図15は、実施の形態1における母音受付部の一例を示す図である。 図16は、全ての孤立母音の第1及び第2フォルマント周波数を比率qで移動させた場合にF1−F2平面上で形成される多角形を示す図である。 図17は、声道長変換比率rで声道断面積関数を伸縮する変換方法について説明するための図である。 図18は、声道長変換比率rで声道断面積関数を伸縮する変換方法について説明するための図である。 図19は、声道長変換比率rで声道断面積関数を伸縮する変換方法について説明するための図である。 図20は、実施の形態2における声質変換システムの構成図である。 図21は、実施の形態2における声道情報生成装置が出力する各母音の音声を説明するための図である。 図22は、実施の形態3における声質変換システムの構成図である。 図23は、他の実施の形態に係る声質変換システムの構成図である。 図24は、特許文献1における声質変換装置の構成図である。 図25は、特許文献2における声質変換装置の構成図である。
(本発明の基礎となった知見)
機器やインタフェースにおいて音声出力機能は、操作方法や機器の状態をユーザーに知らせるなどの重要な役割を担っている。また、情報機器においては、音声出力機能は、ネットワークを介して取得したテキスト情報などを読み上げる機能としても用いられる。
さらに最近では、機器が擬人化されるとともに特徴的な声を出力することが求められる場合も増えている。例えば、人は、人型ロボットに人格を感じるため、人型ロボットが単調な合成音声で話したときには違和感を覚えることが多い。
また、有名人やアニメのキャラクターの声で好きな言葉を喋らせる事ができるサービスが登場している。このようなサービスを提供するためのアプリケーションでは、話す内容以上に声の特徴がニーズの中心となっている。
このように、音声出力機能への要求は、かつての明瞭性あるいは正確性から、声の種類が選べること、あるいは好みの声に変化させられることへと広がっている。
さて、このような音声出力機能を実現する手段としては、人が話した声を録音して再生する録音再生方式と、テキストや発音記号から音声波形を生成する音声合成方式とがある。録音再生方式は、音が良いのが長所であるが、記憶容量が大きくなることと状況に応じて発話させる内容が変えられないこととが短所である。
一方、音声合成方式は、テキストで発話内容を変えることができるので記憶容量の増大は避けられるが、音質やイントネーションの自然さという点において録音再生方式には及ばない。したがって、メッセージの種類が少ない場合は録音再生方式が選ばれ、多い場合は音声合成方式が選ばれることが多い。
ところが、いずれの方式を用いても、声の種類は予め用意した種類に限られる。すなわち、男性と女性など2種類の声を使いたい場合は、両方の声を録音しておくか両方の声の音声合成部を用意する必要があり、機器のコストや開発のコストが増大する。まして、好みの声に調整したり変えたりすることは不可能である。
そこで、声の特徴を別の話者の声の特徴に近似させる声質変換技術の要求が高まっている。
上述したように、従来の声質変換技術としては、互いに異なる2つの話し方(例えば感情)で発声された同一内容の音声の対を大量に用意し、それらから2つの話し方の間の変換規則を学習する技術がある(例えば、特許文献1参照)。
図24は、特許文献1に記載の声質変換装置の構成図である。
この図に示す声質変換装置は、音響的分析部2002と、スペクトルのDP(Dynamic Programming)マッチング部2004と、各音素の時間長伸縮部2006と、ニューラルネットワーク部2008とを備える。
ニューラルネットワーク部2008は、無感情な音声の音響的特徴パラメータを、感情を伴った音声の音響的特徴パラメータに変換するための学習を行う。その後、学習済みの当該ニューラルネットワーク部2008を用いて無感情な音声に感情が付与される。
スペクトルのDPマッチング部2004は、音響的分析部2002で抽出された特徴パラメータのうち、スペクトルの特徴パラメータについて、無感情の音声と感情を伴った音声との間の類似度を時々刻々調べる。そして、スペクトルのDPマッチング部2004は、同一の音素毎の時間的な対応をとることによって、無感情音声に対する感情音声の音素毎の時間的な伸縮率を求める。
各音素の時間長伸縮部2006は、スペクトルのDPマッチング部2004で得られた音素毎の時間的な伸縮率に応じて、感情音声の特徴パラメータの時系列を時間的に正規化して無感情音声の特徴パラメータの時系列に合うようにする。
ニューラルネットワーク部2008は、学習時においては、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータと出力層に与えられる感情音声の音響的特徴パラメータとの違いを学習する。
また、ニューラルネットワーク部2008は、感情の付与時においては、学習時に決定されたネットワーク内部の重み係数を用いて、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータから感情音声の音響的特徴パラメータを推定する計算を行なう。以上により、声質変換装置は、学習モデルに基づいて無感情音声から感情音声への変換を行う。
しかしながら、特許文献1の技術では、予め決められた学習用文章と同一の内容の文章の音声を、目標とする感情を伴った発声で収録する必要がある。したがって、話者変換に用いる場合は、目標とする話者(目標話者)に予め決められた学習用文章を全て発話してもらう必要がある。したがって、目標話者に対する負担が大きくなることという課題がある。
そこで、目標話者の発声負担が少なくなる技術として、少量の音声から目標話者の特徴量を抽出して用いる技術が提案されている(例えば、特許文献2参照)。
図25は、特許文献2に記載の声質変換装置の構成図である。
この図に示す声質変換装置は、入力音声の母音の声道情報を入力された変換比率で目標話者の母音の声道情報に変換することにより、入力音声の声質を変換する。ここで、声質変換装置は、目標母音声道情報保持部2101と、変換比率入力部2102と、母音変換部2103と、子音声道情報保持部2104と、子音選択部2105と、子音変形部2106と、合成部2107とを備える。
目標母音声道情報保持部2101には、目標話者が発声した代表的な母音から抽出された目標母音声道情報が保持されている。母音変換部2103は、入力音声の母音区間の声道情報を、目標母音声道情報を用いて変換する。
この時、母音変換部2103は、変換比率入力部2102から与えられた変換比率に基づいて、入力音声の母音区間の声道情報と目標母音声道情報とを混合する。子音選択部2105は、前後の母音との接続性を考慮して子音声道情報保持部2104から子音の声道情報を選択する。そして、子音変形部2106は、選択された子音の声道情報を、前後の母音になめらかに繋がるように変形する。合成部2107は、入力音声の音源情報と、母音変換部2103、子音選択部2105及び子音変形部2106により変形された声道情報とを用いて、合成音を生成する。
しかしながら、特許文献2の技術では目標音声の声道情報として孤立発声された母音の声道情報を用いているので、変換された音声は滑らかさに欠け、ぎこちない印象となる。これは、別々に発声した母音の特徴と、文として連続して発声された音声中の母音の特徴との間に違いがあることに起因する。したがって、日常会話などの音声を対象に声質変換を行うと自然性の低下が著しくなる。
以上説明したように、従来の声質変換技術では、少量の目標音声のサンプルを用いて入力音声の声質を変換する場合に、滑らかで自然な音声に変換することができなかった。すなわち、特許文献1の技術では、多量の同一内容の発声音声対から変換規則を学習する必要があるために、目標話者による大量の発声が必要になるという課題があった。一方、特許文献2の技術では、目標話者による母音の音声の入力のみで声質変換が可能であるいう利点を有するが、利用できる音声特徴量が孤立発声された母音のものであるために生成される音声の自然性が低いという課題があった。
このような課題を鑑みて、本願発明者らが見出した知見を以下に説明する。
孤立して発声された音声(discrete utterance speech)に含まれる母音は、文章として発声された音声に含まれる母音と異なる特徴を有する。例えば、「あ(a)」のみ発声したときの母音である「a」は、日本語の「こんにちは/ko N ni chi wa/」に含まれる文末の「a」とは、異なる特徴を有する。また、「え(e)」のみ発声した時の母音である「e」は、英語の「Hello」に含まれる「e」とは、異なる特徴を有する。
以下、孤立して発声することを「孤立発声」とも表記し、文章として連続して発声することを「連続発声」又は「文発声」とも表記する。また、孤立発声された母音を「孤立母音」とも表記し、文章として連続発声された母音を「文中母音」とも表記する。本願発明者らは、鋭意研究を行った結果、孤立発声の母音と文発声の母音の違いに関する新たな知見を見出した。以下、説明する。
図1は、母音のスペクトル包絡の一例を示す模式図である。図1において、縦軸はパワーを示し、横軸は周波数を示す。図1に示すように、母音のスペクトルは複数のピークを有する。この複数のピークは、声道の共振に対応する。最も小さい周波数のピークは、第1フォルマントと呼ばれる。2番目に小さい周波数のピークは、第2フォルマントと呼ばれる。それぞれのピークの位置に対応する周波数(中心周波数)を、それぞれ第1フォルマント周波数、第2フォルマント周波数と呼ぶ。母音の種類は、主に、第1フォルマント周波数と第2フォルマント周波数との関係で決まる。
図2Aは、孤立母音の第1及び第2フォルマント周波数の分布を示す。図2Bは、文中母音の第1及び第2フォルマント周波数の分布を示す。図2A及び図2Bにおいて、横軸は第1フォルマント周波数を示し、縦軸は第2フォルマント周波数を示す。図2A及び図2Bに示す第1及び第2フォルマント周波数で定義された2次元平面をF1−F2平面と呼ぶ。
具体的には、図2Aは、ある話者が日本語の5母音を孤立発声したときの母音の第1及び第2フォルマント周波数を示す。また、図2Bは、同じ話者が日本語の文章を連続発声したときの母音の第1及び第2フォルマント周波数を示す。図2A及び図2Bにおいて、/a//i//u//e//o/の5つの母音は、異なる記号で示されている。
図2Aに示すように、5つの孤立母音を結ぶ点線の形状は、五角形となる。また、/a//i//u//e//o/の5つの孤立母音は、F1−F2平面において互いに離れて配置される。これは、/a//i//u//e//o/の5つの孤立母音は、それぞれ異なる特徴を有することを意味する。例えば/a/と/i/の孤立母音は、/a/と/o/の孤立母音よりも大きく離れていることが分かる。
しかし、図2Bに示すように、5つの文中母音は、F1−F2平面において互いの位置が近付いている。つまり、図2Bに示す文中母音の位置は、図2Aに示す孤立母音の位置よりも五角形の中心又は重心に近付いている。
文中母音では、その母音の前後の音素又は子音との調音が行なわれる。そのために、それぞれの文中母音に発声の怠け(reduction of articulation)が生じる。このため、文章として連続発声されたときの個々の母音は曖昧な発音になる。ただし、文章全体を通して音声は、なめらかで自然に聞こえる。
逆に、孤立母音と同じように、1つ1つの文中母音がはっきりと発音された場合、調音運動が不自然になる。その結果、文章全体を通して音声は、滑らかではなく、ぎこちなく聞こえる。しがって、連続音声を合成する際には、発声の怠けを模擬する音声を用いることが重要である。
発声の怠けを実現するためには、文発声の音声から母音特徴量を抽出しても良い。しかし、そのためには多くの文発声の音声を用意する必要があるため、実用上使いやすさが大きく損なわれる。さらに、文中母音は、前後の音韻の影響を強く受ける。前後の音韻(音韻環境)が近い母音を用いなければ、自然性が損なわれた音声となる。このため、膨大な量の文発声の音声が必要となる。例えば、数十文程度の文発声の音声では、必要十分な量とはならない。
本願発明者らは、(1)少量の音声を用意すれば良いという利便性を活かすために、孤立母音の特徴量を取得し、(2)発声の怠けを模擬するために、F1−F2平面において孤立母音によって形成される五角形を縮小する方向に孤立母音の特徴量を移動させるという知見を見出した。この知見に基づく、具体的な方法を説明する。
1つ目の方法は、F1−F2平面において各母音を五角形の重心に向けて移動させる方法である。ここで、F1−F2平面上での第i母音の位置ベクトルbを式(1)のように定義する。
Figure 0005194197
ここで、f1iは、第i母音の第1フォルマント周波数を示し、f2iは、第i母音の第2フォルマント周波数を示す。iは母音の種類を表すインデックスである。5母音の場合は、1≦i≦5となる。
重心gは、下記の式(2)で表される。
Figure 0005194197
ここで、Nは母音の種類の数である。すなわち、重心gは、母音の位置ベクトルの算術平均である。続いて、第i母音の位置ベクトルを下記の式(3)のように変換する。
Figure 0005194197
ここで、aは、0から1の間の値であり、母音の位置ベクトルbを重心gに近付ける度合いを表す曖昧化度合い係数である。曖昧化度合い係数aが1に近いほど、全ての母音は重心gに近付く。その結果、母音の位置ベクトルbの違いも小さくなる。言い換えれば、図2Aに示すF1−F2平面上において、各母音の音響的特徴が曖昧になる。
上記の考え方により、母音の曖昧化ができる。しかし、フォルマント周波数を直接変更することは、問題がある。図2Aには、第1フォルマント周波数と第2フォルマント周波数のみが示されている。しかし、孤立母音と文中母音とでは、第1及び第2フォルマント周波数だけではなく、他の物理量も異なっている。他の物理量は、例えば、第2フォルマント周波数よりも高次のフォルマント周波数又は各フォルマントのバンド幅などである。したがって、例えば、母音の第2フォルマント周波数のみをより高い周波数に変化させたとき、第2フォルマント周波数が第3フォルマント周波数に接近しすぎることが考えられる。
その結果、スペクトル包絡において異常に鋭いピークが現れ、合成フィルタが発振する、又は合成音の振幅が異常に大きくなる可能性がある。このような場合は、正常な音声を合成することができない。
音声の声質を変換する場合、音声の特徴を表す複数のパラメータがバランスを保った状態で変化しなければ、変換後の音声が妥当ではない音となってしまう。したがって、第1フォルマント周波数及び第2フォルマント周波数の2つのパラメータだけを変化させた場合、複数のパラメータのバランスが崩れ、著しく音質が劣化する。
この課題を解決するために、本願発明者らは、フォルマント周波数を直接変更するのではなく、声道形状を変形させることで母音を曖昧化する方法を見出した。
(声道断面積関数)
声道形状を示す情報(以下、「声道形状情報」という)としては、例えば、声道断面積関数がある。図3は、人間の声道についての音響管モデルを示す。人間の声道とは、声帯から口唇までの空間である。
図3の(a)において、縦軸は断面積の大きさを示し、横軸は音響管のセクション番号を示す。ここで、音響管のセクション番号とは、声道の中の位置を示す。横軸の左端は、口唇(Lip)の位置に対応し、横軸の右端は、声門(glottis)の位置に対応する。
図3の(a)に示す音響管モデルは、複数の円形の音響管が縦続接続されている。声道の断面積を、各セクションの音響管の断面積として、声道形状を模擬している。ここで、声道の長さ方向の位置と、その位置に対応する断面積の大きさとの関係を声道断面積関数と呼ぶ。
声道の断面積は、LPC分析に基づくPARCOR係数と一意に対応することが知られている。下記の式(4)により、PARCOR係数を、声道の断面積に変換できる。以下、PARCOR係数kiを、声道形状情報の一例として説明する。ただし、声道形状情報は、PARCOR係数に限定されるものではなく、PARCOR係数に等価なLSP(Line Spectrum Pairs)やLPCなどであっても良い。また、上述の音響管モデルにおける音響管の間の反射係数とPARCOR係数とは、符号が反転していることが違うだけである。このため、声道形状情報として反射係数が用いられても良い。
Figure 0005194197
ここで、Aiは、図3の(b)に示す第i区間の音響管の断面積であり、kiは、第i番目と第i+1番目との境界のPARCOR係数(反射係数)である。
PARCOR係数は、LPC分析により分析された線形予測係数αiを用いて算出することができる。具体的には、PARCOR係数は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出される。なお、PARCOR係数は次の特徴を有する。
・線形予測係数は分析次数pに依存するが、PARCOR係数は分析の次数に依存しない。
・低次係数の値の変動はスペクトルへの影響が大きく、高次になるにつれて値の変動がスペクトルに与える影響が小さくなる。
・高次係数の値の変動のスペクトルへの影響は全周波数帯域に渡って平坦なものである。
なお、声道形状情報は、必ずしも声道の断面積を示す情報である必要はなく、声道の各セクションの容積を示す情報であっても良い。
(声道形状の変形)
次に、声道形状の変形について説明する。上述のように、声道の形状は、式(4)に示すPARCOR係数から求められる。ここでは、声道形状を変形するために、複数の声道形状情報を混合する。具体的には、複数の声道断面積関数の加重平均を求める代わりに、複数のPARCOR係数ベクトルの加重平均を求める。第i母音のPARCOR係数ベクトルは、式(5)で表される。
Figure 0005194197
複数の母音のPARCOR係数ベクトルの加重平均は式(6)で表される。
Figure 0005194197
ここでwiは、重み係数である。混合したい母音の声道形状情報が2つの場合、重み係数は、2つの声道形状情報の混合比に対応する。
(声道形状情報の曖昧化)
次に、母音を曖昧化するために複数の母音の声道形状情報を混合する手順を説明する。
まず、N個の種類の母音の平均声道形状情報を式(7)で求める。つまり、各母音の声道形状情報が示す値(ここではPARCOR係数)の算術平均を算出することにより、平均声道形状情報を生成する。
Figure 0005194197
次に、第i母音の曖昧化度合い係数aを用いて、第i母音の声道形状情報を曖昧化後の声道形状情報に変換する。すなわち、各母音の声道形状情報が示す値を平均声道形状情報が示す値に近付けることにより、曖昧化後の各母音の声道形状情報を生成する。つまり、第i母音の声道形状情報と他の母音の声道形状情報とを混合して、曖昧化後の声道形状情報を生成する。
Figure 0005194197
このようにして生成された曖昧化後の母音の声道形状情報を用いて音声の合成を行うことで、音質を劣化させず、発声の怠けを再現することができる。
以下に、実際に実験を行った結果について説明する。
図4Aは、孤立母音と平均声道形状情報との関係を示す。また、図4Bは、文中母音と平均声道形状情報との関係を示す。図4A及び図4Bにおいて、平均声道形状情報は、式(7)に従って、図2Aに示す孤立母音の情報を用いて求めたなお、図4A及び図4Bに示す星印は、平均声道形状情報を用いて合成された母音の第1及び第2フォルマント周波数を示す。
図4Aにおいて、平均声道形状情報は、5つの母音によって形成される五角形の重心近傍に位置する。図4Bにおいて、平均声道形状情報は、文中母音が分布する領域の中心近傍に位置する。
図5Aは、孤立母音(図2Aに示す15個の母音)の第1及び第2フォルマント周波数の平均を示す。また、図5Bは、文中母音(図2Bに示す95個の母音)の第1及び第2フォルマント周波数の平均を示す。なお、以下において、第1及び第2フォルマント周波数の平均をF1−F2平均とも呼ぶ。
図5A及び図5Bにおいて、第1フォルマント周波数及び第2フォルマント周波数の平均は、破線で示されている。また、図5A及び図5Bには、図4A及び図4Bに示した平均声道形状情報も星印で示されている。
式(7)を用いて求めた図4Aに示す平均声道形状情報の位置は、図5Aに示す孤立母音のF1−F2平均の位置よりも、図5Bに示す文中母音のF1−F2の平均の位置に近い。したがって、式(7)及び式(8)を用いて求めた平均声道形状情報は、孤立母音のF1−F2の平均よりも、実際の発声の怠けに近似している。以下に、具体的な座標値を用いて説明する。
図6は、文中母音のF1−F2平均、孤立母音のF1−F2平均、及び平均声道形状情報の各々と、複数の文中母音の第1及び第2フォルマント周波数との二乗平均平方根誤差(RMSE:root mean square error)を示す。
図6に示すように、平均声道形状情報のRMSEは、孤立母音のF1−F2平均のRMSEよりも、文中母音のF1−F2平均のRMSEに近い。ただし、RMSEが近いことだけが、音声の自然さに貢献するとは言えないが、発声の怠けの近似度合いを表す指標として見ることはできる。
次に、図7は、式(8)を用いて、F1−F2平面における各孤立母音の位置を平均声道形状情報の位置に向かって移動させたときの効果を説明するための図である。図7において、大きい白丸はa=0の場合の各母音の位置、小さい白丸はa=1の場合の各母音の位置すなわち平均声道形状における位置を表し、黒い点はaを0.1刻みで大きくしていった場合の各母音の位置を表している。全ての母音が孤立母音の位置から平均声道形状における母音の位置に向かって連続的に移動している。このように、声道形状情報を混合して声道形状を変形することにより、第1及び第2フォルマント周波数は平均化及び曖昧化が可能であることが分かった。
そこで、本発明の一態様に係る声質変換システムは、声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換システムであって、互いに種類が異なる複数の母音の音声を受け付ける母音受付部と、前記母音受付部によって受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部と、入力音声の声道形状情報及び音源情報を取得し、前記入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える。
この構成によれば、母音の種類毎に、複数の第1声道形状情報を混合して第2声道形状情報を生成することができる。つまり、少量の音声のサンプルから母音の種類毎に第2声道形状情報を生成することができる。このように母音の種類毎に生成された第2声道形状情報は、曖昧化された母音の声道形状情報に相当する。したがって、第2声道形状情報を用いて入力音声の声質を変換することにより、入力音声を滑らかで自然な音声に変換することが可能となる。
また例えば、前記混合部は、前記母音の種類毎に生成された複数の第1声道形状情報を平均することにより、1つの平均声道形状情報を算出する平均声道情報算出部と、前記母音受付部によって受け付けられた母音の種類毎に、当該母音の第1声道形状情報と前記平均声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合声道情報生成部とを備えても良い。
この構成によれば、第2声道形状情報を平均声道形状情報に容易に近付けることが可能となる。
また例えば、平均声道情報算出部は、前記複数の第1声道形状情報を重み付き算術平均することにより、前記平均声道形状情報を算出しても良い。
この構成によれば、複数の第1声道形状情報の重み付き算術平均を平均声道形状情報として算出することができる。したがって、例えば、目標話者の発声の怠けの特徴に応じて第1声道形状情報に重み付けすることにより、入力音声をより滑らかで自然な目標話者の音声に変換することも可能となる。
また例えば、前記混合部は、前記入力音声に含まれる母音の局所的発話速度が大きいほど、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報が前記母音の種類毎に生成された複数の第1声道形状情報の平均に近付くように、前記第2声道形状情報を生成しても良い。
この構成によれば、入力音声に含まれる母音の局所的発話速度に応じて複数の第1声道形状情報の混合比率を設定することができる。文中母音の曖昧化度合いは、局所的発話速度に依存する。したがって、入力音声をより滑らかで自然な音声に変換することが可能となる。
また例えば、前記混合部は、母音の種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合しても良い。
この構成によれば、母音の種類に応じて、複数の第1声道形状情報の混合比率を設定することができる。文中母音の曖昧化度合いは、母音の種類に依存する。したがって、入力音声をより滑らかで自然な音声に変換することが可能となる。
また例えば、前記混合部は、ユーザーによって設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合しても良い。
この構成によれば、複数の母音の曖昧化度合いを、ユーザーの好みにあわせて設定することができる。
また例えば、前記混合部は、前記入力音声の言語種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合しても良い。
この構成によれば、入力音声の言語種類に応じて、複数の第1声道形状情報の混合比率を設定することができる。文中母音の曖昧化度合いは、入力音声の言語種類に依存する。したがって、各言語にふさわしい曖昧化度合いを設定することができる。
また例えば、前記声質変換システムは、さらに、前記入力音声の声道形状情報及び音源情報が記憶されている入力音声記憶部を備え、前記合成部は、前記入力音声記憶部から、前記入力音声の声道形状情報及び音源情報を取得しても良い。
本発明の一態様に係る声道情報生成装置は、入力音声の声質を変換する際に用いられる、声道の形状を示す声道形状情報を生成する声道情報生成装置であって、互いに種類が異なる複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部とを備える。
この構成によれば、母音の種類毎に、複数の第1声道形状情報を混合して第2声道形状情報を生成することができる。つまり、少量の音声のサンプルから母音の種類毎に第2声道形状情報を生成することができる。このように母音の種類毎に生成された第2声道形状情報は、曖昧化された母音の声道形状情報に相当する。したがって、第2声道形状情報が声質変換装置に出力されれば、声質変換装置は、第2声道形状情報を用いて入力音声を滑らかで自然な音声に変換することができる。
また例えば、さらに、前記母音の種類毎に、前記第2声道形状情報を用いて合成音を生成する合成部と、前記合成音を音声として出力する出力部とを備えても良い。
この構成によれば、母音の種類毎に第2声道形状情報を用いて生成された合成音を音声として出力することができる。したがって、従来の声質変換装置を用いて、入力音声を滑らかで自然な音声に変換することができる。
本発明の一態様に係る声質変換装置は、声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換装置であって、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより生成された第2声道形状情報を記憶している母音声道情報記憶部と、入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える。
この構成によれば、上記声質変換システムと同様の効果を奏することができる。
なお、これらの全般的または具体的な態様は、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されても良い。
以下本発明の実施の形態について、図面を参照しながら説明する。
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示す。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
図8は、実施の形態1における声質変換システム100の構成図である。
声質変換システム100は、声道の形状を示す声道形状情報を用いて入力音声の声質を変換する。図8に示すように、声質変換システム100は、入力音声記憶部101と、母音受付部102と、分析部103と、第1母音声道情報記憶部104と、混合部105と、第2母音声道情報記憶部107、合成部108と、出力部109と、混合比率入力部110と、変換比率入力部111とを備える。それぞれの構成要素は、有線又は無線で接続されており、互いに情報を送受信する。以下、各構成要素について、説明する。
(入力音声記憶部101)
入力音声記憶部101は、入力音声情報と、入力音声情報と対応付けられた付属情報とを記憶している。入力音声情報とは、変換対象となる入力音声に関する情報である。具体的には、入力音声情報は、複数の音素で構成される音声の情報である。例えば、ある歌手が歌った音声等を予め録音しておくことにより、入力音声情報が準備される。より具体的には、入力音声記憶部101は、入力音声情報を声道情報と音源情報とに分離した形式で記憶している。
付属情報は、入力音声において音素の境界を示す時間の情報と、音素の種類の情報とを含む。
(母音受付部102)
母音受付部102は、母音の音声を受け付ける。本実施の形態では、母音受付部102は、入力音声と同じ言語の母音の音声であって、互いに種類が異なる複数の母音の音声を受け付ける。互いに種類が異なる複数の母音の音声とは、複数の異なる種類の母音を含んでいれば良く、同じ種類の複数の母音を含んでも良い。
母音受付部102は、分析部103に、母音の音声に対応する電気信号である母音の音響信号を送信する。
母音受付部102は、例えば、話者が発した音声を受け付ける場合は、マイクロホンを有する。母音受付部102は、例えば、予め電気信号に変換されている音響信号を受け付ける場合、オーディオ回路及びアナログデジタル変換器を有する。母音受付部102は、例えば、予め音響信号がデジタルデータに変換された音響データを受け付ける場合、データ読出器を有する。
なお、母音受付部102は、表示部を備えても良い。表示部は、目標話者に発声させたい単母音又は文章と、発声タイミングとを表示する。
また、母音受付部102が受け付ける音声は、孤立発声された母音であっても良い。例えば、母音受付部102は、代表的な母音の音響信号を受け付けても良い。代表的な母音は、言語により異なる。例えば、日本語の代表的な母音とは、/a//i//u//e//o/の5種類の母音である。英語の代表的な母音は、以下に国際音声記号(IPA:International Phonetic Alphabet)で示す13種類の母音である。
Figure 0005194197
母音受付部102は、例えば日本語の母音の音声を受け付ける場合は、/a//i//u//e//o/の5種類の母音を目標話者に孤立発声(すなわち各母音の間を開けて発声)させることで、母音の音声を受け付ける。このように話者に母音を孤立発声してもらうことにより、分析部103は、パワー情報を用いて母音区間を切り出すことが可能となる。
ただし、母音受付部102は、必ずしも孤立発声された母音の音声を受け付ける必要はない。母音受付部102は、文章として連続発声された母音を受け付けても良い。例えば話者が緊張していて意識的にはっきりとした発声が行われた場合は、文章として連続発声された母音も、孤立発声された母音に近い音声になることがある。母音受付部102が文発声の母音を受け付ける場合は、例えば5母音を含む文章(例えば「本日は晴天なり」など)を話者に発声させれば良い。この場合、分析部103は、HMM(Hidden−Markov−Model)などを用いた音素自動セグメンテーション技術によって母音区間を切り出すことができる。
(分析部103)
分析部103は、母音受付部102から母音の音響信号を受け付ける。分析部103は、母音受付部102で受け付けられた母音の音響信号に対して、付属情報を付与する。さらに、分析部103は、例えばLPC(Linear Predictive Coding)分析やARX(Auto−regressive Exogenous)分析などの分析方法を用いて各母音の音響信号を分析することにより、各母音の音響信号を声道情報と音源情報とに分離する。
声道情報には、母音が発声された時の声道の形状を示す声道形状情報が含まれる。分析部103によって分離された声道情報に含まれる声道形状情報を第1声道形状情報と呼ぶ。つまり、分析部103は、母音受付部102によって受け付けられた複数の母音の音声を分析することにより、母音の種類毎に、第1声道形状情報を生成する。
第1声道形状情報の例としては、上述のLPCの他に、PARCOR係数、PARCOR係数と等価なLSP(Line Spectrum Pairs)などがある。また、音響管モデルにおける音響管の間の反射係数とPARCOR係数との関係は、符号が反転していることのみである。このため、反射係数そのものを第1声道形状情報として用いても良い。
付属情報は、各母音の種類(/a//i/など)と、母音区間中心の時刻とを含む。分析部103は、第1母音声道情報記憶部104に、母音の種類毎に、少なくとも母音の第1声道形状情報を格納する。
次に、母音の第1声道形状情報の生成方法の一例を説明する。
図9は、実施の形態1における分析部103の詳細な構成の一例を示す。分析部103は、母音安定区間抽出部1031と母音声道情報作成部1032とを備える。
母音安定区間抽出部1031は、入力された母音を含む音声から孤立母音の区間(母音区間)を抽出することにより母音区間中心の時刻を算出する。母音区間の抽出方法は特に限定される必要はない。例えば、母音安定区間抽出部1031は、パワーが一定以上の区間を安定区間とし、当該安定区間を母音区間として抽出するようにしても良い。
母音声道情報作成部1032は、母音安定区間抽出部1031により抽出された孤立母音の母音区間中心に対して、母音の声道形状情報を作成する。例えば、母音声道情報作成部1032は、上述のPARCOR係数を第1声道形状情報として算出する。母音声道情報作成部1032は、第1母音声道情報記憶部104に、母音の第1声道形状情報を格納する。
(第1母音声道情報記憶部104)
第1母音声道情報記憶部104は、母音の種類毎に、少なくとも母音の第1声道形状情報を記憶している。つまり、第1母音声道情報記憶部104は、分析部103によって母音の種類毎に生成された複数の第1声道形状情報を記憶している。
(混合部105)
混合部105は、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する。具体的には、混合部105は、母音の種類毎に、当該母音の第2声道形状情報が当該母音の第1声道形状情報よりも平均声道形状情報に近付くように、当該母音の第2声道形状情報を生成する。このように生成される第2声道形状情報は、曖昧化された声道形状情報に相当する。
なお、平均声道形状情報とは、母音の種類毎に生成された複数の第1声道形状情報の平均である。また、複数の声道形状情報を混合するとは、複数の声道形状情報の各々が示す値又はベクトルを重み付け加算することを意味する。
ここで、混合部105の詳細な構成の一例を説明する。混合部105は、例えば、平均声道情報算出部1051と混合声道情報生成部1052とを備える。
(平均声道情報算出部1051)
平均声道情報算出部1051は、第1母音声道情報記憶部104に記憶された複数の第1声道形状情報を取得する。平均声道情報算出部1051は、取得した複数の第1声道形状情報を平均することにより、1つの平均声道形状情報を算出する。具体的な処理については、後述する。平均声道情報算出部1051は、混合声道情報生成部1052に平均声道形状情報を送信する。
(混合声道情報生成部1052)
混合声道情報生成部1052は、平均声道情報算出部1051から平均声道形状情報を受信する。また、混合声道情報生成部1052は、第1母音声道情報記憶部104に記憶された複数の第1声道形状情報を取得する。
そして、混合声道情報生成部1052は、母音受付部102によって受け付けられた母音の種類毎に、当該母音の第1声道形状情報と平均声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する。具体的には、混合声道情報生成部1052は、母音の種類毎に、第1声道形状情報を平均声道形状情報に近付ける処理を行うことにより、第2声道形状情報を生成する。
第1声道形状情報と平均声道形状情報との混合比率は、母音の曖昧化度合いに応じて設定されれば良い。本実施の形態では、混合比率は、式(8)における曖昧化度合い係数aに相当する。つまり、混合比率は、値が大きいほど曖昧化度合いが高くなる。混合声道情報生成部1052は、混合比率入力部110から入力された混合比率を用いて、第1声道形状情報と平均声道形状情報とを混合する。
なお、混合声道情報生成部1052は、予め記憶されている混合比率を用いて、第1声道形状情報と平均声道形状情報とを混合しても良い。この場合、声質変換システム100は、必ずしも混合比率入力部110を備える必要はない。
ある種類の母音の第2声道形状情報を平均声道形状情報に近付けた場合、その種類の母音の第2声道形状情報は、他の種類の母音の第2声道形状情報に近付く。すなわち、第2声道形状情報が平均声道形状情報により近付くように混合比率が設定されれば、混合声道情報生成部1052は、より曖昧化された第2声道形状情報を生成することができる。このようなより曖昧化された第2声道形状情報を用いて生成された合成音は、滑舌が悪い音声となる。例えば、幼児の声に入力音声の声質を変換するときには、このように第2声道形状情報が平均声道形状情報に近付くように混合比率が設定されることが有効である。
また、第2声道形状情報を平均声道形状情報にあまり近付けない場合、第2声道形状情報は、孤立母音の声道形状情報に近くなる。例えば、口を大きく開けてはっきり調音する傾向にある歌声に入力音声の声質を変換するときには、このように第2声道形状情報が平均声道形状情報にあまり近付かないように混合比率が設定されることが適している。
混合声道情報生成部1052は、第2母音声道情報記憶部107に、母音の種類毎の第2声道形状情報を格納する。
(第2母音声道情報記憶部107)
第2母音声道情報記憶部107は、母音の種類別に、第2声道形状情報を記憶している。つまり、第2母音声道情報記憶部107は、混合部105によって母音の種類毎に生成された複数の第2声道形状情報を記憶している。
(合成部108)
合成部108は、入力音声記憶部101に記憶されている入力音声情報を取得する。また、合成部108は、第2母音声道情報記憶部107に記憶されている母音の種類毎の第2声道形状情報を取得する。
そして、合成部108は、入力音声情報に含まれる母音の声道形状情報と、入力音声情報に含まれる母音と同じ種類の母音の第2声道形状情報とを混合することにより、入力音声の声道形状情報を変換する。その後、合成部108は、入力音声の変換後の声道形状情報と、入力音声記憶部101に記憶されている入力音声の音源情報とを用いて合成音を生成することにより、入力音声の声質を変換する。
具体的には、合成部108は、変換比率入力部111から入力された変換比率を混合比率として用いて、入力音声情報に含まれる母音の声道形状情報と、当該母音と同じ種類の母音の第2声道形状情報とを混合する。この変換比率は、入力音声を変化させる度合いに応じて設定されれば良い。
なお、合成部108は、予め記憶されている変換比率を用いて、入力音声情報に含まれる母音の声道形状情報と当該母音と同じ種類の母音の第2声道形状情報とを混合しても良い。この場合、声質変換システム100は、必ずしも変換比率入力部111を備える必要はない。
合成部108は、このように生成された合成音の信号を出力部109に送信する。
ここで、合成部108の詳細な構成の一例を説明する。なお、以下に説明する合成部108の詳細な構成は、特許文献2と同様の構成である。
図10は、実施の形態1における合成部108の詳細な構成の一例を示す。合成部108は、母音変換部1081と、子音選択部1082と、子音声道情報記憶部1083と、子音変形部1084と、音声合成部1085とを備える。
母音変換部1081は、入力音声記憶部101から、音素境界付き声道情報と音源情報とを取得する。
音素境界付き声道情報とは、入力音声の声道情報に、入力音声に対応する音素情報と各音素の時間長の情報とが付された情報である。母音変換部1081は、母音区間ごとに該当する母音の第2声道形状情報を第2母音声道情報記憶部107から読み出す。そして、母音変換部1081は、母音区間の声道形状情報と読み出した第2声道形状情報とを混合することにより、入力音声の母音部の声質変換を行なう。この時の変換度合いは、変換比率入力部111から入力された変換比率に基づく。
子音選択部1082は、前後の母音との接続性を考慮して子音声道情報記憶部1083から子音の声道情報を選択する。そして、子音変形部1084は、選択された子音の声道情報を、前後の母音になめらかに繋がるように変形する。音声合成部1085は、入力音声の音源情報と、母音変換部1081、子音選択部1082及び子音変形部1084により変形された声道情報とを用いて、合成音を生成する。
このように、特許文献2における目標母音声道情報を第2声道形状情報に置き換えて声質変換が実行される。
(出力部109)
出力部109は、合成部108から合成音信号を受信する。出力部109は、合成音信号を合成音として出力する。出力部109は、例えば、スピーカで構成される。
(混合比率入力部110)
混合比率入力部110は、混合声道情報生成部1052で用いる混合比率を受け付ける。混合比率入力部110は、混合声道情報生成部1052に、受け付けた混合比率を送信する。
(変換比率入力部111)
変換比率入力部111は、合成部108で用いる変換比率を受け付ける。変換比率入力部111は、合成部108に、受け付けた変換比率を送信する。
次に、以上のように構成された声質変換システム100における各種動作について説明する。
図11A、図11B及び図12は、実施の形態1における声質変換システム100の処理動作を示すフローチャートである。
具体的には、図11Aは、声質変換システム100において母音の音声を受け付けてから第2声道形状情報を生成するまでの処理の流れを示す。また、図11Bは、図11Aに示す第2声道形状情報生成処理(S600)の詳細を示す。また、図12は、実施の形態1において入力音声の声質を変換する処理の流れを示す。
(ステップS100)
母音受付部102は、目標話者が発声した母音が含まれる音声を受け付ける。母音が含まれる音声とは、例えば、日本語の場合、日本語の5母音を「アー、イー、ウー、エー、オー」と発声したときの音声である。各母音の間隔は、500ms程度であれば良い。
(ステップS200)
分析部103は、母音受付部102が受け付けた音声に含まれる1つの母音の声道形状情報を第1声道形状情報として生成する。
(ステップS300)
分析部103は、生成された第1声道形状情報を、第1母音声道情報記憶部104に格納する。
(ステップS400)
分析部103は、母音受付部102が受け付けた音声に含まれる全ての種類の母音について、第1声道形状情報が生成されたか否かを判定する。例えば、分析部103は、母音受付部102が受け付けた音声に含まれる母音の種類情報を取得する。さらに、分析部103は、取得した母音の種類情報を参照して、音声に含まれる全ての種類の母音の第1声道形状情報が第1母音声道情報記憶部104に記憶されているか否かを判定する。ここで、全ての種類の母音の第1声道形状情報が第1母音声道情報記憶部104に記憶されている場合に、分析部103は、完了と判断する。一方、いずれかの種類の母音の第1声道形状情報が記憶されていない場合には、分析部103は、ステップS200の処理を行う。
(ステップS500)
平均声道情報算出部1051は、第1母音声道情報記憶部104に記憶されている全ての種類の母音の第1声道形状情報を用いて、1つの平均声道形状情報を算出する。
(ステップS600)
混合声道情報生成部1052は、ステップS100で受け付けられた音声に含まれる母音の種類毎に、平均声道形状情報と、第1母音声道情報記憶部104に記憶されている第1声道形状情報とを用いて、第2声道形状情報を生成する。
ここで、図11Bを用いて、ステップS600の詳細を説明する。
(ステップS601)
混合声道情報生成部1052は、第1母音声道情報記憶部104に記憶されている1つの母音の第1声道形状情報に平均声道形状情報を混合することによって、当該母音の第2声道形状情報を生成する。
(ステップS602)
混合声道情報生成部1052は、第2母音声道情報記憶部107に、ステップS601で生成れた第2声道形状情報を格納する。
(ステップS603)
混合声道情報生成部1052は、ステップS100で受け付けられた音声に含まれる全ての種類の母音について、ステップS602の処理が行われたか否かを判定する。例えば、混合声道情報生成部1052は、母音受付部102が受け付けた音声に含まれる母音の種類情報を取得する。そして、混合声道情報生成部1052は、取得した母音の種類情報を参照して、音声に含まれる全ての種類の母音の第2声道形状情報が第2母音声道情報記憶部107に記憶されているか否かを判定する。
ここで、全ての種類の母音の第2声道形状情報が第2母音声道情報記憶部107に記憶されている場合に、混合声道情報生成部1052は、完了と判断する。一方、いずれかの種類の母音の第2声道形状情報が第2母音声道情報記憶部107に記憶されていない場合には、混合声道情報生成部1052は、ステップS601の処理を行う。
次に、このように母音の種類毎に生成された第2声道形状情報を用いて入力音声の声質を変換する処理について図12を用いて説明する。
(ステップS800)
合成部108は、第2母音声道情報記憶部107に記憶されている第2声道形状情報を用いて、入力音声記憶部101に記憶されている入力音声の声道形状情報を変換する。具体的には、合成部108は、入力音声に含まれる母音の声道形状情報を、入力音声に含まれる母音と同じ種類の母音の第2声道形状情報と混合することにより、入力音声の声道形状情報を変換する。
(ステップS900)
合成部108は、ステップS800で変換された入力音声の声道形状情報と、入力音声記憶部101に記憶されている入力音声の音源情報とを用いて、合成音を生成する。これにより、入力音声の声質が変換された合成音が生成される。つまり、声質変換システム100は、入力音声の特徴を変化させることができる。
(実験結果)
次に、実際に入力音声の声質を変換する実験を行って効果を確認した結果について説明する。図13Aは、日本語の入力音声の声質を変換したときの実験結果を示す。ここでは、入力音声は、ある女性話者によって文発声された音声である。また、目標話者は、入力音声を発声した女性話者とは別の女性話者である。図13Aには、その目標話者が孤立発声した母音に基づいて入力音声の声質が変換された結果が示されている。
図13Aの(a)は、従来技術で声質変換されたスペクトログラムを示す。図13Aの(b)は、本実施の形態における声質変換システム100により声質変換されたスペクトログラムを示す。本実験では、式(8)における曖昧化度合い係数a(混合比率)として、「0.3」を用いた。
また、発話内容は、日本語の「ねえご隠居さん、昔から鶴は千年、亀は万年なんてことを言いますね」(/ne e go i N kyo sa N, mu ka shi ka ra, tsu ru wa se N ne N, ka me wa ma N ne N na N te ko to o i i ma su ne/、“Hi daddy. They say crane lives longer than a thousand years, and tortoise lives longer than ten thousand years, don’t they?”)である。
図13Aの(b)では、(a)と比べて、全体に時間方向のフォルマント軌跡が滑らかになっており、連続発声として自然性が改善している。特に、図13Aにおいて白線で囲んだ部分は、(a)と(b)との間で顕著な違いが見られる。
図13Bは、英語の入力音声の声質を変換したときの実験結果を示す。具体的には、図13Bの(a)は、従来技術で声質変換されたスペクトログラムを示す。図13Bの(b)は、本実施の形態における声質変換システム100によって声質変換されたスペクトログラムを示す。
図13Bにおいて、入力音声の話者と目標話者とは、図13Aと同様である。また、曖昧化度合い係数aも図13Aと同様である。
発話内容は、英語の“Work hard today.”である。なお、英語の発話内容は、カタカナの「ワークハードトゥデイ」と言う文字列に置き換えられ、日本語の音素で合成音が生成されている。
声質変換後の音声の韻律(すなわちイントネーションパターン)は、入力音声の韻律と同じになるため、日本語の音素を用いて声質変換しても、声質変換後の音声はある程度英語らしく聞こえる。しかし、英語の母音は日本語に比べて数が多いため、日本語の代表的な母音だけでは、英語の母音を表現できないという問題がある。
そこで、本実施の形態に示す技術で母音を曖昧化することによって、日本語らしさを低減し、結果として英語音声として自然さを増すことが可能となる。特に、以下にIPAで示す、曖昧母音であるschwaは、日本語の5母音とは全く異なり、F1−F2平面において日本語の5母音によって形成される五角形の重心付近に位置するために、本実施の形態による曖昧化の効果が大きい。
Figure 0005194197
図13Bにおいて、特に白線で囲んだ部分は、(a)と(b)との間で顕著な違いが見られる。時刻1.2秒においては、第1及び第2フォルマント周波数だけではなく、第3フォルマント周波数にも違いが現れていることが分かる。実際に合成音を聞いた印象では、(a)はカタカナをそのまま話しているような感じであり、(b)は英語として受け入れやすい感じであった。また、(a)は英語を話すときに力を入れて調音している感じであり、(b)はリラックスして話している感じであった。
ところで、発声の怠けは発話速度によって変化する。ゆっくり発話するときには、各母音は、孤立母音と同様に正確に調音される。この特徴は、歌を歌う場合などに顕著に現れる。入力音声が歌声の場合は、声質変換システム100は、孤立母音をそのまま用いて声質変換を行っても、違和感のない合成音を生成することが可能である。
一方で、会話調の話し方で早く発話するときには、顎や舌などの調音器官の動きが発話速度に追いつかないために、発声の怠けが大きくなる。そこで、曖昧化度合い(混合比率)は、当該音韻周辺の局所的発話速度に応じて設定されても良い。つまり、混合部105は、入力音声に含まれる母音の局所的発話速度が大きいほど、入力音声に含まれる母音と同じ種類の母音の第2声道形状情報が平均声道形状情報に近付くように、第2声道形状情報を生成しても良い。これにより、入力音声をより滑らかで自然な音声に変換することが可能となる。
具体的には、式(8)の曖昧化度合い係数a(混合比率)は、例えば次の式(9)ように局所的発話速度r(単位は1秒あたりの音素数など)の関数として設定されれば良い。
Figure 0005194197
ここで、a0は基準の曖昧化度合いを表す値であり、r0は基準の発話速度(単位はrと同じ)である。また、hは所定の値であり、rによってaを変化させる感度である。
なお、文中母音は、F1−F2平面において、孤立母音よりも多角形の内側に移動するが、その度合いは母音によって異なる。例えば図4A及び図4Bにおいて、/o/は比較的変化が少ないが、/a/は少数の外れ値を除いて大きく内側に移動している。また、/i/も多くが特定の方向に移動しているが、/u/は移動する方向もまちまちである。
そこで、母音によって曖昧化度合い(混合比率)を変えることも有効と考えられる。つまり、混合部105は、母音の種類に応じて設定された混合比率を用いて、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の第1声道形状情報とを混合しても良い。この場合、/o/の曖昧化度合いを小さく、/a/の曖昧化度合いを大きくしても良い。また/i/は曖昧化度合いを大きく、/u/はどちらの方向に移動させれば良いか分からないために曖昧化度合いを小さくしても良い。これらの傾向は個人によって異なる可能性があるので、目標話者が誰であるかによって曖昧化度合いを変えても良い。
もちろん、曖昧化度合いは、ユーザーの好みによって変えられても構わない。この場合、ユーザーは、混合比率入力部110を介して、母音の種類毎に、好みの曖昧化度合いを示す混合比率を入力すれば良い。つまり、混合部105は、ユーザーによって設定された混合比率を用いて、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の第1声道形状情報とを混合しても良い。
また、平均声道情報算出部1051は、式(7)に示すように、複数の第1声道形状情報の算術平均(相加平均)を算出することにより、平均声道形状情報を算出したが、必ずしも式(7)のように平均声道形状情報を算出する必要はない。例えば、平均声道情報算出部1051は、式(6)の重み係数wiを不均一にして、平均声道形状情報を算出しても良い。
つまり、平均声道形状情報は、互いに種類が異なる複数の母音の第1声道形状情報の重み付き算術平均であっても構わない。例えば、個人ごとに発声の怠けの特徴を調べて、その個人の発声の怠けを近似するように重み係数の調整を行なうことは効果的である。例えば、目標話者の発声の怠けの特徴に応じて第1声道形状情報に重み付けすることにより、入力音声をより滑らかで自然な目標話者の音声に変換することも可能となる。
また、平均声道情報算出部1051は、式(7)のような相加平均ではなく、相乗平均や調和平均を平均声道形状情報として算出しても構わない。具体的には、式(10)のようにPARCOR係数の平均ベクトルを表すと、平均声道情報算出部1051は、式(11)のように、複数の母音の第1声道形状情報の相乗平均を平均声道形状情報として算出しても良い。また、平均声道情報算出部1051は、式(12)のように、複数の母音の第1声道形状情報の調和平均を平均声道形状情報として算出しても良い。
Figure 0005194197
Figure 0005194197
Figure 0005194197
要するに、複数の母音の第1声道形状情報の平均は、各母音の第1声道形状情報と混合されたときに、F1−F2平面における母音の分布範囲が縮小されるように算出されれば良い。
例えば日本語の5母音/a/、/i/、/u/、/e/、/o/の場合、式(7)や式(11)、式(12)のような平均声道形状を求めることは必ずしも必要ではない。例えば、ある母音と別の母音を混合することによってその母音を5角形の重心に近づける操作が行なわれても良い。例えば母音/a/のあいまい化を行う場合、/a/とは別の種類の母音を少なくとも2つ選び、選ばれた2つの母音を用いて所定の重みで混合を行っても良い。F1−F2平面上で5母音が形成する五角形が凸五角形(全ての内角の大きさが二直角より小さい五角形)であれば、/a/と他の任意の2つの母音を混合して作られた母音は必ずこの5角形の内側に位置する。多くの場合、日本語の5母音が形成する五角形は凸五角形であり、この方法によって母音を曖昧化できる。
また、上述したように英語には日本語よりも母音の数が多いため、F1−F2平面において母音間の距離が小さい傾向にある。この傾向は言語によって異なるので、曖昧化度合い係数は、言語に応じて設定されることが望ましい。つまり、混合部105は、入力音声の言語種類に応じて定められた混合比率を用いて、母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の第1声道形状情報とを混合しても良い。これにより、各言語にふさわしい曖昧化度合いを設定することができ、入力音声をより滑らかで自然な音声に変換することが可能となる。
英語の母音種類は日本語よりも多いため、F1−F2平面での多角形は日本語の多角形よりも複雑である。図14は、F1−F2平面に英語の13母音を配置した図である。なお、図14は、「Ghonim, A., Smith, J. and Wolfe, J. (2007) “The sounds of world English”, https://www.phys.unsw.edu.au/swe」から引用した。英語では母音のみを発声することは難しいので、[h]と[d]で挟まれた仮想的な単語で母音が表されている。13母音を全て加算平均して求めた平均声道形状と各母音を混合した場合、各母音が重心に近づく方向に移動するため曖昧化される。
しかし、日本語の場合に述べたように、全ての母音を用いて平均声道形状を求めることは必ずしも必要ではない。図14の配置を用いると、“heed”、“haired”、“had”、“hard”、“hod”、“howd”、“whod”を用いて凸多角形を構成することができる。この多角形の辺に近い母音は日本語と同様に、当該母音をそれとは別の少なくとも2母音を選び混合することで曖昧化が可能である。一方、多角形の内部に位置する母音(図では“heard”)については、それらがもともと曖昧な音であるためにそのまま利用する。
このように、本実施の形態における声質変換システム100によれば、少量の母音を入力するだけで滑らかな文発声の音声を生成することができる。さらに、日本語母音を用いて英語の音声を生成することができるなど、飛躍的に柔軟な声質変換が可能になる。
つまり、本実施の形態における声質変換システム100によれば、母音の種類毎に、複数の第1声道形状情報を混合して第2声道形状情報を生成することができる。つまり、少量の音声のサンプルから母音の種類毎に第2声道形状情報を生成することができる。このように母音の種類毎に生成された第2声道形状情報は、曖昧化された母音の声道形状情報に相当する。したがって、第2声道形状情報を用いて入力音声の声質を変換することにより、入力音声を滑らかで自然な音声に変換することが可能となる。
なお、母音受付部102は、前述したとおり典型的にはマイクロホンを有するが、さらに、ユーザーに発声内容とタイミングとを指示するための表示装置(prompter)を有することが望ましい。具体例としては、図15に示すように、母音受付部102は、マイクロホン1021と、マイクロホン1021の近傍に配置された液晶ディスプレイなどの表示部1022とから構成されても良い。この場合、表示部1022は、目標話者に発声させる内容1023(この場合は母音)とタイミング1024とを表示すれば良い。
なお、本実施の形態では、混合部105は、平均声道形状情報を算出していたが、必ずしも平均声道形状情報を算出する必要はない。例えば、混合部105は、母音の種類毎に、当該母音の第1声道形状情報と、当該母音とは異なる種類の母音の声道形状情報とを所定の混合比率で混合することにより、当該母音の第2声道形状情報を生成すれば良い。このとき、所定の混合比率は、第2声道形状情報が第1声道形状情報よりも平均声道形状情報に近付くように設定されれば良い。
つまり、混合部105は、F1−F2平面上で母音間の距離が近付くように第2声道形状情報が生成されれば、どのように複数の第1声道形状情報が混合されても構わない。例えば、混合部105は、入力音声においてある母音から別の母音に遷移する時に声道形状情報が急峻に変わらないように第2声道形状情報を生成しても良い。つまり、混合部105は、入力音声に含まれる母音の並びに適応して混合比率を変化させながら、入力音声に含まれる母音と同じ種類の母音の第1声道形状情報と、入力音声に含まれる母音と異なる種類の母音の第1声道形状情報とを混合しも良い。その結果、第2声道形状情報から得られる母音のF1−F2平面における位置は、同じ種類の母音であっても、多角形領域内で動くことになる。これは、PARCOR係数の時系列を移動平均法などにより平滑化することで実現可能である。
(実施の形態1の変形例)
次に、実施の形態1の変形例について説明する。
実施の形態1では、母音受付部102は、当該言語における代表的な全ての種類の母音(日本語では5母音)を受け付けていたが、本変形例では、母音受付部102は、必ずしも全ての種類の母音を受け付ける必要はない。本変形例では、実施の形態1よりも少ない種類の母音で声質変換を実現する。以下、その方法について説明する。
母音の種類は第1フォルマント周波数と第2フォルマント周波数とで特徴付けられるが、それらの値は個人によって異なっている。それでも、同一の母音と知覚される理由を説明するモデルとして、第1フォルマント周波数と第2フォルマント周波数との比によって母音が特徴付けられるとみなしたモデルがある。ここで、第i母音の第1フォルマント周波数f1i及び第2フォルマント周波数f2iからなるベクトルviを式(13)で表すとし、第1フォルマント周波数と第2フォルマント周波数との比を保ったままベクトルviを移動したベクトルvi’を式(14)で表すとする。
Figure 0005194197
Figure 0005194197
qはベクトルviとベクトルvi’との比率である。上述のモデルに基づけば、比率qの値を変化させてもベクトルviとベクトルvi’とは同じ母音として知覚される。
このように、全ての孤立母音の第1及び第2フォルマント周波数を比率qで移動した場合、F1−F2平面上で母音の第1及び第2フォルマント周波数によって形成される多角形は、図16に示すように互いに相似となる。図16では、元の多角形Aと、q>1の時の多角形Bと、q<1の時の多角形C及びDとが表されている。
このように第1フォルマント周波数f1iと第2フォルマント周波数f2iとの比を保ったまま声道形状を変形する方法としては、声道の長さを変更するという方法がある。声道長を1/q倍にすれば、全てのフォルマントの周波数がq倍になる。そこで、まず声道長変換比率r=1/qを求め、次に声道長変換比率rで声道断面積関数を伸縮するような変換を行なう。
まず、声道長変換比率qを求める方法について説明する。
PARCOR係数は、分析次数が十分高ければ高次の係数になるに従って絶対値が小さくなる傾向にある。特に、声帯の位置に相当するセクション番号以上の次数では小さな値が続く。そこで、高次の係数から順に低い次数へと値を検査し、絶対値がある閾値を超えたところを声帯位置とみなし、その次数kを記憶しておく。この方法により、あらかじめ用意された母音から取り出したkをka、入力された母音から取り出したkをkbとすれば、声道長変換比率rは、式(15)のように計算することができる。
Figure 0005194197
次に、声道長変換比率rで声道断面積関数を伸縮する変換方法について説明する。
図17は、ある母音の声道断面積関数を示す。横軸は、口唇から声帯へ向かっての距離をセクション番号で表す。縦軸は、声道断面積を表す。破線は、声道断面積をスプライン関数などにより内挿して連続値にしたものである。
連続値になった声道断面積関数を新たなセクション間隔1/rでサンプリングし(図18)、サンプリングされた値を元のセクション間隔で配置しなおす(図19)。図19の例では、声道末端部分(声帯側)に余剰セクションが生まれるが(図19の網掛け部分)、余剰セクションの部分は一定の断面積にしておく。これは、声道長を超えるセクションではPARCOR係数の絶対値が非常に小さい値になるからである。つまり、PARCOR係数の符号を反転したものはセクション間の反射係数であり、反射係数が0であると言うことはセクション間の断面積に差がないことを意味するからである。
上記の例では、声道長を短くする場合(r<1)の変換方法を示した。一方、声道長を長くする場合(r>1)は、声道末端部分(声帯側)には収まりきらないセクションが生まれるが、これらのセクションの値は捨てる。捨てるPARCOR係数の絶対値が小さくなるように、元々の分析次数を高めにとっておくと良い。例えばサンプリング周波数10kHzの音声に対して通常のPARCOR分析では次数を10前後にするが、20などの高い値にしておけば良い。
このような方法で、入力された単一の母音と、あらかじめ用意された母音から、全ての母音の声道形状情報を推定することが可能である。つまり、母音受付部102は、全ての種類の母音を受け付ける必要がなくなる。
(実施の形態2)
次に、実施の形態2について説明する。
本実施の形態では、声質変換システムが2つの装置によって構成される点が、実施の形態1における声質変換システムと異なる。以下において、実施の形態1と異なる点を中心に説明する。
図20は、実施の形態2における声質変換システム200の構成図である。図20において、図8と同じ機能を有する構成要素については同じ符号を用い、適宜説明を省略する。
図20に示すように、声質変換システム200は、声道情報生成装置201と声質変換装置202とを備える。
声道情報生成装置201は、入力音声の声質を変換する際に用いられる、声道の形状を示す第2声道形状情報を生成する。声道情報生成装置201は、母音受付部102と、分析部103と、第1母音声道情報記憶部104と、混合部105と、混合比率入力部110と、第2母音声道情報記憶部107と、合成部108aと、出力部109とを備える。
合成部108aは、母音の種類毎に、第2母音声道情報記憶部107に記憶されている第2声道形状情報を用いて合成音を生成する。そして、合成部108aは、生成した合成音の信号を出力部109に送信する。声道情報生成装置201の出力部109は、母音の種類毎に生成された合成音の信号を音声として出力する。
図21は、実施の形態2における声道情報生成装置201が出力する母音の音声を説明するための図である。図21では、声道情報生成装置201の母音受付部102によって受け付けられる複数の母音の音声によりF1−F2平面に形成される五角形を実線で表わす。また、声道情報生成装置201の出力部109によって母音の種類毎に出力される音声によりF1−F2平面に形成される五角形を破線で表わす。
図21から明らかなように、声道情報生成装置201の出力部109は、曖昧化された母音の音声を出力する。
声質変換装置202は、声道形状情報を用いて入力音声の声質を変換する。声質変換装置202は、母音受付部102と、分析部103と、第1母音声道情報記憶部104と、入力音声記憶部101と、合成部108bと、変換比率入力部111と、出力部109とを備える。この声質変換装置202は、図25に示す特許文献2の声質変換装置と同様の構成である。
合成部108bは、第1母音声道情報記憶部104に記憶されている第1声道形状情報を用いて、入力音声の声質を変換する。ただし、本実施の形態では、声質変換装置202の母音受付部102は、声道情報生成装置201によって曖昧化された母音の音声を受け付けている。つまり、声質変換装置202の第1母音声道情報記憶部104に記憶されている第1声道形状情報は、実施の形態1における第2声道形状情報に相当する。したがって、声質変換装置202の出力部109は、実施の形態1と同様の音声を出力する。
以上のように、本実施の形態における声質変換システム200によれば、声道情報生成装置201と声質変換装置202との2つの装置によって構成することができる。そして、声質変換装置202は、従来の声質変換装置と同様の構成にすることができる。つまり、本実施の形態における声質変換システム200によれば、実施の形態1と同様の効果を、従来の声質変換装置を用いて実現することが可能となる。
(実施の形態3)
次に、実施の形態3について説明する。
本実施の形態では、声質変換システムが2つの装置によって構成される点が、実施の形態1における声質変換システムと異なる。以下において、実施の形態1と異なる点を中心に説明する。
図22は、実施の形態3における声質変換システム300の構成図である。図22において、図8と同じ機能を有する構成要素については同じ符号を用い、適宜説明を省略する。
図22に示すように、声質変換システム300は、声道情報生成装置301と声質変換装置302とを備える。
声道情報生成装置301は、第1母音声道情報記憶部104と、混合部105と、混合比率入力部110とを備える。声質変換装置302は、入力音声記憶部101と、母音受付部102と、分析部103と、合成部108と、出力部109と、変換比率入力部111と、母音声道情報記憶部303と、母音声道情報入出力切替部304とを備える。
母音声道情報入出力切替部304は、第1のモード又は第2のモードで動作する。具体的には、母音声道情報入出力切替部304は、第1のモードでは、母音声道情報記憶部303に記憶されている第1声道形状情報を第1母音声道情報記憶部104に出力する。一方、母音声道情報入出力切替部304は、第2のモードでは、混合部105から出力された第2声道形状情報を、母音声道情報記憶部303に格納する。
母音声道情報記憶部303には、第1声道形状情報及び第2声道形状情報が格納される。つまり、母音声道情報記憶部303は、実施の形態1における第1母音声道情報記憶部104及び第2母音声道情報記憶部107に相当する。
以上、本実施の形態における声質変換システムによれば、母音を曖昧化する機能を有する声道情報生成装置301を独立した装置として構成することができる。そして、声道情報生成装置301は、マイクロホンなどが不要であるので、コンピュータソフトウェアとして実現することができる。したがって、声道情報生成装置301は、声質変換装置302の性能を高めるために後付けするソフトウェア(いわゆるプラグイン)として提供することができる。
また、声道情報生成装置301は、サーバーアプリケーションとして実現することもできる。この場合、声道情報生成装置301は、ネットワークを介して声質変換装置302と接続されれば良い。
以上、本発明の一態様に係る声質変換システム、声質変換装置、及び声道情報生成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、上記実施の形態1〜3において、声質変換システムは、複数の構成要素を備えていたが、必ずしもそれらの構成要素のすべてを備える必要はない。例えば、声質変換システムは、図23に示すように構成されても良い。
図23は、他の実施の形態に係る声質変換システム400の構成図である。なお、図23において、図8と同様の構成要素については、同一の符号を付し、適宜説明を省略する。
図23に示す声質変換システム400は、声道情報生成装置401と声質変換装置402とを備える。なお、図23において、図8と同様の構成要素については、同一の符号を付し、説明を省略する。
図23に示す声質変換システム400は、分析部103及び混合部105を有する声道情報生成装置401と、第2母音声道情報記憶部107及び合成部108を有する声質変換装置402とを備える。なお、声質変換システム400は、必ずしも第2母音声道情報記憶部107を備える必要はない。
声質変換システム400は、このように構成されても、曖昧化された声道形状情報である第2声道形状情報を用いて入力音声の声質を変換することができるので、実施の形態1における声質変換システム100と同様の効果を奏することができる。
また、上記各実施の形態における声質変換システム、声質変換装置、又は声道情報生成装置が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。
システムLSIは、複数の構成要素を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Randam Access Memory)などを含んで構成されるコンピュータシステムである。前記ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてありえる。
また、本発明の一態様は、このような特徴的な構成要素を備える声質変換システム、声質変換装置、又は声道情報生成装置だけでなく、声質変換システム、声質変換装置、又は声道情報生成装置に含まれる特徴的な処理部をステップとする声質変換方法又は声道情報生成方法であっても良い。また、本発明の一態様は、声質変換方法又は声道情報生成方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであっても良い。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させても良い。
本発明の一態様に係る声質変換システムは、音声加工ツール、ゲーム、家電製品等の音声ガイド、ロボットの音声出力等として有用である。また、ある人の声を別の人の声に変換する用途ではなくとも、テキスト音声合成の出力を滑らかで聞きやすい印象にするための用途にも応用できる。
100、200、300、400 声質変換システム
101 入力音声記憶部
102 母音受付部
103 分析部
104 第1母音声道情報記憶部
105 混合部
107 第2母音声道情報記憶部
108、108a、108b 合成部
109 出力部
110 混合比率入力部
111 変換比率入力部
201、301、401 声道情報生成装置
202、302、402 声質変換装置
303 母音声道情報記憶部
304 母音声道情報入出力切替部
1021 マイクロホン
1022 表示部
1031 母音安定区間抽出部
1032 母音声道情報作成部
1051 平均声道情報算出部
1052 混合声道情報生成部
1081 母音変換部
1082 子音選択部
1083 声道情報記憶部
1084 子音変形部
1085 音声合成部

Claims (17)

  1. 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換システムであって、
    互いに種類が異なる複数の母音の音声を受け付ける母音受付部と、
    前記母音受付部によって受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、
    前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部と、
    入力音声の声道形状情報及び音源情報を取得し、前記入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える
    声質変換システム。
  2. 前記混合部は、
    前記母音の種類毎に生成された複数の第1声道形状情報を平均することにより、1つの平均声道形状情報を算出する平均声道情報算出部と、
    前記母音受付部によって受け付けられた母音の種類毎に、当該母音の第1声道形状情報と前記平均声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合声道情報生成部とを備える
    請求項1に記載の声質変換システム。
  3. 平均声道情報算出部は、前記複数の第1声道形状情報を重み付き算術平均することにより、前記平均声道形状情報を算出する
    請求項2に記載の声質変換システム。
  4. 前記混合部は、前記入力音声に含まれる母音の局所的発話速度が大きいほど、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報が前記母音の種類毎に生成された複数の第1声道形状情報の平均に近付くように、前記第2声道形状情報を生成する
    請求項1〜3のいずれか1項に記載の声質変換システム。
  5. 前記混合部は、母音の種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
    請求項1〜4のいずれか1項に記載の声質変換システム。
  6. 前記混合部は、ユーザーによって設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
    請求項1〜5のいずれか1項に記載の声質変換システム。
  7. 前記混合部は、前記入力音声の言語種類に応じて設定された混合比率を用いて、前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合する
    請求項1〜6のいずれか1項に記載の声質変換システム。
  8. 前記声質変換システムは、さらに、
    前記入力音声の声道形状情報及び音源情報が記憶されている入力音声記憶部を備え、
    前記合成部は、前記入力音声記憶部から、前記入力音声の声道形状情報及び音源情報を取得する
    請求項1〜7のいずれか1項に記載の声質変換システム。
  9. 入力音声の声質を変換する際に用いられる、声道の形状を示す声道形状情報を生成する声道情報生成装置であって、
    互いに種類が異なる複数の母音の音声を分析することにより、前記母音の種類毎に、第1声道形状情報を生成する分析部と、
    前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合部とを備える
    声道情報生成装置。
  10. さらに、
    前記母音の種類毎に、前記第2声道形状情報を用いて合成音を生成する合成部と、
    前記合成音を音声として出力する出力部とを備える
    請求項9に記載の声道情報生成装置。
  11. 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換装置であって、
    母音の種類毎に、当該母音の第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより生成された第2声道形状情報を記憶している母音声道情報記憶部と、
    入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換し、変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成部とを備える
    声質変換装置。
  12. 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換方法であって、
    互いに種類が異なる複数の母音の音声を受け付ける母音受付ステップと、
    前記母音受付ステップにおいて受け付けられた複数の母音の音声を分析することにより、前記母音の種類毎に第1声道形状情報を生成する分析ステップと、
    前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合ステップと、
    入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の前記第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換する変換ステップと、
    変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成ステップとを含む
    声質変換方法。
  13. 入力音声の声質を変換する際に用いられる、声道の形状を示す声道形状情報を生成する声道情報生成方法であって、
    互いに種類が異なる複数の母音の音声を分析することにより、前記母音の種類毎に第1声道形状情報を生成する分析ステップと、
    前記母音の種類毎に、当該母音の前記第1声道形状情報と、当該母音と異なる種類の母音の前記第1声道形状情報とを混合することにより、当該母音の第2声道形状情報を生成する混合ステップとを含む
    声道情報生成方法。
  14. 声道の形状を示す声道形状情報を用いて入力音声の声質を変換する声質変換方法であって、
    入力音声に含まれる母音の声道形状情報と、前記入力音声に含まれる母音と同じ種類の母音の第1声道形状情報及び前記入力音声に含まれる母音と異なる種類の母音の第1声道形状情報を混合することにより生成された、前記入力音声に含まれる母音と同じ種類の母音の第2声道形状情報とを混合することにより、前記入力音声の声道形状情報を変換する変換ステップと、
    変換後の前記入力音声の声道形状情報と前記入力音声の音源情報とを用いて合成音を生成することにより、前記入力音声の声質を変換する合成ステップとを含む
    声質変換方法。
  15. 請求項12に記載の声質変換方法をコンピュータに実行させるためのプログラム。
  16. 請求項13に記載の声道情報生成方法をコンピュータに実行させるためのプログラム。
  17. 請求項14に記載の声質変換方法をコンピュータに実行させるためのプログラム。
JP2012551826A 2011-07-14 2012-07-12 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 Expired - Fee Related JP5194197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012551826A JP5194197B2 (ja) 2011-07-14 2012-07-12 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011156042 2011-07-14
JP2011156042 2011-07-14
PCT/JP2012/004517 WO2013008471A1 (ja) 2011-07-14 2012-07-12 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP2012551826A JP5194197B2 (ja) 2011-07-14 2012-07-12 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法

Publications (2)

Publication Number Publication Date
JP5194197B2 true JP5194197B2 (ja) 2013-05-08
JPWO2013008471A1 JPWO2013008471A1 (ja) 2015-02-23

Family

ID=47505774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551826A Expired - Fee Related JP5194197B2 (ja) 2011-07-14 2012-07-12 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法

Country Status (4)

Country Link
US (1) US9240194B2 (ja)
JP (1) JP5194197B2 (ja)
CN (1) CN103370743A (ja)
WO (1) WO2013008471A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
WO2016042626A1 (ja) * 2014-09-17 2016-03-24 株式会社東芝 音声処理装置、音声処理方法及びプログラム
WO2016111644A1 (en) * 2015-01-05 2016-07-14 Creative Technology Ltd A method for signal processing of voice of a speaker
JP6312014B1 (ja) * 2017-08-28 2018-04-18 パナソニックIpマネジメント株式会社 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN109308892B (zh) * 2018-10-25 2020-09-01 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
WO2020136948A1 (ja) * 2018-12-26 2020-07-02 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
US11183168B2 (en) * 2020-02-13 2021-11-23 Tencent America LLC Singing voice conversion
US11302301B2 (en) * 2020-03-03 2022-04-12 Tencent America LLC Learnable speed control for speech synthesis

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282300A (ja) * 2000-04-03 2001-10-12 Sharp Corp 声質変換装置および声質変換方法、並びに、プログラム記録媒体
JP2006330343A (ja) * 2005-05-26 2006-12-07 Casio Comput Co Ltd 声質変換装置、及びプログラム
JP2007050143A (ja) * 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 声道断面積関数の推定装置及びコンピュータプログラム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008148547A1 (en) * 2007-06-06 2008-12-11 Roche Diagnostics Gmbh Detection of an analyte in a sample of hemolyzed whole blood
WO2010035438A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 音声分析装置および音声分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
JPH0772900A (ja) 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
WO2006053256A2 (en) * 2004-11-10 2006-05-18 Voxonic, Inc. Speech conversion system and method
EP1859437A2 (en) * 2005-03-14 2007-11-28 Voxonic, Inc An automatic donor ranking and selection system and method for voice conversion
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
US8255222B2 (en) * 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282300A (ja) * 2000-04-03 2001-10-12 Sharp Corp 声質変換装置および声質変換方法、並びに、プログラム記録媒体
JP2006330343A (ja) * 2005-05-26 2006-12-07 Casio Comput Co Ltd 声質変換装置、及びプログラム
JP2007050143A (ja) * 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 声道断面積関数の推定装置及びコンピュータプログラム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008148547A1 (en) * 2007-06-06 2008-12-11 Roche Diagnostics Gmbh Detection of an analyte in a sample of hemolyzed whole blood
WO2010035438A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 音声分析装置および音声分析方法

Also Published As

Publication number Publication date
CN103370743A (zh) 2013-10-23
JPWO2013008471A1 (ja) 2015-02-23
WO2013008471A1 (ja) 2013-01-17
US20130238337A1 (en) 2013-09-12
US9240194B2 (en) 2016-01-19

Similar Documents

Publication Publication Date Title
JP5194197B2 (ja) 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
US12080273B2 (en) Translation method and system using multilingual text-to-speech synthesis model
JP4125362B2 (ja) 音声合成装置
Tachibana et al. Speech synthesis with various emotional expressions and speaking styles by style interpolation and morphing
Schröder Expressive speech synthesis: Past, present, and possible futures
Toda et al. Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JPH031200A (ja) 規則型音声合成装置
US20200365137A1 (en) Text-to-speech (tts) processing
CN103403797A (zh) 语音合成装置以及语音合成方法
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换系统
Burkhardt et al. Emotional speech synthesis 20
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JPWO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
Tobing et al. Articulatory controllable speech modification based on statistical feature mapping with Gaussian mixture models.
Eshghi et al. An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech Enhancement
Hirose et al. Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis
Hirose Use of generation process model for improved control of fundamental frequency contours in HMM-based speech synthesis
JP2011191528A (ja) 韻律作成装置及び韻律作成方法
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130204

R150 Certificate of patent or registration of utility model

Ref document number: 5194197

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees