JP4355772B2

JP4355772B2 - 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム

Info

Publication number: JP4355772B2
Application number: JP2009500111A
Authority: JP
Inventors: 弓子加藤; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-02-19
Filing date: 2008-01-22
Publication date: 2009-11-04
Anticipated expiration: 2028-01-22
Also published as: WO2008102594A1; CN101606190B; JPWO2008102594A1; CN101606190A; US8898062B2; US20090204395A1

Description

本発明は、（ｉ）人間が怒鳴ったとき、強調のために力を入れて話すとき、興奮もしくは緊張して話すとき等に現れるだみ声、荒れた声、ざらざらした声（harsh voice）、（ｉｉ）例えば演歌等の歌唱時に現れる「こぶし」や「うなり」のような表現、または（ｉｉｉ）ブルースやロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を生成する技術に関する。より特定的には、本発明は、上記のような音声に含まれる（ｉ）怒り、強勢、力強さおよび元気のよさのような感情、（ｉｉ）音声の表情、（ｉｉｉ）発話スタイル、または（ｉｖ）話者の態度、状況もしくは発声器官の緊張状態等を表現可能な音声の生成を可能にする音声変換装置および音声合成装置に関する。

従来、感情、表情、態度および状況等を音声で表現する、特に音声の言語的表現ではなく、口調、話し方および声色といったパラ言語的表現によって感情等を表現することを目的とした音声変換または音声合成の技術が開発されている。これらの技術は、ロボットまたは電子秘書をはじめ、電子機器の音声対話インタフェースに必要不可欠である。

音声のパラ言語的表現のうち、韻律パタンを変更する方法については多くの方法が提案されている。モデルに基づいて基本周波数パタン、パワーパタンおよびリズムパタン等の韻律パタンを生成して、音声で表現しようとする感情に応じて、基本周波数パタンとパワーパタンとを周期変動信号により補正することにより、表現しようとする感情を伴った音声の韻律パタンを生成する方法がある（例えば、特許文献１参照）。韻律パタンの補正による感情音声の生成方法においては、特許文献１の段落０１１８にも指摘されているように、ゆらぎによる声質変化を防ぐために、音節の時間長を超える周期の周期変動信号が必要とされている。

一方、声質による表現を実現する方法としては、入力された音声を分析して合成パラメータを求め、そのパラメータを変更して声質を変更する音声変換方法（例えば、特許文献２参照）、および標準的な音声または無表情な音声を合成するパラメータを生成し、そのパラメータを変更する音声合成方法（例えば、特許文献３参照）が開発されている。

また、波形接続方式の音声合成技術においては、いったん標準的な音声または無表情な音声を合成し、感情等の表情のある音声の中からその合成音に類似した特徴ベクトルを持つ音声を選択して接続するものが提案されている（例えば、特許文献４参照）。

さらに、自然音声を分析して得た合成パラメータに基づき、統計学習モデルにより合成パラメータを生成する音声合成技術においては、各感情表現を含む自然音声からそれぞれの感情に対応する音声生成モデルを統計的に学習し、モデル間の変換式を用意して、標準的な音声または無表情な音声を、感情を表現する音声に変換する方式が提案されている。

しかしながら、上記従来の方式（方法）のうち、合成パラメータの変更を行う技術では、感情ごとにあらかじめ定められた一様な変換規則に従ってパラメータ変換を行う。このため、この技術では、自然発話に見られる部分的に力んだ声になったりするような声質のバリエーションを再現することはできない。

また、標準的な音声と類似した特徴ベクトルを持った感情等の表情のある音声を抽出して接続する方式では、通常の発声とは大きく異なる「力み」のような特徴的な特殊な声質の音声は選択されにくい。このため、この方式では、結果的に自然発話に見られる声質のバリエーションを再現することができない。

さらに、感情表現を含む自然音声から統計的な音声合成モデルを学習する方式では、声質のバリエーションも学習される可能性があるが、感情を表現する音声に特徴的な声質の音声は、その出現頻度が低く学習が困難である。例えば、上記の「力み」、丁寧でやさしく話すときに特徴的に現れるささやくような声（whispery voice）、およびソフトボイスともいわれるブレシー（breathy）または「かすれ」と呼ばれる気息性の音声（特許文献４、特許文献５参照）は、その特徴的な声質により聴取者の注意を引くため印象深く、発話全体の印象に大きく影響する。しかし、これらの音声は、実際の音声全体の中では一部に出現するものであり、出現頻度は高くはない。発声時間全体から見ると、その時間比率は少ないため、統計的学習を行った場合には、「力み」および「かすれ」等を再現するモデルは学習されにくい。

すなわち、上記の従来の方法では、部分的な声質のバリエーションを再現することが困難で、微細な時間構造を持った、質感のあるリアルな表情を豊かに表現することができないという課題がある。

そこで、上記の課題を解決するため、声質のバリエーションの再現のために、特徴的な声質の音声に特化した声質変換を行う方式が考えられる。声質変換の基礎となる声質の物理的特徴については、本願が対象とする「力み」とは異なる定義がされた「りきみ」音声と、上記の「かすれ」音声との研究がされている。

「かすれ」は「息漏れ」とも呼ばれ、高調波成分でスペクトルが低く、気流による雑音成分が大きいという特徴がある。「かすれ」のこのような特徴は、「かすれ」の発声時には、通常の発声または地声（modal voice）の発声時に比べて声門の開きが大きく、「かすれ」の音声は、地声とささやき声（whisper）との中間の声であることより生じる。地声は雑音成分が少ない声であり、ささやき声は周期成分がなくなり雑音成分のみで発声される声である。「かすれ」の特徴は、第１ホルマント帯域の包絡波形と第３ホルマント帯域の包絡波形との相関の低さ、すなわち第１ホルマント付近を中心とする帯域通過信号の包絡の形状と第３ホルマント付近を中心とする帯域通過信号の包絡の形状との相関の低さとして検出される。音声合成時には上記の特徴を合成音に付加することによって「かすれ」音声を実現することができる（特許文献５参照）。

また、本願が対象とする、怒鳴ったり、興奮したりする際の発声中に生じるものとは異なる「りきみ」として、「きしる声」（creaky）または「フライ」（vocal fry）とも呼ばれる音声の研究がなされている。この研究では、「きしる声」の音響的特徴は、（ｉ）局所的なエネルギーの変化が激しく、（ｉｉ）基本周波数は通常発声時の基本周波数よりも低く、不安定であり、（ｉｉｉ）通常発声の区間におけるパワーよりもパワーが小さいものとしている。これらの特徴は、発声時に喉頭を力むことにより、声帯振動の周期性が乱れるために生じる場合があることを、同研究では示している。さらに、音節単位の平均持続時間に比べて長い区間に渡って「りきみ」が生じることが多いとしている。「きしる声」は、関心や嫌悪の感情的表現、または躊躇や謙遜のような態度的表現において、話者の誠実性を高める効果を持つ声質であるとされる。この研究で述べられる「りきみ」は、（ｉ）一般に文末または句末等の音声が消えていく過程、（ｉｉ）言葉を選んで話したり、考えながら話したりする際に語尾を引きずるように引き伸ばして発声する場合の引き伸ばされた語尾、（ｉｉｉ）答えに窮した際に発せられる「えーっと」「うーん」というような感動詞または感嘆詞に多く見られるものである。さらに、この研究では「フライ」および「きしる声」にはダブル・ビートまたは基本周期の倍数で新たな周期が起きる発声（diplophonia）が含まれていることが示されている。「フライ」に見られるdiplophoniaと呼ばれる音声を生成する方式としては、基本周波数の１／２周期分位相をずらした音声を重ね合わせる方法（特許文献６参照）が提案されている。
特開２００２−２５８８８６号公報（図８、段落０１１８）特許第３７０３３９４号公報特開平７−７２９００号公報特開２００４−２７９４３６号公報特開２００６−８４６１９号公報特開２００６−１４５８６７号公報特開平３−１７４５９７号公報

しかしながら、（ｉ）上記従来の方法では、興奮、緊張、怒りもしくは強調のために力を入れて話すときのだみ声、荒れた声もしくはざらざらした声（harsh voice）、または（ｉｉ）歌唱時の「こぶし」、「うなり」もしくは「シャウト」のような音声の一部に現れる「力み」音声を生成することはできない。ここでの「力み」音声は、力を入れて発話する際に、通常より発声器官に力が入るまたは発声器官が強く緊張するために起こるもので、発声器官が「力み」の音声を生成しやすい状況が作られる場合に発声される。具体的には、「力み」の音声は、力が入った発声であるため、音声の振幅はどちらかといえば大きく、当該モーラが両唇音または歯茎音でかつ鼻音または有声破裂音であり、文末または句末というよりもアクセント句の先頭から３番目までの間に位置するモーラである、といった実際の音声中の一部で起こる状況で発声され易い声質の音声である。また、「力み」の音声は、感動詞または感嘆詞に限らず、自立語と付属語との違いを問わず様々な品詞中に見られる。

すなわち上記の従来の方法では、本願が対象とする「力み」音声を生成することができず、怒り、興奮、緊張、勢い込んだ話し方または元気のある話し方のような音声の表情を、発声器官の力の入り方および緊張の仕方を感じさせる「力み」音声を生成することで、声質の変化により、音声を豊かに表現することが困難であるという課題を有している。

本発明は、上記従来の課題を解決するもので、上記の「力み」音声を音声中の適切な位置に発生させることで、怒り、興奮、緊張、勢い込んだ話し方若しくは元気のある話し方、または演歌、ブルースもしくはロック等の歌唱音声において、「力み」音声を付加することにより豊かな音声表現を実現する力み音声変換装置等を提供することを目的とする。

本発明にある局面に係る力み変換装置は、変換の対象となる音声中の音韻を指定する力み音韻位置指定手段と、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、周期的な振幅変動を伴う変調を施す変調手段とを備える。

後述するように、音声波形に周期的な振幅変動を伴う変調を施すことにより力み音声への変換を行なうことができる。このため、音声中の適切な音韻において力み音声を生成することができ、発声器官に力が入っている状態を、微細な時間構造を再現して、声の質感をリアルに伝える表情豊かな音声を生成することができる。

好ましくは、前記変調手段は、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、４０Ｈｚ以上の周波数の周期的な振幅変動を伴う変調を施す。

さらに好ましくは、前記変調手段は、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す。

これにより発声器官に力が入っている状態が最も伝わり易く、かつ、人工的な歪を感じにくい自然な音声を生成し、表情豊かな音声を生成することができる。

好ましくは、前記変調手段は、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、振幅の変動幅を百分率で定義した周期的な振幅変動の変調度が４０％以上でかつ８０％以下となる、周期的な振幅変動を伴う変調を施す。

これにより発声器官に力が入っている状態が最も伝わり易く、かつ、自然な音声を生成し、表情豊かな音声を生成することができる。

好ましくは、前記変調手段は、周期信号を音声波形に乗ずることにより周期的な振幅変動を伴う変調を前記音声波形に施す。

この構成により、非常に単純な構成で力み音声を生成することができ、発声器官に力が入っている状態を、微細な時間構造を再現して、声の質感としてリアルに伝える表情豊かな音声を生成することができる。

好ましくは、前記変調手段は、前記力み音韻位置指定手段により指定された音韻を表す音声波形の位相をずらすオールパスフィルタと、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、前記オールパスフィルタにより位相がずらされた音声波形を加算する加算手段とを備える。

この構成により、振幅に伴って位相も変化させることができ、人工的な歪を感じにくい、より自然な変調により音声を発生させることで、感情豊かな音声を生成することができる。

本発明の他の局面に係る音声変換装置は、音声波形を受付ける入力手段と、力み音声に変換すべき音韻を指定する力み音韻位置指定手段と、前記力み音韻位置指定手段による力み音声に変換すべき音韻の指定に従って、前記入力手段で受付けられた音声波形に、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を施す変調手段とを備える。

好ましくは、上述の音声変換装置は、さらに、前記音声波形の音韻列を認識する音韻認識手段と、前記音声波形の韻律情報を抽出する韻律分析手段とを備え、前記力み音韻位置指定手段は、前記音韻認識手段により認識された入力音声の音韻列と前記韻律分析手段により抽出された韻律情報とに基づいて力み音声に変換すべき音韻を指定する。

この構成により、使用者は音声中の任意の音韻に力み音声を生成することができ、音声の表情を自由に表現することができる。すなわち、音声波形に周期的な振幅変動を伴う変調を施すことができ、人工的な歪を感じにくい、より自然な変調により音声を発生させることで、感情豊かな音声を生成することができる。

本発明のさらに他の局面に係る力み変換装置は、変換の対象となる音声中の音韻を指定する力み音韻位置指定手段と、前記力み音韻位置指定手段により指定された音韻を表す音声波形の音源信号に、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を施す変調手段とを備える。

音源信号に周期的な振幅変動を伴う変調を施すことにより、力み音声への変換を行なうことができる。このため、音声中の適切な音韻において力み音声を生成することができ、発声器官のうち、よりゆっくりした動きをする声道の特性を変化させず、音源波形に振幅変動を与える。これにより、発声器官に力が入っている状態を、微細な時間構造を再現して、声の質感としてリアルに伝える表情豊かな音声を生成することができる。

なお、本発明は、このような特徴的な手段を備える力み変換装置として実現することができるだけでなく、力み変換装置に含まれる特徴的な手段をステップとする方法として実現したり、当該方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の力み変換装置等によれば、人間が怒鳴ったとき、強調のために力を入れて話すとき、および興奮または緊張して話すとき等に現れる、だみ声、荒れた声、若しくはざらざらした声（harsh voice）、演歌等の歌唱時に現れる「こぶし」若しくは「うなり」のような表現、または、ブルース若しくはロック等の歌唱時に現れる「シャウト」のような表現といった、通常の発声とは異なる特徴を持った音声である「力み」音声を変換された音声または合成された音声中の適切な位置に生成することができる。それにより、話者の発声器官の緊張および力の入り具合を、微細な時間構造を再現して、声の質感としてリアルに感じさせる表情豊かな音声を生成することができる。

また、音声波形に振幅変動を含む変調を付与する場合には簡易な処理で音声の表情を豊かにすることができる。さらに、音源波形に振幅変動を含む変調を付与する場合には、実際の「力み」音声の発声時の状態により近いと考えられる変調方式を取ることで、人工的な歪を感じにくい、より自然な「力み」音声を生成することができる。すなわち、実際の「力み」音声において音韻性が崩れてはいないことから、「力み」の特徴は声道フィルタではなく、音源にかかわる部分で発生するものと予測される。このため、音源波形に変調を付与することが自然に起こっている現象により近い処理であると推測される。

（実施の形態１）
図１は、実施の形態１の音声変換装置または音声合成装置の一部である、力み変換部の構成を示す機能ブロック図である。図２は、「力み」音声の波形の一例を示す図である。図３Ａは、実際の音声に含まれる力みのない音声の波形と波形の包絡の概形を示す図である。図３Ｂは、実際の音声に含まれる力みのある音声の波形と波形の包絡の概形を示す図である。図４Ａは、男性話者について、実音声中に観察された「力み」音声の振幅包絡の変動周波数の分布を示した図である。図４Ｂは、女性話者について、実音声中に観察された「力み」音声の振幅包絡の変動周波数の分布を示した図である。図５は、通常発声の音声に「力み」の変換処理を行った音声波形の一例を示す図である。図６は、通常発声の音声と「力み」変換処理を行った音声とを聞き比べる聴取実験の結果を示したグラフである。図７は、聴取実験により確認された「力み」音声に聞こえる振幅変動周波数の範囲を示すグラフである。図８は、振幅変動の変調度を説明するための図である。図９は、聴取実験により確認された、「力み」音声に聞こえる振幅変動の変調度の範囲を示すグラフである。図１０は、力み変換部の動作を示すフローチャートである。

図１に示されるように、本発明の音声変換装置または音声合成装置の力み変換部１０は、入力される音声信号を力みのある音声信号に変換する処理部であり、力み音韻位置決定部１１と、力み実時間範囲決定部１２と、周期信号生成部１３と、振幅変調部１４とを備えている。

力み音韻位置決定部１１は、音声の読み情報および韻律情報を受付け、音声の読み情報および韻律情報に基づき、対象音声の音韻ごとに力み音声で発声されるべきか否かを判断し、音韻単位で力み音声の時間位置情報を出力する処理部である。

力み実時間範囲決定部１２は、対象となる音声信号の音韻の記述を音声信号上の実時間位置に対応付けられた音韻ラベルと、上記力み音韻位置決定部１１が出力する力み音声の音韻単位での時間位置情報とを受付け、音韻ラベルおよび時間位置情報に基づき、入力音声信号の実時間上での力み音声の時間範囲を決定する処理部である。

周期信号生成部１３は、通常の発声の音声を力み音声に変換するための周期変動信号を生成し、出力する処理部である。

振幅変調部１４は、入力音声信号と、力み実時間範囲決定部１２より出力された入力音声信号の実時間軸上での力み音声の時間範囲の情報と、周期信号生成部１３より出力された周期変動信号とを受付け、入力音声信号中の指定された部分に周期変動信号を乗算することにより、力み音声を生成し、生成した力み音声を出力する処理部である。

実施の形態１の構成による力み変換部の動作を説明する前に、通常音声の振幅を周期的に変動させることにより、「力み」音声へ変換できることの背景について説明する。

ここでは、本願発明に先立って、同一テキストに基づいて発話された５０文について、無表情の音声と感情を伴う音声との調査を行った。感情を伴う音声のうち、「激怒」、「怒り」または「明るく元気」の感情を伴う発声において、聴取により「力み」音声であるとラベリングされた音声の多くに、図２に示すような振幅包絡が周期的に変動する波形が観察された。図２のうち、「特売してますよ」の「ばい」部分と同じ文を、感情を伴わず「平静」に発声した音声より切り出した通常発声の音声波形とその振幅包絡の概形とを図３Ａに示した。また、図３Ｂは、図２に示した「激怒」の感情を伴って発声された「ばい」部分と同じ波形と、その振幅包絡の概形とを示す。両波形とも、音素の境界を破線で示した。図３Ａの波形の“ａ”、“ｉ”を発声している部分では、振幅が滑らかに変動していく様子が見える。通常の発声においては図３Ａの波形のように母音の立ち上がりで滑らかに振幅が大きくなり、音素の中央付近で最大となり、音素境界に向けて小さくなる。母音の立下りがある場合には、振幅が滑らかに無音または後続子音の振幅に向けて小さくなる。図３Ａのように母音が続く場合は、振幅は、緩やかに後続の母音の振幅に向けて小さくまたは大きくなる。通常発声においては、１つの母音内において、図３Ｂのように振幅の増減を繰り返すことはほとんどなく、このような基本周波数との関係が一見してわからない振幅の変動を持つ音声についての報告はない。そこで、本願発明者らは、「振幅変動」が「力み」音声の特徴であると考え、「力み」音声であるとラベリングされた音声について、以下の処理によって振幅包絡の変動周期を求めた。

まず、音声波形を代表する正弦波成分を抽出するため、対象となる音声波形の基本周波数の第２高調波を中心周波数とするバンドパスフィルタを逐次に求め、そのフィルタに音声波形を通過させる。フィルタを通過した音声波形に対してヒルベルト変換を施して解析信号を求め、その絶対値によってヒルベルト包絡曲線を求めることにより、音声波形の振幅包絡曲線を求める。求められた振幅包絡曲線をさらにヒルベルト変換し、瞬時角速度をサンプル点ごとに計算し、サンプリング周期に基づいて角速度を周波数に変換する。サンプル点ごとに求められた瞬時周波数について音韻ごとにヒストグラムを作成し、最頻値をその音韻の音声波形の振幅包絡の変動周波数と見なした。

図４Ａおよび図４Ｂは、男性話者および女性話者のそれぞれについて、このような方法で求められた「力み」音声の音韻ごとの振幅包絡の変動周波数を、音韻ごとの平均基本周波数に対してプロットした図である。男性話者、女性話者共に基本周波数に関わらず、振幅包絡の変動周波数は８０Ｈｚ−９０Ｈｚを中心として、４０Ｈｚ−１２０Ｈｚに分布している。「力み」音声の特徴の１つとして、４０Ｈｚ−１２０Ｈｚの周波数帯域に振幅の周期変動があることが発見された。

そこで、図５に波形の例を示すような、通常発声の音声に８０Ｈｚの振幅変動を伴う変調処理を行い、図５（ｂ）に示すような波形の処理音声が、図５（ａ）に示すような波形の未処理音声に比べて力んで聞こえるかどうかの聴取実験を行った。６つの処理音と未処理音との組について２回ずつ聞き比べる聴取実験を２０名の被験者で行ったところ、図６に示すような結果となった。８０Ｈｚの振幅変動を伴う変調処理を行った音声のほうが力んで聞こえると判断された率は、平均して８２％であり、最小で４２％、最大で１００％、標準偏差は１８％であった。この結果により、８０Ｈｚの振幅変動を伴う変調処理により通常の音声を「力み」音声に変換することができることが確認された。

さらに、「力み」音声に聞こえる振幅変動周波数の範囲を確認する聴取実験をおこなった。３つの通常発声の音声に振幅変動無しから２００Ｈｚまでの１５段階で振幅周波数を変えた振幅変動を伴う変調処理を行った音声を用意し、それぞれの音声が以下の３つの分類のうちどれに該当するかを選択する実験を行った。つまり、１３名の聴力正常な被験者は、通常の音声に聞こえる場合には「力みに聞こえない」を選択し、「力み」音声に聞こえる場合には「力みに聞こえる」を選択し、振幅変動が音声とは別の音を感じさせ、「力んだ声」とは聞こえない場合には「雑音に聞こえる」を選択することとした。各音声の判断は２回ずつ行われた。その結果、図７に示すように、振幅変動なしから振幅変動周波数３０Ｈｚまでは「力みに聞こえない」の回答が最も多く、振幅変動周波数４０Ｈｚから１２０Ｈｚまでは「力みに聞こえる」の回答が最も多く、さらに振幅周波数１３０Ｈｚ以上では「雑音に聞こえる」の回答が最も多かった。この結果より、「力み」音声と判断され易い振幅変動周波数の範囲は、実際の「力み」音声の振幅変動周波数の分布に近い４０Ｈｚから１２０Ｈｚであることが示された。

一方、振幅変動の変調度は、音声波形が音韻ごとの緩やかな振幅の変動を持つため、振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なる。しかし、ここでは、振幅一定のキャリア信号に対する振幅変調に習って、図８のような変調信号を仮定する。変調の対象となる信号の振幅絶対値を、１．０倍すなわち振幅の変更無しから、０倍すなわち振幅０までの間で変調する場合を変調度１００％として、変調信号の変動幅を百分率で表現したものを変調度とする。図８に示した変調信号は、変調の対象の信号を変更無し（１．０倍）から、０．４倍までの間で変調するものであり、変動幅は１．０−０．４すなわち０．６である。よって変調度は６０％となる。さらに、「力み」音声に聞こえる変調度の範囲を確認する聴取実験をも行った。２つの通常発声の音声に変調度０％すなわち振幅変動無しから変調度１００％までの間で変調度を変えた振幅変動を伴う変調処理を行った音声を１２段階用意した。これらの音声資料を聴力正常な被験者１５名に聞かせ、通常の音声に聞こえる場合には“「力み」なし”、力みに聞こえる場合には“「力み」あり”、力み以外の違和感のある音に聞こえる場合には“「力み」に聞こえない”の３つの分類の中から当てはまるものを選択させる聴取実験を行った。各音声の判断は５回ずつ行われた。図９に示すように、聴取実験の結果、変調度０％から３５％までは“「力み」なし”の回答が最も多く、４０％から８０％までは“「力み」あり”の回答が最も多かった。さらに９０％以上では力み以外の違和感のある音に聞こえる、すなわち“「力み」に聞こえない”との回答が最も多かった。この結果より、「力み」音声と判断され易い変調度の範囲は４０％から８０％であることが示された。

次に、先に述べたような構成の力み変換部１０の動作を図１０に従って説明する。まず、力み変換部１０は音声信号、音韻ラベル、ならびに音声の読み情報および韻律情報を取得する（ステップＳ１）。「音韻ラベル」は音韻の記述を音声信号上の実時間位置と対応付けた情報であり、「読み情報」は対象音声の発声内容を音韻列として記述したものである。「韻律情報」はアクセント句、フレーズおよびポーズといった記述的韻律情報並びに基本周波数、振幅、パワーおよび時間長といった記述的韻律情報を、音声信号として表現する際の物理量を記述した情報の少なくとも一部を含むものである。このとき、音声信号は振幅変調部１４へ入力され、音韻ラベルは力み実時間範囲決定部１２へ入力され、音声の読み情報と韻律情報とは力み音韻位置決定部１１へ入力される。

次に、力み音韻位置決定部１１は、読み情報と韻律情報とを力み易さ推定規則に当てはめて当該音韻の力み易さを求め、力み易さがあらかじめ定められた閾値を越えた場合に、当該音韻を力み位置と決定する（ステップＳ２）。ステップＳ２で用いる推定規則は、例えば力んだ音声を含む音声データベースを用いて、あらかじめ統計的学習によって生成された推定式である。本願発明者は、このような推定規則を特許文献：国際公開第２００６／１２３５３９号パンフレットに開示している。統計手法の例としては、数量化ＩＩ類により、当該音韻の音韻種類、直前の音韻種類、直後の音韻種類、アクセント核からの距離、およびアクセント句内での位置といった情報を独立変数とし、当該音韻が力んだ声で発声されたか否かを従属変数として推定式を学習するものがある。

力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を音声信号上の時間範囲として特定する（ステップＳ３）。

一方、周期信号生成部１３は、８０Ｈｚの正弦波を生成し（ステップＳ４）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ５）。

振幅変調部１４は、「力み位置」として特定された音声信号の実時間範囲について、周期信号生成部１３が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずることで振幅変調を行い（ステップＳ６）、音韻の時間長より周期が短い振幅の周期的変動を含む「力み」音声への変換を行う。

かかる構成によれば、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させる。このことにより、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮や緊張、勢い込んだ話し方、または元気のある話し方のような、微細な時間構造を持った、質感のあるリアルな感情音声を生成することができる。

なお、本実施の形態ではステップＳ４において周期信号生成部１３は８０Ｈｚの正弦波を出力するものとしたが周波数は振幅包絡の変動周波数の分布に従い４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、正弦波以外の周期性信号でも良い。

（実施の形態１の変形例）
図１１は実施の形態１の力み変換部の変形例の機能ブロック図であり、図１２は実施の形態１の力み変換部の変形例の動作を示すフローチャートである。図１および図６と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１１に示されるように、本変形例の力み変換部１０の構成は実施の形態１の図１に示す力み変換部１０と同じであるが、実施の形態１において音声信号を入力として受け付けていたものを、音源波形を入力として受付けるものとする。この変更に伴い、音声波形を生成するために音源波形によって駆動される声道フィルタ６１が設けられている。

上記のような構成の力み変換部１０および声道フィルタ６１の動作を図１２に従って説明する。まず、力み変換部１０は、音源波形、音韻ラベル、ならびに音声の読み情報および韻律情報を取得する（ステップＳ６１）。このとき、音源波形は振幅変調部１４へ入力され、音韻ラベルは力み実時間範囲決定部１２へ入力され、音声の読み情報と韻律情報は力み音韻位置決定部１１へ入力され、声道フィルタ制御情報は声道フィルタ６１に入力される。次に、力み音韻位置決定部１１は、読み情報と韻律情報とを力み易さ推定規則に当てはめて、当該音韻の力み易さを求める。力み音韻位置決定部１１は、力み易さがあらかじめ定められた閾値を越えた場合に、当該音韻を力み位置と決定する（ステップＳ２）。力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を、音源波形上の時間範囲として特定する（ステップＳ６３）。一方、周期信号生成部１３は、８０Ｈｚの正弦波を生成し（ステップＳ４）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ５）。振幅変調部１４は、「力み位置」として特定された音源波形の実時間範囲について、周期信号生成部１３が生成した８０Ｈｚで振動する周期信号を音源波形に乗ずることによって、振幅変調を行う（ステップＳ６６）。声道フィルタ６１は、力み変換部１０に入力された音源波形に対応する声道フィルタを制御するための情報（例えば、分析フレームごとのメルケプストラム係数列、または単位時間ごとのフィルタの中心周波数および帯域幅等）を入力として受付け、振幅変調部１４から出力される音源波形に対応する声道フィルタを形成する。振幅変調部１４から出力された音源波形は、声道フィルタ６１を通過し、音声波形が生成される（ステップＳ６７）。

かかる構成によれば、実施の形態１と同様、適切な位置に「力み」音声を発生させることで、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ話し方、または元気のある話し方のような、微細な時間構造を持った、質感のあるリアルな感情音声を生成することができる。さらに、実際の「力み」音声の発声時に口や舌の振動が観察されず、音韻性も大きく損なわれてはいないことから、振幅変動は、音源または音源に近い部分で起こっていることが予測される。このため、主に口および舌の形状に関係する声道フィルタでは無く、音源波形に変調を掛けることによって、より実際の発声時の現象に近く、人工的な歪を感じにくいより自然な「力み」音声を生成することができる。ここで、音韻性とは、各音韻に特徴的に見られるスペクトル構造とその時間遷移パターンとに代表される種々の音響的特徴が見られる状態を指し、音韻性が崩れるとは音韻ごとの音響的特徴が失われ、音韻が判別可能な範囲から逸脱する状態を指す。

なお、実施の形態１と同様に、ステップＳ４において周期信号生成部１３は８０Ｈｚの正弦波を出力するものとしたが、周波数は振幅包絡の変動周波数の分布に従い４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、周期信号生成部１３が出力する信号は、正弦波以外の周期性信号でも良い。

（実施の形態２）
図１３は、実施の形態２の音声変換装置または音声合成装置の一部である、力み変換部の構成を示す機能ブロック図である。図１４は本実施の形態の力み変換部の動作を示すフローチャートである。図１および図１０と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１３に示されるように、本発明の音声変換装置または音声合成装置の力み変換部２０は、入力される音声信号を力みのある音声信号に変換する処理部であり、力み音韻位置決定部１１と、力み実時間範囲決定部１２と、周期信号生成部１３と、オールパスフィルタ２１と、スイッチ２２と、加算器２３とを備えている。

力み音韻位置決定部１１および力み実時間範囲決定部１２は、図１と同様であるので、その詳細な説明は繰り返さない。

周期信号生成部１３は、周期変動信号を生成する処理部である。

オールパスフィルタ２１は、振幅応答は一定であるが位相応答が周波数によって異なるフィルタである。オールパスフィルタは電気通信の分野では伝送路の遅延特性を補償するために用いられるものであり、電子楽器の分野ではフェーザーまたはフェーズシフターと呼ばれている（非特許文献：カーティス・ロード著、青柳龍也他訳・監修「コンピュータ音楽―歴史・テクノロジー・アート―」東京電機大学出版局、ｐ３５３）エフェクタ（音色に変化および効果を付加する装置）に用いられるものである。実施の形態２のオールパスフィルタ２１は、位相のシフト量が可変であるという特性を持つものである。

スイッチ２２は、力み実時間範囲決定部１２からの入力に従って、オールパスフィルタ２１の出力を加算器２３へ入力するか否かを切り替えるスイッチである。

加算器２３は、オールパスフィルタ２１の出力信号と入力音声信号とを加算する処理部である。

次に、上記のような構成の力み変換部２０の動作を図１４に従って説明する。

まず、力み変換部２０は、音声信号、音韻ラベル、ならびに音声の読み情報および韻律情報を取得する（ステップＳ１）。このとき、音韻ラベルは力み実時間範囲決定部１２へ入力され、音声の読み情報および韻律情報は、力み音韻位置決定部１１へ入力される。また、音声信号は、加算器２３へ入力される。

次に、力み音韻位置決定部１１は、実施の形態１と同様に読み情報と韻律情報とを力み易さ推定規則に当てはめて当該音韻の力み易さを求め、力み易さがあらかじめ定められた閾値を越えた場合に当該音韻を力み位置と決定する（ステップＳ２）。

力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と、音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を音声信号上の時間範囲として特定し（ステップＳ３）、スイッチ２２へ切り替え信号を出力する。

一方、周期信号生成部１３は、８０Ｈｚの正弦波を生成し（ステップＳ４）、オールパスフィルタ２１へ出力する。

オールパスフィルタ２１は、周期信号生成部１３より出力された８０Ｈｚの正弦波に従って位相シフト量を制御する（ステップＳ２５）。

入力される音声信号が力み実時間範囲決定部１２より出力された「力み音声」で発声されるべき時間範囲に含まれる場合には（ステップＳ２６でｙｅｓ）、スイッチ２２は、オールパスフィルタ２１と加算器２３とを接続し（ステップＳ２７）、加算器２３は、入力音声信号にオールパスフィルタ２１の出力を加算する（ステップＳ２８）。オールパスフィルタ２１より出力された音声信号は位相シフトされているため、位相が逆転している高調波成分は、変形されていない入力音声信号と打ち消しあう。オールパスフィルタ２１は、周期信号生成部１３より出力された８０Ｈｚの正弦波信号に従って位相のシフト量を周期的に変動させている。このため、オールパスフィルタ２１の出力と入力音声信号とを加算することで、信号が打ち消しあう量を８０Ｈｚで周期的に変動させることになる。これにより、加算結果の信号は８０Ｈｚで周期的に振幅が変動することになる。

一方、音声信号が力み実時間範囲決定部１２より出力された「力み音声」で発声されるべき時間範囲に含まれない場合には（ステップＳ２６でｎｏ）、スイッチ２２はオールパスフィルタ２１と加算器２３との接続を遮断し、力み変換部２０は入力音声信号をそのまま出力する（ステップＳ２９）。

かかる構成によれば、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させる。このことにより、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ話し方または元気のある話し方のような、微細な時間構造を持った、質感のあるリアルな感情音声を生成することができる。本実施の形態では、音韻の時間長より周期が短い周期的な振幅の変動を生成するため、すなわち音声信号のエネルギーを強めたり弱めたりするために、オールパスフィルタによって位相シフト量を周期的に変動させた信号を、原波形に加算するという方式を採用した。オールパスフィルタによる位相変化は、周波数に対して一様でない。このため、音声に含まれる様々な周波数成分には強められるものと弱められるものとが混在する。実施の形態１では全ての周波数成分が同一の振幅変化をするのに対し、本実施の形態を取ることによってより複雑な振幅変化を生み出すことができ、聴感上の自然さを損ねず、人工的な歪を感じにくいという利点がある。

なお、本実施の形態ではステップＳ４において周期信号生成部１３が８０Ｈｚの正弦波を出力するものとしたが、周波数は４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、正弦波以外の周期性信号でも良い。したがって、オールパスフィルタ２１の位相のシフト量の変動周波数は４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、オールパスフィルタ２１は、正弦波以外の変動の特性を持つものとしても良い。

なお、本実施の形態ではスイッチ２２はオールパスフィルタ２１と加算器２３との接続を切り替えるものとしたが、オールパスフィルタ２１への入力の入り、切りを切り替えるものとしても良い。

なお、本実施の形態ではスイッチ２２によってオールパスフィルタ２１と加算器２３との接続を切り替えることで力み音声変換部分と非変換部分とを切り替えたが、加算器２３において、入力音声信号とオールパスフィルタ２１の出力とに重みをつけて加算することにより、力み音声変換部分と非変換部分とを切り替えるものとしても良い。またはオールパスフィルタ２１と加算器２３との間に増幅器を設けることにより、入力音声信号とオールパスフィルタ２１の出力との重みを変更することで、力み音声変換部分と非変換部分とを切り替えるものとしても良い。

（実施の形態２の変形例）
図１５は実施の形態２の力み変換部の変形例の機能ブロック図であり、図１６は実施の形態２の力み変換部の変形例の動作を示すフローチャートである。図７および図８と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１５に示されるように、本変形例の力み変換部２０の構成は実施の形態２の図７に示す力み変換部２０と同じであるが、実施の形態２において音声信号を入力として受け付けていたものを、音源波形を入力として受付けるものとする。この変更に伴い、音声波形を生成するために音源波形によって駆動される声道フィルタ６１が設けられている。

次に、上記のような構成の力み変換部２０の動作を図１６に従って説明する。まず、力み変換部２０は音源波形、音韻ラベル、ならびに音声の読み情報および韻律情報を取得する（ステップＳ６１）。このとき、音韻ラベルは力み実時間範囲決定部１２へ入力され、音声の読み情報および韻律情報は力み音韻位置決定部１１へ入力される。また、音源波形は加算器２３へ入力される。次に、力み音韻位置決定部１１は、実施の形態２と同様に、読み情報と韻律情報とを力み易さ推定規則に当てはめて当該音韻の力み易さを求め、力み易さがあらかじめ定められた閾値を越えた場合に当該音韻を力み位置と決定する（ステップＳ２）。力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を音源波形上の時間範囲として特定し（ステップＳ６３）、スイッチ２２へ切り替え信号を出力する。一方、周期信号生成部１３は、８０Ｈｚの正弦波を生成し（ステップＳ４）、オールパスフィルタ２１へ出力する。オールパスフィルタ２１は、周期信号生成部１３より出力された８０Ｈｚの正弦波に従って位相シフト量を制御する（ステップＳ２５）。スイッチ２２は、入力される音源波形が力み実時間範囲決定部１２より出力された「力み音声」で発声されるべき時間範囲に含まれる場合には（ステップＳ２６でｙｅｓ）、オールパスフィルタ２１と加算器２３とを接続し（ステップＳ２７）、加算器２３は、入力音源波形にオールパスフィルタ２１の出力を加算し（ステップＳ７８）、声道フィルタ６１に出力する。一方、音源波形が力み実時間範囲決定部１２より出力された「力み音声」で発声されるべき時間範囲に含まれない場合には（ステップＳ２６でｎｏ）、スイッチ２２はオールパスフィルタ２１と加算器２３との接続を遮断し、力み変換部２０は入力音源波形をそのまま声道フィルタ６１に出力する。声道フィルタ６１は実施の形態１の変形例と同様に、力み変換部１０に入力された音源波形に対応する声道フィルタを制御するための情報を入力として受付け、振幅変調部１４から出力される音源波形に対応する声道フィルタを形成する。振幅変調部１４から出力された音源波形は声道フィルタ６１を通過し、音声波形が生成される（ステップＳ６７）。

かかる構成によれば、実施の形態２と同様、適切な位置に「力み」音声を発生させることで、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ話し方、または元気のある話し方のような、微細な時間構造を持った、質感のあるリアルな感情音声を生成することができる。また、オールパスフィルタによる位相変化を利用して振幅変調を行うことで、より複雑な振幅変化を生み出すことで聴感上の自然さを損ねず、聴取者は人工的な歪を感じにくい。さらに、実施の形態１の変形例と同様、主に口および舌の形状に関係する声道フィルタでは無く、音源波形に変調を掛けることによって、より実際の発声時の現象に近く、人工的な歪を感じにくいより自然な「力み」音声を生成することができる。

なお、本実施の形態ではステップＳ４において周期信号生成部１３は８０Ｈｚの正弦波を出力し、オールパスフィルタ２１の位相シフト量もこれに従うものとしたが、変動周波数は４０Ｈｚ−１２０Ｈｚの間のいずれの周波数でもよく、オールパスフィルタ２１は正弦波以外の変動の特性を持つものとしても良い。

なお、本実施の形態ではスイッチ２２はオールパスフィルタ２１と加算器２３との接続を切り替えるものとしたが、オールパスフィルタへの入力の入り、切りを切り替えるとしても良い。

なお、本実施の形態ではスイッチ２２によってオールパスフィルタ２１と加算器２３との接続を切り替えることで力み音声変換部分と非変換部分とを切り替えたが、加算器２３において、入力音声信号とオールパスフィルタ２１の出力とに重みをつけて加算することにより力み音声変換部分と非変換部分とを切り替えるものとしてもよい。またはオールパスフィルタ２１と加算器２３との間に増幅器を設けることで入力音声信号とオールパスフィルタ２１の出力との重みを変更することで力み音声変換部分と非変換部分とを切り替えるものとしても良い。

（実施の形態３）
図１７は実施の形態３の音声変換装置の構成を示す機能ブロック図である。図１８は本実施の形態の同左を示すフローチャートである。図１および図１０と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１７に示されるように、本発明の音声変換装置は、入力された音声信号を力みのある音声信号に変換する装置であり、音素認識部３１と、韻律分析部３２と、力み範囲指定入力部３３と、スイッチ３４と、力み変換部１０とを備えている。

力み変換部１０は、実施の形態１と同様であるので、その詳細な説明は繰り返さない。

音素認識部３１は、入力される音声を受付け、入力音声を音響モデルと照合し、音素列を出力する処理部である。

韻律分析部３２は、入力される音声を受付け、入力音声の基本周波数およびパワーを分析する処理部である。

力み範囲指定入力部３３は、使用者が力み音声に変換したい音声の範囲を指定する処理部である。例えば、力み範囲指定入力部３３は、マイクロフォンまたは拡声器に設けられた「力みスイッチ」であり、使用者が力みスイッチを押し続ける間に入力された音声を「力み範囲」として指定する。または、力み範囲指定入力部３３は、使用者が入力音声を監視しながら力み音声に変換したい音声が入力されている間「力みスイッチ」を押し続け、「力み範囲」を指定するための入力装置等である。

スイッチ３４は、音素認識部３１および韻律分析部３２の出力を、力み音韻位置決定部１１へ入力するか否かを切り替えるスイッチである。

次に、上記の構成の音声変換装置の動作を図１８に従って説明する。

まず、音声が音声変換装置に入力される。このとき、入力音声は、音素認識部３１と韻律分析部３２とに入力される。音素認識部３１は、入力された音声信号をスペクトル分析し、入力音声のスペクトル情報と音響モデルとを照合し、入力された音声の音素を決定する（ステップＳ３１）。

一方、韻律分析部３２は、入力された音声の基本周波数分析を行い、さらにパワーを求める（ステップＳ３２）。スイッチ３４は、力み範囲指定入力部３３からの力み範囲指定入力があるか否かを判定する（ステップＳ３３）。

力み範囲指定入力がある場合には（ステップＳ３３でｙｅｓ）、力み音韻位置決定部１１は、読み情報と韻律情報とを力み易さ推定規則に当てはめて当該音韻の力み易さを求め、力み易さがあらかじめ定められた閾値を越えた場合に当該音韻を力み位置と決定する（ステップＳ２）。実施の形態１では数量化ＩＩ類の独立変数のうち韻律情報として、アクセント核からの距離、またはアクセント句内での位置を用いる例を示したが、本実施の形態では韻律情報として基本周波数の絶対値、基本周波数の時間軸に対する傾き、またはパワーの時間軸に対する傾き等、韻律分析部３２により分析された値を用いるものとする。

力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と、音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を音声信号上の時間範囲として特定する（ステップＳ３）。

振幅変調部１４は、「力み位置」として特定された音声信号の実時間範囲について、周期信号生成部１３が生成した８０Ｈｚで振動する周期信号を入力音声信号に乗ずることで、入力音声信号の振幅変調を行い（ステップＳ６）、音韻の時間長より周期が短い振幅の周期的変動を含む「力み」音声への変換を行い、力み音声を出力する（ステップＳ３４）。

力み範囲指定入力がない場合は（ステップＳ３３でｎｏ）、振幅変調部１４は、入力音声信号を変形せずにそのまま出力する（ステップＳ２９）。

かかる構成によれば、入力音声のうち使用者の指定範囲において、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させる。このことにより、入力音声を一様に変形する際にそれぞれ生じる、雑音が重畳しているような違和感および音質が劣化したような印象を起こすことなく、入力音声に発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ印象、または元気のある印象を、微細な時間構造を再現して、声の質感としてリアルに付け加え、音声をより一層表情豊かなものに変換することができる。すなわち、入力が音声のみである場合にも、力み位置を推定するために必要な情報を抽出することができ、入力音声を適切な位置で「力み」音声を発声する表情豊かな音声に変換することができる。

なお、本実施の形態では、力み範囲指定入力部３３によって制御され、かつ音素認識部３１および韻律分析部３２と力み音韻位置決定部１１との接続を切り替えるスイッチ３４によって、使用者の指定する範囲の音声についてのみ、力み音韻位置を決定するものとしたが、スイッチを音素認識部３１と韻律分析部３２との入力部分に置き換え、音素認識部３１と韻律分析部３２とへの音声信号の入力の入り、切りを切り替えるものとしても良い。

なお、本実施の形態では、力み変換部１０によって力み音声への変換を行ったが、実施の形態２に示した力み変換部２０によって力み音声への変換を行うものとしても良い。

（実施の形態３の変形例）
図１９は実施の形態３の音声変換装置の変形例の機能ブロック図であり、図２０は実施の形態３の音声変換装置の変形例の動作を示すフローチャートである。図９および図１０と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図１９に示されるように、本変形例の音声変換装置の構成は実施の形態３の図９同様に力み範囲指定入力部３３と、スイッチ３４と、力み変換部１０とを備える。本変形例の音声変換装置は、さらに、入力音声を受付け、ケプストラム分析を行う声道フィルタ分析部８１と、声道フィルタ分析部より出力されるケプストラム係数に基づいて音素認識を行う音素認識部８２と、声道フィルタ分析部より出力されるケプストラム係数に基づいて形成される逆フィルタ８３と、逆フィルタ８３によって抽出された音源波形より韻律を分析する韻律分析部８４と、声道フィルタ６１とを備える。

次に、上記の構成の音声変換装置の動作を図２０に従って説明する。まず、音声が音声変換装置に入力される。このとき、入力音声は声道フィルタ分析部８１に入力される。声道フィルタ分析部８１は、入力された音声信号をケプストラム分析し、入力音声の声道フィルタを決定するケプストラム係数列を求める（ステップＳ８１）。音素認識部８２は、声道フィルタ分析部８１より出力されたケプストラム係数と音響モデルとを照合し、入力された音声の音素を決定する（ステップＳ８２）。一方、逆フィルタ８３は、声道フィルタ分析部８１より出力されたケプストラム係数を用いて逆フィルタを形成し、入力された音声の音源波形を生成する（ステップＳ８３）。韻律分析部８４は、逆フィルタ８３より出力された音源波形の基本周波数分析を行い、さらにパワーを求める（ステップＳ８４）。力み音韻位置決定部１１は、力み範囲指定入力部３３からの力み範囲指定入力があるか否かを判定する（ステップＳ３３）。力み範囲指定入力がある場合には（ステップＳ３３でｙｅｓ）、力み音韻位置決定部１１は、読み情報と韻律情報とを力み易さ推定規則に当てはめて、当該音韻の力み易さを求め、力み易さがあらかじめ定められた閾値を越えた場合に、当該音韻を力み位置と決定する（ステップＳ２）。力み実時間範囲決定部１２は、力み音韻位置決定部１１で音韻単位で決定された力み位置と音韻ラベルとの対応をとり、音韻単位の力み音声の時間位置情報を、音源波形上の時間範囲として特定する（ステップＳ６３）。一方、周期信号生成部１３は、８０Ｈｚの正弦波を生成し（ステップＳ４）、その正弦波信号に直流成分を加えた信号を生成する（ステップＳ５）。振幅変調部１４は、「力み位置」として特定された音源波形の実時間範囲について、周期信号生成部１３が生成した８０Ｈｚで振動する周期信号を音源波形に乗ずることで振幅変調を行う（ステップＳ６６）。声道フィルタ６１は、声道フィルタ分析部８１より出力されたケプストラム係数列すなわち声道フィルタの制御情報に基づき声道フィルタを形成する。振幅変調部１４から出力された音源波形は、声道フィルタ６１を通過し、音声波形が生成される（ステップＳ６７）。

かかる構成によれば、入力音声のうち使用者の指定範囲において、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させることで、入力音声を一様に変形する際に生じる雑音が重畳しているような違和感や音質が劣化したような印象を起こすことなく、入力音声に発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ印象、または元気のある印象を、微細な時間構造を再現して、声の質感としてリアルに付け加え、音声をより一層表情豊かなものに変換することができる。すなわち、入力が音声のみである場合にも力み位置を推定するために必要な情報を抽出することができ、入力音声を適切な位置で「力み」音声を発声する表情豊かな音声に変換することができる。さらに、実施の形態１の変形例と同様、主に口や舌の形状に関係する声道フィルタでは無く、音源波形に変調を掛けることでより実際の発声時の現象に近く、人工的な歪を感じにくいより自然な「力み」音声を生成することができる。

なお、本実施の形態では、力み範囲指定入力部３３によって制御され、音素認識部８２および韻律分析部８４と力み音韻位置決定部１１との接続を切り替えるスイッチ３４によって使用者の指定する範囲の音声についてのみ力み音韻位置を決定するものとしたが、スイッチを音素認識部８２と韻律分析部８４との入力部分に置き換え、音素認識部８２と韻律分析部８４への入力の入り、切りを切り替えるものとしても良い。

なお、本実施の形態では、力み変換部１０によって力み音声への変換を行ったが、実施の形態２およびその変形例に示した力み変換部２０によって力み音声への変換を行うものとしても良い。

（実施の形態４）
図２１は、実施の形態４の音声合成装置の構成を示す機能ブロック図である。図２２は本実施の形態の同左を示すフローチャートである。図２３は本実施の形態の１の変形例の音声合成装置の構成を示す機能ブロック図である。図２４および図２５は変形例の音声合成装置への入力例を示す図である。図２１および図２２について、図１および図１０と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図２１に示されるように、本発明の音声合成装置は、入力されたテキストを読み上げた音声を合成する装置であり、テキスト入力部４０と、言語処理部４１と、韻律生成部４２と、波形生成部４３と、力み範囲指定入力部４４と、力み音韻位置指定部４６と、切り替え入力部４７と、スイッチ４５と、スイッチ４８と、力み変換部１０とを備えている。

テキスト入力部４０は、使用者の入力によるテキストまたは他の方法によるテキストの入力を受付け、言語処理部４１および力み範囲指定入力部４４に出力する処理部である。

言語処理部４１は、入力テキストを受付け、形態素解析によってテキストを単語に分割してその読みを特定し、さらに構文解析により単語間の係り受け関係を明らかにして単語の読みの変形を行いアクセント句やフレーズといった記述的韻律情報を生成する処理部である。

韻律生成部４２は、言語処理部４１より出力された読みと記述的韻律情報とより、各音韻およびポーズの時間長、基本周波数、振幅またはパワーの値を生成する処理部である。

波形生成部４３は、言語処理部４１より出力された読み情報と韻律生成部４２より出力された音韻およびポーズの時間長、基本周波数、振幅またはパワーの値とを受付け、指定された音声波形を生成する処理部である。波形生成部４３は、波形接続型の音声合成方式であれば、素片選択部と素片データベースとを備える。また、波形生成部４３は、規則合成型の音声合成方式であれば、採用する生成モデルに合わせて、生成モデルと信号生成部とを備える。

力み範囲指定入力部４４は、使用者が力み音声で発声させたいテキスト上の範囲を指定する処理部である。例えば、使用者が入力したテキストをディスプレイ（display）に表示し、テキストの表示をポインティングすることで反転させてテキスト上で「力み範囲」を指定するための入力装置等である。

力み音韻位置指定部４６は、使用者が力み音声で発声させたい範囲を音韻単位で指定する処理部である。例えば言語処理部４１が出力した音韻列をディスプレイに表示し、表示された音韻列をポインティングすることで反転させて音韻単位で「力み位置」を指定するための入力装置等である。

切り替え入力部４７は、力み音韻位置を使用者が設定する方法と自動で設定する方法とを切り替える入力を受付け、スイッチ４８を制御する処理部である。

スイッチ４５は、スイッチ４８を経由して言語処理部４１と力み音韻位置決定部１１との接続を切り替えるスイッチであり、スイッチ４８は、力み音韻位置決定部１１への入力を言語処理部４１の出力と、力み音韻位置指定部４６からの使用者の入力との間で切り替えるスイッチである。

次に、上記の構成の音声合成装置の動作を図２２に従って説明する。

まず、テキスト入力部４０は、入力テキストを受付ける（ステップＳ４１）。テキストの入力とは、例えばキーボードからの入力、既に記録されたテキストデータの入力、および文字認識による読み込み等である。テキスト入力部４０は、入力テキストを言語処理部４１および力み範囲指定入力部４４に出力する。

言語処理部４１は、形態素解析および構文解析により音韻列と記述的韻律情報とを生成する（ステップＳ４２）。形態素解析および構文解析では、例えばＮｇｒａｍのような、言語モデルと辞書とを用い、入力テキストとモデルとのマッチングを取ることで、最適な単語分割を行い、各単語の係り受けの解析を行う。また、単語の読みと単語間の係り受けに基づき、アクセント、アクセント句、フレーズといった記述的韻律情報を生成する。

韻律生成部４２は、言語処理部４１より出力された音韻情報と記述的韻律情報とを取得し、音韻列と記述的韻律情報とに基づいて各音韻およびポーズの時間長、基本周波数、パワーまたは振幅の値を決定する（ステップＳ４３）。韻律の数値情報の生成は、例えば、統計的学習によって作られた韻律生成モデル、または発声機構から導かれた韻律生成モデルに基づいて行なわれる。

波形生成部４３は、言語処理部４１から出力された音韻情報と韻律生成部４２より出力された韻律数値情報とを受付け、対応する音声波形を生成する（ステップＳ４４）。波形生成方法としては、例えば、音韻列と韻律情報とに従って最適な音声素片を選択して接続する波形接続による方法、韻律情報に従って音源信号を生成し、音韻列に従って設定した声道フィルタを通過させることで音声波形を生成する方法、および、音韻列と韻律情報とから、スペクトルパラメータを推定して音声波形を生成する方法等がある。

一方、力み範囲指定入力部４４は、ステップＳ４１で入力されたテキストを取得し、使用者に提示する（ステップＳ４５）。また、力み範囲指定入力部４４は、使用者がテキスト上で指定する力み範囲を取得する（ステップＳ４６）。

力み範囲指定入力部４４に入力テキストの全部または一部を指定する入力がない場合（ステップＳ４７でＮｏ）、力み範囲指定入力部４４はスイッチ４５を切断し、本実施の形態の音声合成装置はステップＳ４４で生成された合成音声を出力する（ステップＳ５３）。

力み範囲指定入力部４４に入力テキストの全部または一部を指定する入力がある場合には（ステップＳ４７でＹｅｓ）、力み範囲指定入力部４４は、入力テキスト中の力み範囲を特定し、スイッチ４５を接続することにより、言語処理部４１より出力された音韻情報・記述的韻律情報および力み範囲情報をスイッチ４８へ接続する。また、言語処理部４１より出力された音韻列は、力み音韻位置指定部４６へ出力され、使用者に提示される（ステップＳ４９）。

力み範囲としての大まかな範囲指定ではなく、力み音韻位置を詳細に指定したい使用者は、力み音韻位置を手動で入力指定することができるようにするために、切り替え入力部４７に切り替え入力をする。

力み音韻位置指定への切り替え入力がある場合（ステップＳ５０でＹｅｓ）、切り替え入力部４７は、スイッチ４８を力み音韻位置指定部４６に接続する。力み音韻位置指定部４６は、使用者の力み音韻位置指定情報を受付ける（ステップＳ５１）。使用者は、例えばディスプレイに提示された音韻列上で力み音声で発声されるべき音韻を指定することにより、力み音韻位置を指定する。

力み音韻位置指定入力がない場合（ステップＳ５２でＮｏ）、力み音韻位置決定部１１は力み音韻位置としていずれの音韻も指定せず、本実施の形態の音声合成装置はステップＳ４４で生成された合成音声を出力する（ステップＳ５３）。

一方、力み音韻位置指定入力がある場合（ステップＳ５２でＹｅｓ）、力み音韻位置決定部１１は、ステップＳ５１で力み音韻位置指定部４６より入力された音韻位置を力み音韻位置として決定する。

力み音韻位置指定への切り替え入力がない場合は（ステップＳ５０でＮｏ）、力み音韻位置決定部１１は、ステップＳ４８で特定された力み範囲に対して実施の形態１と同様に、音韻ごとに、音声の読み情報および韻律情報を「力み易さ」推定式に当てはめ、各音韻の「力み易さ」を求める。また、力み音韻位置決定部１１は、求めた「力み易さ」があらかじめ定められた閾値を越えた音韻を「力み位置」として決定する（ステップＳ２）。実施の形態１では数量化ＩＩ類を用いる例を示したが、本実施の形態では音韻情報および韻律情報を入力とするＳＶＭ（Support Vector Machine）を用いて、音声が力んでいたか、力んでいなかったかの２クラスの分類を予測するものとする。ＳＶＭについても他の統計的手法と同様、「力み」音声を含む学習用音声データについて、音韻ごとに当該音韻、直前音韻、直後音韻、アクセント句内位置、ならびにアクセント核に対する相対位置、フレーズ内位置および文中位置を入力とし、当該音声が力み音声であったか否かを推定するモデルが学習される。力み音韻位置決定部１１は、言語処理部４１が出力した音韻情報および記述的韻律情報より、ＳＶＭの入力変数である当該音韻、直前音韻、直後音韻、アクセント句内位置、ならびにアクセント核に対する相対位置、フレーズ内位置および文中位置を抽出し、各音韻が力み音声で発声されるべきか否かを決定する。

力み実時間範囲決定部１２は、「力み位置」として決定された音韻の時間位置情報を、韻律生成部４２が出力する各音韻の時間長情報すなわち音韻ラベルに基づいて、波形生成部４３が出力する合成音声波形上の時間範囲として特定する（ステップＳ３）。

実施の形態１と同様に、周期信号生成部１３は、周波数８０Ｈｚの正弦波を生成し（ステップＳ４）、正弦波に直流成分を加算する（ステップＳ５）。

振幅変調部１４は、「力み位置」として特定された音声信号の時間範囲について、合成音声信号に直流成分を加算した周期成分を乗じる（ステップＳ６）。本実施の形態の音声合成装置は、力み音声を含んだ合成音声を出力する（ステップＳ３４）。

かかる構成によれば、入力テキストのうち使用者の指定範囲において、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させる。または入力テキストを音声に変換する際の音韻列のうち使用者の指定する音韻において、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、「力み」音声を発生させる。このことにより、入力音声を一様に変形する際に生じる雑音が重畳しているような違和感および音質が劣化したような印象を起こすことがなくなる。また、使用者の自由なデザインにより、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ印象または元気のある印象を、微細な時間構造として再現し、かつ、これらを声の質感として、入力音声にリアルに付け加えて詳細に音声の表情をつくりこむことができる。すなわち、変換元となる音声入力がない場合にも、入力テキストより合成音声を生成し、変換元となる音声を生成することで、適切な位置で「力み」音声を発声する表情豊かな音声に変換することができる。さらには、「力み」音声による素片データベースおよび合成パラメータデータベースを必要とせず、簡単な信号処理のみで力み音声を生成することができる。このため、データ量および計算量を大幅に増大させることなく、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ話し方または元気のある話し方のような、微細な時間構造による質感のあるリアルな感情音声を生成することができる。

なお、本実施の形態では、力み範囲指定入力部４４を用いて使用者がテキスト上で力み範囲を指定することにより力み範囲を入力し、入力されたテキスト上の範囲に対応する合成音声中で力み音韻位置を決定し、力み音声を発生させるものとしたが、この方法に限定されるものではない。例えば、図２４のような力み範囲を示すタグ情報が付随したテキストを入力として受付け、力み範囲指定取得部５１がタグ情報と合成音声に変換すべきテキストの情報とを分離し、タグ情報を解析してテキスト上での力み範囲指定情報を取得するものとしても良い。また、「力み音韻位置指定部４６」の入力についても、例えば図２４および図２５に示す、特許文献：特開２００６−２２７５８９号公報に記載のような形式により、音韻ごとに力み音声で発声するか否かを指定するタグによって指定するものとしても良い。図２４のタグ情報は＜ｖｏｉｃｅ＞タグに囲まれた領域のテキストを合成する際の音声について、「ｑｕａｌｉｔｙ（声質）」を「力み」で合成することを指定するものである。すなわち「あらゆる現実をすべて自分の方へ捻じ曲げたのだ。」というテキストのうち「捻じ曲げたのだ」の範囲について「力み」音声を指定するものである。図２５のタグ情報は、＜ｖｏｉｃｅ＞タグで囲まれた範囲のうち、先頭から５モーラの音韻について「力み」音声を指定するものである。

なお、本実施の形態では力み音韻位置決定部１１は言語処理部４１より出力された音韻情報とアクセント等の記述的韻律情報とを用いて力み音韻位置を推定するものとしたが、韻律生成部４２を言語処理部４１と同様にスイッチ４５に接続し、スイッチ４５は言語処理部４１と韻律生成部４２の出力を力み音韻位置決定部１１に接続するものとしても良い。これにより、力み音韻位置決定部１１は、言語処理部４１より出力された音韻情報と、韻律生成部４２より出力された基本周波数やパワーの数値情報を用いて、実施の形態３のように音韻情報と物理量としての韻律情報である基本周波数やパワーの値とを用いて力み音韻位置を推定するものとしても良い。

なお、本実施の形態では力み音韻位置を使用者が指定するために切り替え入力部４７を設けてスイッチ４８を切り替えたが、力み音韻位置指定部４６に入力がある場合にスイッチを切り替えるものとしても良い。

なお、本実施の形態ではスイッチ４８は力み音韻位置決定部１１への入力を切り替えるものとしたが、力み音韻位置決定部１１から力み実時間範囲決定部１２への接続を切り替えるものとしても良い。

なお、実施の形態３の力み範囲指定入力部３３および実施の形態４の力み範囲指定入力部４４は、力み音声を発声させる範囲を指定するものとしたが、音声を力ませない範囲を指定するものとしても良い。

なお、本実施の形態では、韻律生成部４２は言語処理部４１より出力された読みと記述的韻律情報より、各音韻およびポーズの時間長、基本周波数、振幅またはパワーの値を生成するものとしたが、読みと記述的韻律情報に加えて、力み範囲指定入力部４４の出力を受付け、力み範囲について基本周波数のダイナミックレンジを大きくし、さらにパワーまたは振幅の平均値を大きくし且つダイナミックレンジを大きくするものとしても良い。これにより、変換元の音声を「力み」音声が発生する音声としてよりふさわしい、力を入れて発声しているものにすることができ、より一層質感のあるリアルな感情表現が可能となる。

（実施の形態４の他の変形例）
図２６は実施の形態４の音声合成装置の他の変形例の機能ブロック図であり、図２７は実施の形態４の音声合成装置の他の変形例の動作を示すフローチャートである。図１３および図１４と同じ構成要素については同じ符号を用い、その詳細な説明は繰り返さない。

図２６に示されるように、本変形例の音声変換装置の構成は、実施の形態４の図１３と同様に、テキスト入力部４０と、言語処理部４１と、韻律生成部４２と、力み範囲指定入力部４４と、力み音韻位置指定部４６と、切り替え入力部４７と、スイッチ４５と、スイッチ４８と、力み変換部１０とを備える。また、本変形例の音声変換装置は、波形接続によって音声波形を生成する波形生成部４３に替わり、音源波形を生成する音源波形生成部９３、声道フィルタの制御情報を生成するフィルタ制御部９４および声道フィルタ６１を備える。

次に、上記の構成の音声変換装置の動作を図２７に従って説明する。まず、テキスト入力部４０は、入力テキストを受付け（ステップＳ４１）、入力テキストを言語処理部４１および力み範囲指定入力部４４に出力する。言語処理部４１は、形態素解析および構文解析により音韻列と記述的韻律情報を生成する（ステップＳ４２）。韻律生成部４２は、言語処理部４１より出力された音韻情報と記述的韻律情報とを取得し、音韻列と記述的韻律情報とに基づいて各音韻およびポーズの時間長、基本周波数、パワーまたは振幅の値を決定する（ステップＳ４３）。音源波形生成部９３は、言語処理部４１より出力された音韻情報と韻律生成部４２より出力された韻律数値情報とを受付け、それらに対応する音源波形を生成する（ステップＳ９４）。音源波形は、例えば、Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデル（非特許文献：Ｋｌａｔｔ，Ｄ．ａｎｄＫｌａｔｔ，Ｌ． “Analysis, synthesis, and perception of voice quality variations among female and male talkers”，Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍｅｒ．Ｖｏｌ．８７，８２０−８５７，１９９０）のような音源モデルの制御パラメータを、音韻および韻律数値情報に対応して生成することにより生成される。音源モデルのパラメータのうち声門開放度および音源スペクトル傾斜等を用いた音源波形の生成方法としては、基本周波数、パワー、振幅、音声の継続時間長および音韻から統計的に上記パラメータを推定することにより音源波形を生成する方法、または、自然音声から抽出された音源波形を記録したデータベースより音韻と韻律情報とに従って最適な音源波形を選択して接続する方法等がある。フィルタ制御部９４は、言語処理部４１より出力された音韻情報と韻律生成部４２より出力された韻律数値情報とを受付け、それらの情報に対応するフィルタ制御情報を生成する（ステップＳ９５）。声道フィルタの決定方法としては、例えば、音韻に従って複数のバンドパスフィルタの中心周波数と帯域とを設定する方法、または、ケプストラム係数若しくはスペクトルを音韻、基本周波数およびパワー等より統計的に推定し、それに従ってフィルタの係数を設定する方法等がある。一方、力み範囲指定入力部４４は、ステップＳ４１で入力されたテキストを取得し、使用者に提示する（ステップＳ４５）。力み範囲指定入力部４４は、使用者がテキスト上で指定する力み範囲を取得する（ステップＳ４６）。力み範囲指定入力部４４に入力テキストの全部または一部を指定する入力がない場合（ステップＳ４７）、力み範囲指定入力部４４は、スイッチ４５を切断し、声道フィルタ６１は、ステップＳ９５で設定されたフィルタ制御情報に基づき声道フィルタを形成する。声道フィルタ６１は、ステップＳ９４で生成された音源波形から音声波形を生成する（ステップＳ６７）。ステップＳ４７において力み範囲指定入力部４４に入力テキストの全部または一部を指定する入力がある場合は（ステップＳ４７でＹｅｓ）、力み範囲指定入力部４４は、入力テキスト中の力み範囲を特定し、スイッチ４５を接続して言語処理部４１より出力された音韻情報・記述的韻律情報および力み範囲情報をスイッチ４８へ出力する（ステップＳ４８）。また、言語処理部４１より出力された音韻列は力み音韻位置指定部４６へ出力され、使用者に提示される（ステップＳ４９）。力み音韻位置を詳細に指定したい使用者は、力み音韻位置を手動で入力指定することができるようにするために、切り替え入力部４７に切り替えの入力をする。

力み音韻位置指定への切り替え入力がある場合（ステップＳ５０）、切り替え入力部４７は、スイッチ４８を力み音韻位置指定部４６に接続し、使用者の力み音韻位置指定情報を受付ける（ステップＳ５１）。力み音韻位置指定入力がない場合（ステップＳ５２でＮｏ）、力み音韻位置決定部１１は、力み位置としていずれの音韻も指定せず、声道フィルタ６１は、ステップＳ９５で設定されたフィルタ制御情報に基づき声道フィルタを形成する。声道フィルタ６１は、ステップＳ９４で生成された音源波形から音声波形を生成する（ステップＳ６７）。一方、ステップＳ５２において力み音韻位置指定入力がある場合（ステップＳ５２でＹｅｓ）、力み音韻位置決定部１１は、ステップＳ５１で力み音韻位置指定部４６より入力された音韻位置を力み音韻位置として決定する（ステップＳ６３）。ステップＳ５０で力み音韻位置指定への切り替え入力がない場合は（ステップＳ５０でＮｏ）、力み音韻位置決定部１１は、ステップＳ４８で特定された力み範囲に対して音韻ごとに、音声の読み情報および韻律情報を「力み易さ」推定式に当てはめ、各音韻の「力み易さ」を求め、「力み易さ」があらかじめ定められた閾値を越えた音韻を「力み位置」として決定する（ステップＳ２）。力み実時間範囲決定部１２は、「力み位置」として決定された音韻の時間位置情報を、韻律生成部４２が出力する各音韻の時間長情報すなわち音韻ラベルに基づいて、音源波形生成部９３が出力する合成音声波形上の時間範囲として特定する（ステップＳ６３）。周期信号生成部１３は、周波数８０Ｈｚの正弦波を生成し（ステップＳ４）、正弦波に直流成分を加算する（ステップＳ５）。振幅変調部１４は、「力み位置」として特定された音源波形の時間範囲について、音源波形に周期成分を乗ずる（ステップＳ６６）。声道フィルタ６１はステップＳ９５で設定されたフィルタ制御情報に基づき声道フィルタを形成し、ステップＳ６６で「力み位置」の振幅を変調された音源波形を通過させて音声波形を生成する（ステップＳ６７）。

かかる構成によれば、入力テキストのうち使用者の指定範囲において、音韻ごとの情報から推定規則に従ってその音韻を力み位置とするか否かを決定し、力み位置と推定された音韻についてのみ、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、適切な位置に「力み」音声を発生させる、または入力テキストを音声に変換する際の音韻列のうち使用者の指定する音韻において、音韻の時間長より周期が短い周期的な振幅変動を伴う変調を行って、「力み」音声を発生させる。このことにより、入力音声を一様に変形する際に生じる雑音が重畳しているような違和感および音質が劣化したような印象を起こすことがなくなる。また、使用者の自由なデザインにより、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ印象または元気のある印象を、微細な時間構造として再現し、かつ、これらを声の質感として、入力音声にリアルに付け加えて詳細に音声の表情をつくりこむことができる。すなわち、変換元となる音声入力がない場合にも、入力テキストより合成音声を生成し、変換元となる音声を生成することで、適切な位置で「力み」音声を発声する表情豊かな音声に変換することができる。さらには、「力み」音声による素片データベースおよび合成パラメータデータベースを必要とせず、簡単な信号処理のみで力み音声を生成することができる。このため、データ量および計算量を大幅に増大させること無く、発声器官の緊張の度合いを感じ取ることのできる、怒り、興奮、緊張、勢い込んだ話し方または元気のある話し方のような、微細な時間構造を持った、質感のあるリアルな感情音声を生成することができる。加えて、本変形例によれば、実施の形態３の変形例と同様、主に口や舌の形状に関係する声道フィルタではなく、音源波形に変調を掛けることで、より実際の発声時の現象に近く、人工的な歪を感じにくい、より自然な「力み」音声を生成することができる。

なお、実施の形態１、２および３では力み音韻位置決定部１１は数量化ＩＩ類による推定規則を用いるとし、実施の形態４ではＳＶＭによる推定規則を用いるとしたが、実施の形態１、２、および３においてＳＶＭによる推定規則を用い、実施の形態４で数量化ＩＩ類による推定規則を用いても良い。さらに、ニューラルネット等これ以外の方法に基づいた推定規則を用いるものとしても良い。

なお、実施の形態３ではリアルタイムに音声に力みを付与するものとしたが、録音音声を用いるものとしても良い。さらには、実施の形態４のように力み音韻位置指定部を備え、あらかじめ音素認識を行った録音音声に対して、力み音声に変換する音韻を使用者が指定するものとしても良い。

なお、実施の形態１、３および４では、周期信号生成部１３は８０Ｈｚの周期信号を生成するものとしたが、「力み」として聴取できる４０Ｈｚから１２０Ｈｚの間でランダムな周期変動を持つ周期信号を生成してもよい。歌唱において、旋律にあわせて母音の時間長を長く伸ばす場合が多くあるが、時間長の長い（例えば、３秒を越える）母音に一定の変動周波数で振幅変動を付加すると、音声と共にブザー音が聞こえる等の不自然な音が生成される場合がある。振幅変動の変動周波数をランダムに変化させることでブザー音または雑音の重畳のような印象を減らせる場合もある。そこで、変動周波数をランダムに変化させることで、より実際の音声の振幅変動に近づき、自然な音声を生成することができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明にかかる音声変換装置および音声合成装置は、人間が怒鳴ったとき、強調のために力を入れて話すとき、興奮または緊張して話すとき等に現れる、だみ声、荒れた声、ざらざらした声（harsh voice）や、演歌等の歌唱時に現れる「こぶし」や「うなり」のような表現、ブルースやロック等の歌唱時に現れる「シャウト」のような表現を行なう際に発生する、通常の発声とは異なる特徴を持った音声である「力み」音声を、力み音声用素片データベースおよび力み音声用パラメータデータベースを持つことなく、音韻の時間長より周期が短い周期的な振幅変動を含む変調を行うという単純な構成で生成することができる。また、その「力み」音声を音声中の適切な位置に生成することができる。このため、話者の発声器官の緊張や力の入り具合を、微細な時間構造を再現して、声の質感としてリアルに感じさせる表情豊かな音声を生成することができる。また、「力み」音声を音声中のどこに発生させるかを使用者がデザインすることもでき、音声の表情を詳細に調節して作りこむことができる。このような特徴を持つことで、カーナビゲーションシステム、テレビジョン受像機、オーディオシステム等の電子機器、またはロボット等の音声・対話インタフェース等として有用である。

本発明をカラオケに用いることもできる。例えば、マイクロフォンに「力み」変換スイッチを設け、歌い手が当該スイッチを押すことにより、入力音声に「力み」、「うなり」または「こぶし」といった表現をつけ加えることができる。さらにカラオケのマイクの握りに圧力センサやジャイロセンサをつけることで、歌い手が力を込めて歌っていることを検出し、検出結果に応答して声に自動的に表現をつけることも可能である。このようにして歌声に表現を付け加え、歌う楽しみを増大させることができる。

また、本発明を拡声器に用いれば演説や講演時に、強調したいところは「力み」音声への変換を指定し、力の入った説得力のある話し方にすることができる。

また、本発明を電話に利用すれば、迷惑電話に対して自分の声を「力み」音声に変換して相手へ送信することで、所謂「どすの効いた声」により迷惑電話を撃退することにも利用可能である。同様に、本発明をインターホンに用いれば、迷惑な来訪者を撃退することにも利用可能である。

本発明をラジオに利用すれば、強調したい単語またはジャンル等を登録しておき、使用者が興味のある情報を「力み」音声に変換して出力することで強調し、使用者が情報を聞き逃さないようにすることもできる。また、コンテンツ流通においては、同一コンテンツであっても利用者の特性や状況に応じて、「力み」範囲を変え、利用者に合った情報の訴求ポイントを強調することにも利用できる。

本発明を施設内の音声案内に用いれば、案内内容の危険度、緊急度または重要度に合わせて「力み」を付加し、聴取者の注意を引くことにも利用可能である。

さらには本発明を機器の内部状態を示す音声出力インタフェースに利用すれば、機器の稼動状態が高い場合や、計算量が大きい場合等の状況で音声を出力する際に「力み」を付加し、機器が「頑張っている」ように表現することでより親しみの持てるインタフェースを設計することにも利用可能である。

図１は、本発明の実施の形態１における音声変換装置または音声合成装置に含まれる力み変換部の構成を示すブロック図である。図２は、実際の音声に含まれる力み音声の波形例を示す図である。図３Ａは、実際の音声に含まれる力みのない音声の波形と波形の包絡の概形を示す図である。図３Ｂは、実際の音声に含まれる力みのある音声の波形と波形の包絡の概形を示す図である。図４Ａは、男性話者について、実際の音声に含まれる力み音声の基本周波数と振幅の変動周波数との関係を示した散布図である。図４Ｂは、女性話者について、実際の音声に含まれる力み音声の基本周波数と振幅の変動周波数との関係を示した散布図である。図５は、実際の音声の波形とその音声に８０Ｈｚの振幅変動を施した音声の波形の図である。図６は、２０人の被験者において、周期的な振幅変動を付加した音を「力んだ声」と判断した比率を被験者ごとに示す表である。図７は、聴取実験により確認された「力み」音声に聞こえる振幅変動周波数の範囲を示すグラフである。図８は、振幅変動の変調度を説明するための図である。図９は、聴取実験により確認された、「力み」音声に聞こえる振幅変動の変調度の範囲を示すグラフである。図１０は、本発明の実施の形態１における音声変換装置または音声合成装置に含まれる力み変換部の動作を示すフローチャートである。図１１は、本発明の実施の形態１の力み変換部の変形例の機能ブロック図である。図１２は、本発明の実施の形態１の力み変換部の変形例の動作を示すフローチャートである。図１３は、本発明の実施の形態２における音声変換装置または音声合成装置に含まれる力み変換部の構成を示すブロック図である。図１４は、本発明の実施の形態２における音声変換装置または音声合成装置に含まれる力み変換部の動作を示すフローチャートである。図１５は、本発明の実施の形態２の力み変換部の変形例の機能ブロック図である。図１６は、本発明の実施の形態２の力み変換部の変形例の動作を示すフローチャートである。図１７は、本発明の実施の形態３における音声変換装置の構成を示すブロック図である。図１８は、本発明の実施の形態３における音声変換装置の動作を示すフローチャートである。図１９は、本発明の実施の形態３の音声変換装置の変形例の機能ブロック図である。図２０は、本発明の実施の形態３の音声変換装置の変形例の動作を示すフローチャートである。図２１は、本発明の実施の形態４における音声合成装置の構成を示すブロック図である。図２２は、本発明の実施の形態４における音声合成装置の動作を示すフローチャートである。図２３は、本発明の実施の形態４の変形例における音声合成装置の構成を示すブロック図である。図２４は、本発明の実施の形態４の変形例における入力テキストの例を示す図である。図２５は、本発明の実施の形態４の変形例における入力テキストの例を示す図である。図２６は、本発明の実施の形態４の音声合成装置の他の変形例の機能ブロック図である。図２７は、本発明の実施の形態４の音声合成装置の他の変形例の動作を示すフローチャートである。

符号の説明

１０、２０力み変換部
１１力み音韻位置決定部
１２力み実時間範囲決定部
１３周期信号生成部
１４振幅変調部
２１オールパスフィルタ
２２、３４、４５、４８スイッチ
２３加算器
３１音素認識部
３２韻律分析部
３３、４４力み範囲指定入力部
４０テキスト入力部
４１言語処理部
４２韻律生成部
４３波形生成部
４６力み音韻位置指定部
４７切り替え入力部
５１力み範囲指定取得部

Claims

変換の対象となる音声中の力み音声に変換すべき音韻を指定する力み音韻位置指定手段と、
前記力み音韻位置指定手段により指定された音韻を表す音声波形に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す変調手段とを備える
ことを特徴とする力み変換装置。
前記変調手段は、前記力み音韻位置指定手段により指定された音韻を表す音声波形に、振幅の変動幅を百分率で定義した周期的な振幅変動の変調度が４０％以上でかつ８０％以下となる、周期的な振幅変動を伴う変調を施す
ことを特徴とする請求項１に記載の力み変換装置。
前記変調手段は、周期信号を音声波形に乗ずることにより周期的な振幅変動を伴う変調を前記音声波形に施す
ことを特徴とする請求項１または２に記載の力み変換装置。
前記変調手段は、
前記力み音韻位置指定手段により指定された音韻を表す音声波形の位相をずらすオールパスフィルタと、
前記力み音韻位置指定手段により指定された音韻を表す音声波形に、前記オールパスフィルタにより位相がずらされた音声波形を加算する加算手段とを備える
ことを特徴とする請求項１または２に記載の力み変換装置。
さらに、前記力み音韻位置指定手段によって指定される、変換の対象となる音声中の音韻を含み得る音声の範囲を指定する力み範囲指定手段を備える
ことを特徴とする請求項１または２に記載の力み変換装置。
音声波形を受付ける入力手段と、
力み音声に変換すべき音韻を指定する力み音韻位置指定手段と、
前記力み音韻位置指定手段による力み音声に変換すべき音韻の指定に従って、前記入力手段で受付けられた音声波形のうち、前記力み音韻位置指定手段によって指定された前記力み音声に変換すべき音韻を表す音声波形の部分に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す変調手段とを備える
ことを特徴とする音声変換装置。
さらに、前記力み音韻位置指定手段によって指定される、変換の対象となる音韻を含み得る音声の範囲を指定する力み範囲指定入力手段を備える
ことを特徴とする請求項６に記載の音声変換装置。
さらに、
前記音声波形の音韻列を認識する音韻認識手段と、
前記音声波形の韻律情報を抽出する韻律分析手段とを備え、
前記力み音韻位置指定手段は、前記音韻認識手段により認識された入力音声の音韻列と前記韻律分析手段により抽出された韻律情報とに基づいて力み音声に変換すべき音韻を指定する
ことを特徴とする請求項６に記載の音声変換装置。
音声波形を受付ける入力手段と、
使用者による力み音声に変換すべき音韻を指定する入力を受け付ける力み音韻位置入力手段と、
前記力み音韻位置入力手段による力み音声に変換すべき音韻の指定に従って、前記入力手段で受付けられた音声波形のうち、前記力み音韻位置指定手段によって指定された前記力み音声に変換すべき音韻を表す音声波形の部分に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す変調手段とを備える
ことを特徴とする音声変換装置。
テキストを受付ける入力手段と、
前記入力手段で受付けられた前記テキストを解析して読み情報と韻律情報とを生成する言語処理手段と、
前記読み情報と韻律情報とに従って音声波形を生成する音声合成手段と、
力み音声に変換すべき音韻を指定する力み音韻位置指定手段と、
前記音声合成手段で合成された音声波形のうち、前記力み音韻位置指定手段より指定された音韻を表す音声波形に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す変調手段とを備える
ことを特徴とする音声合成装置。
さらに、前記力み音韻位置指定手段によって指定される力み音声を生成すべき音韻を含み得る範囲を指定する力み範囲指定入力手段を備える
ことを特徴とする請求項１０に記載の音声合成装置。
前記入力手段は、変換すべき内容と共に、合成する音声の特性を指定する情報を含み、かつ当該情報は前記力み音声を生成すべき音韻を含みうる範囲の情報を含む、テキストを受付け、
前記音声合成装置は、前記入力手段で受付けられた前記テキストを解析して前記力み音声を生成すべき音韻を含みうる範囲を取得する力み範囲指定取得手段を備える
ことを特徴とする請求項１０に記載の音声合成装置。
前記力み音韻位置指定手段は、前記言語処理手段により生成された読み情報と韻律情報とに基づいて力み音声に変換すべき音韻を指定する
ことを特徴とする請求項１０に記載の音声合成装置。
前記力み音韻位置指定手段は、前記言語処理手段により生成された読み情報と前記音声合成手段により生成された音声波形の基本周波数、パワー、振幅、音韻時間長の少なくとも何れか一つとに基づいて、力み音声に変換すべき音韻を指定する
ことを特徴とする請求項１０に記載の音声合成装置。
さらに、使用者による力み音声に変換すべき音韻を指定する入力を受け付ける力み音韻位置入力手段を備え、
前記変調手段は、前記音声合成手段で合成された音声波形のうち、前記力み音韻位置入力手段により指定された音韻を表す音声波形に、周期的な振幅変動を伴う変調を施す
ことを特徴とする請求項１０に記載の音声合成装置。
変換の対象となる音声中の力み音声に変換すべき部分を音韻単位で指定し、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施す
ことを特徴とする音声変換方法。
力み音声を生成すべき音韻を指定し、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施した合成音声を生成する
ことを特徴とする音声合成方法。
変換の対象となる音声中の力み音声に変換すべき部分を音韻単位で指定するステップと、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施すステップとをコンピュータに実行させる
ことを特徴とする音声変換プログラム。
力み音声を生成すべき音韻を指定するステップと、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施した合成音声を生成するステップとをコンピュータに実行させる
ことを特徴とする音声合成プログラム。
音声変換プログラムを記録したコンピュータ読取可能な記録媒体であって、
前記音声変換プログラムは、
変換の対象となる音声中の力み音声に変換すべき部分を音韻単位で指定するステップと、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施すステップとをコンピュータに実行させるためのプログラムである
ことを特徴とするコンピュータ読取可能な記録媒体。
音声合成プログラムを記録したコンピュータ読取可能な記録媒体であって、
前記音声合成プログラムは、
力み音声を生成すべき音韻を指定するステップと、
前記指定された音韻位置において、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を音声波形に施した合成音声を生成するステップとをコンピュータに実行させるためのプログラムである
ことを特徴とするコンピュータ読取可能な記録媒体。
変換の対象となる音声中の力み音声に変換すべき音韻を指定する力み音韻位置指定手段と、
前記力み音韻位置指定手段により指定された音韻を表す音声波形の音源信号に、４０Ｈｚ以上でかつ１２０Ｈｚ以下の周波数の周期的な振幅変動を伴う変調を施す変調手段とを備える
ことを特徴とする力み変換装置。