JP2001215993A

JP2001215993A - 対話処理装置および対話処理方法、並びに記録媒体

Info

Publication number: JP2001215993A
Application number: JP2000022225A
Authority: JP
Inventors: Koji Asano; 康治浅野; Seiichi Aoyanagi; 誠一青柳; Miyuki Tanaka; 幸田中; Jun Yokono; 順横野; Toshio Oe; 敏生大江
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-01-31
Filing date: 2000-01-31
Publication date: 2001-08-10

Abstract

(57)【要約】【課題】ユーザの感情の状態によって、バリエーショ
ンに富んだ対話を行う。【解決手段】音声認識部２では、ユーザからの音声が
認識されるとともに、その音声の韻律情報が抽出され
る。対話管理部３では、音声認識部２による音声認識結
果に含まれる語句の概念情報が抽出される。画像入力部
６では、ユーザの顔が撮像され、顔画像情報が出力され
る。生理情報入力部７では、ユーザの脈拍数等の生理情
報が感知される。そして、ユーザ感情情報更新部８は、
上述の韻律情報や、概念情報、顔画像情報、生理情報に
基づいて、ユーザの感情を推定し、対話管理部３および
文生成部４では、その感情の推定結果に基づいて、ユー
ザに出力する出力文が生成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、対話処理装置およ
び対話処理方法、並びに記録媒体に関し、特に、例え
ば、ユーザの感情を考慮した対話を行うことができるよ
うにする対話処理装置および対話処理方法、並びに記録
媒体に関する。

【０００２】

【従来の技術】いわゆる対話システムにおいては、ユー
ザから入力があると、その入力の意味内容に対応した応
答文が生成されて出力される。

【０００３】

【発明が解決しようとする課題】従って、従来の対話シ
ステムでは、ユーザの感情がどのような状態であって
も、入力の意味内容が同一であれば、同じような応答文
が出力され、その結果、同じような対話が行われること
になる。

【０００４】本発明は、このような状況に鑑みてなされ
たものであり、ユーザの感情の状態によって、バリエー
ションに富んだ対話を行うことができるようにするもの
である。

【０００５】

【課題を解決するための手段】本発明の対話処理装置
は、ユーザから入力された語句の概念を抽出する概念抽
出手段と、ユーザから入力された語句の概念に基づい
て、ユーザの感情を推定し、その感情を表す感情情報を
出力する感情推定手段と、感情情報に基づいて、ユーザ
に出力する出力文を生成する出力文生成手段とを備える
ことを特徴とする。

【０００６】感情推定手段には、出力文にも基づいて、
ユーザの感情を推定させることができる。

【０００７】また、感情推定手段には、ユーザを撮像し
て得られる画像にも基づいて、ユーザの感情を推定させ
ることができる。

【０００８】さらに、感情推定手段には、ユーザの生理
現象にも基づいて、ユーザの感情を推定させることがで
きる。

【０００９】本発明の対話処理装置には、外部から得ら
れる音響信号を処理する音響処理手段をさらに設けるこ
とができ、この場合、感情推定手段には、音響処理手段
の処理結果にも基づいて、ユーザの感情を推定させるこ
とができる。

【００１０】本発明の対話処理装置には、ユーザの音声
を認識する音声認識手段をさらに設けることができ、こ
の場合、概念抽出手段には、ユーザの音声の音声認識結
果に含まれる語句の概念を抽出させることができる。

【００１１】感情推定手段には、ユーザの音声の韻律情
報にも基づいて、ユーザの感情を推定させることができ
る。

【００１２】出力文生成手段には、感情情報に基づい
て、出力文の表現を変更させることができる。

【００１３】出力文生成手段には、感情情報に基づい
て、出力文の個数を変更させることができる。

【００１４】出力文は、相づちを意味するものとするこ
とができる。

【００１５】本発明の対話処理装置には、感情情報を記
憶する記憶手段をさらに設けることができ、この場合、
出力文生成手段には、記憶手段に記憶された感情情報に
基づいて、出力文を生成させることができる。

【００１６】本発明の対話処理装置には、出力文を出力
する出力文出力手段をさらに設けることができる。

【００１７】出力文出力手段には、出力文を合成音で出
力させることができる。

【００１８】また、出力文出力手段には、感情情報に基
づいて、合成音の韻律を制御させることができる。

【００１９】本発明の対話処理方法は、ユーザから入力
された語句の概念を抽出する概念抽出ステップと、ユー
ザから入力された語句の概念に基づいて、ユーザの感情
を推定し、その感情を表す感情情報を出力する感情推定
ステップと、感情情報に基づいて、ユーザに出力する出
力文を生成する出力文生成ステップとを備えることを特
徴とする。

【００２０】本発明の記録媒体は、ユーザから入力され
た語句の概念を抽出する概念抽出ステップと、ユーザか
ら入力された語句の概念に基づいて、ユーザの感情を推
定し、その感情を表す感情情報を出力する感情推定ステ
ップと、感情情報に基づいて、ユーザに出力する出力文
を生成する出力文生成ステップとを備えるプログラムが
記録されていることを特徴とする。

【００２１】本発明の対話処理装置および対話処理方
法、並びに記録媒体においては、ユーザから入力された
語句の概念が抽出され、その概念に基づいて、ユーザの
感情が推定される。そして、その結果得られる感情情報
に基づいて、ユーザに出力する出力文が生成される。

【００２２】

【発明の実施の形態】図１は、本発明を適用した対話シ
ステム（システムとは、複数の装置が論理的に集合した
ものをいい、各構成の装置が同一筐体中にあるか否かは
問わない）の一実施の形態の構成例を示している。

【００２３】音声入力部１は、例えば、マイク（マイク
ロフォン）およびアンプ等で構成され、ユーザの音声
を、電気信号としての音声信号に変換し、必要に応じて
増幅して、その音声信号を、音声認識部２に供給する。

【００２４】音声認識部２は、音声入力部１からの音声
信号を音響処理し、さらに、その音響処理結果に基づい
て、ユーザの音声を認識する。この音声認識結果は、対
話管理部３に供給される。また、音声認識部２は、音声
信号を音響処理することにより得られるユーザの音声の
韻律情報を、ユーザ感情情報更新部８に供給する。

【００２５】対話管理部３は、ユーザ感情情報記録部９
が保持（記憶）している、ユーザの感情を表す感情情報
を考慮して、音声認識部２からの音声認識結果に対する
応答等としての、ユーザに出力する出力文の内容を生成
し、その内容を表す内容情報を、文生成部４に供給す
る。また、対話管理部３は、音声認識部２からの音声認
識結果に含まれる語句や、自身が生成した内容情報に対
応する出力文に含まれる語句の概念を抽出し、その概念
を表す概念情報を、ユーザ感情情報更新部８に供給す
る。

【００２６】文生成部４は、ユーザ感情情報記録部９が
保持している感情情報を考慮しながら、対話管理部３か
らの内容情報に対応する、例えばテキストの出力文を生
成し、さらに、その出力文に対応する合成音の音声信号
を生成して、音声出力部５に供給する。

【００２７】音声出力部５は、例えば、アンプおよびス
ピーカ等で構成され、文生成部４からの音声信号を、必
要に応じて増幅し、スピーカから出力する。

【００２８】画像入力部６は、例えば、レンズ、ＣＣＤ
(Charge Coupled Device)、Ａ／Ｄ変換器等で構成さ
れ、ユーザの顔等を撮像して、その結果得られる顔画像
のディジタルデータ（画像データ）である顔画像情報
を、ユーザ感情情報更新部８に供給する。

【００２９】生理情報入力部７は、例えば、脈拍計、発
汗量や熱を測定するセンサ等で構成され、ユーザの脈拍
や、発汗量、熱等の生理的な情報を感知し、その結果得
られる生理情報を、ユーザ感情情報更新部８に供給す
る。

【００３０】ユーザ感情情報更新部８は、音声認識部２
からのユーザの音声の韻律情報や、対話管理部３からの
音声認識結果等に含まれる語句の概念情報、画像入力部
６からの顔画像情報、生理情報入力部７からの生理情報
に基づいて、ユーザの感情の状態を推定する。さらに、
ユーザ感情情報更新部８は、その推定の結果得られる感
情情報によって、ユーザ感情情報記録部９に保持されて
いる感情情報を更新する。

【００３１】ユーザ感情情報記録部９は、ユーザの感情
としての、例えば、喜びや、怒り、驚き、悲しみ等の状
態を、所定の範囲の数値で表す感情情報を保持してい
る。

【００３２】次に、図２のフローチャートを参照して、
図１の対話システムの基本的な処理の流れについて説明
する。

【００３３】ユーザにより発話が行われると、音声入力
部１は、ステップＳ１において、その発話された音声に
対して音声入力処理を施し、その結果得られる音声信号
を、音声認識部２に出力する。即ち、音声入力部１は、
ユーザの音声を、電気信号としての音声信号に変換し、
その音声信号を、必要に応じて増幅して、音声認識部２
に供給する。

【００３４】音声認識部２は、ステップＳ２において、
音声入力部２からの音声信号に基づいて、ユーザの音声
を認識し、その音声認識結果を、対話管理部３に供給す
る。さらに、音声認識部２は、音声入力部２からの音声
信号から、ユーザの音声の韻律情報を抽出し、ユーザ感
情情報更新部８に供給する。

【００３５】その後、ステップＳ３に進み、ユーザ感情
情報記録部９に保持されている感情情報を更新する準備
を行う処理が行われる。

【００３６】即ち、ステップＳ３では、対話管理部３
は、音声認識部２からのユーザの音声の音声認識結果等
に基づいて、感情情報を更新するのに用いる、上述の概
念情報を得る感情情報更新用対話管理処理を行い、その
概念情報を、ユーザ感情情報更新部８に供給する。さら
に、ステップＳ３では、画像入力部６は、ユーザの顔を
撮像して、顔画像情報を得る画像入力処理を行い、その
顔画像情報を、ユーザ感情情報更新部８に供給する。ま
た、ステップＳ３では、生理情報入力部７は、ユーザの
生理情報を得る生理情報入力処理を行い、その生理情報
を、ユーザ感情情報更新部８に供給する。

【００３７】ユーザ感情情報更新部８は、ステップＳ４
において、音声認識部２からのユーザの音声の韻律情報
や、対話管理部３からの概念情報、画像入力部６からの
顔画像情報、生理情報入力部７からの生理情報に基づい
て、ユーザの感情の状態を推定する。さらに、ステップ
Ｓ４では、ユーザ感情情報更新部８は、その推定の結果
得られる感情情報によって、ユーザ感情情報記録部９に
保持されている感情情報を更新する。

【００３８】その後、ステップＳ５において、対話管理
部３は、ユーザ感情情報記録部９が保持（記憶）してい
る、ユーザの感情を表す感情情報を考慮して、音声認識
部２からの音声認識結果に対する応答等としての、ユー
ザに出力する出力文の内容を表す内容情報を生成する文
生成用対話管理処理を行い、その内容情報を、文生成部
４に供給する。

【００３９】そして、ステップＳ６において、文生成部
４は、ユーザ感情情報記録部９が保持している感情情報
を考慮しながら、対話管理部３からの内容情報に対応す
るテキストの出力文を生成し（文生成処理を行い）、さ
らに、その出力文に対応する合成音の音声信号を生成し
て、音声出力部５に供給する。

【００４０】音声出力部５は、ステップＳ７において、
文生成部４からの音声信号を増幅し、スピーカから出力
する音声出力処理を行い、処理を終了する。

【００４１】なお、上述の場合には、対話システムにお
いて、ユーザが何らかの発話を行ったことをトリガとし
て、合成音の出力（以下、適宜、対話システムの発話と
もいう）が行われるから、その合成音は、ユーザの発話
に対する応答となるが、対話システムにおいては、ユー
ザの発話以外をトリガとして、発話を行うようにするこ
とも可能である。

【００４２】即ち、対話システムにおいては、例えば、
所定の時間ごとに発話を行うようにすることが可能であ
る。また、例えば、画像入力部６において、ユーザの顔
画像が得られたとき（単に、顔画像が得られたときの
他、所定の表情の顔画像が得られたときも含む）や、生
理情報入力部７において、所定の生理情報が得られたと
きに、発話を行うようにすることも可能である。さら
に、例えば、ユーザ感情情報記録部９に保持された感情
情報が所定の値以上または以下になったときに、発話を
行うようにすることも可能である。これらの場合は、対
話システムが、ユーザに話しかけ、その応答をユーザが
返す形で、対話が行われることになる。

【００４３】次に、図３は、図１の音声認識部２の構成
例を示している。

【００４４】音声入力部１からの音声信号は、ＡＤ(Ana
log Digtal)変換部１１に供給されるようになってお
り、ＡＤ変換部１１は、その音声信号を、アナログ信号
からディジタル信号に変換し、その結果得られる音声デ
ータを、特徴抽出部１２に供給する。特徴抽出部１２
は、ＡＤ変換部１１からの音声データについて、適当な
フレームごとに音響処理を施すことで、例えば、スペク
トルや、線形予測係数、ケプストラム係数、線スペクト
ル対、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)
等の特徴パラメータを抽出し、マッチング部１３に供給
する。

【００４５】また、特徴抽出部１２は、音声データに音
響処理を施すことにより得られる、例えば、発話速度
や、ピッチ周波数、パワー等の韻律情報を、ユーザ感情
情報更新部８に供給する。なお、発話速度としては、例
えば、１フレームあたりのモーラ数等を用いることがで
きる。

【００４６】マッチング部１３は、特徴抽出部１２から
供給される特徴パラメータに基づき、音響モデルデータ
ベース１４、辞書データベース１５、および文法データ
ベース１６を必要に応じて参照しながら、ユーザの音声
（入力音声）を認識する。

【００４７】即ち、音響モデルデータベース１４は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、ＨＭＭ(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス１５は、認識対象の各単語について、その発音に関す
る情報が記述された単語辞書を記憶している。文法デー
タベース１６は、辞書データベース１５の単語辞書に登
録されている各単語が、どのように連鎖する（つなが
る）かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法（ＣＦＧ）やＨ
ＰＳＧ（Head-driven Phrase Structure Grammar）（主
辞駆動句構造文法）、統計的な単語連鎖確率（Ｎ−ｇｒ
ａｍ）などに基づく規則を用いることができる。

【００４８】マッチング部１３は、辞書データベース１
５の単語辞書を参照することにより、音響モデルデータ
ベース１４に記憶されている音響モデルを接続すること
で、単語の音響モデル（単語モデル）を構成する。さら
に、マッチング部１３は、幾つかの単語モデルを、文法
データベース１６に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、ＨＭＭ法等
によって、ユーザの音声を認識する。

【００４９】そして、マッチング部１３による音声認識
結果としての音韻情報は、例えば、テキストやワードグ
ラフ等で、対話管理部３に出力される。

【００５０】次に、図４は、図１の対話管理部３の構成
例を示している。

【００５１】音声認識部２が出力するユーザの音声認識
結果は、言語処理部２１に供給されるようになってお
り、言語処理部２１は、シソーラスデータベース２３
や、言語処理用データベース２４、履歴データベース２
５を必要に応じて参照しながら、音声認識結果を処理
し、その音声認識結果が表す意味や概念を、対話処理部
２２に供給する。

【００５２】即ち、シソーラスデータベース２３には、
単語を、その概念によって階層構造に分類したシソーラ
スが記憶されており、言語処理部２１は、このシソーラ
スを参照することにより、音声認識結果に含まれる単語
の概念を認識する。

【００５３】ここで、シソーラスとしては、例えば、国
立国語研究所によって発表されている分類語彙表等を用
いることができる。

【００５４】言語処理用データベース２４には、各単語
の表記や必要な品詞情報などが記述された単語辞書と、
その単語辞書に記述された各単語の情報に基づいて、単
語連鎖に関する制約等が記述された構文／意味規則が記
憶されており、言語処理部２１は、その単語辞書や構文
／意味規則に基づいて、そこに入力される音声認識結果
の形態素解析を行う。さらに、言語処理部２１は、その
形態素解析結果に基づいて、音声認識結果の構文解析、
さらには、その意味内容の理解を行う。そして、言語処
理部２１は、以上のようにして得られる音声認識結果を
構成する各単語の概念や、音声認識結果の意味内容の理
解の結果（以下、適宜、まとめて言語処理結果という）
を、対話処理部２２に出力する。

【００５５】ここで、言語処理部２１では、例えば、正
規文法や、文脈自由文法、ＨＰＳＧ、統計的な単語連鎖
確率を用いて、構文解析や意味内容の理解を行うことが
できる。

【００５６】また、言語処理部２１は、必要に応じて、
履歴データベース２５も参照しながら処理を行う。即
ち、履歴データベース２５には、ユーザが発話した音声
の音声認識結果と、その発話に対して、対話システムが
出力した応答との組や、あるいは、対話システムの出力
と、その出力に対して、ユーザが発話した音声の音声認
識結果との組等の形で、ユーザと対話システムとの間の
対話の履歴（対話履歴）が記憶されるようになってお
り、言語処理部２１は、対話履歴を参照することで、音
声認識結果における主語等の省略や、照応表現等の解析
を行い、これにより、例えば、ユーザの音声認識結果に
含まれる代名詞が、具体的に何を意味しているのか等を
認識するようになっている。

【００５７】なお、シソーラスデータベース２３および
言語処理用データベース２４に記憶されている情報は、
基本的には更新されないから、いわば静的な情報という
ことができる。これに対して、履歴データベース２５に
記憶されている対話履歴は、ユーザにより発話が行わ
れ、あるいは、対話システムが、ユーザに対して何らか
の出力を行うと、後述する対話処理部２２によって更新
されていくので、いわば動的な情報ということができ
る。

【００５８】上述したように、言語処理部２１は、シソ
ーラスデータベース２３を参照することで、音声認識結
果を構成する各単語（語彙）の概念を抽出するが、その
概念が、感情を表すものであるとき、その感情を表す概
念を、概念情報として、ユーザ感情情報更新部８に供給
する。即ち、言語処理部２１は、シソーラス上におい
て、例えば、「喜び」や、「怒り」、「驚き」、「悲し
み」、「苦しさ」、「恥ずかしさ」、「楽しさ」等の、
感情を表す概念に属する単語が、音声認識結果に含まれ
るとき、その概念を表す概念情報を、ユーザ感情情報更
新部８に供給する。

【００５９】なお、言語処理部２１は、音声認識結果に
含まれる単語の概念情報の他、対話履歴として記憶され
ている対話システムの出力に含まれる単語の概念情報
も、必要に応じて抽出し、ユーザ感情情報更新部８に供
給するようになっている。

【００６０】即ち、ユーザ感情情報更新部８は、上述の
ように、ユーザの感情の状態を推定するが、その推定に
あたっては、音声認識結果に含まれる単語の概念情報は
勿論であるが、対話システムの出力に含まれる単語の概
念情報も役に立つ場合がある。具体的には、例えば、対
話システムにおいて、ユーザを愚弄するような発話を行
った場合には、ユーザが怒ることが予想される。このた
め、言語処理部２１は、対話履歴として記憶されている
対話システムの出力に含まれる単語の概念情報も、シソ
ーラスを参照することで抽出し、音声認識結果に含まれ
る単語の概念情報とともに、ユーザ感情情報更新部８に
供給するようになっている。

【００６１】対話処理部２２は、言語処理部２１からの
言語処理結果、およびユーザ感情情報記録部９に保持さ
れている、ユーザの感情の状態を表す感情情報に基づ
き、履歴データベース２５やシナリオデータベース２６
を参照しながら、ユーザの音声認識結果に対する応答等
としての、ユーザに出力する出力文の内容を生成し、そ
の内容を表す内容情報を、文生成部４に供給する。

【００６２】即ち、シナリオデータベース２６は、例え
ば、ユーザとの対話パターンの規則としてのシナリオ
を、タスク（話題）ごとに記憶しており、対話処理部２
２は、基本的には、シナリオデータベース２６に記憶さ
れているシナリオの中から、言語処理部２１からの言語
処理結果に基づいて、ユーザとの対話に用いるものを決
定し、そのシナリオにしたがって、内容情報を生成す
る。

【００６３】具体的には、例えば、ビデオ予約等の目的
志向型のタスクについては、例えば、次のようなシナリ
オが記憶されている。

【００６４】 (action(Question(date,start_time,end_time,channel))) (date ???) #日付 (start_time ???)#開始時刻 (end_time ???) #終了時刻 (channel ???) #チャンネル・・・（１）

【００６５】ここで、（１）のシナリオによれば、言語
処理部２１による言語処理結果が、録画の要求を表すも
のである場合には、対話処理部２２において、録画を行
う日付、録画を開始する時刻、録画を終了する時刻、録
画を行うチャンネルを、そのような順番で質問する旨の
内容情報が生成される。

【００６６】また、例えば、無目的型の対話（いわゆる
雑談）を行うためのシナリオとしては、次のようなもの
が記憶されている。

【００６７】 If X exist then speak (Y) # X:キーワード, Y:応答文 (お金何が欲しいの) # (X Y) (食べたいお腹がすいているの) ・・・（２）

【００６８】ここで、（２）のシナリオによれば、言語
処理部２１による言語処理結果に、「お金」というキー
ワードが含まれていれば、対話処理部２２において、
「何が欲しいの」という、質問を行う旨の内容情報が生
成される。また、言語処理部２１による言語処理結果
に、「食べたい」というキーワードが含まれていれば、
対話処理部２２において、「お腹がすいているの」とい
う、質問を行う旨の内容情報が生成される。

【００６９】また、対話処理部２２は、例えば、言語処
理部２１からの言語処理結果だけでなく、ユーザ感情情
報記録部９に保持されている感情情報にも基づいて、使
用するシナリオを決定する。即ち、例えば、言語処理部
２１からの言語処理結果が、ユーザが挨拶をしたことを
表している場合において、感情情報が、「楽しさ」や
「うれしさ」が通常レベルであることを表しているとき
には、あるいは、「怒り」や「いらつき」が大であるこ
とを表しているときには、対話処理部２２は、ユーザに
「こんにちは」と、単に挨拶を返すシナリオの使用を決
定する。また、例えば、例えば、言語処理部２１からの
言語処理結果が、ユーザが挨拶をしたことを表している
場合において、感情情報が、「楽しさ」や「うれしさ」
が大であることを表しているときには、対話処理部２２
は、ユーザに「何か良いことがあったのですか？」と問
い合わせるシナリオの使用を決定する。

【００７０】なお、シナリオデータベース２６には、シ
ナリオの他、ユーザと対話を行うにあたっての一般的な
知識も記憶されている。即ち、シナリオデータベース２
６には、例えば、言語処理部２１による言語処理結果
が、ユーザが挨拶をしたことを表している場合には、そ
の挨拶に対する挨拶を行うことを指示する情報が、一般
的な知識として記憶されている。また、シナリオデータ
ベース２６には、例えば、雑談時に使用する話題（トピ
ックス）なども、一般的な知識として記憶されている。

【００７１】さらに、対話処理部２２は、言語処理部２
１からの言語処理結果や、自身が生成した内容情報、さ
らには、その内容情報を生成するのに用いたシナリオに
関する情報等を、対話履歴として、履歴データベース２
５に記憶させる。

【００７２】また、対話処理部２２は、必要に応じて、
対話履歴を参照し、これにより、例えば、音声認識結果
や、その意味の理解に誤りがあったことが、後から判明
した場合等に対処するようにもなっている。

【００７３】次に、図５は、図１の文生成部４の構成例
を示している。

【００７４】テキスト文生成部３１には、対話管理部３
から内容情報が供給されるようになっており、テキスト
文生成部３１は、必要に応じて、辞書データベース３４
および生成文法データベース３５を参照しながら、内容
情報に対応する（即した）、テキストの出力文を生成す
る。

【００７５】即ち、辞書データベース３４には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、生成用文法データベース３
５には、出力文の例のテンプレート、さらには、出力文
を生成するのに必要な単語の活用規則や、語順の制約情
報等の生成用文法規則が記憶されている。そして、テキ
スト文生成部３１は、内容情報に対応するテンプレート
を選択し、さらに、必要な単語を単語辞書から選択す
る。さらに、テキスト文生成部３１は、生成用文法規則
を参照して、語尾等を適切に変えながら、単語をテンプ
レートにあてはめることで、内容情報に対応する出力文
を生成する。

【００７６】また、テキスト文生成部３１には、ユーザ
感情情報記録部９に保持されている感情情報も供給され
るようになっており、テキスト文生成部３１は、その感
情情報に基づいて、出力文の表現を変更する。即ち、生
成用文法データベース３５には、同一内容のテンプレー
トで、表現の異なるものが記憶されており、テキスト文
生成部３１は、そのような同一内容のテンプレートか
ら、所定の表現のものを、感情情報に基づいて選択す
る。また、テキスト文生成部３１は、テンプレートにあ
てはめる単語についても、所定の表現のものを、感情情
報に基づいて選択する。さらに、テキスト文生成部３１
は、語尾等の変更も、感情情報に基づいて行う。

【００７７】これにより、例えば、感情情報が、「怒
り」や「悲しみ」のレベルが大であることを表している
ときには、テキスト生成部３１において、比較的丁寧な
表現の出力文が生成される。また、例えば、感情情報
が、「楽しさ」や「喜び」のレベルが大であることを表
しているときには、テキスト生成部３１において、いわ
ゆるラフな表現の出力文が生成される。

【００７８】なお、出力文の生成の方法としては、テン
プレートを用いる方法の他、例えば、格構造に基づく方
法等を採用することも可能である。

【００７９】テキスト文生成部３１は、出力文を生成す
ると、その形態素解析や構文解析等を行い、後段の規則
合成部３２で行われる規則音声合成に必要な情報を抽出
する。ここで、規則音声合成に必要な情報としては、例
えば、ポーズの位置や、アクセントおよびイントネーシ
ョンを制御するための情報その他の韻律情報や、各単語
の発音等の音韻情報などがある。

【００８０】テキスト文生成部３１で得られた情報は、
規則合成部３２に供給され、規則合成部３２では、音素
片データベース３６を用いて、テキスト文生成部３１に
おいて生成された出力文に対応する合成音の音声データ
（ディジタルデータ）が生成される。

【００８１】即ち、音素片データベース３６には、例え
ば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形
で音素片データが記憶されており、規則合成部３２は、
テキスト文生成部３１からの情報に基づいて、必要な音
素片データを接続し、さらに、ポーズ、アクセント、イ
ントネーション等を適切に付加することで、テキスト文
生成部３１で生成された出力文に対応する合成音の音声
データを生成する。

【００８２】また、規則合成部３２には、ユーザ感情情
報記録部９に保持されている感情情報が供給されるよう
になっており、規則合成部３２は、感情情報に基づい
て、接続された音素片データに付加するポーズや、アク
セント、イントネーション、さらには、発話速度、ピッ
チ周波数等の韻律情報を制御する。即ち、これにより、
規則合成部３２では、例えば、感情情報が、ユーザが興
奮していることを表しているときには、ゆっくりとし
た、落ち着いた調子の合成音の音声データが生成され
る。また、例えば、感情情報が、ユーザが楽しそうであ
ることを表しているときには、規則合成部３２では、や
はり、楽しそうな調子の合成音の音声データが生成され
る。

【００８３】なお、感情と音声との関係については、例
えば、前川、「音声によるパラ言語情報の伝達；言語学
の立場から」、日本音響学会平成９年度秋季研究発表会
講演論文集１−３−１０、pp.381-384、平成９年９月等
に、その詳細が記載されている。

【００８４】規則合成部３２で得られた合成音の音声デ
ータは、ＤＡ(Digital Analog)変換部３３に供給され、
そこで、アナログ信号としての音声信号に変換される。
この音声信号は、音声出力部５に供給され、これによ
り、テキスト文生成部３１で生成された出力文に対応す
る合成音が出力される。

【００８５】次に、図６は、図１のユーザ感情情報更新
部８の構成例を示している。

【００８６】音声認識部２が出力する韻律情報は韻律情
報処理部４１に、対話管理部３が出力する概念情報は概
念情報処理部４２に、画像入力部６が出力する顔画像情
報は画像情報処理部４３に、生理情報入力部７が出力す
る生理情報は生理情報処理部４４に、それぞれ供給され
るようになっている。

【００８７】韻律情報処理部４１は、そこに供給される
韻律情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部４５
に出力する。

【００８８】なお、ユーザの音声の韻律情報から、その
ユーザの感情を推定する方法としては、例えば、特開平
１０−５５１９４号公報に記載されているもの等を用い
ることが可能である。

【００８９】概念情報処理部４２は、そこに供給される
概念情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部４５
に出力する。即ち、概念情報処理部４２は、概念情報に
基づき、「喜び」や「怒り」等といった各感情を表す概
念に属する単語が、ユーザと対話システムとの対話にお
いて出現した出現頻度をカウントする。そして、概念情
報処理部４２は、その出現頻度に基づいて、ユーザの感
情を推定し、その推定結果としての感情情報を、更新処
理部４５に出力する。

【００９０】画像情報処理部４３は、そこに供給される
顔画像情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部４５
に出力する。

【００９１】即ち、図７は、図６の画像情報処理部４３
の構成例を示している。

【００９２】顔画像情報は、特徴抽出部５１に供給さ
れ、特徴抽出部５１は、その顔画像情報の特徴量を抽出
する。即ち、特徴抽出部５１は、例えば、顔画像情報を
ウェーブレット(Wavelet)変換し、空間周波数成分を表
す係数をコンポーネントとする特徴ベクトルを得て、ベ
クトル量子化部５２に供給する。

【００９３】ベクトル量子化部５２は、コードブックデ
ータベース５４に記憶されたコードブックにしたがっ
て、特徴抽出部５１からの特徴ベクトルをベクトル量子
化し、これにより、１次元のシンボル（列）を得る。

【００９４】即ち、コードブックデータベース５４に
は、喜んでいる状態や、怒っている状態、驚いている状
態、悲しんでいる状態等の、各感情の状態における顔の
画像を用いて学習を行うことにより得られたコードブッ
クが記憶されている。なお、ここでは、量子化精度を高
めるために、例えば、喜び用コードブックや怒り用コー
ドブックのように、各感情ごとのコードブックが作成さ
れて記憶されている。

【００９５】そして、ベクトル量子化部５２は、コード
ブックデータベース５４に記憶された各感情ごとのコー
ドブックにしたがって、特徴抽出部５１からの特徴ベク
トルをベクトル量子化し、シンボル（コードブックのコ
ードベクトルに割り当てられたコード）を得て、マッチ
ング部５３に出力する。従って、マッチング部５３に
は、各感情ごとのベクトル量子化結果としてのシンボル
が供給される。

【００９６】マッチング部５３は、ベクトル量子化部５
２からのシンボルを用い、ＨＭＭデータベース５５を参
照して、顔画像情報が、例えば、喜んでいる状態、怒っ
ている状態、驚いている状態、悲しんでいる状態等のう
ちのいずれの感情の状態における顔のものであるかのマ
ッチングを行う。

【００９７】即ち、ＨＭＭデータベース５５には、喜ん
でいる状態や、怒っている状態、驚いている状態、悲し
んでいる状態等の、各感情の状態における顔の画像を用
いて学習を行うことにより得られた、各感情における顔
についてのモデル（ＨＭＭ）が記憶されている。

【００９８】そして、マッチング部５３は、ベクトル量
子化部５２から得られるシンボル系列が観測される確率
が最も高いモデルを、ビタビ法により求める。さらに、
マッチング部５３は、そのモデルに対応する感情を、ユ
ーザの感情として推定し、その推定結果としての感情情
報を、更新処理部４５に出力する。

【００９９】ここで、マッチング部５３において、ベク
トル量子化部５２から得られるシンボル系列が観測され
る確率の計算は、各感情ごとに行われる。即ち、例え
ば、喜び用コードブックを用いてベクトル量子化を行う
ことにより得られたシンボル系列が観測される確率の計
算は、喜んでいる状態の顔の画像を用いて学習が行われ
たＨＭＭ（喜び用ＨＭＭ）を用いて行われる。また、例
えば、怒り用コードブックを用いてベクトル量子化を行
うことにより得られたシンボル系列が観測される確率の
計算は、怒っている状態の顔の画像を用いて学習が行わ
れたＨＭＭ（怒り用ＨＭＭ）を用いて行われる。

【０１００】なお、上述のようにして、顔画像情報か
ら、感情を推定する方法については、例えば、坂口、大
谷、岸野、「隠れマルコフモデルによる顔動画像からの
表情認識」、テレビジョン学会誌、VOL.49, no.8, pp.1
060-1067, 1995年8月等に、その詳細が記載されてい
る。

【０１０１】また、顔画像情報から、感情を推定する方
法としては、その他、例えば、坂口、森島、「空間周波
数情報に基づく基本表情の実時間認識」、第２回知能情
報メディアシンポジウム論文集，pp.75-82，１９９６年
１２月等に記載されている方法を採用することも可能で
ある。

【０１０２】図６に戻り、生理情報処理部４４は、そこ
に供給される生理情報を処理することにより、ユーザの
感情を推定し、その推定結果としての感情情報を、更新
処理部４５に出力する。ここで、生理情報から、ユーザ
の感情を推定する方法としては、例えば、各感情と、脈
拍数や発汗量等の生理情報との相関を表す関数を、あら
かじめ統計的に求めておき、その関数を用いて行う方法
等がある。

【０１０３】更新処理部４５は、韻律情報処理部４１、
概念情報処理部４２、画像情報処理部４３、および生理
情報処理部４４からの感情情報を総合的に用いて、ユー
ザ感情情報記録部９に保持されている感情情報を更新す
る最終的な更新値を求め、その更新値によって、ユーザ
感情情報記録部９の感情情報を更新する。即ち、更新処
理部４５は、例えば、韻律情報処理部４１、概念情報処
理部４２、画像情報処理部４３、生理情報処理部４４そ
れぞれからの、各感情に対応する感情情報を重み付け加
算して正規化することで、各感情に対応する最終的な感
情情報を算出する。そして、更新処理部４５は、この最
終的な感情情報によって、ユーザ感情情報記録部９の感
情情報を更新する。

【０１０４】ここで、図８は、ユーザ感情情報記録部９
が保持している感情情報を示している。各感情に対応す
る感情情報は、その感情の度合いを、例えば、０乃至１
の範囲の実数で表すもので、値が大きいほど、その感情
が強い（値が小さいほど、その感情が弱い）ことを示
す。更新処理部４５では、このような感情情報としての
値が、各感情ごとに更新される。

【０１０５】次に、図９のフローチャートを参照して、
図６のユーザ感情情報更新部８の処理（感情情報更新処
理）について説明する。

【０１０６】まず最初に、ステップＳ１１において、韻
律情報処理部４１、概念情報処理部４２、画像情報処理
部４３、および生理情報処理部４４は、上述したように
して、ユーザの感情を推定し、その推定結果としての感
情情報を、更新処理部４５に出力する。

【０１０７】更新処理部４５は、ステップＳ１２におい
て、韻律情報処理部４１、概念情報処理部４２、画像情
報処理部４３、および生理情報処理部４４からの感情情
報を総合的に用いて、ユーザ感情情報記録部９に保持さ
れている感情情報を更新する最終的な更新値を求め、ス
テップＳ１３に進み、その更新値によって、ユーザ感情
情報記録部９の感情情報を更新して、処理を終了する。

【０１０８】次に、上述した一連の処理は、専用のハー
ドウェアにより行うこともできるし、ソフトウェアによ
り行うこともできる。一連の処理をソフトウェアによっ
て行う場合には、そのソフトウェアを構成するプログラ
ムが、汎用のコンピュータ等にインストールされる。

【０１０９】そこで、図１０は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０１１０】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０１１１】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory)，M
O(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体１１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体１１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０１１２】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部１０８で受信し、内蔵するハード
ディスク１０５にインストールすることができる。

【０１１３】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードやマウス等で構成
される入力部１０７が操作されることにより指令が入力
されると、それにしたがって、ROM(Read Only Memory)
１０３に格納されているプログラムを実行する。あるい
は、また、CPU１０２は、ハードディスク１０５に格納
されているプログラム、衛星若しくはネットワークから
転送され、通信部１０８で受信されてハードディスク１
０５にインストールされたプログラム、またはドライブ
１０９に装着されたリムーバブル記録媒体１１１から読
み出されてハードディスク１０５にインストールされた
プログラムを、RAM(Random Access Memory)１０４にロ
ードして実行する。これにより、CPU１０２は、上述し
たフローチャートにしたがった処理、あるいは上述した
ブロック図の構成により行われる処理を行う。そして、
CPU１０２は、その処理結果を、必要に応じて、例え
ば、入出力インタフェース１１０を介して、LCD(Liquid
CryStal Display)やスピーカ等で構成される出力部１
０６から出力、あるいは、通信部１０８から送信、さら
には、ハードディスク１０５に記録等させる。

【０１１４】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１１５】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０１１６】以上のように、少なくとも、ユーザの音声
認識結果に含まれる語句の概念に基づいて、ユーザの感
情を推定するようにしたので、比較的精度良く、ユーザ
の感情を推定することができる。さらに、その他、韻律
情報や、顔画像情報、生理情報にも基づいて、ユーザの
感情を推定するようにしたので、より精度良く、ユーザ
の感情を推定することができる。さらに、そのような感
情の推定結果に基づいて、出力文を生成するようにした
ので、ユーザの感情の状態によって、バリエーションに
富んだ出力文を、ユーザに提供することが可能となる。

【０１１７】なお、本実施の形態では、音声入力部１に
入力された音（音声）について、音声認識を行うように
したが、音声入力部１に入力された音については、音声
認識を行わずに、例えば、その音が、机を叩いている音
であるとか、ユーザの息づかいであるといったことを検
出し、その検出結果に基づいて、ユーザの感情を推定す
ることも可能である。即ち、例えば、机を叩いているこ
とが連続して検出された場合には、ユーザが怒っている
ことを推定することができる。また、例えば、息づかい
が荒いことが検出された場合には、ユーザが興奮してい
ることを推定することができる。そして、この場合、そ
のような推定結果に基づいて、「怒り」や「興奮」を表
す感情情報の値を大きくするような、アドホック(ad ho
c)な更新ルールを適用することができる。

【０１１８】さらに、対話管理部３においては、感情状
態に応じて、出力文の生成回数を制御することにより、
ユーザに対する発話の回数を変化させることが可能であ
る。具合的には、例えば、ユーザが楽しそうな状態にあ
る場合には、例えば、相づちの回数を増やしたり、その
他、対話システムからの発話回数を増やして、積極的
に、ユーザとの対話を行うようにすることが可能であ
る。また、例えば、ユーザが悲しそうな状態にある場合
には、対話システムからの発話回数を減らして、ユーザ
に煩わしさを感じさせないようにすることが可能であ
る。

【０１１９】また、本実施の形態では、ユーザからの音
声を音声認識し、その音声認識結果に対する応答として
の発話を行うようにしたが、その他、例えば、ユーザが
キーボードを操作することにより入力される文に対し
て、応答を行うようにすることも可能である。

【０１２０】さらに、本実施の形態では、ユーザに対す
る応答等を、合成音で出力するようにしたが、その他、
例えば、テキスト等で表示するようにすることも可能で
ある。

【０１２１】また、本発明は、例えば、ディスプレイに
表示される仮想的なキャラクタや、あるいは実体のある
ロボット等とユーザとの間のユーザインタフェースとし
て用いることが可能である。この場合、ユーザに対する
応答等として、上述したように合成音を出力する他、仮
想的なキャラクタの表示状態を変えたり、ロボットに所
定の動作を行わせることで、マルチモーダルなインタフ
ェースを実現することができる。

【０１２２】

【発明の効果】本発明の対話処理装置および対話処理方
法、並びに記録媒体によれば、ユーザから入力された語
句の概念が抽出され、その概念に基づいて、ユーザの感
情が推定される。そして、その結果得られる感情情報に
基づいて、ユーザに出力する出力文が生成される。従っ
て、ユーザの感情の状態によって、例えば、バリエーシ
ョンに富んだ対話を行うことが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した対話システムの一実施の形態
の構成例を示すブロック図である。

【図２】図１の対話システムの処理を説明するためのフ
ローチャートである。

【図３】図１の音声認識部２の構成例を示すブロック図
である。

【図４】図１の対話管理部３の構成例を示すブロック図
である。

【図５】図１の文生成部４の構成例を示すブロック図で
ある。

【図６】図１のユーザ感情情報更新部８の構成例を示す
ブロック図である。

【図７】図６の画像情報処理部４３の構成例を示すブロ
ック図である。

【図８】感情情報を示す図である。

【図９】図６のユーザ感情情報更新部８の処理を説明す
るためのフローチャートである。

【図１０】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

１音声入力部，２音声認識部，３対話管理
部，４文生成部，５音声出力部，６画像入力
部，７生理情報入力部，８ユーザ感情情報更新
部，９ユーザ感情情報記録部，１１ＡＤ変換
部，１２特徴抽出部，１３マッチング部，１
４音響モデルデータベース，１５辞書データベー
ス，１６文法データベース，２１言語処理部，
２２対話処理部，２３シソーラスデータベー
ス，２４言語処理用データベース，２５履歴デ
ータベース，２６シナリオデータベース，３１
テキスト文生成部，３２規則合成部，３３ＤＡ
変換部，３４辞書データベース，３５生成用文
法データベース，３６音素片データベース，４１
韻律情報処理部，４２概念情報処理部，４３画
像情報処理部，４４生理情報処理部，５１特徴抽
出部，５２ベクトル量子化部，５３マッチング
部，５４コードブックデータベース，５５ＨＭ
Ｍデータベース，１０１バス，１０２ CPU，
１０３ ROM，１０４ RAM，１０５ハードディス
ク，１０６出力部，１０７入力部，１０８
通信部，１０９ドライブ，１１０入出力インタ
フェース，１１１リムーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者田中幸東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者横野順東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者大江敏生東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D015 AA06 LL07 LL10 5D045 AB01 AB07 AB30 9A001 DZ11 FF03 HH17 HH18 HH33

Claims

【特許請求の範囲】

【請求項１】ユーザとの対話を行う対話処理装置であ
って、ユーザから入力された語句の概念を抽出する概念抽出手
段と、前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定手段と、前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成手段とを備えることを特徴とする
対話処理装置。
【請求項２】前記感情推定手段は、前記出力文にも基
づいて、前記ユーザの感情を推定することを特徴とする
請求項１に記載の対話処理装置。
【請求項３】前記感情推定手段は、前記ユーザを撮像
して得られる画像にも基づいて、前記ユーザの感情を推
定することを特徴とする請求項１に記載の対話処理装
置。
【請求項４】前記感情推定手段は、前記ユーザの生理
現象にも基づいて、前記ユーザの感情を推定することを
特徴とする請求項１に記載の対話処理装置。
【請求項５】外部から得られる音響信号を処理する音
響処理手段をさらに備え、前記感情推定手段は、前記音響処理手段の処理結果にも
基づいて、前記ユーザの感情を推定することを特徴とす
る請求項１に記載の対話処理装置。
【請求項６】前記ユーザの音声を認識する音声認識手
段をさらに備え、前記概念抽出手段は、前記ユーザの音声の音声認識結果
に含まれる語句の概念を抽出することを特徴とする請求
項１に記載の対話処理装置。
【請求項７】前記感情推定手段は、前記ユーザの音声
の韻律情報にも基づいて、前記ユーザの感情を推定する
ことを特徴とする請求項６に記載の対話処理装置。
【請求項８】前記出力文生成手段は、前記感情情報に
基づいて、前記出力文の表現を変更することを特徴とす
る請求項１に記載の対話処理装置。
【請求項９】前記出力文生成手段は、前記感情情報に
基づいて、前記出力文の個数を変更することを特徴とす
る請求項１に記載の対話処理装置。
【請求項１０】前記出力文は、相づちを意味するもの
であることを特徴とする請求項９に記載の対話処理装
置。
【請求項１１】前記感情情報を記憶する記憶手段をさ
らに備え、前記出力文生成手段は、前記記憶手段に記憶された前記
感情情報に基づいて、前記出力文を生成することを特徴
とする請求項１に記載の対話処理装置。
【請求項１２】前記出力文を出力する出力文出力手段
をさらに備えることを特徴とする請求項１に記載の対話
処理装置。
【請求項１３】前記出力文出力手段は、前記出力文を
合成音で出力することを特徴とする請求項１２に記載の
対話処理装置。
【請求項１４】前記出力文出力手段は、前記感情情報
に基づいて、前記合成音の韻律を制御することを特徴と
する請求項１３に記載の対話処理装置。
【請求項１５】ユーザとの対話を行うための対話処理
方法であって、ユーザから入力された語句の概念を抽出する概念抽出ス
テップと、前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定ステップと、前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成ステップとを備えることを特徴と
する対話処理方法。
【請求項１６】ユーザとの対話を行うための対話処理
を、コンピュータに行わせるプログラムが記録されてい
る記録媒体であって、ユーザから入力された語句の概念を抽出する概念抽出ス
テップと、前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定ステップと、前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成ステップとを備えるプログラムが
記録されていることを特徴とする記録媒体。