JP2019020684A - 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム - Google Patents

感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム Download PDF

Info

Publication number
JP2019020684A
JP2019020684A JP2017141791A JP2017141791A JP2019020684A JP 2019020684 A JP2019020684 A JP 2019020684A JP 2017141791 A JP2017141791 A JP 2017141791A JP 2017141791 A JP2017141791 A JP 2017141791A JP 2019020684 A JP2019020684 A JP 2019020684A
Authority
JP
Japan
Prior art keywords
emotion
utterance
speaker
target
interaction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017141791A
Other languages
English (en)
Other versions
JP6732703B2 (ja
Inventor
厚志 安藤
Atsushi Ando
厚志 安藤
歩相名 神山
Hosona Kamiyama
歩相名 神山
哲 小橋川
Satoru Kobashigawa
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017141791A priority Critical patent/JP6732703B2/ja
Publication of JP2019020684A publication Critical patent/JP2019020684A/ja
Application granted granted Critical
Publication of JP6732703B2 publication Critical patent/JP6732703B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】目的話者の感情の認識精度を向上する。【解決手段】学習データ記憶部10は、目的話者の複数の発話と相手話者の複数の発話とからなる対話を収録した対話音声と、その対話に含まれる各発話に対する感情の正解値とからなる学習データを記憶する。発話毎感情認識部12は、対話音声から抽出した各発話に対する発話毎感情を認識して、目的話者の発話毎感情系列と相手話者の発話毎感情系列とを生成する。モデル学習部13は、感情の正解値と目的話者の発話毎感情系列と相手話者の発話毎感情系列とを用いて、目的話者の発話である目的発話の発話毎感情と目的発話の直前に相手話者が行った直前発話の発話毎感情とを入力として目的発話の感情を再推定する感情インタラクションモデルを学習する。【選択図】図3

Description

この発明は、対話に含まれる文脈情報を用いて話者の感情を認識する技術に関する。
対話において、話者の感情を認識することは重要である。例えば、カウンセリング時に感情認識を行うことで、患者の不安や悲しみの感情を可視化でき、カウンセラーの理解の深化や指導の質の向上が期待できる。また、人間と機械の対話において人間の感情を認識することで、人間が喜んでいれば共に喜び、悲しんでいれば励ますなど、より親しみやすい対話システムの構築が可能となる。以降では、話者二名の話し合いを「対話」と呼ぶ。また、対話を行う話者のうち感情認識の対象とする発話を行った話者を「目的話者」と呼び、目的話者以外の話者を「相手話者」と呼ぶ。例えば、カウンセリング向け感情認識では、患者が目的話者となり、カウンセラーが相手話者となる。
対話における感情認識技術が非特許文献1に提案されている。一般に、感情認識技術は各発話に対して独立に感情認識を行うことが多い(例えば、非特許文献2)。一方、非特許文献1に記載の技術では、対話に含まれる文脈情報に着目し、現在の発話の特徴に加えて目的話者自身の過去や未来の感情にも基づいて現在の目的話者の感情を認識することで、対話における感情認識の精度を向上させている。これは、感情に連続性や関連性があるためであると考えられる。
Martin Wollmer, Angeliki Metallinou, Florian Eyben, Bjorn Schuller, Shrikanth Narayanan, "Context-Sensitive Multimodal Emotion Recognition from Speech and Facial Expression using Bidirectional LSTM Modeling," in Interspeech 2010, 2010. Che-Wei Huang, Shrikanth Narayanan, "Attention Assisted Discovery of Sub-Utterance Structure in Speech Emotion Recognition," in Interspeech 2016, 2016.
対話に含まれる文脈情報には、非特許文献1に記載の技術で用いられる目的話者自身の感情の情報以外にも、多くの情報が存在する。例えば、相手話者の感情の情報などである。このような情報も目的話者の感情認識において有効と考えられるが、非特許文献1に記載の技術では文脈情報のうち目的話者自身の感情の情報しか利用していない。そのため、対話における感情認識の精度を向上する余地が残されている可能性がある。
この発明の目的は、上記のような点に鑑みて、目的話者自身の感情の情報だけでなく、対話に含まれる文脈情報も利用して、目的話者の感情の認識精度を向上することである。
上記の課題を解決するために、この発明の第一の態様の感情インタラクションモデル学習装置は、目的話者の複数の発話と相手話者の複数の発話とからなる対話を収録した対話音声と、その対話に含まれる各発話に対する感情の正解値とからなる学習データを記憶する学習データ記憶部と、対話音声から抽出した各発話に対する発話毎感情を認識して、目的話者の発話毎感情系列と相手話者の発話毎感情系列とを生成する発話毎感情認識部と、感情の正解値と目的話者の発話毎感情系列と相手話者の発話毎感情系列とを用いて、目的話者の発話である目的発話の発話毎感情と目的発話の直前に相手話者が行った直前発話の発話毎感情とを入力として目的発話の感情を再推定する感情インタラクションモデルを学習するモデル学習部と、を含む。
上記の課題を解決するために、この発明の第二の態様の感情認識装置は、第一の態様の感情インタラクションモデル学習装置により学習した感情インタラクションモデルを記憶するモデル記憶部と、目的話者の複数の発話と相手話者の複数の発話とからなる対話に含まれる各発話に対する発話毎感情を認識して、目的話者の発話毎感情系列と相手話者の発話毎感情系列とを生成する発話毎感情認識部と、目的話者の発話である目的発話の発話毎感情と、目的発話の直前に相手話者が行った直前発話の発話毎感情とを感情インタラクションモデルに入力して目的発話の感情を再推定する感情再推定部と、を含む。
この発明によれば、目的話者自身の感情の情報だけでなく、対話に含まれる文脈情報も利用することで、目的話者の感情の認識精度が向上する。
図1は、目的話者または相手話者の前後の感情が目的話者の感情に影響を与える例を説明するための図である。 図2は、感情インタラクションモデルを説明するための図である。 図3は、感情インタラクションモデル学習装置の機能構成を例示する図である。 図4は、感情インタラクションモデル学習方法の処理手続きを例示する図である。 図5は、感情インタラクションモデルを用いた感情認識について説明するための図である。 図6は、感情認識装置の機能構成を例示する図である。 図7は、感情認識方法の処理手続きを例示する図である。
本発明のポイントは、対話に含まれる文脈情報の一つである相手話者の感情の情報を用いて目的話者の感情を認識する点にある。対話に含まれる文脈情報のうち相手話者の感情の情報は目的話者の感情の認識に有効である。感情の認識は、発話を複数の感情クラスに分類する処理である。以降の説明では、感情クラスを、怒り/喜び/悲しみ/平常/その他の5種類とする。ただし、感情クラスはこれらに限定されるものではなく、任意に設定することができる。
図1を参照しながら、対話に含まれる文脈情報を用いた感情認識の具体例を説明する。ある目的話者の発話において、目的話者の直前の感情が“平常”であった場合、その発話の感情を推定することは困難である。しかし、その発話の直前の相手話者の感情が“喜び”であった場合、目的話者の感情も“喜び”である可能性が高くなることが想像できる。これは、人間が持つ共感の性質により、相手話者の感情の影響を受けるためである。
表1は、ある音声対話データベースを用いて、目的話者と相手話者の感情の関係性を調査した結果である。表中の各値の単位は割合である。例えば、目的話者の現在の発話の感情が“怒り”であるとき、相手話者の直前の発話の感情が“怒り”であった割合は0.38、すなわち38%、“喜び”であった割合は0.00、すなわち0%、“悲しみ”であった割合は0.02、すなわち2%である。
Figure 2019020684
表1の左上から右下へ向かう対角線上の値は、目的話者の現在の発話の感情と相手話者の直前の発話の感情とが一致した割合、すなわち共感の発生割合である。表1によれば、目的話者の現在の発話の感情が、“喜び”であったときの45%(*1)、“悲しみ”であったときの42%(*2)が、相手話者の直前の発話も同じ感情を表している。すなわち、目的話者の感情は共感により相手話者の感情の影響を受けていることがわかる。このことから、対話における感情認識において、相手話者の感情の情報が目的話者の感情認識に有効であることがわかる。
図1の例では、目的話者と相手話者が交互に発話を行っているが、目的話者もしくは相手話者が複数の発話を連続して行う場合もあり得る。例えば、感情認識の対象とする目的話者の発話の前に相手話者の発話が複数回続いた場合、「相手話者の直前の発話」とは複数回続く相手話者の発話のうち最後の発話である。一方、相手話者の発話の後に目的話者の発話が複数回続いた場合、複数回続く目的話者の発話それぞれに対して「相手話者の直前の発話」はすべて同じ相手話者の発話が用いられる。なお、以降の説明では、感情認識の対象とする目的話者の発話を「目的発話」と呼び、目的発話の直前に相手話者が行った発話を「直前発話」と呼ぶ。
本発明では、相手話者の感情を目的話者の感情の再推定に利用する。すなわち、各発話から認識された感情(以降、「発話毎感情」と呼ぶ)が対話に含まれるすべての発話に対して得られており、目的話者の発話毎感情と相手話者の発話毎感情とに基づいて目的話者の感情を再推定する。以降では、本発明で用いる再推定モデルを「感情インタラクションモデル」と呼ぶ。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[感情インタラクションモデル学習装置]
実施形態の感情インタラクションモデル学習装置は、以下のようにして、目的話者の感情を推定するために用いる感情インタラクションモデルを学習する。
1.目的話者の複数の発話と相手話者の複数の発話とを含む対話を収録した対話音声と、目的話者の各発話に対して付与された目的話者の感情の正解値を表す感情ラベルとからなる学習データを用意する。感情ラベルは予め人手により付与されるものとする。
2.学習データの対話音声から、目的話者および相手話者の発話毎感情を認識する。発話毎感情の認識には、例えば、非特許文献2などに記載された技術を用いる。
3.学習データに含まれる感情ラベルと目的話者の発話毎感情の推定値と相手話者の発話毎感情の推定値との3つ組の系列を用いて感情インタラクションモデルを学習する。
図2に感情インタラクションモデルの構造の一例を示す。感情インタラクションモデルは、図2に示すように、1個の目的発話に対して1個の発話感情推定器を構成している。発話感情推定器は、目的発話の発話毎感情の推定値と直前発話の発話毎感情の推定値とを入力とし、目的話者の過去および/または未来の感情の情報を用いて、目的発話の感情を再推定し、その推定値を出力する。発話感情推定器は、具体的には、例えば、リカレントニューラルネットワーク(RNN: Recurrent Neural Network)である。リカレントニューラルネットワークを用いることで、目的話者の発話毎感情の推定値と相手話者の発話毎感情の推定値とに加えて、非特許文献1に記載の技術と同様に、目的話者の過去および/または未来の感情の情報を用いることが可能となる。すなわち、目的話者自身と相手話者との文脈情報に基づいた感情認識が可能となる。
実施形態の感情インタラクションモデル学習装置1は、図3に示すように、学習データ記憶部10、発話検出部11、発話毎感情認識部12、モデル学習部13、発話毎感情認識モデル記憶部19、および感情インタラクションモデル記憶部20を含む。感情インタラクションモデル学習装置1は、学習データ記憶部10に記憶された学習データを用いて感情インタラクションモデルを学習し、学習済みの感情インタラクションモデルを感情インタラクションモデル記憶部20へ記憶する。感情インタラクションモデル学習装置1が図4に示す各ステップの処理を行うことにより実施形態の感情インタラクションモデル学習方法が実現される。
感情インタラクションモデル学習装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。感情インタラクションモデル学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。感情インタラクションモデル学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。感情インタラクションモデル学習装置1が備える各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。感情インタラクションモデル学習装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。感情インタラクションモデル学習装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習データ記憶部10には、感情インタラクションモデルの学習に用いる学習データが記憶されている。学習データは、目的話者の複数の発話と相手話者の複数の発話とを含む対話を収録した対話音声と、その対話音声に含まれる各発話に対して付与された感情の正解値を表す感情ラベルとからなる。感情ラベルは予め人手により付与しておけばよい。
発話毎感情認識モデル記憶部19には、発話毎感情認識部12が用いる発話毎感情認識モデルが記憶されている。発話毎感情認識モデルは、例えば、非特許文献2に記載された発話毎感情認識の手法において用いられるものとする。発話毎感情認識モデルは、例えば、非特許文献2に記載された手法により事前に学習しておく。このとき、発話毎感情認識モデルの事前学習において、学習データ記憶部10に記憶された対話音声を学習データとして用いてもよく、別の学習データ(発話とその発話に対応する感情ラベルの組の集合)を用いてもよい。
以下、図4を参照して、実施形態の感情インタラクションモデル学習装置1が実行する感情インタラクションモデル学習方法について説明する。
ステップS11において、発話検出部11は、学習データ記憶部10に記憶されている対話音声から発話区間を検出し、目的話者の発話による系列と相手話者の発話による系列とを得る。発話区間を検出する方法は、例えば、パワーのしきい値処理に基づく手法を用いることができる。また、音声/非音声モデルの尤度比に基づく手法などの他の発話区間検出手法を用いてもよい。以下、各話者の発話を対話の時系列順に並べたものを「発話系列」と呼ぶ。発話検出部11は、取得した目的話者の発話系列と相手話者の発話系列とを発話毎感情認識部12へ出力する。
ステップS12において、発話毎感情認識部12は、発話検出部11から目的話者の発話系列と相手話者の発話系列とを受け取り、発話毎感情認識モデル記憶部19に記憶された発話毎感情認識モデルを用いて、各発話系列に含まれる各発話に対して発話毎感情の認識を行う。ここでは、発話毎感情の認識は、非特許文献2に記載された手法を用いるものとする。また、例えば、基本周波数やパワーの発話平均のしきい値に基づく分類などの発話毎感情認識手法を利用してもよい。各発話に対する発話毎感情を認識した結果、各発話に対応する発話毎感情の推定値を得ることができる。これは、感情クラスごとの事後確率を並べた事後確率ベクトルである。以下、発話毎感情の推定値を対話の時系列順に並べたものを「発話毎感情系列」と呼ぶ。発話毎感情認識部12は、目的話者の発話毎感情系列と、相手話者の発話毎感情系列とをモデル学習部13へ出力する。
ステップS13において、モデル学習部13は、発話毎感情認識部12から目的話者の発話毎感情系列と相手話者の発話毎感情系列とを受け取り、学習データ記憶部10に記憶されている対話音声の各発話に対応する感情ラベルを読み込み、目的発話の発話毎感情の推定値と直前発話の発話毎感情の推定値とを入力とし、目的話者の過去および/または未来の感情の情報を用いて目的発話の感情を再推定し、目的発話の感情の推定値を出力する感情インタラクションモデルの学習を行う。モデル学習部13は、学習済みの感情インタラクションモデルを感情インタラクションモデル記憶部20へ記憶する。
感情インタラクションモデルは、図2に示したように、リカレントニューラルネットワーク(RNN)を用いる。ここでは、RNNとして、例えば、長短期記憶リカレントニューラルネットワーク(LSTM-RNN: Long Short-Term Memory Recurrent Neural Network)を用いるものとする。ただし、LSTM-RNN以外のリカレントニューラルネットワークを用いてもよく、例えば、ゲート付き再帰ユニット(GRU: Gated Recurrent Unit)などを用いてもよい。なお、LSTM-RNNは入力ゲートと出力ゲート、もしくは入力ゲートと出力ゲートと忘却ゲートを用いて構成され、GRUはリセットゲートと更新ゲートを用いて構成されることを特徴としている。LSTM-RNNは、双方向型のLSTM-RNNを用いても、一方向型のLSTM-RNNを用いてもよい。一方向型のLSTM-RNNを用いる場合、過去の感情の情報のみを用いるため、対話途中であっても感情認識を行うことができる。双方向型のLSTM-RNNを用いる場合、過去の感情の情報に加えて未来の感情の情報を利用可能となるため、感情の認識精度が向上する一方で、対話の開始から終了まですべての発話から得た感情の推定値による系列を一度に入力する必要があり、対話終了後に対話全体の感情認識を行う場合に適している。感情インタラクションモデルの学習は、例えば、既存のLSTM-RNNの学習手法である通時的誤差逆伝播法(BPTT: Back Propagation Through Time)を用いる。
[感情認識装置]
実施形態の感情認識装置は、以下のようにして、感情インタラクションモデルを用いて目的話者の発話の感情を認識する。
1.認識対象とする対話音声から、目的話者および相手話者の発話毎感情を認識する。発話毎感情の認識方法は、感情インタラクションモデルを学習した際と同様に、例えば、非特許文献2などに記載された技術を用いる。
2.目的話者および相手話者の発話毎感情の推定値を感情インタラクションモデルに入力し、目的話者の感情の再推定を行う。
図5に目的話者の感情を再推定する動作の例を示す。図5では、対話に参加している話者Aと話者Bの両方を目的話者としている。この場合、話者Aが目的話者の場合は話者Bを相手話者とみなし、話者Bが目的話者の場合は話者Aを相手話者とみなすことで、両方の話者の感情認識を行うことができる。図5の例では、対話音声に含まれる話者Aと話者Bの各発話から認識した発話毎感情は時刻の早い方から順に「平常」「喜び」「平常」「平常」であったが、感情インタラクションモデルを用いて再推定を行うことにより、直前発話の発話毎感情に影響を受けて「平常」「喜び」「喜び」「喜び」と更新されている。
実施形態の感情認識装置2は、図6に示すように、発話毎感情認識モデル記憶部19、感情インタラクションモデル記憶部20、発話検出部21、発話毎感情認識部22、および感情再推定部23を含む。感情認識装置2は、感情を認識する対象とする対話の音声を収録した対話音声を入力とし、感情インタラクションモデル記憶部20に記憶された感情インタラクションモデルを用いて、対話音声に含まれる目的話者の各発話の感情を推定し、感情の推定値による系列を出力する。感情認識装置2が図6に示す各ステップの処理を行うことにより実施形態の感情認識方法が実現される。
感情認識装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。感情認識装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。感情認識装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。感情認識装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。感情認識装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。感情認識装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
発話毎感情認識モデル記憶部19には、発話毎感情認識部22が用いる発話毎感情認識モデルが記憶されている。発話毎感情認識モデルは、感情インタラクションモデル学習装置1が用いたモデルと同様である。
感情インタラクションモデル記憶部20には、感情インタラクションモデル学習装置1が生成した学習済みの感情インタラクションモデルが記憶されている。
以下、図7を参照して、実施形態の感情認識装置2が実行する感情認識方法について説明する。
ステップS21において、発話検出部21は、感情認識装置2に入力された対話音声から発話区間を検出し、目的話者の発話系列と相手話者の発話系列とを得る。この対話音声は、学習データの対話音声と同様に、目的話者の複数の発話と相手話者の複数の発話とを含む。発話区間を検出する方法は、感情インタラクションモデル学習装置1の発話検出部11と同様の方法を用いればよい。発話検出部21は、取得した目的話者の発話系列と相手話者の発話系列とを発話毎感情認識部22へ出力する。
ステップS22において、発話毎感情認識部22は、発話検出部21から目的話者の発話系列と相手話者の発話系列とを受け取り、発話毎感情認識モデル記憶部19に記憶された発話毎感情認識モデルを用いて、各発話系列に含まれる各発話に対して発話毎感情の認識を行う。発話毎感情を認識する方法は、感情インタラクションモデル学習装置1の発話毎感情認識部21と同様の方法を用いればよい。発話毎感情認識部22は、目的話者の発話毎感情系列と、相手話者の発話毎感情系列とを感情再推定部23へ出力する。
ステップS23において、感情再推定部23は、発話毎感情認識部22から目的話者の発話毎感情系列と相手話者の発話毎感情系列とを受け取り、目的発話の発話毎感情の推定値と直前発話の発話毎感情の推定値とを感情インタラクションモデル記憶部20に記憶されている感情インタラクションモデルに入力して目的話者の感情を再推定する。これは、相手話者の感情の情報や目的話者の過去および/または未来の感情の情報に基づいて目的話者の感情の認識を再度行うことに相当する。例えば、発話毎感情認識では「平常」か「喜び」かの分類が困難であった発話に対し、当該発話の直前の相手話者の感情が「喜び」であったことに基づいて、当該発話が「喜び」の感情であったことを再推定することができる。これにより、感情認識精度の向上が期待できる。感情インタラクションモデルに基づく感情再推定では、感情インタラクションモデルに目的発話の発話毎感情の推定値と直前発話の発話毎感情の推定値とを入力し、順伝播させることで感情の再推定を行う。感情再推定部23は、対話音声に含まれる目的話者の発話それぞれを目的発話として感情を再推定し、目的話者の感情の推定値による系列を感情認識装置2から出力する。
[変形例]
上述の実施形態では、感情インタラクションモデル学習装置1と感情認識装置2を別個の装置として構成する例を説明したが、感情インタラクションモデルを学習する機能と学習済みの感情インタラクションモデルを用いて感情を認識する機能とを兼ね備えた1台の感情認識装置を構成することも可能である。すなわち、変形例の感情認識装置は、学習データ記憶部10、発話検出部11、発話毎感情認識部12、モデル学習部13、発話毎感情認識モデル記憶部19、感情インタラクションモデル記憶部20、および感情再推定部23を含む。
上述のように、本発明の感情インタラクションモデル学習装置および感情認識装置は、目的話者の発話毎感情系列に加えて相手話者の発話毎感情系列も用いて感情インタラクションモデルを学習し、その感情インタラクションモデルを用いて目的話者の感情の再推定を行うように構成されている。これにより、目的話者自身の感情の情報だけでなく、対話に含まれる文脈情報も利用することができるため、目的話者の感情の推定精度を向上することができる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 感情インタラクションモデル学習装置
10 学習データ記憶部
11 発話検出部
12 発話毎感情認識部
13 モデル学習部
19 発話毎感情認識モデル記憶部
2 感情認識装置
20 感情インタラクションモデル記憶部
21 発話検出部
22 発話毎感情認識部
23 感情再推定部

Claims (7)

  1. 目的話者の複数の発話と相手話者の複数の発話とからなる対話を収録した対話音声と、上記対話に含まれる各発話に対する感情の正解値とからなる学習データを記憶する学習データ記憶部と、
    上記対話音声から抽出した各発話に対する発話毎感情を認識して、上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを生成する発話毎感情認識部と、
    上記感情の正解値と上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを用いて、上記目的話者の発話である目的発話の発話毎感情と上記目的発話の直前に上記相手話者が行った直前発話の発話毎感情とを入力として上記目的発話の感情を再推定する感情インタラクションモデルを学習するモデル学習部と、
    を含む感情インタラクションモデル学習装置。
  2. 請求項1に記載の感情インタラクションモデル学習装置であって、
    上記感情インタラクションモデルは、1個の目的発話に対して1個の発話感情推定器を構成するものであり、
    上記発話感情推定器は、上記目的発話の発話毎感情と上記直前発話の発話毎感情とを入力とし、上記目的発話の前に上記目的話者が行った発話に関する感情の情報または上記目的発話の前後に上記目的話者が行った発話に関する感情の情報とを用いて、上記目的発話の感情を再推定して上記目的発話の感情の推定値を出力するものである、
    感情インタラクションモデル学習装置。
  3. 請求項2に記載の感情インタラクションモデル学習装置であって、
    上記発話感情推定器は、入力ゲートと出力ゲート、入力ゲートと出力ゲートと忘却ゲート、リセットゲートと更新ゲート、のいずれかを備えることを特徴とする、
    感情インタラクションモデル学習装置。
  4. 請求項1から3のいずれかに記載の感情インタラクションモデル学習装置により学習した感情インタラクションモデルを記憶するモデル記憶部と、
    目的話者の複数の発話と相手話者の複数の発話とからなる対話に含まれる各発話に対する発話毎感情を認識して、上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを生成する発話毎感情認識部と、
    上記目的話者の発話である目的発話の発話毎感情と、上記目的発話の直前に上記相手話者が行った直前発話の発話毎感情とを上記感情インタラクションモデルに入力して上記目的発話の感情を再推定する感情再推定部と、
    を含む感情認識装置。
  5. 学習データ記憶部に、目的話者の複数の発話と相手話者の複数の発話とからなる対話を収録した対話音声と、上記対話に含まれる各発話に対する感情の正解値とからなる学習データが記憶されており、
    発話毎感情認識部が、上記対話音声から抽出した各発話に対する発話毎感情を認識して、上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを生成し、
    モデル学習部が、上記感情の正解値と上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを用いて、上記目的話者の発話である目的発話の発話毎感情と上記目的発話の直前に上記相手話者が行った直前発話の発話毎感情とを入力として上記目的発話の感情を再推定する感情インタラクションモデルを学習する、
    感情インタラクションモデル学習方法。
  6. モデル記憶部に、請求項5に記載の感情インタラクションモデル学習方法により学習した感情インタラクションモデルが記憶されており、
    発話毎感情認識部が、目的話者の複数の発話と相手話者の複数の発話とからなる対話に含まれる各発話に対する発話毎感情を認識して、上記目的話者の発話毎感情系列と上記相手話者の発話毎感情系列とを生成し、
    感情再推定部が、上記目的話者の発話である目的発話の発話毎感情と、上記目的発話の直前に上記相手話者が行った直前発話の発話毎感情とを上記感情インタラクションモデルに入力して上記目的発話の感情を再推定する、
    感情認識方法。
  7. 請求項1から3のいずれかに記載の感情インタラクションモデル学習装置または請求項4に記載の感情認識装置としてコンピュータを機能させるためのプログラム。
JP2017141791A 2017-07-21 2017-07-21 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム Active JP6732703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017141791A JP6732703B2 (ja) 2017-07-21 2017-07-21 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017141791A JP6732703B2 (ja) 2017-07-21 2017-07-21 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019020684A true JP2019020684A (ja) 2019-02-07
JP6732703B2 JP6732703B2 (ja) 2020-07-29

Family

ID=65353540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017141791A Active JP6732703B2 (ja) 2017-07-21 2017-07-21 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6732703B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583965A (zh) * 2020-04-28 2020-08-25 北京慧闻科技(集团)有限公司 一种语音情绪识别方法、装置、设备及存储介质
JP2020184243A (ja) * 2019-05-09 2020-11-12 株式会社Empath 営業支援装置、営業支援方法、営業支援プログラム
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
WO2021084810A1 (ja) 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法
JPWO2021171552A1 (ja) * 2020-02-28 2021-09-02
JP2021162627A (ja) * 2020-03-30 2021-10-11 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
CN113889149A (zh) * 2021-10-15 2022-01-04 北京工业大学 语音情感识别方法及装置
JPWO2022049613A1 (ja) * 2020-09-01 2022-03-10
CN115240657A (zh) * 2022-07-27 2022-10-25 深圳华策辉弘科技有限公司 一种语音处理方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541660B1 (ko) 2021-01-05 2023-06-12 세종대학교산학협력단 음성 신호에 기반한 감정 인식 장치 및 방법

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184243A (ja) * 2019-05-09 2020-11-12 株式会社Empath 営業支援装置、営業支援方法、営業支援プログラム
WO2021084810A1 (ja) 2019-10-30 2021-05-06 ソニー株式会社 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法
JPWO2021171552A1 (ja) * 2020-02-28 2021-09-02
WO2021171552A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
JP2021162627A (ja) * 2020-03-30 2021-10-11 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
CN111583965A (zh) * 2020-04-28 2020-08-25 北京慧闻科技(集团)有限公司 一种语音情绪识别方法、装置、设备及存储介质
JPWO2022049613A1 (ja) * 2020-09-01 2022-03-10
WO2022049613A1 (ja) * 2020-09-01 2022-03-10 三菱電機株式会社 情報処理装置、推定方法、及び推定プログラム
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112185423B (zh) * 2020-09-28 2023-11-21 南京工程学院 基于多头注意力机制的语音情感识别方法
CN113889149A (zh) * 2021-10-15 2022-01-04 北京工业大学 语音情感识别方法及装置
CN113889149B (zh) * 2021-10-15 2023-08-29 北京工业大学 语音情感识别方法及装置
CN115240657A (zh) * 2022-07-27 2022-10-25 深圳华策辉弘科技有限公司 一种语音处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP6732703B2 (ja) 2020-07-29

Similar Documents

Publication Publication Date Title
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
US10902843B2 (en) Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
JP6469309B2 (ja) 発話を処理する方法
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
US10249292B2 (en) Using long short-term memory recurrent neural network for speaker diarization segmentation
Xia et al. A multi-task learning framework for emotion recognition using 2D continuous space
Ando et al. Soft-target training with ambiguous emotional utterances for dnn-based speech emotion classification
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
Tong et al. A comparative study of robustness of deep learning approaches for VAD
JP2021533397A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
US20150325240A1 (en) Method and system for speech input
CN109686383B (zh) 一种语音分析方法、装置及存储介质
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
Triantafyllopoulos et al. Deep speaker conditioning for speech emotion recognition
Heusser et al. Bimodal speech emotion recognition using pre-trained language models
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
Sahu et al. Multi-Modal Learning for Speech Emotion Recognition: An Analysis and Comparison of ASR Outputs with Ground Truth Transcription.
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP7526846B2 (ja) 音声認識
Kim et al. Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition
Zhang et al. Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features.
Chen et al. Sequence-to-sequence modelling for categorical speech emotion recognition using recurrent neural network
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200708

R150 Certificate of patent or registration of utility model

Ref document number: 6732703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150