JP6654611B2 - 成長型対話装置 - Google Patents
成長型対話装置 Download PDFInfo
- Publication number
- JP6654611B2 JP6654611B2 JP2017233573A JP2017233573A JP6654611B2 JP 6654611 B2 JP6654611 B2 JP 6654611B2 JP 2017233573 A JP2017233573 A JP 2017233573A JP 2017233573 A JP2017233573 A JP 2017233573A JP 6654611 B2 JP6654611 B2 JP 6654611B2
- Authority
- JP
- Japan
- Prior art keywords
- intention
- intention understanding
- extended
- understanding
- model data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
以下、本発明の実施形態1を、図1ないし図6を用いて説明する。
本実施形態に係る成長型対話装置200は、図1に示されるように、処理部210、記憶部280、音声入出力部230、画像入力部240からなる。成長型対話装置200は、PCやスマートフォンなどの一般的な情報処理装置でもよいし、特定の業務を遂行するためのロボットでもよい。
処理部210のサブコンポーネントの機能は、ハードウェアとしての中央処理装置(CPU)が主記憶装置上にロードされたプログラムを実行することにより、実行される。
なお、各々のデータの詳細については、後に説明する。
意図理解用モデルデータ110は、認識されたテキストから意図を抽出するための基準データであり、図2に示されるように、テキスト110a、意図ラベル110b、確信度110cのフィールドからなる。
拡張意図理解用モデルデータ111のデータ構造も、意図理解用モデルデータ110と同様である。
最初に、図5を用いて成長型対話装置を通した音声対話処理の流れ、特にユーザが発話した質問音声に対して成長型対話装置が回答音声を発話するまでの一連の処理の流れについて説明する。
そして、誤り原因分析処理116の結果により、再学習決定処理117を動作させ、1)音声認識用学習データ150を用いて、音声認識学習処理141をおこなって、音声認識用モデルデータ108を更新するか、2)意図理解用学習データ120を用いて、意図理解学習処理140をおこなって、意図理解用モデルデータ110を更新するか、3)拡張意図理解用学習データ121を用いて、意図理解学習処理118をおこなって、拡張意図理解用モデルデータ111を更新するか、4)重み調整学習処理119により、拡張意図理解用学習データ121の重みを修正して、拡張意図理解用モデルデータ111を更新するか、を決定する
また、誤り原因分析処理116の結果により、通常意図ラベルの結果に従って、応答生成処理106、音声合成処理107、音声出力処理112をおこない、システム発話音声113の発話処理をおこなって、ユーザの反応を見ることもおこなう(画像入力と音声入力により、ユーザ反応識別処理134にいたるパス)。
先ず、成長型対話装置200は、ユーザ反応識別処理134の結果を受けて、拡張意図ラベルに基づく、システム発話音声113のユーザ反応が肯定的であるか否定的であるかを判定する(S100)。
ユーザ反応が肯定的なときには(S100:YES)、次に、通常意図ラベルと拡張意図ラベルが一致するか否かを判定する(S101)。
以下、図7ないし図10を用いて実施形態2を説明する。
実施形態1では、拡張意図理解用学習データ121により構築された拡張意図理解用モデルデータ111に基づいた意図理解処理に対する対応と、通常意図ラベルと拡張意図ラベルの内容を比較することによって、適切な音声認識学習、意図理解用学習をおこなうものであり、図6の処理によって、どのように学習をするのかを説明した。
先ず、図7を用いて実施形態2に係る成長型対話装置の構成について説明する。
実施形態2の成長型対話装置200は、実施形態1の成長型対話装置200に加えて、データ入出力部250を有している。
音声データ170は、成長型対話装置200と対話したユーザの音声を録音したデータである。
書き起こしテキスト190は、オペレータがユーザの発話した音声をテキストとして書き起こしたデータである。
実施形態2に係る成長型対話装置200の処理の流れとしては、図5に示した実施形態1の成長型対話装置200の処理の流れとして、誤り原因分析処理116と再学習決定処理117の間に、書き起こしテキスト取得処理160が付け加わっている。その他の処理の流れは、図5に示した実施形態1の成長型対話装置200の処理の流れと同様である。
実施形態2に係る誤り原因分析処理は、図6に示した実施形態1とほぼ同様であるが、図9Aに示されるように、図6のS101:NO(*A)、S102:YESおよびS103:NO(*B)の場合の処理が異なっている。
このときには、音声認識処理の誤りの再学習をする(S2012)。
このときには、通常意図ラベルが誤りにも関らず、拡張意図ラベルが正しいと判定されたため、拡張意図ラベルによる意図が肯定的であったのは、偶然であると考えられる。そのため、通常の意図理解用学習データ120による再学習をおこなって、意図理解用モデルデータ110を更新する(S2013)。
書き起こしテキスト入力画面400は、オペレータがユーザの発話音声を聴取して、書き起こしたテキストを入力する画面であり、図7の表示装置251に出力される。
102…音声入力処理
103…発話区間検出処理
104…音声認識処理
105…意図理解処理
106…応答生成処理
107…音声合成処理
108…音声認識用モデルデータ
110…意図理解用モデルデータ
111…拡張意図理解用モデルデータ
112…音声出力処理
113…システム発話音声
115…拡張意図理解処理
116…誤り原因分析処理
117…再学習決定処理
118…意図理解学習処理
119…重み調整学習処理
120…意図理解用学習データ
121…拡張意図理解用学習データ
130…画像入力処理
131…人物・顔切り出し処理
132…顔・表情動作認識処理
133…音声感情認識処理
140…意図理解学習処理
141…音声認識学習処理
150…音声認識用学習データ
160…書き起こしテキスト取得処理
Claims (12)
- ユーザと音声対話を行って、ユーザの意図を解析して応答する成長型対話装置であって、
音声認識用学習データから学習された音声認識用モデルデータを参照して、取得したユーザの発話音声から、音声認識処理をおこないテキスト化する音声認識部と、
意図理解用学習データから学習された意図理解用モデルデータを参照して、前記音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう意図理解部と、
前記意図理解用学習データの同一の意図ラベルに対して異なったテキストを対応付けた拡張意図理解用学習データから学習された拡張意図理解用モデルデータを参照して、前記音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう拡張意図理解部と、
ユーザの音声応答、ユーザの応答する映像を解析して、成長型対話装置の発話音声に対する応答が肯定的であるか否定的であるかを判定するユーザ反応識別部と、
前記ユーザ反応識別部の判定結果に基づいて、音声認識処理に誤りがあるか、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルに誤りがあるか、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルに誤りがあるかを判定する誤り原因分析部と、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理のいずれか、または、その組合せの処理を指示する再学習決定部とを備えることを特徴とする成長型対話装置。 - 前記ユーザ反応識別部は、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第一のユーザ反応を判定し、
前記誤り原因分析部は、前記ユーザ反応識別部が判定した前記第一のユーザ反応と、同一のユーザの発話音声に対して、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとの一致とに基づいて判定することを特徴とする請求項1記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、肯定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこなうことを特徴とする請求項2記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致するときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項2記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときは、
前記ユーザ反応識別部は、前記意図理解用モデルデータを参照した意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第二のユーザ反応を判定し、
前記ユーザ反応識別部の判定した第二のユーザ反応が、否定的であるときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
前記ユーザ反応識別部の判定した第二のユーザ反応が、肯定的であるときには、
前記拡張意図理解用モデルデータの生成にあたり影響のある拡張意図理解用学習データの重みを調整する処理をおこなうことを特徴とする請求項2記載の成長型対話装置。 - 前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理のいずれか、または、その組合せの処理をおこなうかは、さらに、オペレータの指示があったときにおこなう請求項1記載の成長型対話装置。
- さらに、ユーザの発話音声を聴取して、オペレータが書き起こしたテキストを入力するテキスト書き起こしインタフェース部を備え、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定することを特徴とする請求項1記載の成長型対話装置。 - 前記ユーザ反応識別部は、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第一のユーザ反応を判定し、
前記誤り原因分析部は、前記ユーザ反応識別部が判定した前記第一のユーザ反応と、同一のユーザの発話音声に対して、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとの一致とに基づいて判定することを特徴とする請求項7記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、肯定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときには、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致するときには、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
前記誤り原因分析部の判定に従って、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。 - 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときは、
前記ユーザ反応識別部は、前記意図理解用モデルデータを参照した意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第二のユーザ反応を判定し、
前記ユーザ反応識別部の判定した第二のユーザ反応が、否定的であるときには、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
前記誤り原因分析部の判定に従って、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。 - 前記音声認識処理の確信度が所定の閾値以下のテキスト、または、音声データの文節単位などのある区間が所定の閾値以下のテキストに対する音声の書き起こしテキストのみを入力することを特徴とする請求項7記載の成長型対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017233573A JP6654611B2 (ja) | 2017-12-05 | 2017-12-05 | 成長型対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017233573A JP6654611B2 (ja) | 2017-12-05 | 2017-12-05 | 成長型対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019101291A JP2019101291A (ja) | 2019-06-24 |
JP6654611B2 true JP6654611B2 (ja) | 2020-02-26 |
Family
ID=66973642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017233573A Active JP6654611B2 (ja) | 2017-12-05 | 2017-12-05 | 成長型対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6654611B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949797B (zh) | 2019-03-11 | 2021-11-12 | 北京百度网讯科技有限公司 | 一种训练语料的生成方法、装置、设备及存储介质 |
KR102413616B1 (ko) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성 |
US11263198B2 (en) * | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
JP7363307B2 (ja) * | 2019-09-30 | 2023-10-18 | 日本電気株式会社 | 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体 |
CN110737765A (zh) * | 2019-10-25 | 2020-01-31 | 上海喜马拉雅科技有限公司 | 多轮对话的对话数据处理方法及相关装置 |
KR20210108098A (ko) | 2020-02-25 | 2021-09-02 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN111611366B (zh) * | 2020-05-20 | 2023-08-11 | 北京百度网讯科技有限公司 | 意图识别优化处理方法、装置、设备及存储介质 |
US11664033B2 (en) | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
KR102346482B1 (ko) * | 2020-09-25 | 2022-01-04 | 한국남동발전 주식회사 | 인공 지능 기반의 발전소 내의 인적 실수 예방 시스템 및 방법 |
CN112687260A (zh) * | 2020-11-17 | 2021-04-20 | 珠海格力电器股份有限公司 | 基于人脸识别的表情判断语音识别方法、服务器及空调 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6334815B2 (ja) * | 2015-03-20 | 2018-05-30 | 株式会社東芝 | 学習装置、方法、プログラムおよび音声対話システム |
-
2017
- 2017-12-05 JP JP2017233573A patent/JP6654611B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019101291A (ja) | 2019-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6654611B2 (ja) | 成長型対話装置 | |
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
EP1701338B1 (en) | Speech recognition method | |
US9916826B1 (en) | Targeted detection of regions in speech processing data streams | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2012137680A (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
US11961510B2 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
JPWO2008126254A1 (ja) | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP2009116075A (ja) | 音声認識装置 | |
US11043212B2 (en) | Speech signal processing and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6654611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |