JP6654611B2 - 成長型対話装置 - Google Patents

成長型対話装置 Download PDF

Info

Publication number
JP6654611B2
JP6654611B2 JP2017233573A JP2017233573A JP6654611B2 JP 6654611 B2 JP6654611 B2 JP 6654611B2 JP 2017233573 A JP2017233573 A JP 2017233573A JP 2017233573 A JP2017233573 A JP 2017233573A JP 6654611 B2 JP6654611 B2 JP 6654611B2
Authority
JP
Japan
Prior art keywords
intention
intention understanding
extended
understanding
model data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017233573A
Other languages
English (en)
Other versions
JP2019101291A (ja
Inventor
永松 健司
健司 永松
直之 神田
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017233573A priority Critical patent/JP6654611B2/ja
Publication of JP2019101291A publication Critical patent/JP2019101291A/ja
Application granted granted Critical
Publication of JP6654611B2 publication Critical patent/JP6654611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、成長型対話装置に係り、特に、音声対話を自動的に行うための音声認識学習、意図理解学習をするのに好適な成長型対話装置に関する。
コンピュータまたはロボットと人間のユーザとの間で音声によって対話を行うシステム(以下、「対話システム」と呼ぶ)が開発されている。この対話システムを搭載したロボット、またはスマートフォンやタブレットPCなどのデバイス(以下、「対話デバイス」と呼ぶ)は、対話システムを動作させ、対面するユーザに対して音声対話によるサービスを実施する。
この対話システムでは、まずユーザが発話した音声をマイクにより集音し、音声認識する。次に、書き起こされたテキストに対して意図理解と呼ばれる処理により、ユーザが対話システムに何をしてもらいたいと言っているかを判別する。最後に、判別結果に基づき、ユーザが意図した動作、例えば、質問への回答の読み上げや情報の表示などの動作、ロボットであれば移動など動作を対話デバイスが実行する。
この対話システムにおいて、システムが回答を知らない質問をユーザが行った場合、従来であれば対話システムは「知りません」などの回答をしていたが、逆にシステムからユーザにその質問の回答を尋ね、その結果で質問応答の知識を更新させていくことができる。特許文献1ではそのような対話システムの構成を開示している。特許文献1の音声対話装置においては、ユーザから知らないことを聞かれた場合にユーザにその答えを問い返し、その質問内容と答えを記憶して、次からの対話に用いるようにする。このため、知らない対話内容によって対話を中断させたり、ユーザの提示する話題を変更したりする必要性が小さくなると共に、学習によって新たなシナリオや語彙を増やして知識を向上させ、次回からのユーザとの対話に反映することができるとしている。
ところで、対話システムにおいては、ユーザの発話に対して音声認識をおこなうが、音声認識の精度がよくないと結果的に意図理解が正しくおこなわれない結果となる。
特許文献2には、意図理解のための学習テキストにわざと、誤りを含んだ学習テキストを使用して、音声認識での誤りに対して、耐性を高めて意図理解を確実にするための意図推定装置が開示されている。
特開2004−109323号公報 特開2015−230384号公報
上記従来技術の特許文献2では、音声認識によって得られるテキストに、誤りのあるテキストを含めることにより、意図推定の精度を高めることができるとしている。
しかしながら、特許文献2では、ユーザの反応に基づいて、音声認識処理、意図理解処理について再学習をして、音声認識処理と意図理解処理の正解精度を上げるという観点については示唆されていない。一般に、対話システムにおいては、ユーザの意図と違っていた場合に、ユーザと対話しながら、音声認識処理、意図理解処理の学習をするが、ユーザの意図を理解するために、音声認識処理をしてから意図理解処理がされるため、その誤りが音声認識処理の時点で生じたものなのか、意図理解処理の時点で生じたものなのか、判別し難いため、どちらの学習データを更新したらよいのか判定するのが難しいという問題がある。
本発明の目的は、ユーザの対応に基づいて、最適な音声認識処理、意図理解処理の再学習を適切におこなって、音声認識処理と意図理解処理の正解精度を共に向上させることのできる成長型対話装置を提供することにある。
本発明の成長型対話装置の構成は、好ましくは、ユーザと音声対話を行って、ユーザの意図を解析して応答する成長型対話装置であって、音声認識用学習データから学習された音声認識用モデルデータを参照して、取得したユーザの発話音声から、音声認識処理をおこないテキスト化する音声認識部と、意図理解用学習データから学習された意図理解用モデルデータを参照して、音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう意図理解部と、意図理解用学習データの同一の意図ラベルに対して異なったテキストを対応付けた拡張意図理解用学習データから学習された拡張意図理解用モデルデータを参照して、音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう拡張意図理解部と、ユーザの音声応答、ユーザの応答する映像を解析して、成長型対話装置の発話音声に対する応答が肯定的であるか否定的であるかを判定するユーザ反応識別部と、ユーザ反応識別部の判定結果に基づいて、音声認識処理に誤りがあるか、意図理解用モデルデータを参照した意図理解部が出力する意図ラベルに誤りがあるか、拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルに誤りがあるかを判定する誤り原因分析部と、誤り原因分析部の判定に従って、音声認識用学習データから音声認識用モデルデータを更新する音声認識学習処理、意図理解用学習データから意図理解用モデルデータを更新する意図理解学習処理、拡張意図理解用学習データから拡張意図理解用モデルデータを更新する意図理解学習処理のいずれか、または、その組合せの処理を指示する再学習決定部とを備えるようにしたものである。
本発明によれば、ユーザの対応に基づいて、最適な音声認識処理、意図理解処理の再学習を適切におこなって、音声認識処理と意図理解処理の正解精度を共に向上させることのできる成長型対話装置を提供することができる。
実施形態1に係る成長型対話装置の機能構成を示す図である。 意図理解用モデルデータの一例を示す図である。 意図理解用学習データの一例を示す図である。 拡張意図理解用学習データの一例を示す図である。 実施形態1に係る成長型対話装置の処理の流れを示す図である。 実施形態1に係る誤り原因分析処理を示すフローチャートである。 実施形態2に係る成長型対話装置の機能構成を示す図である。 実施形態2に係る成長型対話装置の処理の流れを示す図である。 実施形態2に係る誤り原因分析処理を示すフローチャートである(その一)。 実施形態2に係る誤り原因分析処理を示すフローチャートである(その二)。 書き起こしテキスト入力画面の一例を示す図である。
以下、本発明に係る各実施形態を、図1ないし図10を用いて説明する。
〔実施形態1〕
以下、本発明の実施形態1を、図1ないし図6を用いて説明する。
先ず、図1を用いて実施形態1に係る成長型対話装置の構成について説明する。
本実施形態に係る成長型対話装置200は、図1に示されるように、処理部210、記憶部280、音声入出力部230、画像入力部240からなる。成長型対話装置200は、PCやスマートフォンなどの一般的な情報処理装置でもよいし、特定の業務を遂行するためのロボットでもよい。
音声入出力部230には、マイク231と、スピーカー230が接続され、マイク231からユーザの音声を入力し、スピーカー230からユーザに音声を出力するようになっている。
画像入力部240には、カメラ(撮像装置)242が接続され、そこから撮影した動画、静止画を取り込むことができる。
処理部210は、成長型対話装置200の各処理を実行する部分であり、発話区間検出部211、音声認識部212、意図理解部213、拡張意図理解部214、意図理解モデル学習部215、応答生成部216、音声合成部217、音声感情認識部218、顔・表情動作認識部219、ユーザ反応識別部220、誤り原因分析部260、再学習決定部270のサブコンポーネントよりなる。
処理部210のサブコンポーネントの機能は、ハードウェアとしての中央処理装置(CPU)が主記憶装置上にロードされたプログラムを実行することにより、実行される。
発話区間検出部211は、ユーザ音声から無音部を検知し、発話区間を検出する機能部である。音声認識部212は、ユーザ音声を音声認識して、テキスト化する機能部である。意図理解部213は、意図理解用モデルデータ110に基づいて、音声認識したテキストからユーザの発話意図を意味づける機能部である。拡張意図理解部214は、拡張意図理解用モデルデータ111に基づいて、音声認識したテキストからユーザの発話意図を意味づける機能部である。意図理解モデル学習部215は、意図理解用学習データ(後述)から意図理解用モデルデータ(後述)を生成する機能部である。応答生成部216は、意図理解部213の処理に基づいて、成長型対話装置200の応答のためのデータを生成する機能部である。音声合成部217は、成長型対話装置200がユーザに応答するための音声データを生成する機能部である。音声感情認識部218は、ユーザから入力された音声を認識して、ユーザの感情が肯定的か否定的を判定する機能部である。顔・表情動作認識部219は、画像入力部240から入力したユーザの画像に基づいて、ユーザの顔、表情やその動作を認識して、ユーザの感情が肯定的か否定的を判定する機能部である。誤り原因分析部260は、ユーザの応答の結果、ユーザの意図理解の誤りの結果を原因が、音声認識処理によるものなのか意図理解処理によるものなのかを判定する機能部である。再学習処理部270は、誤り原因分析部260の分析結果に基づき、音声認識の再学習をおこなうか、意図理解の再学習をおこなうかを決定する機能部である。
記憶部280は、成長型対話装置200の各処理を実行するための必要データを格納する部分であり、音声認識用モデルデータ108、音声認識用学習データ150、意図理解用モデルデータ110、拡張意図理解用モデルデータ111、意図理解用学習データ120、拡張意図理解用学習データ121の各種データが記憶される。
音声認識用モデルデータ108は、音響データを音素に変換したり、語のつながりを識別するための確率値からなる音声認識用の基準データである。音声認識用学習データ150は、音声認識用モデルデータ108を作成するために用いられる音声データとテキストをペアとした音声コーパスである。意図理解用モデルデータ110は、意図理解用学習データ120に基づいて生成されるデータであり、認識されたテキストから意図を抽出するための基準データである。拡張意図理解用モデルデータ111は、拡張意図理解用学習データ121に基づいて生成されるデータであり、認識されたテキストから意図を抽出するための基準データである。意図理解用学習データ120は、認識されたテキストとユーザの発話意図を結びつけるための学習データである。拡張意図理解用学習データ121は、意図理解用学習データ120に加えて、認識テキストに誤りがある場合のテキストに対する意図を表すラベルを付け加えたデータである。
本実施形態の意図理解用学習データには、通常版の意図理解用学習データ120と、それを拡張した拡張意図理解用学習データ121の二種類があり、それぞれに対応した意図理解用モデルデータである意図理解用モデルデータ110と、拡張意図理解用モデルデータ111が生成されることに留意する。
なお、各々のデータの詳細については、後に説明する。
次に、図2ないし図4を用いて本実施形態の成長型対話装置に用いられるデータ構造の主要なものについて説明する。
意図理解用モデルデータ110は、認識されたテキストから意図を抽出するための基準データであり、図2に示されるように、テキスト110a、意図ラベル110b、確信度110cのフィールドからなる。
テキスト110aは、意図理解用学習用データから得られるテキストの単語列を格納するフィールドである。意図ラベル110bは、成長型対話装置が動作するためのユーザから読み取った意図を表すラベルを格納するフィールドである。確信度110cは、ユーザとの対話でテキスト110aの単語が出てきたときに、成長型対話装置200がユーザからの意図ラベル110bの意図を読み取って対応するときの蓋然性を0〜1の間で数値化した確率を格納するフィールドである。
例えば、図2の第一レコードに示される例では、「高尾山」という単語がユーザとの対話に出てきたときに、ユーザから読み取る意図の「高尾山に登る意図」が、0.3であり、第二レコードに示される例では、「高尾山」「登山」という単語がユーザとの対話に出てきたときに、ユーザから読み取る意図の「高尾山に上る意図」が、0.8であることを示している。
また、図2の第七レコードに示される例では、「高尾山」という単語がユーザとの対話に出てきたときに、ユーザから読み取る意図の「高尾山の高さは?」が、0.4であり、第八レコードに示される例では、「高尾山」「高さ」という単語がユーザとの対話に出てきたときに、ユーザから読み取る意図の「高尾山の高さは?」が、0.9であることを示している。
成長型対話装置200は、ユーザからの音声を認識して意図理解用モデルデータ110を参照し、それに含まれる単語を解析し、一番対応する意図ラベルの確信度が高いものを取得することにより、一番蓋然性の高いユーザの意図を推定することができる。
拡張意図理解用モデルデータ111のデータ構造も、意図理解用モデルデータ110と同様である。
意図理解用学習データ120は、意図理解用モデルデータ110を作成するための元データであり、図3に示されるように、テキスト120a、意図ラベル120bのフィールドからなる。
テキスト120aは、ユーザの対話を音声認識して書き起こしたテキストを格納するフィールドである。意図ラベル120bは、テキスト120aに対応した成長型対話装置がユーザの意図を読み取るための意図ラベルを格納するフィールドである。図3に示される例では、ユーザの意図ラベル120bとして、「高尾山に登る」を読み取るときに対応するテキストが「高尾山に登りたい」、「高尾山に登ってみたい」、「高尾山に登ったことがない」などであることを示している。
拡張意図理解用学習データ121は、拡張意図理解用モデルデータ111を作成するための元データであり、図Eに示されるように、テキスト121a、意図ラベル121bのフィールドからなる。拡張意図理解用学習データ121は、意図理解用学習データ120とデータ構造は、同一であり、テキスト121a、意図ラベル121bの意味も意図理解用学習データ120のテキスト120a、意図ラベル120bとそれぞれ同様である。
ただし、拡張意図理解用学習データ121は、図Eに示されるように、新たなレコード(第六レコード〜第八レコード)が付け加わっている。これらのレコードは、テキスト121aについての音声認識が誤認識されたときのテキストであり、それに意図ラベル121bを対応させたものである。例えば、ユーザの発声が、「高尾山に登りたい」であったときに、誤認識して「高尾山にのぞみたい」としたときのテキストに対応したものである。
拡張意図理解用学習データ121により、学習させてモデルデータを作成することにより、成長型対話装置200が、音声認識の処理の誤認識に対して、Robust(頑強)であって、音声認識の処理の誤認識があってもユーザの意図にたどり着けるようになることが期待できる。ただし、第六レコードについていえば、ユーザの音声認識の結果のテキストが「高尾山にのぞみたい」であり、ユーザの意図が「高尾山に望む」(高尾山を遠くから眺める)のときには、誤った意図に導かれる可能性もあることに留意する必要がある。
次に、図5および図6を用いて実施形態1に係る成長型対話装置の処理について説明する。
最初に、図5を用いて成長型対話装置を通した音声対話処理の流れ、特にユーザが発話した質問音声に対して成長型対話装置が回答音声を発話するまでの一連の処理の流れについて説明する。
成長型対話装置は、常に、図1に示したマイク231で音声を集音し続けている。この状況下で、ユーザが発声したユーザ発話音声101は、音声入力処理102がされ、マイクでデジタル信号に変換された後、発話区間検出処理103により、ユーザの音声部分のみが切り出される。次に、音声認識処理104により、音声認識処理がされて、音声に対応するテキストに書き起こされる。ここで、音声認識処理104は、音声認識用モデルデータ108を用いる。
次に、拡張意図理解用モデルデータ111に基づき、拡張意図理解処理115をおこなう。本実施形態では、意図理解用モデルデータ110に基づいて、意図理解処理をおこなうのを、意図理解処理105(後述)とし、拡張意図理解用モデルデータ111に基づいた意図理解処理を、拡張意図理解処理115として区別している。拡張意図理解処理115は、音声認識テキストに含まれる単語情報をもとに、ユーザ質問の意図ラベル(このとき出力され意図ラベルを、「拡張意図ラベル」ということにする)を決定する処理である。
そして、意図ラベルの出力を受け、応答生成処理106をおこない、音声合成処理107で回答テキストを合成音声に変換し、スピーカー232を通して対話デバイスから音声出力処理112をおこない、システム発話音声113として発声させる。
一方、成長型対話装置200は、そのシステム発話音声113に対する反応をカメラ242により、撮影して、画像入力処理130により画像を取り込み、人物・顔切り出し処理131により、撮影したユーザの人物像や顔面の切り出しをおこない、顔・表情動作認識処理132より、画像認識をおこなう。
また、成長型対話装置200は、そのシステム発話音声113に対する反応として、ユーザ発話音声101を音声入力処理102により取り込み、音声感情認識処理133より、ユーザに対する感情の認識処理をおこなう。
そして、ユーザ反応識別処理134により、顔・表情動作認識処理132の出力と、音声感情認識処理133の出力とを分析して、対象としているユーザの反応が肯定的(Positive)なのものであるか、否定的(Negative)なものであるのかを判定して、その結果を誤り原因分析処理116に入力する。
上記処理では、拡張意図理解用モデルデータ111に基づき、拡張意図理解処理115をおこなったが、同時に、意図理解用モデルデータ110に基づき、意図理解処理105をおこなって、意図ラベルを得る(このときの意図ラベルを、拡張意図理解処理115の出力する意図ラベル「拡張意図ラベル」と区別するために、「通常意図ラベル」ということにする)。
上記拡張意図ラベルと、通常意図ラベルも誤り原因分析処理116に入力させる。
そして、誤り原因分析処理116の結果により、再学習決定処理117を動作させ、1)音声認識用学習データ150を用いて、音声認識学習処理141をおこなって、音声認識用モデルデータ108を更新するか、2)意図理解用学習データ120を用いて、意図理解学習処理140をおこなって、意図理解用モデルデータ110を更新するか、3)拡張意図理解用学習データ121を用いて、意図理解学習処理118をおこなって、拡張意図理解用モデルデータ111を更新するか、4)重み調整学習処理119により、拡張意図理解用学習データ121の重みを修正して、拡張意図理解用モデルデータ111を更新するか、を決定する
また、誤り原因分析処理116の結果により、通常意図ラベルの結果に従って、応答生成処理106、音声合成処理107、音声出力処理112をおこない、システム発話音声113の発話処理をおこなって、ユーザの反応を見ることもおこなう(画像入力と音声入力により、ユーザ反応識別処理134にいたるパス)。
次に、図6を用いて、誤り原因分析処理116の詳細について説明する。
先ず、成長型対話装置200は、ユーザ反応識別処理134の結果を受けて、拡張意図ラベルに基づく、システム発話音声113のユーザ反応が肯定的であるか否定的であるかを判定する(S100)。
ユーザ反応が肯定的なときには(S100:YES)、次に、通常意図ラベルと拡張意図ラベルが一致するか否かを判定する(S101)。
通常意図ラベルと拡張意図ラベルが一致するときには(S101:YES)、音声認識処理が正しく、通常意図ラベルが正しく、拡張意図ラベルが正しいと推定される。したがって、このときには、音声認識処理、意図理解の再学習の必要がないと判断して、再学習はおこなわない(S200)。
通常意図ラベルと拡張意図ラベルが一致しないときには(S101:NO)、音声認識処理が誤りで、通常意図ラベルが誤りで、拡張意図ラベルが正しいと推定される。この場合には、拡張意図理解用学習データ121の拡張部分が正しい意図ラベルを導出したと考えられ、音声認識処理に誤りがあったと考えられるからである。したがって、このときには、音声認識処理の誤りの再学習をおこなう(S201)。
また、S100の処理で、ユーザ反応が否定的なときには(S100:NO)、次に、通常意図ラベルと拡張意図ラベルが一致するか否かを判定する(S102)。
通常意図ラベルと拡張意図ラベルが一致するときには(S102:YES)、音声認識処理が誤りで、通常意図ラベルが誤りで、拡張意図ラベルが誤りと推定される。なお、この場合には、発音が正しいときには、正しい意図ラベルが意図理解処理105により導出されることを前提としている。このときには、音声認識処理の誤りの再学習と、意図理解用学習データ120を用いた意図理解学習処理140による意図理解用モデルデータ110の更新と、拡張意図理解用学習データ121を用いた意図理解学習処理118による拡張意図理解用モデルデータ111の更新をおこなう(S202)。
通常意図ラベルと拡張意図ラベルが一致しないときには(S102:NO)、音声認識処理が正しいか誤りで、通常意図ラベルが正しいか誤りで、拡張意図ラベルが誤りと推定される。
この場合には、通常意図ラベルにより、応答生成処理106、音声合成処理107、音声出力処理112をおこない、システム発話音声113の発話処理をおこなって、ユーザの反応を見て、ユーザ反応識別処理134により、ユーザの反応が肯定的か否かを判定する(S103)。
S103の処理で、ユーザの反応が否定的なときには(S103:NO)、音声認識処理が誤りで、通常意図ラベルが誤りで、拡張意図ラベルが誤りと推定される。したがって、音声認識処理の誤りの再学習と、意図理解用学習データ120を用いた意図理解学習処理140による意図理解用モデルデータ110の更新と、拡張意図理解用学習データ121を用いた意図理解学習処理118による拡張意図理解用モデルデータ111の更新をおこなう(S202)。
S103の処理で、ユーザの反応が肯定的なときには(S103:YES)、音声認識処理が正しく、通常意図ラベルが正しく、拡張意図ラベルが誤りと推定される。このときには、拡張意図理解用学習データ121の拡張部分が逆効果であることが考えられる。したがって、重み調整学習処理119により、拡張部分の重みを減らして、その影響を減じる処理をおこなう(S203)。
拡張部分の重みとは、具体的には、拡張部分のレコード数であり、このレコードが多いほど、音声認識学習処理によって、図2に示した意図理解用モデルデータの確信度110Cが多くなるようにされている。
以上の説明では、音声認識の誤りの再学習処理と、拡張意図理解用学習データ121を用いた意図理解学習処理118、意図理解用学習データ120を用いた意図理解学習処理140は、自動的におこなわれるように記載したが、ダイアローグウインドウを表示装置に出力させて、オペレータに問い合わせて、オペレータが承認したときに、それらの処理をおこなうようにしてもよい。
本実施形態によれば、拡張意図ラベルに基づく成長型対話装置200の応答に対して、ユーザが肯定的であるか否かに基づき、通常意図ラベルと拡張意図ラベルの内容を比較することによって、適切な音声認識学習、意図理解用学習をおこなうことによって、音声認識処理の精度、意図理解処理の精度を向上させることができる。
〔実施形態2〕
以下、図7ないし図10を用いて実施形態2を説明する。
実施形態1では、拡張意図理解用学習データ121により構築された拡張意図理解用モデルデータ111に基づいた意図理解処理に対する対応と、通常意図ラベルと拡張意図ラベルの内容を比較することによって、適切な音声認識学習、意図理解用学習をおこなうものであり、図6の処理によって、どのように学習をするのかを説明した。
しかしながら、このときの音声認識の処理の正誤の判定は、推定が入っており、完全なものではない。例えば、拡張意図ラベルに基づく、システム発話音声113のユーザ反応が肯定的(S100:YES)であり、通常意図ラベルと拡張意図ラベルが一致する(S101:NO)の場合には、図6の判定では、音声認識が正しいものと推定したが、この場合でも、音声認識処理が誤っている場合もあり得る。そして、その他のS100のYES、NOの組合せ、S101、S102のYES、NOの組合せについても同様に、音声認識処理が正しいと推定したときでも、誤っているときもあるし、音声認識処理が誤っていると推定したときでも、正しいときもあり得る。このような場合には、図6のロジックでは、音声認識処理が正しいか誤っているかを判定することは困難である。
本実施形態の成長型対話装置は、オペレータにユーザの発話音声を聴取して書き起こしたテキストを、成長型対話装置に再学習させることによって、より音声認識の精度を向上させることを目指すものである。
本実施形態では、実施形態2と異なる所を中心に説明する。
先ず、図7を用いて実施形態2に係る成長型対話装置の構成について説明する。
実施形態2の成長型対話装置200は、実施形態1の成長型対話装置200に加えて、データ入出力部250を有している。
データ入出力部250は、オペレータがデータを入力したり、データを表示するための機能部であり、表示装置251、マウス252やキーボード253などの入力装置が接続されている。
また、処理部210に、テキスト書き起こしインタフェース部280が加わっている。テキスト書き起こしインタフェース部280は、オペレータがユーザ音声を聴取して、テキストとして書き起こして入力する機能部である。
表示装置251は、液晶ディスプレイ(LCD:Liquid Crystal Display)などの情報を表示する装置である。マウス252やキーボード253などの入力装置は、オペレータからデータやコマンドを入力するための装置である。
また、記憶部280には、実施形態1の成長型対話装置200に加えて、音声データ170と書き起こしテキスト190を保持している。
音声データ170は、成長型対話装置200と対話したユーザの音声を録音したデータである。
書き起こしテキスト190は、オペレータがユーザの発話した音声をテキストとして書き起こしたデータである。
次に、図8ないし図10を用いて実施形態2の成長型対話装置の処理について説明する。
実施形態2に係る成長型対話装置200の処理の流れとしては、図5に示した実施形態1の成長型対話装置200の処理の流れとして、誤り原因分析処理116と再学習決定処理117の間に、書き起こしテキスト取得処理160が付け加わっている。その他の処理の流れは、図5に示した実施形態1の成長型対話装置200の処理の流れと同様である。
書き起こしテキスト取得処理160では、誤り原因分析処理116の判定に基づいて、オペレータにユーザが発話した音声を聴取させて、それをテキストとして書き起こさせる。そして、必要なときには、その音声とテキストを、音声認識用学習データ150に格納して再学習することにより、人間が認知した音声とテキストのペアを学習させて、音声認識処理の正解精度を向上させることができる。
次に、図9Aおよび図9Bを用いて実施形態2に係る誤り原因分析処理について詳細に説明する。
実施形態2に係る誤り原因分析処理は、図6に示した実施形態1とほぼ同様であるが、図9Aに示されるように、図6のS101:NO(*A)、S102:YESおよびS103:NO(*B)の場合の処理が異なっている。
拡張意図ラベルに基づく、システム発話音声113のユーザ反応が肯定的であり(S100:YES)、通常意図ラベルと拡張意図ラベルが一致しないときには(S101:NO)、本実施形態では、オペレータがユーザの発話音声を聴取して書き起こしてテキストを入力する(図9BのS2010)。
そして、成長型対話装置200は、音声認識の結果と、書き起こしテキストが一致するか否かを判定し(S2011)、一致しないときには(S2011:NO)、音声認識処理が誤りで、通常意図ラベルが正しく、拡張意図ラベルが正しいと推定される。
このときには、音声認識処理の誤りの再学習をする(S2012)。
成長型対話装置200は、音声認識の結果と、書き起こしテキストが一致するか否かを判定し(S2011)、一致するときには(S2011:YES)、音声認識処理が正しく、通常意図ラベルが誤りで、拡張意図ラベルが正しいと推定される。
このときには、通常意図ラベルが誤りにも関らず、拡張意図ラベルが正しいと判定されたため、拡張意図ラベルによる意図が肯定的であったのは、偶然であると考えられる。そのため、通常の意図理解用学習データ120による再学習をおこなって、意図理解用モデルデータ110を更新する(S2013)。
次に、拡張意図ラベルに基づく、システム発話音声113のユーザ反応が否定的であり(S100:NO)、通常意図ラベルと拡張意図ラベルが一致するとき(S101:YES)、または、通常意図ラベルと拡張意図ラベルが一致せず(S101:NO)、かつ、通常意図ラベルによるユーザの反応が否定的なときには(S103:NO)、本実施形態では、オペレータがユーザの発話音声を聴取して書き起こしてテキストを入力する(S2012)。
そして、成長型対話装置200は、音声認識の結果と、書き起こしテキストが一致するか否かを判定し(S2021)、一致しないときには(S2021:NO)、音声認識処理が誤りで、通常意図ラベルが誤りで、拡張意図ラベルが誤りであると推定される。したがって、このときには、音声認識処理の誤りの再学習と、意図理解用学習データ120を用いた意図理解学習処理140による意図理解用モデルデータ110の更新と、拡張意図理解用学習データ121を用いた意図理解学習処理118による拡張意図理解用モデルデータ111の更新をおこなう(S2022)。
また、成長型対話装置200は、音声認識の結果と、書き起こしテキストが一致するか否かを判定し(S2021)、一致するときには(S2021:YES)、音声認識処理が正しく、通常意図ラベルが誤りで、拡張意図ラベルが誤りであると推定される。したがって、このときには、意図理解用学習データ120を用いた意図理解学習処理140による意図理解用モデルデータ110の更新と、拡張意図理解用学習データ121を用いた意図理解学習処理118による拡張意図理解用モデルデータ111の更新をおこなう(S2023)。
次に、図10を用いてテキスト書き起こしインタフェース部が出力する書き起こしテキスト入力画面の一例について説明する。
書き起こしテキスト入力画面400は、オペレータがユーザの発話音声を聴取して、書き起こしたテキストを入力する画面であり、図7の表示装置251に出力される。
書き起こしテキスト入力画面400は、音声認識結果表示欄401、通常意図ラベル表示欄402、拡張意図ラベル表示欄403、書き起こしテキスト入力欄404、音声出力ボタン410、OKボタン411、キャンセルボタン412からなる。
音声認識結果表示欄401は、音声認識処理の結果のテキストを文節単位で表示する欄である。通常意図ラベル表示欄402、拡張意図ラベル表示欄403は、それぞれ通常意図ラベル、拡張意図ラベルを表示する欄である。
書き起こしテキスト入力欄404は、オペレータがユーザの発話音声を聴取して聞き取れたテキストを入力する欄である。テキストを入力は、例えば、キーボード253によりおこなう。
音声出力ボタン410は、ユーザの発話音声を出力するための操作ボタンである。OKボタン411は、書き起こしテキスト入力欄404に入力したテキストを確定させて、成長型対話装置200に入力するボタンである。キャンセルボタン412は、処理をキャンセルして、書き起こしテキスト入力画面400を閉じるための操作ボタンである。ボタンの操作は、マウス252のようなポインティングデバイスによりおこなうことができる。
なお、このようなユーザインタフェースによらず、音声認識の結果と、書き起こしテキストを、対比させたCSV(Comma-Separated Value)形式のようなプレーンテキストとして入力するようにしてもよい。
また、ユーザの発話音声を書き起こすテキストは、音声認識処理の確信度が所定の閾値以下のものに限定するようにしてもよい。また、音声データの文節単位などのある区間が所定の閾値以下のものに限定するようにしてもよい。
本実施形態では、オペレータがユーザの発話音声を聴取して、音声認識の再学習の可否を判断し、書き起こしたテキストにより学習させるため、手間はかかるが、音声認識の正解の精度を向上させることを期待することができる。
101…ユーザ発話音声
102…音声入力処理
103…発話区間検出処理
104…音声認識処理
105…意図理解処理
106…応答生成処理
107…音声合成処理
108…音声認識用モデルデータ
110…意図理解用モデルデータ
111…拡張意図理解用モデルデータ
112…音声出力処理
113…システム発話音声
115…拡張意図理解処理
116…誤り原因分析処理
117…再学習決定処理
118…意図理解学習処理
119…重み調整学習処理
120…意図理解用学習データ
121…拡張意図理解用学習データ
130…画像入力処理
131…人物・顔切り出し処理
132…顔・表情動作認識処理
133…音声感情認識処理
140…意図理解学習処理
141…音声認識学習処理
150…音声認識用学習データ
160…書き起こしテキスト取得処理

Claims (12)

  1. ユーザと音声対話を行って、ユーザの意図を解析して応答する成長型対話装置であって、
    音声認識用学習データから学習された音声認識用モデルデータを参照して、取得したユーザの発話音声から、音声認識処理をおこないテキスト化する音声認識部と、
    意図理解用学習データから学習された意図理解用モデルデータを参照して、前記音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう意図理解部と、
    前記意図理解用学習データの同一の意図ラベルに対して異なったテキストを対応付けた拡張意図理解用学習データから学習された拡張意図理解用モデルデータを参照して、前記音声認識部により音声認識されたテキストから発話意図を解析する意図理解処理をおこなう拡張意図理解部と、
    ユーザの音声応答、ユーザの応答する映像を解析して、成長型対話装置の発話音声に対する応答が肯定的であるか否定的であるかを判定するユーザ反応識別部と、
    前記ユーザ反応識別部の判定結果に基づいて、音声認識処理に誤りがあるか、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルに誤りがあるか、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルに誤りがあるかを判定する誤り原因分析部と、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理のいずれか、または、その組合せの処理を指示する再学習決定部とを備えることを特徴とする成長型対話装置。
  2. 前記ユーザ反応識別部は、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第一のユーザ反応を判定し、
    前記誤り原因分析部は、前記ユーザ反応識別部が判定した前記第一のユーザ反応と、同一のユーザの発話音声に対して、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとの一致とに基づいて判定することを特徴とする請求項1記載の成長型対話装置。
  3. 前記ユーザ反応識別部の判定した第一のユーザ反応が、肯定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこなうことを特徴とする請求項2記載の成長型対話装置。
  4. 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致するときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項2記載の成長型対話装置。
  5. 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときは、
    前記ユーザ反応識別部は、前記意図理解用モデルデータを参照した意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第二のユーザ反応を判定し、
    前記ユーザ反応識別部の判定した第二のユーザ反応が、否定的であるときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
    前記ユーザ反応識別部の判定した第二のユーザ反応が、肯定的であるときには、
    前記拡張意図理解用モデルデータの生成にあたり影響のある拡張意図理解用学習データの重みを調整する処理をおこなうことを特徴とする請求項2記載の成長型対話装置。
  6. 前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理のいずれか、または、その組合せの処理をおこなうかは、さらに、オペレータの指示があったときにおこなう請求項1記載の成長型対話装置。
  7. さらに、ユーザの発話音声を聴取して、オペレータが書き起こしたテキストを入力するテキスト書き起こしインタフェース部を備え、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定することを特徴とする請求項1記載の成長型対話装置。
  8. 前記ユーザ反応識別部は、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第一のユーザ反応を判定し、
    前記誤り原因分析部は、前記ユーザ反応識別部が判定した前記第一のユーザ反応と、同一のユーザの発話音声に対して、前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとの一致とに基づいて判定することを特徴とする請求項7記載の成長型対話装置。
  9. 前記ユーザ反応識別部の判定した第一のユーザ反応が、肯定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときには、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
    前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。
  10. 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致するときには、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
    前記誤り原因分析部の判定に従って、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。
  11. 前記ユーザ反応識別部の判定した第一のユーザ反応が、否定的であり、
    前記意図理解用モデルデータを参照した意図理解部が出力する意図ラベルと、前記拡張意図理解用モデルデータを参照した拡張意図理解部が出力する拡張意図ラベルとが一致しないときは、
    前記ユーザ反応識別部は、前記意図理解用モデルデータを参照した意図理解部が出力する拡張意図ラベルによる成長型対話装置の発話応答に対して、肯定的であるか、否定的であるかの第二のユーザ反応を判定し、
    前記ユーザ反応識別部の判定した第二のユーザ反応が、否定的であるときには、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するか否かを判定し、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致しないときには、
    前記誤り原因分析部の判定に従って、前記音声認識用学習データから前記音声認識用モデルデータを更新する音声認識学習処理をおこない、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこない、
    同一のユーザの発話音声に対して、音声認識処理の出力するテキストと、前記オペレータが書き起こしたテキストが一致するときには、
    前記誤り原因分析部の判定に従って、前記意図理解用学習データから前記意図理解用モデルデータを更新する意図理解学習処理をおこない、前記拡張意図理解用学習データから前記拡張意図理解用モデルデータを更新する意図理解学習処理をおこなうことを特徴とする請求項8記載の成長型対話装置。
  12. 前記音声認識処理の確信度が所定の閾値以下のテキスト、または、音声データの文節単位などのある区間が所定の閾値以下のテキストに対する音声の書き起こしテキストのみを入力することを特徴とする請求項7記載の成長型対話装置。
JP2017233573A 2017-12-05 2017-12-05 成長型対話装置 Active JP6654611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017233573A JP6654611B2 (ja) 2017-12-05 2017-12-05 成長型対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017233573A JP6654611B2 (ja) 2017-12-05 2017-12-05 成長型対話装置

Publications (2)

Publication Number Publication Date
JP2019101291A JP2019101291A (ja) 2019-06-24
JP6654611B2 true JP6654611B2 (ja) 2020-02-26

Family

ID=66973642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017233573A Active JP6654611B2 (ja) 2017-12-05 2017-12-05 成長型対話装置

Country Status (1)

Country Link
JP (1) JP6654611B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949797B (zh) 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
KR102413616B1 (ko) 2019-07-09 2022-06-27 구글 엘엘씨 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성
US11263198B2 (en) * 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7363307B2 (ja) * 2019-09-30 2023-10-18 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
CN110737765A (zh) * 2019-10-25 2020-01-31 上海喜马拉雅科技有限公司 多轮对话的对话数据处理方法及相关装置
KR20210108098A (ko) 2020-02-25 2021-09-02 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111611366B (zh) * 2020-05-20 2023-08-11 北京百度网讯科技有限公司 意图识别优化处理方法、装置、设备及存储介质
US11664033B2 (en) 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR102346482B1 (ko) * 2020-09-25 2022-01-04 한국남동발전 주식회사 인공 지능 기반의 발전소 내의 인적 실수 예방 시스템 및 방법
CN112687260A (zh) * 2020-11-17 2021-04-20 珠海格力电器股份有限公司 基于人脸识别的表情判断语音识别方法、服务器及空调

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6334815B2 (ja) * 2015-03-20 2018-05-30 株式会社東芝 学習装置、方法、プログラムおよび音声対話システム

Also Published As

Publication number Publication date
JP2019101291A (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
JP6654611B2 (ja) 成長型対話装置
US10276164B2 (en) Multi-speaker speech recognition correction system
JP6465077B2 (ja) 音声対話装置および音声対話方法
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US8762144B2 (en) Method and apparatus for voice activity detection
EP1701338B1 (en) Speech recognition method
US9916826B1 (en) Targeted detection of regions in speech processing data streams
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
JP2012137680A (ja) 状態検出装置、状態検出方法および状態検出のためのプログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP3876703B2 (ja) 音声認識のための話者学習装置及び方法
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JPWO2008126254A1 (ja) 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2009116075A (ja) 音声認識装置
US11043212B2 (en) Speech signal processing and evaluation

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200130

R150 Certificate of patent or registration of utility model

Ref document number: 6654611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150