JP7044040B2

JP7044040B2 - 質問応答装置、質問応答方法及びプログラム

Info

Publication number: JP7044040B2
Application number: JP2018221944A
Authority: JP
Inventors: 景子中野
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2022-03-30
Anticipated expiration: 2038-11-28
Also published as: US20200167390A1; JP2020086203A; US11455338B2; CN111243581A

Description

本発明は、質問応答装置、質問応答方法及びプログラムに関する。

従来、車載器に対して質問を音声入力すると、当該質問に対する回答が音声によって車両内のスピーカから出力される技術が検討されている（例えば、特許文献１）。

特開２０１５－２８５６６号公報

しかしながら、例えば、車両の或る機能の操作方法に関する質問に対する回答が音声で出力される場合、操作対象とするスイッチ類等の位置を表現するのが困難な場合がある。

例えば、「ハンドルの右下にある、クルマとメーターのマークがついているレバーです」との回答が音声で出力されると、位置を正確に伝えるに説明文が複雑になってしまっており、ユーザにとって直感的な理解が困難となる。

また、ＥＴＣカードの挿入口を回答する場合に、「グローブボックスの下にあります」という音声を出力することが考えられる。この場合、説明文は簡潔であるが、ユーザがグローブボックスの名称を知らない場合には、ユーザは回答を理解することができず、結果的に回答に関連する位置を把握することができない。

本発明は、上記の点に鑑みてなされたものであって、車両内での質問に対する回答に関連する位置を把握しやすくすることを目的とする。

本発明の実施の形態の質問応答装置は、
車両内において発声される音声を受け付ける受付部と、
音声認識に基づいて前記音声が示す文字列を生成する生成部と、
前記文字列が示す質問に対する回答を取得する第１の取得部と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得部と、
前記制御情報を出力する出力部と、
を有する。

このため、質問に対する回答の音声が、立体音響によって当該回答に関連する位置に定位される。

したがって、車両内での質問に対する回答に関連する位置を把握しやすくすることができる。

本発明の他の実施の形態の質問応答装置では、
前記第２の取得部は、前記質問が車両のいずれかの位置に関する質問である場合に、前記制御情報を取得する。

このため、車両のいずれかの位置に関する質問に対する回答の音声が、立体音響によって当該回答に関連する位置に定位される。

本発明の他の実施の形態の質問応答装置では、
前記出力部は、前記回答に関連する位置に対応するインジケータの点灯命令を出力する。

このため、質問に対する回答に関連する位置に対応する車両内のインジケータが点灯される。

本発明の実施の形態の質問応答方法は、
車両内において発声される音声を受け付ける受付手順と、
音声認識に基づいて前記音声が示す文字列を生成する生成手順と、
前記文字列が示す質問に対する回答を取得する第１の取得手順と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得手順と、
前記制御情報を出力する出力手順と、
をコンピュータが実行する。

本発明の実施の形態のプログラムは、
車両内において発声される音声を受け付ける受付手順と、
音声認識に基づいて前記音声が示す文字列を生成する生成手順と、
前記文字列が示す質問に対する回答を取得する第１の取得手順と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得手順と、
前記制御情報を出力する出力手順と、
をコンピュータに実行させる。

車両内での質問に対する回答に関連する位置を把握しやすくすることができる。

第１の実施の形態における質問応答システムの構成例を示す図である。第１の実施の形態におけるサーバ装置１０のハードウェア構成例を示す図である。第１の実施の形態における車載器３０及びサーバ装置１０の機能構成例を示す図である。第１の実施の形態において車載器３０が実行する処理手順の一例を説明するためのフローチャートである。第１の実施の形態においてサーバ装置１０が実行する処理手順の一例を説明するためのフローチャートである。第１の実施の形態における質問回答ＤＢ１７の構成例を示す図である。第１の実施の形態における出力制御ＤＢ１８の構成例を示す図である。回答に関連する位置に音声が定位される例を示す図である。第２の実施の形態における出力制御ＤＢ１８の構成例を示す図である。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、第１の実施の形態における質問応答システムの構成例を示す図である。図１において、質問応答システムは、サーバ装置１０と１以上の車両２０とを含む。

車両２０は、例えば、自動車であり、車載器３０、マイク４０、表示装置５０、及び２以上のスピーカ６０等を含む。マイク４０は、音声を電気信号（以下、「音声信号」という。）に変換する装置である。本実施の形態において、マイク４０は、車両２０内おいて車両２０の乗員（運転者又は同乗者等。以下「ユーザ」という。）によって発声される、車両２０の機能に関する質問の音声の集音に利用される。表示装置５０は、例えば、液晶ディスプレイである。本実施の形態において、表示装置５０は、質問に対する回答に関連する情報の表示に利用される。スピーカ６０は、電気信号に基づいて音声を出力する装置である。本実施の形態において、スピーカ６０は、質問に対する回答を示す音声の出力に利用される。なお、回答は、２以上のスピーカ６０を用いた立体音響によって出力される。立体音響が用いられることで、回答を示す音声は、車両２０内において回答に関連する位置に定位される。換言すれば、ユーザにとって当該位置の方向から聞こえるように回答の音声が出力される。

車載器３０は、情報処理機能及び通信機能を有する装置であり、多数の基地局を末端とする無線通信網である移動体通信網やインターネット網等を含むネットワークＮ１を介しサーバ装置１０に接続される。本実施の形態において、車載器３０は、マイク４０から出力される音声信号が記録されたデジタルデータ（以下、「音声データ」という。）と、車両２０の車両型式を示す情報（以下、「車両型式情報」という。）とを含むデータ（以下、「質問データ」という。）をサーバ装置１０へ送信する。車載器３０は、また、サーバ装置１０から応答される、質問に対する回答の出力の制御方法を示す情報（以下、「出力制御情報」という。）を受信する。出力制御情報には、表示に関する出力制御情報と、音声出力に関する出力制御情報とが含まれる。車載器３０は、表示に関する出力制御情報（以下、「表示制御情報」という。）に基づいて、回答に関連する情報について、表示装置５０での表示を制御する。また、車載器３０は、音声出力に関する出力制御情報（以下、「音声制御情報」という。）に基づいて、回答を示す音声について、スピーカ６０からの立体音響での出力を制御する。

サーバ装置１０は、車載器３０から送信される質問データが示す質問に対する回答を取得し、当該回答に関する出力制御情報を車載器３０へ応答する１以上のコンピュータである。

図２は、第１の実施の形態におけるサーバ装置１０のハードウェア構成例を示す図である。図２のサーバ装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

サーバ装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってサーバ装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図３は、第１の実施の形態における車載器３０及びサーバ装置１０の機能構成例を示す図である。図３において、車載器３０は、質問データ送信部３１、出力制御情報受信部３２、音声制御部３３及び表示制御部３４等を有する。これら各部は、車載器３０にインストールされた１以上のプログラムが、車載器３０のＣＰＵに実行させる処理により実現される。

質問データ送信部３１は、マイク４０から出力される音声信号に基づいて音声データを生成し、当該音声データと車両型式情報とを含む質問データをサーバ装置１０へ送信する。

出力制御情報受信部３２は、質問データに対してサーバ装置１０から応答される出力制御情報を受信する。出力制御情報受信部３２は、出力制御情報のうち、音声制御情報を音声制御部３３に入力し、表示制御情報を表示制御部３４に入力する。

音声制御部３３は、音声制御情報に基づいて、回答を示す音声について、複数のスピーカ６０からの立体音響での出力を制御する。

表示制御部３４は、表示制御情報に基づいて、回答に関連する情報について、表示装置５０での表示を制御する。

一方、サーバ装置１０は、質問データ受信部１１、音声認識部１２、質問推定部１３、回答検索部１４、出力制御情報取得部１５及び出力制御情報送信部１６等を有する。これら各部は、サーバ装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。サーバ装置１０は、また、質問回答ＤＢ１７及び出力制御ＤＢ１８等のデータベース（記憶部）Ｙを利用する。これら各データベースは、例えば、補助記憶装置１０２、又はサーバ装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

質問データ受信部１１は、車載器３０から送信される質問データを受信する。音声認識部１２は、質問データに含まれる音声データが示す音声について音声認識を実行し、当該音声が示す文字列（テキストデータ）を生成する。

質問推定部１３は、テキストデータの内容が示す質問（の意図）を推定する。具体的には、質問推定部１３は、テキストデータの内容が、予め想定されている複数の質問のうちのいずれの質問であるのかを推定する。

回答検索部１４は、質問推定部１３によって推定された質問に対する回答と、当該回答に関連する機能（車両２０に関する機能）の名称（以下、「機能名」という。）とを質問回答ＤＢ１７から取得する。すなわち、質問回答ＤＢ１７には、予め想定されている複数の質問のそれぞれに対応付けて回答及び機能名が記憶されている。

出力制御情報取得部１５は、回答検索部１４によって取得されて機能名に関する出力制御情報を出力制御ＤＢ１８から取得する。すなわち、出力制御ＤＢ１８には、機能名ごとに、出力制御情報（音声制御情報、表示制御情報）が記憶されている。

出力制御情報送信部１６は、出力制御情報取得部１５によって取得された出力制御情報を質問データの送信元の車載器３０へ送信する。

以下、車載器３０及びサーバ装置１０のそれぞれが実行する処理手順について説明する。図４は、第１の実施の形態において車載器３０が実行する処理手順の一例を説明するためのフローチャートである。

ユーザによる発話の音声がマイク４０によって入力されると、質問データ送信部３１は、当該音声が記録された音声データを生成する（Ｓ１０１）。なお、全ての発話に関してステップＳ１０１以降が実行されてもよいし、ユーザが車両２０内で所定の操作（例えば、所定のボタンの押下等）を行った後の発話に関してステップＳ１０１以降が実行されてもよい。前者の場合、必ずしも発話の内容が質問であるとは限らない。なお、質問データ送信部３１は、発声が開始されてから、発声が一定時間以上途絶えるまでを一つの発話として認識してもよい。

続いて、質問データ送信部３１は、車両２０の車両型式情報を取得する（Ｓ１０２）。例えば、車両型式情報は、車載器３０内又は車両２０内の不揮発性メモリから取得されてもよい。

続いて、質問データ送信部３１は、ステップＳ１０１において生成された音声データと、ステップＳ１０２において取得された車両型式情報とを含む質問データをサーバ装置１０へ送信する（Ｓ１０３）。その後、出力制御情報受信部３２は、サーバ装置１０から返信される出力制御情報の受信を待機する（Ｓ１０４）。

出力制御情報受信部３２が出力制御情報を受信すると（Ｓ１０４でＹｅｓ）、音声制御部３３は、当該出力制御情報に含まれている音声制御情報に基づいて、回答を示す音声について複数のスピーカ６０を用いた立体音響での出力を制御する（Ｓ１０５）。

続いて、又はステップＳ１０５と並行して、表示制御部３４は、当該出力制御情報に含まれている表示制御情報に基づいて、回答に関連する情報を表示装置５０に表示する（Ｓ１０６）。

図５は、第１の実施の形態においてサーバ装置１０が実行する処理手順の一例を説明するためのフローチャートである。

質問データ受信部１１が、図４のステップＳ１０３において車載器３０から送信された質問データを受信すると（Ｓ２０１）、音声認識部１２は、当該質問データに含まれる音声データが示す音声について音声認識を実行し、当該音声をテキストデータに変換する（Ｓ２０２）。すなわち、当該音声を示すテキストデータが生成される。

続いて、質問推定部１３は、テキストデータの内容が、質問回答ＤＢ１７に記憶されている複数の質問のうちのいずれの質問であるのかを推定する（Ｓ２０３）。例えば、予め機械学習を利用して質問推定器を生成しておき、質問推定部１３が、当該質問推定器を利用して質問を推定してもよい。この場合、質問推定器は、車両型式ごとに生成されてもよい。この場合、質問推定部１３は、質問データに含まれている車両型式情報が示す車両型式に対応する質問推定器を利用して、質問を推定してもよい。又は、質問推定部１３は、当該テキストデータと、質問回答ＤＢ１７に記憶されている各質問との文字列としての類似度を算出し、類似度が閾値以上の質問の中で、類似度が最も高い質問を推定結果としてもよい。なお、文字列同士の類似度の算出については公知技術が用いられればよい。

質問の推定に失敗した場合、すなわち、質問を特定できなかった場合（Ｓ２０４でＮｏ）、図５の処理手順は終了する。又は、出力制御情報送信部１６が、質問が不明である旨の応答を車載器３０に返信してもよい。例えば、テキストデータの内容が、車両２０内における単なる会話や、想定外の質問である場合等に、質問の推定に失敗する。

質問の推定に成功した場合、すなわち、質問を特定できた場合（Ｓ２０４でＹｅｓ）、回答検索部１４は、特定した質問（以下、「対象質問」という。）に対応する回答及び機能名を質問回答ＤＢ１７から検索する（Ｓ２０５）。

図６は、第１の実施の形態における質問回答ＤＢ１７の構成例を示す図である。図６に示されるように、質問回答ＤＢ１７には、車両型式ごとに質問回答テーブルＴ１ａ、Ｔ１ｂ及びＴ１ｃ等（以下、それぞれを区別しない場合「質問回答テーブルＴ１」という。）が記憶されている。なお、図６には３つの質問回答テーブルＴ１が示されているが、質問回答テーブルＴ１の数は、車両型式の数に応じて増減されてよい。

各質問回答テーブルＴ１には、質問に対応付けて、機能名及び回答が記憶されている。機能名は、質問に対する回答に関連する機能の名称である。回答は、質問に対する回答である。

したがって、ステップＳ２０５では、質問データに含まれる車両型式情報が示す車両型式に対応する質問回答テーブルＴ１から、対象質問に対応する回答（以下「対象回答」という。）及び機能名（以下、「対象機能名」という。）が検索（取得）される。

なお、各質問回答テーブルＴ１に登録される質問は、車両２０のパーツや箇所等、車両２０のいずれかの位置に関する質問に限定されてもよい。この場合、ステップＳ２０３では、テキストデータについて、車両２０のいずれかの位置に関する質問が推定されるため、ステップＳ２０５以降は、対象質問が車両２０のいずれかの位置に関する質問である場合に実行される。

続いて、出力制御情報取得部１５は、対象機能名に対応する出力制御情報を出力制御ＤＢ１８から取得する（Ｓ２０６）。

図７は、第１の実施の形態における出力制御ＤＢ１８の構成例を示す図である。図７に示されるように、出力制御ＤＢ１８には、車両型式ごとに出力制御テーブルＴ２ａ、Ｔ２ｂ及びＴ２ｃ等（以下、それぞれを区別しない場合「出力制御テーブルＴ２」という。）が記憶されている。なお、図７では３つの出力制御テーブルＴ２が示されているが、出力制御テーブルＴ２の数は、車両型式の数に応じて増減されてよい。

各出力制御テーブルＴ２には、機能名に対応付けて、音声制御情報及び表示制御情報が記憶されている。音声制御情報は、当該機能名に係る機能の位置（車両２０内の位置）に音声を定位させるためのスピーカ６０からの音声の出力の制御の内容を示す情報である。表示制御情報は、例えば、テキストや画像等によって当該機能名に関する機能等を示す情報であってもよい。なお、図７では、車両２０に搭載されているスピーカ６０が２つである場合を前提とし、左右それぞれのスピーカ６０からの音量の比が音声制御情報として示されているが、立体音響を実現するための情報であれば、他の形式の情報が音声制御情報として用いられてもよい。例えば、車両２０内の特定の位置を示す座標値が音声制御情報とされてもよいし、車両２０内を複数の領域に分割した場合のいずれかの領域を示す情報が音声制御情報とされてもよい。

したがって、ステップＳ２０６では、質問データに含まれる車両型式情報が示す車両型式に対応する出力制御テーブルＴ２から、対象機能名に対応する音声制御情報及び表示制御情報が取得される。

なお、本実施の形態では、スピーカ６０の種類、数及び配置位置等（以下、「スピーカ構成」という。）が、車両型式に応じて異なる場合について説明するが、車両型式と異なる区分によってスピーカ構成が異なる場合には、当該区分ごとに出力制御テーブルＴ２が用意されればよい。この場合、当該区分を含む情報が質問データに含まれればよい。

続いて、出力制御情報送信部１６は、対象回答、並びにステップＳ２０６において取得された音声制御情報及び表示制御情報を、質問データの送信元の車載器３０へ送信する（Ｓ２０７）。なお、出力制御情報送信部１６は、音声制御情報に従った内容で対象回答がスピーカ６０から出力される音声データを生成し、当該音声データを音声制御情報の代わりに車載器３０へ送信してもよい。

図４のステップＳ１０５では、このような音声制御情報又は音声データに基づいて、対象回答を示す音声について複数のスピーカ６０を用いた立体音響での出力が行われる。その結果、当該音声は、対象回答に関連する位置に定位される。

図８は、回答に関連する位置に音声が定位される例を示す図である。図８では、グローブボックスｂ１の下辺りに対象回答の音声が定位された例が示されている。この場合、ユーザは、「ＥＴＣカードはグローブボックスの下です」という回答を示す音声の出力方向を、グローブボックスｂ１の下辺りの方向に認識する。その結果、ユーザは、当該回答に関連する位置を直感的に把握することができる。

上述したように、第１の実施の形態によれば、質問に対する回答の音声が、立体音響によって当該回答に関連する機能の位置に定位される。したがって、ユーザに対して、当該位置を直感的に伝えることができる。その結果、車両２０内での質問に対する回答に関連する位置を把握しやすくすることができる。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第１の実施の形態と同様でもよい。

第２の実施の形態では、出力制御ＤＢ１８の構成が第１の実施の形態と異なる。図９は、第２の実施の形態における出力制御ＤＢ１８の構成例を示す図である。

図９において、各出力制御テーブルＴ２は、更に、インジケータ点灯コマンドＩＤを機能名に対応付けて記憶する。インジケータ点灯コマンドＩＤは、車両２０内の特定のインジケータの点灯命令に対する識別情報であり、点灯対象又は点灯方法は、インジケータ点灯コマンドＩＤごとに異なる。

したがって、図５のステップＳ２０６において、出力制御情報取得部１５は、更に、質問データに含まれている車両型式情報が示す車両型式に対応する出力制御テーブルＴ２から、対象機能名に対応するインジケータ点灯コマンドＩＤを更に取得する。

ステップＳ２０７において、送信部は、新に当該インジケータ点灯コマンドＩＤを送信する。

図４のステップＳ１０６において、表示制御部３４は、サーバ装置１０から受信されたインジケータ点灯コマンドＩＤに従って、インジケータ（例えば、ＬＥＤランプ等）を点灯させる。その結果、回答に対応する位置のインジケータが点灯する。

上述したように、第２の実施の形態によれば、回答に関連する位置のインジケータが点灯する。その結果、視覚的に当該位置をユーザに把握させることができる。

なお、第２の実施の形態では、スピーカ６０から音声が出力されない形態が採用されてよい。この場合、出力制御ＤＢ１８には、音声制御情報が記憶されていなくてもよい。

なお、上記各実施の形態において、サーバ装置１０は、質問応答装置の一例である。但し、上記各実施の形態においてサーバ装置１０が有する機能を、車両２０（車載器３０）が有するようにしてもよい。この場合、車載器３０が質問応答装置の一例となる。質問データ受信部１１は、受付部の一例である。音声認識部１２は、生成部の一例である。回答検索部１４は、第１の取得部の一例である。出力制御情報取得部１５は、第２の取得部の一例である。出力制御情報送信部１６は、出力部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０サーバ装置
１１質問データ受信部
１２音声認識部
１３質問推定部
１４回答検索部
１５出力制御情報取得部
１６出力制御情報送信部
１７質問回答ＤＢ
１８出力制御ＤＢ
２０車両
３０車載器
３１質問データ送信部
３２出力制御情報受信部
３３音声制御部
３４表示制御部
４０マイク
５０表示装置
６０スピーカ
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
Ｂバス

Claims

車両内において発声される音声を受け付ける受付部と、
音声認識に基づいて前記音声が示す文字列を生成する生成部と、
前記文字列が示す質問に対する回答を取得する第１の取得部と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得部と、
前記制御情報に基づいて、前記回答の音声について前記車両内における複数のスピーカを用いた立体音響での出力を制御する出力制御部と、
を有することを特徴とする質問応答装置。
前記第２の取得部は、前記質問が車両のいずれかの位置に関する質問である場合に、前記制御情報を取得する、
ことを特徴とする請求項１記載の質問応答装置。
前記回答に関連する位置に対応するインジケータを点灯する表示制御部、
を有することを特徴とする請求項１又は２記載の質問応答装置。
車両内において発声される音声を受け付ける受付手順と、
音声認識に基づいて前記音声が示す文字列を生成する生成手順と、
前記文字列が示す質問に対する回答を取得する第１の取得手順と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得手順と、
前記制御情報に基づいて、前記回答の音声について前記車両内における複数のスピーカを用いた立体音響での出力を制御する出力制御手順と、
をコンピュータが実行することを特徴とする質問応答方法。
車両内において発声される音声を受け付ける受付手順と、
音声認識に基づいて前記音声が示す文字列を生成する生成手順と、
前記文字列が示す質問に対する回答を取得する第１の取得手順と、
前記回答の音声を前記車両内において当該回答に関連する位置に定位させるための制御情報を取得する第２の取得手順と、
前記制御情報に基づいて、前記回答の音声について前記車両内における複数のスピーカを用いた立体音響での出力を制御する出力制御手順と、
をコンピュータに実行させることを特徴とするプログラム。