JP2012128440A - Voice interactive device - Google Patents
Voice interactive device Download PDFInfo
- Publication number
- JP2012128440A JP2012128440A JP2012022981A JP2012022981A JP2012128440A JP 2012128440 A JP2012128440 A JP 2012128440A JP 2012022981 A JP2012022981 A JP 2012022981A JP 2012022981 A JP2012022981 A JP 2012022981A JP 2012128440 A JP2012128440 A JP 2012128440A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- response
- speaker
- speed
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は、話者の発話内容の認識結果に応じた応答音声を合成音声により提供するようにした音声対話装置に関する。 The present invention relates to a voice interactive apparatus that provides a response voice according to a recognition result of a speaker's utterance content by a synthesized voice.
例えば、カーナビゲーションシステムやハンズフリー電話システムなどの車載システムにおいては、ユーザからの発話音声を、予め記憶された認識対象語彙の標準音声発生パターンと比較することにより、ユーザが発話した音声コマンドの認識を行い、その音声コマンドに応じた制御処理を行うものが普及している。この種の音声認識技術を利用する場合、ユーザからの1回の発話音声を解析するだけでは、その発話内容を一意的に特定できない場合が多く、誤って特定した場合には不要な制御処理が行われてしまう。そこで、このような事態への対策として、車載システム側でユーザによる発話内容を特定するための質問(応答音声)を出力して返答を求めることで対話的に発話内容を理解する音声対話装置が考えられている。 For example, in an in-vehicle system such as a car navigation system or a hands-free telephone system, recognition of a voice command uttered by a user is performed by comparing the uttered voice from the user with a standard voice generation pattern of a recognition target vocabulary stored in advance. And performing a control process according to the voice command has become widespread. When this type of speech recognition technology is used, it is often impossible to uniquely identify the utterance content simply by analyzing a single utterance speech from the user. Will be done. Therefore, as a countermeasure against such a situation, a voice dialogue device that interactively understands the utterance content by outputting a question (response voice) for specifying the utterance content by the user on the in-vehicle system side and obtaining a response. It is considered.
一般的な音声対話装置は、話者(ユーザ)の発話内容に対する応答音声の合成速度や応答時間(応答開始までの時間)が画一的な構成となっている。ところが、話者の発話速度は、その個人毎の特性などに応じて異なってくるという事情がある。このため、話者側で、応答音声の出力が終了するまで不要に待たされると感じたり、質問に対する返答を急がされるという感じを持ったりするなど、話者の感性に即した円滑な対話(話者が苛立つことが少ない対話)が困難になる状態が発生しやすいという問題点があった。このような問題点を解決するために、従来では、例えば特許文献1に見られるように、話者による発話速度を測定し、測定された発話速度に応じて応答音声の出力速度を変化させるようにした音声対話装置が考えられている。
上記従来の音声対話装置では、応答音声の出力速度を話者の発話速度に応じて単純に変化させているに過ぎないため、その出力が完了するまでの期間は、応答音声の速度が一定に保持されることになる。このため、応答音声の出力途中の段階で、話者側で応答音声が早期に終わって欲しいと感じるイベント(例えば、電話の着信)が発生した場合でも、その応答音声が終了するまで不要に待たされることがあり、これにより、話者側の苛立ちが増大するなど、話者の感性に即した円滑な対話が困難になる恐れがあった。また、音声対話装置では、会話における所謂「間」が、話者の感性に合った円滑な対話を行う上で非常に重要な要素となるものであるが、従来では、この「間」が話者の発話速度と無関係に一定であったため、話者の感性に即した円滑な対話が困難になるという状況下にあった。 In the above conventional voice interaction device, the output speed of the response voice is simply changed according to the speaking speed of the speaker, so the speed of the response voice is constant during the period until the output is completed. Will be retained. For this reason, even if an event (for example, an incoming call) that the speaker wants the response voice to end early in the middle of the output of the response voice occurs, it is unnecessary to wait until the response voice ends. As a result, there is a risk that smooth dialogue based on the sensitivity of the speaker may become difficult, such as increased irritation on the speaker side. In a speech dialogue apparatus, the so-called “between” in conversation is a very important element in conducting a smooth conversation that matches the sensitivity of the speaker. Because it was constant regardless of the speaking speed of the speaker, it was in a situation where smooth dialogue according to the sensitivity of the speaker became difficult.
本発明は上記事情に鑑みてなされたものであり、その目的は、話者の感性に即した円滑な対話を行うことができる音声対話装置を提供することにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a voice dialogue apparatus capable of performing a smooth dialogue in accordance with a speaker's sensitivity.
請求項1記載の手段によれば、話者の発話内容が音声認識手段により認識された場合には、応答制御手段が、その認識結果に応じた応答音声を合成音声により提供するようになる。この場合、話者による発話速度を検出する話速検出手段が設けられており、応答制御手段は、音声認識手段が話者の発話の終了を検出した時点から応答音声を提供するまでの応答時間、つまり、会話における所謂「間」を、前記話速検出手段により検出された発話速度に応じて変化させるようになる。このように、話者の感性に合った円滑な対話を行う上で非常に重要な要素となる「間」が、その話者の発話速度に応じた長さに制御される結果、話者の感性に即した円滑な対話を実現できるようになる。 According to the first aspect, when the speech content of the speaker is recognized by the voice recognition means, the response control means provides the response voice according to the recognition result as synthesized voice. In this case, speech speed detecting means for detecting the speaking speed by the speaker is provided, and the response control means is a response time from when the speech recognition means detects the end of the speaker's utterance until the response speech is provided. That is, the so-called “between” in the conversation is changed according to the utterance speed detected by the speech speed detecting means. In this way, the “interval”, which is a very important factor in conducting a smooth conversation that matches the speaker's sensibility, is controlled to a length corresponding to the speaker's speaking speed. It will be possible to realize a smooth dialogue based on sensitivity.
請求項2記載の手段によれば、応答制御手段は、環境条件検出センサから取り込んだ検出信号が予め決められた環境条件を満たすものであった場合に、その環境条件が解除されるまでの期間だけ応答音声の提供を見合わせた待機状態を呈するようになる。このため、例えば、話者が応答音声に反応しない方が良いと考えられる環境条件(音声対話装置が車載システムとして搭載されていた場合、車両の右左折などに伴うステアリング操作を実施中の状態や、急ブレーキによる減速操作を実施中の状態などが考えられる)の下では、応答音声の提供が見合わされることになって、対話の信頼性が向上するようになる。
According to the means described in
請求項3記載の手段によれば、応答制御手段は、音声認識手段による認識結果に、制御対象機器に係る動作開始コマンド或いは動作停止コマンドが含まれていた場合に、当該コマンドの実行タイミングを、環境条件検出センサからの検出信号により示される環境条件に応じた最適なタイミングとなるように調整するようになる。このため、話者からの動作開始コマンド或いは動作停止コマンドに基づいた制御対象機器の制御動作を実行しようとする際に、その実行を直ちに行わない方が良いと考えられる環境条件(制御対象機器が車両用のものであった場合、車両の右左折などに伴うステアリング操作を実施中の期間や、車両の後退走行期間などが考えられる)の下では、制御対象機器の制御動作の開始が見合わされることになるから、制御対象機器の制御に係る信頼性が向上するようになる。
According to the means of
以下、本発明の一実施例について図面を参照しながら説明する。
図1には、音声対話装置1及びこれに関連した部分の基本的な構成例が機能ブロックの組み合わせにより概略的に示されている。この図1において、音声対話装置1は、車両に搭載されて、話者(車両運転者)との間での音声応答処理及びその話者による音声コマンドに応じた制御処理を行うように構成されたもので、具体的に図示しないが、カーナビゲーション装置やエンジン制御ECU、移動体通信用ECUなどとの間で例えば車内LANを介してデータの授受を行い得るように構成されている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 schematically shows a basic configuration example of a voice interactive apparatus 1 and parts related thereto by a combination of functional blocks. In FIG. 1, a voice interactive apparatus 1 is mounted on a vehicle and configured to perform a voice response process with a speaker (vehicle driver) and a control process according to a voice command by the speaker. Although not specifically shown, data is exchanged with a car navigation device, an engine control ECU, a mobile communication ECU, and the like via, for example, an in-vehicle LAN.
音声対話装置1を構成する音声合成部2、話速制御部3(話速制御手段に相当)、音声認識部4(音声認識手段に相当)、話速検出部5(話速検出手段に相当)、対話エージェント部6、応答制御部7(応答制御手段に相当)は、実際には、音声対話装置用ECUのプログラムにより実現されたものであり、それぞれには以下のような機能が設定されている。
The
音声合成部2は、応答制御部7からの指示に基づいた音声信号を、周知の音声合成処理によってリアルタイムに生成し、その音声信号を応答音声として車載スピーカ8から出力する。尚、このスピーカ8は専用のものでも良いが、カーオーディオ装置のスピーカを兼用できるものである。
The
話速制御部3は、音声合成部2から出力される応答音声の発話速度を、応答制御部7からの指示速度に基づいた速度となるようにリアルタイム且つ連続的に変更する機能を備えたものである。この場合、話速制御部3は、その発話速度の変更アルゴリズムとして、例えば、応答音声の時間軸を圧縮伸長するという周知のTDHS(Time Domain Harmonic Scaling)法を採用しており、応答音声のピッチが一定のまま発話速度が変更されることになる。
The speech
音声認識部4は、車載マイクロホン9から入力された話者の音声を取り込み、その音声(つまり、話者の発話内容)を、例えばキーワードスポッティングを使用した音声認識処理方式より解析することにより、対話に必要な語彙を認識する。
話速検出部5は、音声認識部4が認識した語彙とその発声時間に基づいて、話者による発話速度を検出(予測)する。
対話エージェント部6は、対話のマネージメントのために設けられたもので、音声認識部4が認識した語彙中に含まれるコマンドを選別して応答制御部7に与える構成となっている。
The
The speech speed detection unit 5 detects (predicts) the speech speed of the speaker based on the vocabulary recognized by the
The dialogue agent unit 6 is provided for dialogue management, and has a configuration in which commands included in the vocabulary recognized by the
応答制御部7は、上述したような音声合成部2及び話速制御部3の制御機能の他に、車両に搭載された移動体通信機器(携帯電話、自動車電話、データコミュニケーションモジュール(DCM)など)、カーナビゲーション装置、カーオーディオ装置などの制御対象機器群10の動作制御を実行する機能を備えたもので、車載センサ群11(環境条件検出センサに相当)からの各種の検出信号が入力されるようになっている。この場合、上記車載センサ群11の構成要素としては、車両の走行状態や操作状態を検出するための車速センサ、加速度センサ、操舵角センサの他に、移動体通信機器の動作状態などを検出するためのアダプタなどが含まれるものであり、また、カーナビゲーション装置における経路案内情報、渋滞情報のような運転者支援情報などを出力するためのインタフェース部や、所定の車載機器の操作状況をモニタする手段なども含まれ、必要に応じて、車両運転者の視線方向を検出するための視線認識装置や車室内の騒音や会話をモニタするためのマイクロホンも含まれるものである。尚、車載センサ群11からの検出信号は、エンジン制御ECU、移動体通信用ECUなどから車内LANを通じて入力する構成であっても良い。
In addition to the control functions of the
さて、以下においては、応答制御部7による制御内容のうち、本発明の要旨に関係した部分について関連した作用と共に説明する。
即ち、応答制御部7は、通常状態ではノンアクティブ状態を呈しているが、例えば話者(車両運転者)が操作可能な位置に設けられた対話開始スイッチがオンされたとき、或いは、音声応答装置1の動作開始を要求する特定音声コマンドが音声認識部4及び対話エージェント部6を通じて与えられたとき(話者がマイクロホン9を通じて特定音声コマンドを入力したとき)に、アクティブ状態に切り換えられて話者との対話がスタートする構成となっている。
In the following, a part related to the gist of the present invention in the control contents by the
That is, the
話者との対話がスタートしたときには、マイクロホン9を通じて入力された話者の発話内容が音声認識部4にて解析されて対話に必要な語彙が認識される共に、その語彙中に含まれるコマンドが対話エージェント部6により選別されて応答制御部7に与えられる。
When the conversation with the speaker starts, the
上記のようなコマンドを受けた応答制御部7は、以下(1)、(2)のような制御を連続的に実行する。
(1)話速検出部5により検出される話者の発話速度に応じた長さのポーズ時間を決定すると共に、そのポーズ時間が経過したときに、音声合成部2に対して与えられたコマンドに応じた応答を行うための音声信号の作成を指示する制御。
The
(1) A command given to the
(2)話速制御部3に対して、上記音声合成部2での音声信号の生成速度、つまり、スピーカ8を通じて出力される応答音声の発話速度を、話速検出部5により検出される話者の発話速度に応じた指示速度となるように決定し、その指示速度を話速制御部3に与える制御。
尚、本実施例では、上記ポーズ時間は、話者の発話速度が速い状態時ほど比例的に短くなるように制御され、また、上記指示速度は、後述するようなイベントが発生していない通常状態では、話者の発話速度が速い状態時ほど比例的に高速化するように制御される。
(2) For the speech
In this embodiment, the pause time is controlled to be proportionally shorter as the speaking speed of the speaker is higher, and the indicated speed is a normal speed when no event occurs as will be described later. In the state, the speed is controlled so as to increase proportionally as the speaking rate of the speaker increases.
応答制御部7には、車載センサ群11からの検出信号をモニタすることにより、予め決められた所定のイベント、例えば、話者側で応答音声が早期に終わって欲しいと感じるイベント(電話の着信など)の発生の有無を監視する機能が設定されている。応答制御部7は、上記のような応答音声の出力途中の段階で、当該イベントが発生したときには、以下(3)のような制御を実行する。
The
(3)音声合成部2での音声信号の生成速度、つまり、応答音声の発話速度を、それまでの速度より連続的に高速化する制御(応答音声のピッチは変化しない)。
また、応答制御部7は、車載センサ群11から取り込んだ検出信号が予め決められた環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)を満たすものであった場合には、以下(4)、(5)のような制御を実行する。
(3) Control for continuously increasing the voice signal generation speed in the
In addition, the
(4)上記のような環境条件が解除されるまでの期間だけ、音声合成部2による音声合成処理を禁止した状態、要するに、スピーカ8からの応答音声の提供を見合わせた待機状態を呈する制御。
(5)応答音声の出力途中の段階で上記環境条件が満たされた場合には、例えば、応答音声の出力を一旦停止し、その後に環境条件が解除されたときに、当該応答音声を最初から出力し直すという制御。
(4) Control that presents a state in which speech synthesis processing by the
(5) When the environmental condition is satisfied in the middle of outputting the response voice, for example, when the output of the response voice is temporarily stopped and then the environmental condition is canceled, the response voice is started from the beginning. Control to output again.
さらに、応答制御部7は、音声認識部4による認識結果に、制御対象機器群10に係る動作開始コマンド或いは動作停止コマンドが含まれていた場合に、以下(6)のような制御を行う。
(6)動作開始コマンド或いは動作停止コマンドの実行タイミングを、車載センサ群11から取り込んだ検出信号により示される環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)に応じた最適なタイミングとなるように調整する制御(具体的には、例えば、上記動作開始コマンドが、移動体通信機器によるハンズフリー電話に対する発信コマンドであった場合には、上記環境条件が満たされている状態では当該発信コマンドの実行を見合わせ、その後に当該環境条件が解除されたときに始めて発信コマンドを実行することになる)。
Further, the
(6) The execution timing of the operation start command or the operation stop command is determined based on the environmental condition indicated by the detection signal acquired from the in-vehicle sensor group 11 (for example, a state in which a steering operation accompanying a right or left turn of the vehicle is being performed, Control that adjusts to the optimal timing according to the state of braking (specifically, for example, when the operation start command is a call command for a hands-free phone by a mobile communication device) In the state where the environmental condition is satisfied, the execution of the transmission command is postponed, and then the transmission command is executed only when the environmental condition is canceled).
図2のシーケンス図には、上記(1)、(2)、(4)〜(6)に係る制御内容についての具体例が示されており、以下これについて説明する。即ち、この図2の例は、話者である車両運転者が「A」さん宛てにハンズフリー電話をかけるというシチュエーションに対応したものであり、車両の運転状況が、直進→右折(或いは左折)→直進→急制動→直進再開というように変化した場合における、車載センサ群11、話者、音声認識部4、音声合成部2、話速検出部5、話速制御部3、応答制御部7、対話エージェント部6、制御対象機器群10の動作内容の推移が概略的に示されている。
In the sequence diagram of FIG. 2, specific examples of the control contents according to the above (1), (2), and (4) to (6) are shown, which will be described below. That is, the example of FIG. 2 corresponds to a situation in which a vehicle driver who is a speaker makes a hands-free phone call to “A”, and the driving state of the vehicle is straight ahead → right turn (or left turn). In-
S1:車両の直進状態で、話者が「電話したい」と発話する。
S2:音声認識部4が「電話したい」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信を要求するコマンド)を選別して応答制御部7へ出力する。
S1: The speaker speaks “I want to call” while the vehicle is running straight.
S2: The
S3:応答制御部7が、ポーズ時間・指示速度決定及び音声出力処理を行う。この処理時には、話者の発話速度が速い状態時ほど比例的に短くなるポーズ時間と、話者の発話速度が速い状態時ほど比例的に高速化する指示速度とを決定し、そのポーズ時間経過後に上記指示速度を話速制御部3に与えると共に、音声合成部2に対し、所定の音声信号(例えば、話者の発話を受け付けたことを示すと共に、電話の発信先に質問するための「はい、どちらですか」の音声信号の生成を指示する制御が行われる。
S3: The
S4:音声合成部2が、指示された音声信号(「はい、どちらですか」)を生成し、その音声信号を応答音声としてスピーカ8から出力すると共に、話速制御部3が、応答音声の発話速度を応答制御部7からの指示速度となるように制御する。
S5:話者が「Aさんの携帯」と発話する(車両は直進状態のまま)。
S6:音声認識部4が「Aさんの携帯」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信左記を指示するコマンド)を選別して応答制御部7へ出力する。
S4: The
S5: The speaker speaks “Mr. A's mobile phone” (the vehicle remains straight).
S6: The
S7:応答制御部7が、ポーズ時間・指示速度決定及び音声出力処理を行う。この処理時には、ポーズ時間及び指示速度を決定し、そのポーズ時間経過後に上記指示速度を話速制御部3に与えると共に、音声合成部2に対し、所定の音声信号(例えば、電話の発信先に報知するための「Aさんの携帯に電話します」の音声信号の生成を指示する制御が行われる。
S7: The
S8:話者が車両を右折(或いは左折)させるためのステアリング操作を行う。
S9:車載センサ群11(特には操舵角センサ)が右折(或いは左折)のためのステアリング操作を検出する。尚、車載センサ群11に車両運転者の視線方向を検出するための視線認識装置が含まれていた場合には、その視線認識装置による検出出力を車両の右折或いは左折操作の判定に利用しても良い。
S8: The speaker performs a steering operation to turn the vehicle to the right (or left).
S9: The in-vehicle sensor group 11 (particularly the steering angle sensor) detects a steering operation for a right turn (or a left turn). In addition, when the gaze recognition device for detecting the gaze direction of the vehicle driver is included in the in-
S10:応答制御部7が、音声合成部2による音声合成(音声信号の生成)をストップさせる。
S11:話者が車両を直進状態に戻すためのステアリング操作を行う。
S12:車載センサ群11(特には操舵角センサ)が車両を直進状態へ戻すためのステアリング操作を検出する。
S13:応答制御部7が、音声合成部2による音声合成(音声信号の生成)をスタートさせる。尚、車両の右折(或いは左折)が、前記ポーズ時間が経過する前に行われたときには、音声合成が最初から行われることは当然であるが、車両の右折(或いは左折)がポーズ時間経過したタイミングであって応答音声の出力中に行われた場合にも、音声合成を最初からスタートさせる構成となっている。
S10: The
S11: The speaker performs a steering operation for returning the vehicle to the straight traveling state.
S12: The vehicle-mounted sensor group 11 (particularly the steering angle sensor) detects a steering operation for returning the vehicle to a straight traveling state.
S13: The
S14:音声合成部2が、指示された音声信号(「Aさんの携帯に電話します」)を生成し、その音声信号を応答音声としてスピーカ8から出力すると共に、話速制御部3が、応答音声の発話速度を応答制御部7からの指示速度となるように制御する。
S15:話者が車両に急ブレーキをかける操作を所定期間だけ行う。
S16:車載センサ群11が急ブレーキ操作を検出する。尚、この検出は、車載センサ群11の車速センサ或いは加速度センサの出力に基づいて行うことができる。
S14: The
S15: An operation in which the speaker suddenly brakes the vehicle is performed for a predetermined period.
S16: The vehicle-mounted
S17:車載センサ群11(特には、車速センサ)が、急ブレーキの解除に伴う直進状態の再開を検出する。
S18:応答制御部7が、制御対象機器群10(特には、移動体通信機器)に対して、Aさんへの電話発信コマンドを送出する。
S17: The in-vehicle sensor group 11 (particularly, the vehicle speed sensor) detects the restart of the straight traveling state accompanying the release of the sudden brake.
S18: The
S19:制御対象機器群10(特には、移動体通信機器)が、Aさんへの電話発信を行う。尚、この電話発信に必要な電話番号は、例えば音声対話装置1内或いは移動体通信機器側に予め構築された電話番号データベースから取得する構成になっている。また、電話発信時には、その発信音が例えば移動体通信機器から報知されるものであるが、例えば、音声合成部2にて電話発信音を生成し、その発信音をスピーカ8から出力する構成としても良い。
S19: The control target device group 10 (particularly, mobile communication device) makes a call to Mr. A. Note that the telephone number necessary for making a telephone call is obtained from a telephone number database built in advance in the voice interactive apparatus 1 or on the mobile communication device side, for example. Further, when a call is made, the dial tone is notified from, for example, a mobile communication device. For example, the
要するに、上記した実施例の構成によれば、話者の発話内容が音声認識部4により認識された場合には、応答制御部7が、その認識結果に応じた応答音声を、音声合成部2による合成音声により提供するようになる。この場合、話者による発話速度を検出する話速検出部5及び上記応答音声の発話速度を調整するための話速制御部3が設けられており、通常状態では、当該応答音声の発話速度が、そのピッチを変化させることなく、話者の発話速度が速い状態時ほど比例的に高速化された速度となるように制御される。これにより、話者の感性に即した円滑な対話が可能になる。
In short, according to the configuration of the above-described embodiment, when the utterance content of the speaker is recognized by the
また、応答音声は、話者の発話内容が音声認識部4により認識されたときに直ちに出力されるのではなく、話者の発話速度が速い状態時ほど比例的に短くなるように制御されるポーズ時間が経過したときに始めて出力される構成、換言すれば、音声認識部4が話者の発話内容を認識した時点から応答音声を提供するまでの応答時間、つまり、会話における所謂「間」を、話者の実際の発話速度に応じて変化させる構成となっている。このように、話者の感性に合った円滑な対話を行う上で非常に重要な要素となる「間」が、その話者の発話速度に応じた長さに制御される結果、話者の感性に即した円滑な対話を実現できるようになる。
In addition, the response voice is not output immediately when the speech content of the speaker is recognized by the
一方、応答音声の出力期間中に、話者側で応答音声が早期に終わって欲しいと感じるイベント(電話の着信など)が発生したときには、応答音声の発話速度が、そのピッチを変化させることなく、それまでの速度より連続的に高速化するように制御される。このため、話者側で応答音声が早期に終わって欲しいと感ずるような範疇のイベントが発生した場合に、その応答音声が終了するまで不要に待たされる事態を防止できるようになり、以て話者側の苛立ちが増大する恐れがなくなるなど、話者の感性に即した円滑な対話が可能になるものである。また、この場合には、イベントの発生に応じて応答音声の発話速度が変化することになるから、話者側では、イベントが発生したことを応答音声の発話速度の変化に基づいて間接的に認知可能になるという利点もある。 On the other hand, when an event (such as an incoming call) that the speaker wants the response voice to finish early during the response voice output period occurs, the speaking speed of the response voice does not change the pitch. , It is controlled to continuously speed up from the previous speed. For this reason, when an event in a category that causes the speaker to feel that the response voice is desired to end early, it is possible to prevent a situation where the response voice is unnecessarily waited until the response voice ends. This makes it possible to have a smooth dialogue based on the sensitivity of the speaker, such as eliminating the risk of increased irritation on the part of the speaker. In this case, since the speaking rate of the response voice changes according to the occurrence of the event, the speaker side indirectly determines that the event has occurred based on the change of the speaking rate of the response voice. There is also an advantage that it can be recognized.
尚、例えば、話者側で、応答音声の内容を確実に認識したいと感ずるような範疇のイベントが発生した場合には、応答音声を、ピッチを変化させることなく連続的に低速化する制御を行う構成とすれば良く、このような構成とした場合には、その応答音声内容を話者側で確実に認識できるようになり、以て話者の要求に応じた円滑な対話が可能になるものである。 For example, when an event in a category that causes the speaker to feel that the content of the response voice is surely recognized occurs, control is performed to continuously reduce the speed of the response voice without changing the pitch. In such a configuration, it becomes possible for the speaker side to reliably recognize the response voice content, thereby enabling a smooth conversation according to the speaker's request. Is.
応答制御部7は、車載センサ群11から取り込んだ検出信号が予め決められた環境条件を満たすものであった場合に、その環境条件が解除されるまでの期間だけ応答音声の提供を見合わせた待機状態を呈するようになる。このため、例えば、話者が応答音声に反応しない方が良いと考えられる環境条件(実施例中で説明したような車両の右左折などに伴うステアリング操作を実施中の状態、或いは、車両の急制動を実施中の状態など)の下では、応答音声の提供が見合わされることになって、対話の信頼性が向上するようになる。
The
また、応答制御部7は、音声認識部4による認識結果に、制御対象機器群10の動作に係るコマンドが含まれていた場合に、当該コマンドの実行タイミングを、車載センサ群11からの検出信号により示される環境条件に応じた最適なタイミングとなるように調整するようになる。このため、話者からのコマンドに基づいた制御対象機器群10の制御動作を実行しようとする際に、その実行を直ちに行わない方が良いと考えられる環境条件(実施例中で説明したような車両の急制動を実施中の期間や、車両の後退走行期間などが考えられる)の下では、制御対象機器群10の制御動作の開始が見合わされることになるから、その制御対象機器群10の制御に係る信頼性が向上するようになる。
When the recognition result by the
(その他の実施の形態)
本発明は上記した実施例に限定されるものではなく、例えば以下のような変形または拡張が可能である。
音声対話装置1を車両に搭載した場合の実施例について説明したが、所謂デジタル家電の動作を制御するための音声対話装置などに適用しても良い。
話速制御部3は、応答音声の発話速度をTDHS法により変更する構成としたが、他の方式の音声時間軸圧縮伸長アルゴリズムを採用しても良く、また、音声信号の生成スピードを変えることで応答音声の発話速度を変える手法を採用しても良い。
(Other embodiments)
The present invention is not limited to the above-described embodiments, and for example, the following modifications or expansions are possible.
Although the embodiment in which the voice interactive device 1 is mounted on a vehicle has been described, the present invention may be applied to a voice interactive device for controlling the operation of a so-called digital home appliance.
The speech
応答制御部7は、話者の発話に応答するための応答音声の発話速度を、その応答直前の話者の発話速度に応じた指示速度となるように決定する構成となっているが、対話が開始された後における話者側の一連の発話速度を順次平均し、その平均発話速度に応じた指示速度を決定する構成としても良い。この構成によれば、話者の発話速度が一時的要因により変化した場合であっても、最終的には、応答音声の発話速度が当該話者の感性にあった状態に収束するようになるから、円滑な対話を行う上で有益になる。
The
音声対話装置1を複数の話者が利用する場合には、話速検出部5により検出される話者の発話速度に応じた指示速度のデフォルト値を、実際に音声対話装置1を利用する話者毎に変更する構成としても良い。このような構成とする場合には、各話者の発話速度の平均値を別途に記憶しておき、その平均値に応じて上記指示速度のデフォルト値を変更することになる。 When a plurality of speakers use the voice interactive device 1, the default value of the instruction speed corresponding to the speaker's speech speed detected by the speech speed detecting unit 5 is used as the talk actually using the voice interactive device 1. It is good also as a structure changed for every person. In such a configuration, the average value of the speaking speed of each speaker is stored separately, and the default value of the indicated speed is changed according to the average value.
話者の発話に応答した応答音声の出力が終了する前に、その話者が次の発話を行った場合には、その発話に対する応答音声に係るポーズ時間や発話速度を早くする制御を行う構成としても良い。この構成によれば、例えば、話者側に対話を急ぎたい事由がある場合や、所謂せっかちな話者に対するケアが可能になるものである。 A configuration in which when the speaker utters the next utterance before the output of the response voice in response to the utterance of the speaker is finished, the control is performed to increase the pause time and the utterance speed related to the response voice for the utterance. It is also good. According to this configuration, for example, when there is a reason for the speaker to rush to talk, or for a so-called impatient speaker, it becomes possible.
請求項1、請求項2に関しては、音声対話装置のみならず、ETCシステムやカーナビの音声ガイド(案内)などのように音声合成によって情報提供するシステムにおいても有効である。
また、本音声対話装置においては、マイクロホン9またはその近傍、或いは、それを象徴する物をドライバーが注視したことを、車両運転者の視線方向を検出するための視線認識装置によって認識し、その時点で音声認識が可能となるようにしても良い。
請求項2において、応答音声の提供を待機状態とするだけでなく、予め設定された条件に合致したときは、やめるようにしても良い。例えば、ドライバーが運転をやめる(停車)状態となったときのように、情報をやり取りする前提がなくなったような場合である。
Further, in this voice interactive device, the gaze recognition device for detecting the gaze direction of the vehicle driver recognizes that the driver gazes at the
In
1は音声対話装置、2は音声合成部、3は話速制御部(話速制御手段)、4は音声認識部(音声認識手段)、5は話速検出部(話速検出手段)、6は対話エージェント部、7は応答制御部(応答制御手段)、10は制御対象機器群、11は車載センサ群(環境条件検出センサ)を示す。 1 is a speech dialogue apparatus, 2 is a speech synthesizer, 3 is a speech speed controller (speech speed controller), 4 is a speech recognizer (speech recognizer), 5 is a speech speed detector (speech speed detector), 6 Is a dialogue agent unit, 7 is a response control unit (response control means), 10 is a control target device group, and 11 is an in-vehicle sensor group (environmental condition detection sensor).
Claims (3)
前記話者による発話速度を検出する話速検出手段を備え、
前記応答制御手段は、前記音声認識手段が話者の発話の終了を検出した時点から前記応答音声の提供を開始するまでの応答時間を、前記話速検出手段により検出された発話速度に応じて変化させることを特徴とする音声対話装置。 In a voice dialogue apparatus comprising voice recognition means for recognizing the utterance content of a speaker, and response control means for providing a response voice corresponding to the recognition result by synthesized voice,
Comprising speech speed detecting means for detecting the speaking speed of the speaker;
The response control means determines a response time from the time when the voice recognition means detects the end of the speaker's utterance to the start of providing the response voice according to the utterance speed detected by the speech speed detection means. A voice interactive device characterized by changing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022981A JP2012128440A (en) | 2012-02-06 | 2012-02-06 | Voice interactive device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022981A JP2012128440A (en) | 2012-02-06 | 2012-02-06 | Voice interactive device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006196871A Division JP2008026463A (en) | 2006-07-19 | 2006-07-19 | Voice interaction apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012128440A true JP2012128440A (en) | 2012-07-05 |
Family
ID=46645438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012022981A Pending JP2012128440A (en) | 2012-02-06 | 2012-02-06 | Voice interactive device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012128440A (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015069037A (en) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | Voice synthesizer and program |
KR20160021850A (en) * | 2013-06-21 | 2016-02-26 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | Environmentally aware dialog policies and response generation |
WO2017098940A1 (en) | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | Speech interacting device and speech interacting method |
CN108962283A (en) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | A kind of question terminates the determination method, apparatus and electronic equipment of mute time |
JP2019512102A (en) * | 2016-03-01 | 2019-05-09 | グーグル エルエルシー | Developer Voice Action System |
CN109961787A (en) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | Determine the method and device of acquisition end time |
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
CN110364145A (en) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | A kind of method and device of the method for speech recognition, voice punctuate |
US10490181B2 (en) | 2013-05-31 | 2019-11-26 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
KR20210033850A (en) * | 2019-09-19 | 2021-03-29 | 주식회사 세미콘네트웍스 | Output method for artificial intelligence speakers based on emotional values calculated from voice and face |
WO2021106080A1 (en) * | 2019-11-26 | 2021-06-03 | 日本電信電話株式会社 | Dialog device, method, and program |
CN113208592A (en) * | 2021-03-29 | 2021-08-06 | 济南大学 | Psychological test system with multiple answering modes |
JP2022003388A (en) * | 2020-12-22 | 2022-01-11 | 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. | Method, device, apparatus and storage medium for testing response speed of on-vehicle apparatus |
US11403060B2 (en) | 2020-01-31 | 2022-08-02 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium for executing printing service according to state of utterance |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02210497A (en) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | Voice synthesizing device |
JPH05289691A (en) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | Speech speed measuring instrument |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
JPH0721759B2 (en) * | 1983-05-25 | 1995-03-08 | 株式会社東芝 | Speech recognition response device |
JP2000338994A (en) * | 1999-05-27 | 2000-12-08 | Fujitsu Ten Ltd | Onboard speech recognition device |
JP2001179667A (en) * | 1999-12-28 | 2001-07-03 | Sony Corp | Synchronous control device and method, and recording medium |
JP2004078100A (en) * | 2002-08-22 | 2004-03-11 | Denso Corp | Voice output control system and computer program |
JP2005321817A (en) * | 1995-12-04 | 2005-11-17 | Jared C Bernstein | Method and apparatus for obtaining combining information from speech signals for adaptive interaction in teaching and testing |
-
2012
- 2012-02-06 JP JP2012022981A patent/JP2012128440A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721759B2 (en) * | 1983-05-25 | 1995-03-08 | 株式会社東芝 | Speech recognition response device |
JPH02210497A (en) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | Voice synthesizing device |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
JPH05289691A (en) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | Speech speed measuring instrument |
JP2005321817A (en) * | 1995-12-04 | 2005-11-17 | Jared C Bernstein | Method and apparatus for obtaining combining information from speech signals for adaptive interaction in teaching and testing |
JP2000338994A (en) * | 1999-05-27 | 2000-12-08 | Fujitsu Ten Ltd | Onboard speech recognition device |
JP2001179667A (en) * | 1999-12-28 | 2001-07-03 | Sony Corp | Synchronous control device and method, and recording medium |
JP2004078100A (en) * | 2002-08-22 | 2004-03-11 | Denso Corp | Voice output control system and computer program |
Non-Patent Citations (2)
Title |
---|
CSNG200600721007; 東海林 圭輔: '対話に関するリズムや同調作用を考慮した音声対話システム' 情報処理学会研究報告 Vol.2006 No.40, 20060511, 社団法人情報処理学会 * |
JPN6011009280; 東海林 圭輔: '対話に関するリズムや同調作用を考慮した音声対話システム' 情報処理学会研究報告 Vol.2006 No.40, 20060511, 社団法人情報処理学会 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10490181B2 (en) | 2013-05-31 | 2019-11-26 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
KR20160021850A (en) * | 2013-06-21 | 2016-02-26 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | Environmentally aware dialog policies and response generation |
CN105378708A (en) * | 2013-06-21 | 2016-03-02 | 微软技术许可有限责任公司 | Environmentally aware dialog policies and response generation |
JP2016524190A (en) * | 2013-06-21 | 2016-08-12 | マイクロソフト テクノロジー ライセンシング,エルエルシー | Environment-aware interaction policy and response generation |
KR102231733B1 (en) | 2013-06-21 | 2021-03-23 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | Environmentally aware dialog policies and response generation |
US10304448B2 (en) | 2013-06-21 | 2019-05-28 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
JP2015069037A (en) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | Voice synthesizer and program |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
WO2017098940A1 (en) | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | Speech interacting device and speech interacting method |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
JP2019512102A (en) * | 2016-03-01 | 2019-05-09 | グーグル エルエルシー | Developer Voice Action System |
CN108962283A (en) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | A kind of question terminates the determination method, apparatus and electronic equipment of mute time |
CN110364145A (en) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | A kind of method and device of the method for speech recognition, voice punctuate |
CN109961787A (en) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | Determine the method and device of acquisition end time |
KR20210033850A (en) * | 2019-09-19 | 2021-03-29 | 주식회사 세미콘네트웍스 | Output method for artificial intelligence speakers based on emotional values calculated from voice and face |
KR102276951B1 (en) * | 2019-09-19 | 2021-07-13 | 주식회사 세미콘네트웍스 | Output method for artificial intelligence speakers based on emotional values calculated from voice and face |
WO2021106080A1 (en) * | 2019-11-26 | 2021-06-03 | 日本電信電話株式会社 | Dialog device, method, and program |
JPWO2021106080A1 (en) * | 2019-11-26 | 2021-06-03 | ||
US11403060B2 (en) | 2020-01-31 | 2022-08-02 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium for executing printing service according to state of utterance |
JP2022003388A (en) * | 2020-12-22 | 2022-01-11 | 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. | Method, device, apparatus and storage medium for testing response speed of on-vehicle apparatus |
JP7346496B2 (en) | 2020-12-22 | 2023-09-19 | 阿波羅智聯(北京)科技有限公司 | Method, device, equipment and storage medium for testing response speed of in-vehicle equipment |
CN113208592A (en) * | 2021-03-29 | 2021-08-06 | 济南大学 | Psychological test system with multiple answering modes |
CN113208592B (en) * | 2021-03-29 | 2022-08-16 | 济南大学 | Psychological test system with multiple answering modes |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012128440A (en) | Voice interactive device | |
JP2008026463A (en) | Voice interaction apparatus | |
JP5709980B2 (en) | Voice recognition device and navigation device | |
CN107808665B (en) | Method, system and storage medium for processing spoken utterance streams | |
EP1901282B1 (en) | Speech communications system for a vehicle | |
JP2007219207A (en) | Speech recognition device | |
JP2017090611A (en) | Voice recognition control system | |
JP2015513704A (en) | User-specific automatic speech recognition | |
JP2020080074A (en) | Sight line detection device, program, and sight line detection method | |
JP2016018078A (en) | Voice recognition device and voice recognition system | |
JPWO2007138741A1 (en) | Voice input system, interactive robot, voice input method, and voice input program | |
WO2020223304A1 (en) | Speech dialog system aware of ongoing conversations | |
JP2016061888A (en) | Speech recognition device, speech recognition subject section setting method, and speech recognition section setting program | |
JP2002520681A (en) | Automatic speech recognition method | |
JP2020077135A (en) | Control unit, agent device, and program | |
JP2008250236A (en) | Speech recognition device and speech recognition method | |
JP2018124484A (en) | Speech recognition device | |
JP5979303B2 (en) | Voice control system, voice control method, voice control program, and noise-proof voice output program | |
JP5074759B2 (en) | Dialog control apparatus, dialog control method, and dialog control program | |
JP6332072B2 (en) | Dialogue device | |
JP2004318026A (en) | Security pet robot and signal processing method related to the device | |
JP7084848B2 (en) | Control equipment, agent equipment and programs | |
JP7465700B2 (en) | In-vehicle device and audio processing method therefor | |
US20230419971A1 (en) | Dynamic voice assistant system for a vehicle | |
JP7242873B2 (en) | Speech recognition assistance device and speech recognition assistance method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131022 |