JP2009047920A - Device and method for interacting with user by speech - Google Patents
Device and method for interacting with user by speech Download PDFInfo
- Publication number
- JP2009047920A JP2009047920A JP2007213828A JP2007213828A JP2009047920A JP 2009047920 A JP2009047920 A JP 2009047920A JP 2007213828 A JP2007213828 A JP 2007213828A JP 2007213828 A JP2007213828 A JP 2007213828A JP 2009047920 A JP2009047920 A JP 2009047920A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- response
- phrase
- recognition result
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、入力した音声に応じた動作を実行することによりユーザと対話する装置および方法に関するものである。 The present invention relates to an apparatus and a method for interacting with a user by executing an operation according to an input voice.
近年、音声認識、音声合成および対話理解といった要素技術の研究が進み、それらを組み合わせることによって、複雑なボタン操作やコマンド入力をせずとも、自然言語音声の発話によって機械を操作できるような音声対話インターフェースが実用化されつつある。 In recent years, research on elemental technologies such as speech recognition, speech synthesis, and dialogue understanding has progressed, and by combining these, speech dialogue that can operate machines by uttering natural language speech without complicated button operations and command inputs Interfaces are being put into practical use.
また、デジタル家電やカーナビゲーションシステムの性能の向上に伴って、このような従来型のユーザ・インタフェースよりも高い処理性能が必要な音声対話インターフェースの実装も可能になりつつある。 In addition, with the improvement in performance of digital home appliances and car navigation systems, it is becoming possible to implement a voice interaction interface that requires higher processing performance than the conventional user interface.
しかし、上記のような各要素技術にはまだ多くの技術的課題が残されており、システムに対するユーザの入力音声を常に正しく解釈し、ユーザの要求を満たす動作の実行または応答の出力を可能とするほど精度の高いシステムの実現はきわめて困難である。 However, many technical problems still remain in each of the above elemental technologies, and it is possible to always interpret the user's input voice to the system correctly and execute an operation that satisfies the user's request or output a response. Therefore, it is very difficult to realize a highly accurate system.
例えば、音声からユーザの要求意図を解釈するためには、最初に音声認識処理によって、音声波形から言語情報を抽出する必要がある。ところが、この音声認識処理でさえ、常に正しい結果が得られるわけではない。例えば、雑音環境下では、認識精度が著しく低下するという課題が存在する。 For example, in order to interpret a user's request intention from speech, it is necessary to first extract language information from the speech waveform by speech recognition processing. However, even with this speech recognition processing, a correct result is not always obtained. For example, in a noisy environment, there is a problem that recognition accuracy is significantly reduced.
また、認識した言語情報(テキスト)から、形態素情報、構文情報を抽出し、さらに発話意図を解析する処理を行う必要があるが、いずれの過程でも誤りが生じる可能性が存在する。特に、発話意図を抽出するような対話理解には、文脈などを考慮した非常に高度な言語処理が必要である。このため、ユーザからの自由発話を入力できる音声対話処理システムが、ユーザの発話を常に正しく解釈し、曖昧性の発生を避けることは非常に困難である。 Further, it is necessary to extract morpheme information and syntax information from the recognized linguistic information (text) and to further analyze the speech intention, but there is a possibility that an error occurs in any process. In particular, in order to understand dialogues such as extracting utterance intentions, very advanced language processing in consideration of context and the like is required. For this reason, it is very difficult for a speech dialogue processing system that can input a user's free utterance to always correctly interpret the user's utterance and avoid the occurrence of ambiguity.
そこで、各処理段階における要素技術の改良とともに、ヒューマン・インターフェース(HI)を用いて、ユーザがシステムの解釈の曖昧性・誤りを訂正できるようにするという対策が採られている。 Therefore, along with improvements in elemental technology at each processing stage, measures are taken to enable the user to correct ambiguities and errors in the interpretation of the system using a human interface (HI).
ところが、ユーザに対するシステムの解釈結果のフィードバックの仕方によっては、手順が複雑になる場合や、ユーザ入力−システムの解釈結果応答−ユーザの訂正入力−システムの解釈訂正−システム動作実行という一連の訂正処理の時間が増加する場合があり、ユーザにストレスを与える可能性がある。 However, depending on the method of feedback of the system interpretation result to the user, the procedure may be complicated, or a series of correction processes of user input-system interpretation result response-user correction input-system interpretation correction-system operation execution Time may increase, which may stress the user.
例えば、ユーザの発話に対する複数の解釈候補が存在する場合に、各解釈候補をユーザに音声でフィードバックし、ユーザに正しい解釈候補を選択させる方法を考える。この方法では、解釈候補をテキストによって一覧表示することができないため、それぞれの解釈候補に対応する読み上げ音声を順番に出力する必要がある。このため、出力に時間がかかる上、ユーザがその音声を逐一聞いて確認するための処理負担も増大する。 For example, when there are a plurality of interpretation candidates for the user's utterance, consider a method in which each interpretation candidate is fed back to the user by voice and the user selects the correct interpretation candidate. In this method, since interpretation candidates cannot be displayed as a list by text, it is necessary to output read-out speech corresponding to each interpretation candidate in order. For this reason, it takes time to output, and the processing load for the user to listen to and confirm the sound one by one increases.
これを避けるための方法としては、例えば、システムが第1位の解釈候補のみを出力し、ユーザからの訂正入力を受け付けるという方式が考えられる。しかし、単純に応答出力−訂正入力−確認応答出力という手順で訂正する方式では、訂正処理が煩雑になるという問題がある。 As a method for avoiding this, for example, a system in which the system outputs only the first interpretation candidate and accepts a correction input from the user can be considered. However, there is a problem that the correction process becomes complicated in the method of correcting simply by the procedure of response output-correction input-confirmation response output.
また、音声でフィードバックするのではなく、テキストで一覧表示してフィードバックするテキスト表示型インターフェースも考えられる。しかし、表示部が小さい場合は、スクロール等の操作が必要になるため、上記と同様に訂正処理が煩雑になるという問題が生じうる。 In addition, a text display interface is also conceivable in which a list is displayed as text instead of being fed back by voice. However, when the display unit is small, an operation such as scrolling is required, and thus there may be a problem that the correction process becomes complicated as described above.
このように、音声対話型HIでは、人(ユーザ)と機械間の対話を円滑に進められるような工夫が求められる。 As described above, in the voice interactive HI, a device is required so that the conversation between the person (user) and the machine can be smoothly advanced.
例えば、特許文献1では、ユーザからの発話を音声認識する認識処理の過程で、認識誤りが生じたフレーズを自動的に検出し、検出部分のみを原言語話者にテキストまたは音声によって提示して訂正させることによって、円滑な訂正が可能な対話インターフェースを実現する技術が提案されている。この方法では、発話者に提示されるのは誤りフレーズのみであるため、文全体の確認や再入力が不要となり、訂正に要する時間を短くすることができる。
For example, in
しかしながら、特許文献1の方法では、音声認識で誤認識が生じうるのと同様に、音声認識誤り箇所の特定にも誤りが生じうるため、誤認識箇所を正しく訂正できない場合があるという問題があった。また、特定された誤りフレーズ以外のフレーズを訂正することができないという問題があった。
However, the method disclosed in
このような問題を解消し、円滑な対話を実現するためには、誤り箇所のみでなく解釈結果全体を音声により確認し、音声により訂正可能とすることが望ましい。しかしこの場合も、解釈結果全体の音声をすべて出力してから訂正発話を受け付けるという一般的な確認・訂正方法では、対話の進行が妨げられるという問題が生じうる。 In order to solve such a problem and realize a smooth dialogue, it is desirable to check not only the error location but also the entire interpretation result by voice and correct it by voice. However, even in this case, the general confirmation / correction method in which the corrected speech is accepted after the entire speech of the interpretation result is output may cause a problem that the progress of the dialogue is hindered.
本発明は、上記に鑑みてなされたものであって、対話を阻害することなく誤り箇所を容易に訂正することができる装置および方法を提供することを目的とする。 The present invention has been made in view of the above, and it is an object of the present invention to provide an apparatus and a method that can easily correct an error location without hindering dialogue.
上述した課題を解決し、目的を達成するために、本発明は、入力した音声を認識し、認識結果の候補を複数生成する認識部と、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力すること、を特徴とする。 In order to solve the above-described problems and achieve the object, the present invention recognizes an input speech and generates a plurality of recognition result candidates, and a plurality of first recognition result candidates for the first speech. A candidate generation unit that analyzes and generates a response candidate corresponding to each of the plurality of first recognition result candidates and a likelihood that represents a likelihood of a response candidate for the first recognition result candidate; and the likelihood A response to the first candidate of the first recognition result including a phrase representing a candidate of a response to the first candidate of the first recognition result is selected. A response sentence generation unit that generates a sentence; an output unit that outputs a synthesized voice obtained by converting a response sentence to the first candidate of the first recognition result into a voice signal; and a second voice inputted during the output of the synthesized voice The candidate generated by the candidate generator Analyzing a candidate of the second recognition result for the speech and generating a corrected phrase that corrects the phrase included in the response sentence to the first candidate of the first recognition result; and a plurality of first recognition results A candidate for a response to another candidate of the first recognition result including the same phrase as the modified word is obtained from a candidate for the response to the candidate, and the likelihood among the candidates for the response to another candidate of the first recognition result is A selection unit that selects a response candidate for another candidate of the maximum first recognition result; and an update unit that updates the response sentence with a word of a response candidate for another candidate of the selected first recognition result. The output unit outputs the synthesized speech of the updated response sentence instead of the synthesized speech of the response sentence before the update when the response sentence is updated.
また、本発明は、上記装置を実行することができる方法である。 The present invention is also a method capable of executing the above apparatus.
本発明によれば、対話を阻害することなく誤り箇所を容易に訂正することができるという効果を奏する。 According to the present invention, there is an effect that an error part can be easily corrected without obstructing the dialogue.
以下に添付図面を参照して、この発明にかかる装置および方法の最良な実施の形態を詳細に説明する。 Exemplary embodiments of an apparatus and a method according to the present invention will be described below in detail with reference to the accompanying drawings.
本実施の形態にかかる音声対話装置は、ユーザの入力音声を解釈し、解釈結果に対応する応答文を音声出力するとともに、応答文の出力中に入力された応答文を修正するための修正音声を利用して解釈結果と応答文を同時に更新し、更新後の応答文を出力するものである。 The voice interactive apparatus according to the present embodiment interprets a user's input voice, outputs a response sentence corresponding to the interpretation result as a voice, and corrects a corrected voice for correcting the response sentence input during the output of the response sentence Is used to simultaneously update the interpretation result and response text, and output the updated response text.
なお、以下では、ハードディクレコーダーやマルチメディアパソコンなどの、録画した放送番組等を録画再生可能なビデオ録画再生装置として音声対話装置を実現した例について説明する。なお、適用可能な装置はビデオ録画再生装置に限られず、ユーザの入力音声に対応する応答を出力するものであればあらゆる装置に適用できる。 In the following, an example will be described in which a voice interactive apparatus is realized as a video recording / reproducing apparatus capable of recording / reproducing recorded broadcast programs, such as a hard disk recorder and a multimedia personal computer. The applicable apparatus is not limited to the video recording / reproducing apparatus, and can be applied to any apparatus that outputs a response corresponding to the user's input voice.
図1は、本実施の形態にかかるビデオ録画再生装置100の構成を示すブロック図である。図1に示すように、ビデオ録画再生装置100は、主はハードウェア構成として、マイク131と、スピーカ132と、記憶部120と、を備えている。また、ビデオ録画再生装置100は、主はソフトウェア構成として、受付部101と、対話処理部110と、出力部102と、録画再生部103とを備えている。
FIG. 1 is a block diagram showing a configuration of a video recording /
マイク131は、ユーザの発話した音声を入力するものである。また、スピーカ132は、応答を合成した合成音声などのデジタル形式の音声信号をアナログ形式の音声信号に変換(DA変換)して出力するものである。
The microphone 131 is used to input voice spoken by the user. In addition, the
記憶部120は、対話処理部110で生成されるアクション候補群、アクション断片、および応答フレーズリストなどの各種データ(詳細は後述)を記録するものである。記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
The
受付部101は、マイク131から入力された音声のアナログ信号に対してサンプリングを行い、PCM(パルスデジタルコードモジュレーション)形式などのデジタル信号に変換して出力する処理を行うものである。受付部101の処理では、従来から用いられているA/D変換技術などを適用することができる。
The accepting
対話処理部110は、ユーザから入力された音声に対応する応答および応答の内容を表す応答文を生成して出力することにより、ユーザとの対話処理を実行するものである。具体的には、対話処理部110は、まず、デジタル信号を音声認識してユーザの要求を解釈する。次に、対話処理部110は、その解釈結果に応じた応答の候補を生成する。さらに、対話処理部110は、最尤の候補に対応する応答文を生成する。
The
以下に、対話処理部110の詳細な機能と構成について説明する。図1に示すように、対話処理部110は、認識部111と、候補生成部112と、応答文生成部113と、修正語句生成部114と、選択部115と、更新部116と、を備えている。
The detailed function and configuration of the
認識部111は、受付部101が出力した音声のデジタル信号を音声認識してユーザの要求を表す認識結果の候補を生成するものである。具体的には、認識部111は、入力したデジタル信号を音声認識して、少なくとも1つの認識候補テキストからなる認識候補群を生成する。認識部111による音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
The recognizing
図2は、音声認識結果の一例を示す説明図である。図2は、「MHKで朝、英語講座を録ってね」を意味する日本語に対応する音声I0(「えむえっちけーであさえいごこうざをとってね」)に対する音声認識結果の例を示している。また、図2は、ラティス表現形式により音声認識結果を表した例を示している。 FIG. 2 is an explanatory diagram illustrating an example of a speech recognition result. FIG. 2 shows an example of a speech recognition result for a speech I0 corresponding to Japanese meaning “Make an English course in the morning at MHK” (“Take a good practice even at Emuecchi-ke”). Is shown. FIG. 2 shows an example in which the speech recognition result is expressed in a lattice expression format.
この例では、ノード201(「朝」)とノード202(「あさって」)との間、およびノード203(「英語講座を」)とノード204(「囲碁講座を」)との間に、それぞれ解釈の曖昧性が生じている。 In this example, interpretation is performed between node 201 (“morning”) and node 202 (“morning”), and between node 203 (“English course”) and node 204 (“Go course”). There is an ambiguity.
なお、ラティスのノード間の線に付された数値は、ラティスの生成過程で統計的な共起頻度などから計算されたコストを表す。同図では、例えば、ノード205(「MHKで」)とノード201(「朝」)との間のコストが2であること、ノード202(「あさって」)とノード203(「英語講座を」)との間のコストが4であることが示されている。 The numerical value attached to the line between the nodes of the lattice represents the cost calculated from the statistical co-occurrence frequency in the process of generating the lattice. In the figure, for example, the cost between node 205 ("MHK") and node 201 ("morning") is 2, node 202 ("morning") and node 203 ("English course") It is shown that the cost between
認識部111は、このような認識結果のラティス表現およびコストを元に、確からしさを表す尤度が上位の所定数の候補を含む認識候補群を生成する。図3は、生成された認識候補文の一例を示す説明図である。図3は、図2のスタートノードからエンドノードまでのコストの総和に対応する尤度にしたがって、第1位候補から第4位候補まで順位付けを決定した結果を示している。
The recognizing
図3に示すように、認識部111は、認識候補を識別する候補番号と、認識候補の内容を表す候補テキストと、尤度とを対応づけた認識候補を生成する。なお、図3の例では、ユーザの要求に対応する正しい認識結果が第3位候補となっている。このように、音声認識処理では、第1位候補が誤りであっても、他の候補に正しい認識結果が含まれる場合が生じうる。
As illustrated in FIG. 3, the
図1に戻り、候補生成部112は、このような状況を考慮し、最上位の候補に対する応答を生成するだけでなく、認識結果の候補それぞれについて、対応する応答の候補を生成するものである。なお、応答とは、ユーザの入力音声に対応して実行する処理または出力する内容を言う。本実施の形態は、ビデオ録画再生装置の例であるため、例えば、テレビ番組の再生・録画などの処理が応答となる。なお、以下では、応答をアクションといい、応答の候補をアクション候補という。
Returning to FIG. 1, the
図4は、アクションの一例を示す説明図である。図4に示すように、アクションは、「操作」、「日時」、「チャンネル」、および「番組名」の4つの属性(以下、アクション属性という)を含む。なお、図4の表の2行目以降がアクションに相当する。 FIG. 4 is an explanatory diagram illustrating an example of an action. As shown in FIG. 4, the action includes four attributes (hereinafter referred to as action attributes) of “operation”, “date / time”, “channel”, and “program name”. Note that the second and subsequent rows in the table of FIG. 4 correspond to actions.
例えば、2行目は、「朝」(日時)に「MHK」(チャンネル)の「英語講座」(番組名)を録画する(操作)というシステムの動作を表している。また、3行目は、「録画データ1」を再生するという動作を表す。ここで、「再生」は、ユーザ要求があった場合に、即時再生する動作を表すため、「日時」の値は空(「−」で表す)である。また、「チャンネル」の値も空である。
For example, the second line represents the system operation of recording (operation) “English course” (program name) of “MHK” (channel) in “morning” (date and time). The third line represents an operation of reproducing “
このように、アクションの表現形式は固定されるものではなく、少なくとも1つの語句によって、実行する処理や出力内容を表せればよい。図4の例では、少なくとも「操作」が設定されていればアクションの内容を特定することができる。 In this way, the action expression format is not fixed, and the process to be executed and the output contents may be represented by at least one word. In the example of FIG. 4, the content of the action can be specified if at least “operation” is set.
候補生成部112は、認識候補群に対して、形態素解析、構文解析、意味解析などの言語解析手法を適用することにより、ユーザの要求に対応するアクション候補群を生成する。このとき、候補生成部112は、音声認識処理で算出された認識候補それぞれの尤度および言語解析処理における確信度などから、各アクション候補についての尤度を算出し、各候補を順位付ける。
The
図5は、アクション候補群の一例を示す説明図である。図5は、図3に示した各認識候補に対するアクション候補の例を示している。図5に示すように、アクション候補は、識別子である「候補」と、図4と同様の「操作」、「日時」、「チャンネル」、および「番組名」と、「尤度」とを含む。図5の表中、2行目以降の各行がアクションに相当し、第1位候補であるAct1から昇順に並べてある。図5の例では、簡単のため、言語処理が正しく行われているものと仮定し、アクション候補の尤度の値として、図3に示した認識候補の尤度値をそのまま用いている。 FIG. 5 is an explanatory diagram illustrating an example of an action candidate group. FIG. 5 shows an example of action candidates for each recognition candidate shown in FIG. As shown in FIG. 5, the action candidate includes an identifier “candidate”, “operation”, “date / time”, “channel”, “program name”, and “likelihood” similar to those in FIG. 4. . In the table of FIG. 5, the second and subsequent lines correspond to actions, and are arranged in ascending order from Act1 which is the first candidate. In the example of FIG. 5, for the sake of simplicity, it is assumed that the language processing is performed correctly, and the likelihood value of the recognition candidate shown in FIG. 3 is used as it is as the likelihood value of the action candidate.
図1に戻り、応答文生成部113は、尤度が最大のアクション候補が、ユーザの要求を満たすか否かをユーザに確認するための応答文を生成するものである。具体的には、応答文生成部113は、アクション属性によって記述したテンプレートを用いて応答文を生成する。
Returning to FIG. 1, the response
図6は、テンプレートの一例を示す説明図である。図6に示すように、テンプレートTは、記号「{}」で指定した変数部と、その他の固定部とを含んでいる。変数部は、記号「{}」内にアクション属性を指定することにより、各アクション候補の対応するアクション属性の属性値を当てはめることを表している。また、テンプレートTは、記号「/」によって、それぞれ1つのアクション属性が含まれるようにフレーズ単位で分割される。このように、予めフレーズ単位に分割するのは、後述の出力部102が、応答文をフレーズ単位で順次出力できるようにするためである。なお、以下では、フレーズ単位で区切られた応答文を応答フレーズリストといい、P{P1〜PN}(Nはフレーズ数)と表す。
FIG. 6 is an explanatory diagram illustrating an example of a template. As shown in FIG. 6, the template T includes a variable part designated by the symbol “{}” and other fixed parts. The variable part indicates that the attribute value of the corresponding action attribute of each action candidate is applied by designating the action attribute in the symbol “{}”. Further, the template T is divided by the phrase “/” so as to include one action attribute. The reason why the phrase is divided in advance in this way is to enable the
なお、応答文の生成方法はテンプレートを用いた方法に限られるものではなく、文法規則や生成規則を用いて文を生成する方法などの従来から用いられているあらゆる方法を適用できる。 The method for generating a response sentence is not limited to the method using a template, and any conventionally used method such as a method for generating a sentence using a grammar rule or a generation rule can be applied.
図7は、テンプレートを用いて生成された応答フレーズリストの一例を示す説明図である。図7は、図5のアクション候補CAct1を、図6のテンプレートに適用して生成した応答フレーズリストを表している。各応答フレーズP1〜P4は、この順で出力部102から音声出力される。
FIG. 7 is an explanatory diagram illustrating an example of a response phrase list generated using a template. FIG. 7 shows a response phrase list generated by applying the action candidate CAct1 of FIG. 5 to the template of FIG. The response phrases P1 to P4 are output from the
図1に戻り、修正語句生成部114は、後述する出力部102によって出力された応答文に対してユーザが発話した応答文の修正内容を表す修正語句を生成するものである。具体的には、修正語句生成部114は、修正のために発話された音声に対する認識部111による認識結果の候補を元に、アクションを構成する複数のアクション属性のうち少なくとも1つに対応する属性値を含むアクション断片を修正語句として生成する。
Returning to FIG. 1, the corrected
ユーザが応答文を修正する場合、応答文のすべてを再度発話するのではなく、修正部分のみを発話する場合がある。すなわち、ユーザの発話に、アクションの全てのアクション属性(操作、日時、チャンネル、番組名)が含まれない場合がある。このような場合でも、修正語句生成部114は、認識結果の候補から、少なくともアクション属性の一部を抽出することができる。そして、このようにして抽出されたアクション属性の属性値は、ユーザが要求する修正内容を表すため、修正語句生成部114は、この属性値を修正語句として生成する。
When the user corrects the response sentence, the user may utter only the corrected portion instead of speaking the entire response sentence again. That is, the user's utterance may not include all action attributes (operation, date / time, channel, program name) of the action. Even in such a case, the corrected
図8は、認識部111により生成された認識候補文の別の例を示す説明図である。図8は、図7に示す応答フレーズを含む応答文に対して修正を要求するためユーザが発話した音声であり、アクション属性のうち「日時」を修正するために発話した、「朝だよ」を意味する日本語の入力音声I1(「あさだよ」)に対する音声認識結果の例を示している。また、図8は、認識結果の候補として唯一の候補(「朝だよ」)が生成されたことを示している。
FIG. 8 is an explanatory diagram illustrating another example of the recognition candidate sentence generated by the
このような認識結果に対し、修正語句生成部114は、アクション属性「日時」の値が「朝」であるという情報をアクション断片として抽出する。図9は、このようにして生成されたアクション断片の一例を示す説明図である。図9は、上述の入力音声I1から生成されたアクション断片の例である。
In response to such a recognition result, the corrected
なお、修正語句生成部114と候補生成部112とは、アクション属性の一部のみを含むアクション断片を生成するか、すべてを含むアクション候補を生成するかが異なるのみである。すなわち、認識結果に対して、形態素解析、構文解析、意味解析などの言語解析手法を実行してユーザの要求を解釈する処理手順は共通する。したがって、両者のうちいずれか一方を他方に統合するように構成してもよい。
Note that the modified
選択部115は、アクション候補群から、アクション断片の属性値を全て含むアクション候補群を選択し、選択したアクション候補群の中から最も尤度の大きい候補を新たな第1位候補として選択するものである。
The
例えば、図5に示すようなアクション候補群が生成され、さらに図9に示すようなアクション断片(以下、アクション断片SEG1という)が生成されたとする。この場合、選択部115は、図5のアクション候補群の中で、属性「日時」がアクション断片SEG1((当日)朝)と一致するアクション候補を探す。図5の例では、選択部115は、CAct3およびCAct4を取得することができる。次に、選択部115は、CAct3およびCAct4のうち、尤度の大きい方を新たに第1位候補として選択する。この例では、CAct3の尤度=0.2>CAct4の尤度=0.1であるため、CAct3が選択される。
For example, it is assumed that an action candidate group as shown in FIG. 5 is generated and an action fragment (hereinafter referred to as action fragment SEG1) as shown in FIG. 9 is generated. In this case, the
更新部116は、選択部115により選択されたアクション候補を元に応答フレーズリストを更新するものである。具体的には、更新部116は、まず、選択部115が新たに選択したアクション候補(以下、新候補という)と、選択前の第1位のアクション候補(以下、旧候補という)との間で、すべてのアクション属性値を比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性を抽出する。
The
図10は、旧候補の一例を示す説明図である。また、図11は、新候補の一例を示す説明図である。図10および図11の例では、アクション属性「日時」および「番組名」が相違しているため、更新部116は、これらのアクション属性を抽出する。
FIG. 10 is an explanatory diagram illustrating an example of an old candidate. FIG. 11 is an explanatory diagram showing an example of a new candidate. In the example of FIGS. 10 and 11, the action attributes “date and time” and “program name” are different, and the
次に、更新部116は、旧候補から生成した応答フレーズリストのうち、抽出したアクション属性に対応する応答フレーズを、新たな属性値で更新する。図11の例では、更新部116は、属性値1101((当日)朝)および属性値1102(英語講座)を新たな属性値として取得する。そして、更新部116は、生成済みの応答フレーズリストの対応する応答フレーズの内容を新たな属性値で変更する。
Next, the
図12は、更新された後の応答フレーズリストの一例を示す説明図である。図12は、図7の応答フレーズリストを、図11に示すようなアクション候補の属性を用いて更新した後の応答フレーズリストを表している。 FIG. 12 is an explanatory diagram showing an example of the response phrase list after being updated. FIG. 12 shows the response phrase list after the response phrase list of FIG. 7 is updated using the action candidate attributes as shown in FIG.
なお、上述のように、候補生成部112は、事前にすべての認識結果の候補に対応するアクション候補を生成している。このため、アクションを修正する場合は、選択部115が、ユーザの修正発話に応じて、生成済みのアクション候補から、より適切なアクション候補を選択するだけでよい。すなわち、応答文に対するユーザの修正発話に応じて、応答文(応答フレーズリスト)だけでなくアクション候補を同時に修正することが可能となる。
As described above, the
出力部102は、応答文生成部113によって生成された応答文、または更新部116によって更新された応答文を音声信号に変換した合成音声を生成し、合成音声をスピーカ132に出力するものである。
The
具体的には、出力部102は、まず、応答文を構成する各文字列を音声信号に変換する音声合成処理を行う。出力部102による音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。そして、出力部102は、生成した音声信号をDA変換してスピーカ132に出力する。
Specifically, the
また、出力部102は、応答文が更新された場合、更新後の応答文をいずれの部分から出力するかを特定する。具体的には、出力部102は、更新前の応答文で出力されていない応答フレーズを特定し、特定した応答フレーズから更新後の応答文の合成音声を出力する。
Further, when the response sentence is updated, the
録画再生部103は、決定されたアクション、すなわち、尤度が最大のアクション候補を実行するものである。例えば、録画再生部103は、図5のCAct3が最尤のアクション候補として選択された場合、CAct3の各アクション属性に従い、指定された日時に、指定されたチャンネルの指定された番組名の番組を録画するアクションを実行する。
The recording /
なお、録画再生部103などのような実際のアクションを実行する構成部を外部装置に備えるように構成してもよい。この場合は、決定したアクションに関する情報を音声対話装置から外部装置に出力し、外部装置はこの情報を参照してアクションを実行するように構成する。
Note that a configuration unit that executes an actual action, such as the recording /
次に、このように構成された本実施の形態にかかるビデオ録画再生装置100による音声対話処理について図13を用いて説明する。図13は、本実施の形態における音声対話処理の全体の流れを示すフローチャートである。
Next, a voice interaction process performed by the video recording /
まず、受付部101は、マイク131から入力音声I0が入力されたか否かを判断する(ステップS1301)。入力音声I0が入力されていない場合は(ステップS1301:NO)、入力されるまで処理を繰り返す。
First, the
入力音声I0が入力された場合(ステップS1301:YES)、認識部111は、入力音声I0を音声認識し、認識候補群を生成する(ステップS1302)。次に、候補生成部112が、認識候補群の各候補について、対応するアクション候補を求め、アクション候補群CAct{CAct1〜CActM}(Mはアクション候補の個数)を生成する(ステップS1303)。
When the input voice I0 is input (step S1301: YES), the
次に、応答文生成部113が、尤度が最大のアクション候補ACTを決定する(ステップS1304)。次に、応答文生成部113は、アクション候補ACTに対応する応答フレーズリストP{P1〜PN}(Nはフレーズ数)を生成する(ステップS1305)。具体的には、応答文生成部113は、図6に示すようなテンプレートを参照し、テンプレートの変数部に、アクション候補ACTの対応するアクション属性の属性値をそれぞれ当てはめることにより、応答フレーズリストPを生成する。
Next, the response
次に、出力部102が、生成された応答フレーズリストPから順次応答フレーズPi(i=1〜N)を取得し、音声合成した合成音声を出力する(ステップS1306)。なお、iは応答フレーズの出力順を表すカウンタ値である。
Next, the
次に、受付部101は、マイク131から入力音声Iiが入力されたか否かを判断する(ステップS1307)。なお、入力音声Iiは、i番目の応答フレーズPiの出力中に入力された音声であることを意味するが、応答フレーズPiの修正内容を表す音声であるとは限らない。すなわち、応答フレーズPiの前に出力された応答フレーズP1〜Pi−1のいずれかの修正内容を表す場合もある。また、未出力の応答フレーズPi+1〜PNをユーザが推測して発話した場合であれば、入力音声Iiが応答フレーズPi+1〜PNの修正内容を表す場合もある。
Next, the
入力音声Iiが入力された場合は(ステップS1307:YES)、入力音声Iiの内容にしたがって最尤のアクション候補および対応する応答文を更新する候補更新処理が実行される(ステップS1308)。候補更新処理の詳細については後述する。 When the input voice Ii is input (step S1307: YES), candidate update processing for updating the most likely action candidate and the corresponding response sentence is executed according to the contents of the input voice Ii (step S1308). Details of the candidate update process will be described later.
候補更新処理の後、またはステップS1307で入力音声Iiが入力されていない場合(ステップS1307:NO)、出力部102は、すべての応答フレーズを処理したか否かを判断する(ステップS1309)。
After the candidate update process or when the input voice Ii is not input in step S1307 (step S1307: NO), the
すべての応答フレーズを処理していない場合は(ステップS1309:NO)、出力部102は、次の応答フレーズに対して出力処理を繰り返す(ステップS1306)。なお、後述するように、候補更新処理でアクション候補が変更された場合は、変更後のアクション候補に対応して応答文(応答フレーズリスト)が更新されるため、出力部102は、更新後の応答フレーズリストから、次の応答フレーズを取得して出力する。
If all response phrases have not been processed (step S1309: NO), the
すべての応答フレーズを処理した場合は(ステップS1309:YES)、録画再生部103が、最尤のアクション候補ACTに対応するアクションを実行する(ステップS1310)。
When all the response phrases have been processed (step S1309: YES), the recording /
このようにして、ユーザの要求に対する応答であるアクションの内容を確認するための応答文を生成し、応答文の出力中に修正のための音声が入力された場合は、この音声にしたがってアクションおよび応答文を同時に変更することができる。これにより、音声によって容易に誤り箇所を修正可能としつつ、ユーザとの対話を円滑に進めることができる。 In this way, a response sentence for confirming the content of the action that is a response to the user's request is generated, and when a sound for correction is input during the output of the response sentence, the action and Response sentences can be changed at the same time. Thereby, the dialog with the user can be smoothly advanced while the error part can be easily corrected by voice.
次に、ステップS1308の候補更新処理の詳細について図14を用いて説明する。図14は、本実施の形態における候補更新処理の全体の流れを示すフローチャートである。 Next, details of the candidate update process in step S1308 will be described with reference to FIG. FIG. 14 is a flowchart showing the overall flow of candidate update processing in the present embodiment.
まず、認識部111は、入力音声Iiを音声認識し、認識結果を出力する(ステップS1401)。次に、修正語句生成部114は、認識結果を解析して少なくとも1つのアクション属性の属性値を含むアクション断片群SEG{SEG1〜SEGK}(Kはアクション断片の個数)を生成する(ステップS1402)。
First, the
次に、選択部115は、アクション断片群SEGが存在するか否かを判断し(ステップS1403)、存在する場合は(ステップS1403:YES)、アクション断片群SEGの要素と同じアクション属性に対応する属性値が、すべての要素について一致するアクション候補を選択する。そして、選択したアクション候補のうち、尤度が最大のアクション候補CActkを選択する(ステップS1404)。
Next, the
次に、選択部115は、アクション候補CActkが存在するか否かを判断する(ステップS1405)。アクション候補CActkが存在する場合は(ステップS1405:YES)、更新部116が、アクション候補CActk(新候補)と、現在の最尤のアクション候補ACT(旧候補)とを比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性(以下、不一致属性という)を含む不一致属性群Att{Att1〜AttL}(Lは不一致属性の個数)を生成する(ステップS1406)。
Next, the
次に、選択部115は、不一致属性群Attが存在するか否かを判断し(ステップS1407)、存在する場合は(ステップS1407:YES)、アクション候補CActkを最尤のアクション候補ACTとして設定する(ステップS1408)。
Next, the
次に、更新部116は、応答フレーズリストPのうち、不一致属性群Attに含まれるアクション属性に対応する応答フレーズを、不一致属性群Attの属性値で置換する(ステップS1409)。
Next, the
続いて、更新後の応答フレーズリストPを、いずれの応答フレーズから出力するかを特定するため、出力部102が以下の処理を実行する(ステップS1410〜ステップS1412)。
Subsequently, the
まず、出力部102は、置換した属性値のうち、最も文頭に近い属性値の文頭からの位置jを取得する(ステップS1410)。次に、出力部102は、取得した属性値の位置jが、更新前の応答フレーズリストPで出力済みの応答フレーズの位置iより前か否かを判断する(ステップS1411)。
First, the
通常は、出力済みの応答フレーズに対する修正内容が発話され、対応する属性値が置換されるため、jはiより小さくなる。しかし、上述のようにユーザが応答フレーズを推測して未出力の応答フレーズに対する修正内容が発話された場合などには、jがiより小さくならない場合がある。 Normally, correction contents for the output response phrase are spoken and the corresponding attribute value is replaced, so j is smaller than i. However, j may not be smaller than i, for example, when the user guesses a response phrase as described above and correction contents for an unoutput response phrase are spoken.
位置jが位置iより前の場合は(ステップS1411:YES)、出力部102は、置換した属性値の位置jを、次の出力位置に設定する(ステップS1412)。すなわち、出力部102は、jをiに代入する。
When the position j is before the position i (step S1411: YES), the
ステップS1403でアクション断片群SEGが存在しないと判断された場合(ステップS1403:NO、ステップS1405でアクション候補CActkが存在しないと判断された場合(ステップS1405:NO)、ステップS1407で不一致属性群Attが存在しないと判断された場合(ステップS1407:NO)、または、ステップS1411で位置jが位置iより前でないと判断された場合は(ステップS1411:NO)、候補更新処理を終了する。 When it is determined in step S1403 that the action fragment group SEG does not exist (step S1403: NO, in step S1405, it is determined that the action candidate CActk does not exist (step S1405: NO), the mismatch attribute group Att is determined in step S1407. If it is determined that it does not exist (step S1407: NO), or if it is determined in step S1411 that the position j is not before the position i (step S1411: NO), the candidate update process is terminated.
次に、本実施の形態のかかるビデオ録画再生装置100による音声対話処理の具体例について説明する。
Next, a specific example of voice dialogue processing by the video recording /
まず、ユーザが、当日の朝、「MHK」というチャンネルの、「英語講座」という名称の番組の録画予約をセットする目的で、「MHKで朝、英語講座を録ってね」を意味する日本語の入力音声I0(えむえっちけーであさえいごこうざをとってね)を入力する(ステップS1301)。続いて、認識部111が、入力音声I0を音声認識し、図3に示すような認識候補群を生成する(ステップS1302)。さらに、候補生成部112が、この認識候補群から図5に示すアクション候補群CActを生成する(ステップS1303)。
First, in the morning of the day, in the morning of the day, “MHK” in the channel called “English lecture” is set for the purpose of setting a recording reservation for a program in Japan. The word input voice I0 (Emu-Ecchi-Ke, take a look at the word) is input (step S1301). Subsequently, the
なお、上述のように、図3の例では、ユーザの要求に適ったアクション候補は第3位候補であることに注意されたい。 Note that, as described above, in the example of FIG. 3, the action candidate that meets the user's request is the third candidate.
アクション候補群CAct中、最も尤度が大きい候補は、尤度0.4のCAct1であるため、CAct1をACTに設定する(ステップS1304)。次に、応答文生成部113が、図6に示すようなテンプレートT({チャンネル}で/{日時}放送される/{番組名}を/{操作}しますね?)の変数部に対応するアクション属性のそれぞれに、CAct1の対応するアクション属性の属性値を挿入し、応答フレーズリストPを生成する(ステップS1305)。図7は、このときに生成される応答フレーズリストPを表している。
In the action candidate group CAct, the candidate having the highest likelihood is CAct1 having a likelihood of 0.4, and therefore CAct1 is set to ACT (step S1304). Next, the response
次に、出力部102が、カウンタi(=1)に対応する応答フレーズP1(MHKで)を音声合成して出力する(ステップS1306)。ここでは、応答フレーズP1の出力処理中には、ユーザから入力音声I1が入力されなかったと仮定する(ステップS1307:NO)。続いて、出力部102が、次のカウンタi(=2)に対応する応答フレーズP2(明後日放送される)を音声合成して出力する(ステップS1306)。
Next, the
ここで、応答フレーズP2の音声出力中、ユーザが最初の入力音声I0の日時の指定((今日の)朝)が、誤って解釈されていることに気づいたと仮定する。そして、ユーザが、録画する日時を朝に修正するために、「朝だよ」を意味する日本語の入力音声I2(あさだよ)を入力したと仮定する(ステップS1307:YES)。 Here, it is assumed that during the voice output of the response phrase P2, the user notices that the designation of the date and time (the morning of (today)) of the first input voice I0 is misinterpreted. Then, it is assumed that the user has input a Japanese input voice I2 (Asadayo) meaning “It is morning” in order to correct the recording date and time in the morning (step S1307: YES).
この場合は、入力音声I2を元に最尤のアクション候補ACTおよび応答フレーズリストPを更新する候補更新処理が実行される(ステップS1308)。 In this case, candidate update processing for updating the most likely action candidate ACT and the response phrase list P based on the input speech I2 is executed (step S1308).
候補更新処理では、まず、認識部111が、入力音声I2を音声認識し、図8に示すような認識候補群を生成する(ステップS1401)。さらに、修正語句生成部114が、認識候補群に対応するアクション断片群SEGを生成する(ステップS1402)。ここでは、アクション候補の属性「日時」の情報のみが抽出されるため、アクション断片群SEG{SEG1}が得られる。
In the candidate update process, first, the
続いて、選択部115が、アクション断片群SEGの要素(ここではSEG1のみ)の属性「日時」の値が「(当日)朝」であるアクション候補群をアクション候補群CActから選択する。この例では、選択部115は、図5のCAct3およびCAct4を選択する。そして、選択部115は、これら候補のうち、最も尤度の大きいCAct3(尤度0.3)を最尤候補CActkとする(ステップS1404)。
Subsequently, the
最尤候補CActkが見つかったため(ステップS1405:YES)、更新部116は、CAct3とACT(=CAct1)の各属性値を比較し、不一致属性群Attを生成する(ステップS1406)。この例では、図11に示すように、属性値1101に対応するアクション属性「日時」と、属性値1102に対応するアクション属性「番組名」とが不一致属性群Attに含まれる。
Since the maximum likelihood candidate CActk is found (step S1405: YES), the updating
そこで、更新部116は、応答フレーズリストP({MHK}で/{明後日}放送される/{囲碁講座}を/{録画}しますね?})の対応する属性値({明後日}および{囲碁講座})を、CAct3の属性値(「朝」および「英語講座」)で置き換える(ステップS1409)。図12は、このようにして更新された応答フレーズリストPを表している。
Therefore, the updating
ここまでの処理によって、応答文に対応してユーザが発話した入力音声をフィードバックして、アクションおよびアクションに対応する応答フレーズも修正することができている。 Through the processing so far, the input speech uttered by the user in response to the response sentence is fed back, and the action and the response phrase corresponding to the action can also be corrected.
しかし、応答フレーズを修正した場合に、途中まで出力した応答文(応答フレーズリスト)を再度、最初から出力するか、修正箇所だけ出力するか、といった出力の仕方によってユーザの利便性が大きく異なる。 However, when the response phrase is corrected, the user's convenience varies greatly depending on whether the response sentence (response phrase list) output halfway is output again from the beginning or only the corrected portion is output.
そこで、本実施の形態では、上述のように、応答文のうち既に出力済みの部分は可能な限り再出力をさけつつ、変更箇所については必ず出力するように構成している。すなわち、更新した応答フレーズのうち、最も文頭に近い応答フレーズPj(最も添え字jが小さい応答フレーズ)が既に出力済みであれば、出力部102は、応答フレーズPjから出力を再開する。また、応答フレーズPjが未出力であれば、出力部102は、現在の出力位置を表すカウンタiが示す応答フレーズPiから続けて出力する。
Therefore, in the present embodiment, as described above, a part that has already been output in the response sentence is configured to be output as much as possible while avoiding re-output as much as possible. That is, if the response phrase Pj closest to the beginning of the sentence among the updated response phrases (the response phrase with the smallest subscript j) has already been output, the
上述の例では、最も文頭に近い更新された応答フレーズはP2({朝}放送される)である。すなわち、更新された応答フレーズの添え字うち最も小さい添え字jは2であり、現在のカウンタi=2と一致するため、カウンタiは更新しない(ステップS1411:NO)。 In the above example, the updated response phrase closest to the beginning of the sentence is P2 (broadcast {morning}). That is, the smallest subscript j among the subscripts of the updated response phrase is 2, which matches the current counter i = 2, so the counter i is not updated (step S1411: NO).
この後、出力部102は、更新後の応答フレーズP2({朝}放送される)の合成音声を出力する(ステップS1306)。ここで、ユーザが合成音声を聞くことにより入力音声I2が正しく解釈されたことを確認し、修正のための発話を行わなかったと仮定する。
Thereafter, the
以降、同様に、応答フレーズP3({英語講座}を)、および応答フレーズP4({録画}しますね?)が順次出力される。その間、ユーザからの応答発話が検出されなかったとすると、応答文の出力後、録画再生部103によって、確定されたアクションが実行される(ステップS1310)。その後、ユーザからの入力受付状態にもどる(ステップS1301)。
Thereafter, similarly, the response phrase P3 ({English course}) and the response phrase P4 ({record}?) Are sequentially output. If a response utterance from the user is not detected during that time, the confirmed action is executed by the recording /
このように、本実施の形態にかかる音声対話装置では、ユーザの要求発話に応じた応答フレーズを順次出力し、ユーザからの修正のための応答があった場合は、アクション候補と応答フレーズリストを同時に修正することができる。また、修正箇所から応答フレーズの発話を続行するため、更新前で出力済みの部分は出力を省略することができる。これにより、余分な手順を踏んで対話を阻害することなく、容易に修正可能な音声対話装置を実現することができる。 Thus, in the voice interaction apparatus according to the present embodiment, response phrases corresponding to the user's requested utterance are sequentially output, and when there is a response for correction from the user, action candidates and response phrase lists are displayed. It can be corrected at the same time. Moreover, since the utterance of the response phrase is continued from the corrected part, the output of the part that has been output before the update can be omitted. As a result, it is possible to realize a voice dialogue device that can be easily corrected without obstructing the dialogue by taking extra steps.
また、応答文の音声を聞いたユーザが、まだ出力されていない部分についての誤りを推測して言い直した場合であっても、修正箇所を特定し、適切な候補を選択しなおすことができる。これにより、ユーザの利便性を向上させ、対話をより円滑に進めることが可能となる。 Even if the user who has heard the voice of the response sentence guesses the error about the part that has not been output yet and rephrases it, the correction part can be identified and an appropriate candidate can be selected again. . As a result, the convenience of the user can be improved and the conversation can proceed more smoothly.
(変形例)
上記実施の形態では、図6に示したような固定のテンプレートにしたがって応答フレーズを生成し、生成した応答フレーズを順次出力していた。
(Modification)
In the above embodiment, response phrases are generated according to a fixed template as shown in FIG. 6, and the generated response phrases are sequentially output.
しかし、文の先頭に近い応答フレーズが誤っているような場合、誤った応答フレーズが出力された時点までに出力される情報が少ないため、その情報のみから、応答フレーズが誤っているか否かを適切に判断できない場合が生じうる。 However, if the response phrase near the beginning of the sentence is incorrect, there is little information that is output up to the point in time when the incorrect response phrase is output. There may be cases where it cannot be judged properly.
例えば、図7の応答フレーズリストの最初の応答フレーズP1({MHK}で)のチャンネル名である「MHK」が「LHK」の誤りであったとする。しかし、応答フレーズP1が出力された時点で、その断片的な情報のみから、その応答フレーズがチャンネル名に相当する箇所に対する応答フレーズであると、ユーザが瞬時に判別できるとは限らない。 For example, it is assumed that “MHK”, which is the channel name of the first response phrase P1 (with {MHK}) in the response phrase list of FIG. 7, is an error of “LHK”. However, when the response phrase P1 is output, it is not always possible for the user to instantaneously determine that the response phrase is a response phrase corresponding to the channel name from only the fragmentary information.
そこで、本変形例では、より解釈の曖昧性の少ない応答フレーズを先に出力することにより、このような問題を軽減する。ただし、単純に曖昧性の少ない順に応答フレーズを並べ替えただけでは、言語的な制約によって、不自然な意味の応答文や、文法的に不適格な応答文が生成されるおそれがある。 Therefore, in this modification, such a problem is reduced by outputting a response phrase with less ambiguity of interpretation first. However, if response phrases are simply rearranged in the order of less ambiguity, a response sentence with an unnatural meaning or a grammatically inappropriate response sentence may be generated due to linguistic restrictions.
例えば、図7に対応する応答文を「明後日放送される/MHKで/囲碁講座を/録画しますね?」のように並べ替えた場合、「放送される」が「MHK」に係り、意味的に誤った応答文となる。 For example, when the response sentence corresponding to FIG. 7 is rearranged as “Broadcast tomorrow / MHK / Go course / Record?”, “Broadcast” is related to “MHK”, meaning Will result in an incorrect response.
そこで、並べ替えのための制約規則を構築し、その規則にしたがって応答フレーズリストを生成する。例えば、並べ替え可能なパターンを網羅した複数のテンプレートを予め用意し、最適なテンプレートを選択して応答文を生成するように構成する。具体的には、応答文生成部113が、このようなテンプレートから、曖昧性に応じて最適なテンプレートを選択して最尤のアクション候補の属性値を当てはめて応答文を生成する。
Therefore, a restriction rule for rearrangement is constructed, and a response phrase list is generated according to the rule. For example, a plurality of templates covering patterns that can be rearranged are prepared in advance, and an optimum template is selected to generate a response sentence. Specifically, the response
図15は、本変形例で利用するテンプレートの一例を示す説明図である。図15では、応答フレーズの出力順が異なる4つのテンプレートの例が示されている。 FIG. 15 is an explanatory diagram showing an example of a template used in this modification. FIG. 15 shows an example of four templates with different response phrase output orders.
例えば、図5のアクション候補群が生成され、最尤のアクション候補CAct1の応答文を生成する場合、まず、応答文生成部113は、アクション候補のアクション属性それぞれの曖昧性を判断する。図5の例では、アクション属性「操作」および「チャンネル」は、ただ1通りの属性値を有するため、曖昧性は低いと判断される。アクション属性「日時」および「番組名」は、それぞれ2通りの属性値を有するため曖昧性が高いと判断される。
For example, when the action candidate group of FIG. 5 is generated and a response sentence of the maximum likelihood action candidate CAct1 is generated, first, the response
そこで、応答文生成部113は、アクション属性「操作」および「チャンネル」が先に出現するテンプレートを優先して選択する。図15の例では、応答文生成部113は、テンプレートT2({操作}しますね?/{チャンネル}で/{日時}放送される/{番組名}を/)を選択する。そして、この場合、応答文生成部113は、応答フレーズリストとして、「{録画}しますね?/{MHK}で/{明後日}放送される/{囲碁番組}を/」を生成する。
Therefore, the response
このように、事前に定められたテンプレートにしたがい応答文を生成しているため、文法的に誤った応答文が生成されることはない。また、曖昧性の少ない応答フレーズから順に出力するため、誤って認識された応答フレーズが出力されるまでに、多くの情報(応答フレーズ)が出力される可能性が高くなる。これにより、情報量が少ないことにより応答フレーズの適否を適切に判断できなくなるという上述の問題を解消することが可能となる。 In this way, since the response sentence is generated according to a predetermined template, a grammatically incorrect response sentence is not generated. Further, since the response phrases are output in order from the less ambiguous response phrases, there is a high possibility that a lot of information (response phrases) will be output before the erroneously recognized response phrases are output. As a result, it is possible to solve the above-described problem that the suitability of the response phrase cannot be properly determined due to the small amount of information.
次に、本実施の形態にかかる音声対話装置のハードウェア構成について図16を用いて説明する。図16は、本実施の形態にかかる音声対話装置のハードウェア構成を示す説明図である。 Next, the hardware configuration of the voice interaction apparatus according to the present embodiment will be described with reference to FIG. FIG. 16 is an explanatory diagram showing a hardware configuration of the voice interaction apparatus according to the present embodiment.
本実施の形態にかかる音声対話装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
The voice interactive apparatus according to the present embodiment includes a communication I / O that communicates with a control device such as a CPU (Central Processing Unit) 51 and a storage device such as a ROM (Read Only Memory) 52 and a
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、ROM52等に予め組み込まれて提供される。
The voice interaction program executed by the voice interaction apparatus according to the present embodiment is provided by being incorporated in advance in the
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。 The voice dialogue program executed by the voice dialogue apparatus according to the present embodiment is a file in an installable format or an executable format, and is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD-R. (Compact Disk Recordable), DVD (Digital Versatile Disk) or the like may be provided by being recorded on a computer-readable recording medium.
さらに、本実施の形態にかかる音声対話装置で実行される音声対話プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声対話装置で実行される音声対話プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Furthermore, the voice dialogue program executed by the voice dialogue apparatus according to the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. . Further, the voice dialogue program executed by the voice dialogue apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、上述した各部(受付部、対話処理部、出力部、録画再生部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声対話プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
The voice dialogue program executed by the voice dialogue apparatus according to the present embodiment has a module configuration including the above-described units (accepting unit, dialogue processing unit, output unit, recording / playback unit), and as actual hardware. When the
以上のように、本発明にかかる装置および方法は、音声で入力された要求に応じて動作するビデオ録画再生装置、カーナビゲーションシステム、ゲーム機器などに適している。 As described above, the apparatus and method according to the present invention are suitable for a video recording / playback apparatus, a car navigation system, a game machine, and the like that operate in response to a request input by voice.
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 ビデオ録画再生装置
101 受付部
102 出力部
103 録画再生部
110 対話処理部
111 認識部
112 候補生成部
113 応答文生成部
114 修正語句生成部
115 選択部
116 更新部
120 記憶部
131 マイク
132 スピーカ
201〜205 ノード
1101、1102 属性値
51 CPU
52 ROM
53 RAM
54 Communication I / F
61
Claims (6)
第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、
前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、
第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、
前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、
複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、
選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、
前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力すること、
を特徴とする音声対話装置。 A recognition unit that recognizes input speech and generates a plurality of recognition result candidates;
A plurality of first recognition result candidates for the first speech are analyzed, and a response candidate corresponding to each of the plurality of first recognition result candidates and a likelihood representing a probability of a response candidate for the first recognition result candidate are expressed. A candidate generator for generating degrees;
The first candidate of the first recognition result including a phrase representing the candidate of the response to the first candidate of the selected first recognition result is selected from the candidate of the response to the first candidate of the first recognition result having the maximum likelihood. A response sentence generator for generating a response sentence for the candidate;
An output unit that outputs a synthesized speech obtained by converting a response sentence to the first candidate of the first recognition result into a speech signal;
When a second voice is input during the output of the synthesized voice, a second recognition result candidate for the second voice generated by the candidate generation unit is analyzed, and a response to the first candidate of the first recognition result A corrected phrase generation unit that generates a corrected phrase by correcting a phrase included in the sentence;
A response candidate for another candidate of the first recognition result including the same phrase as the corrected word is obtained from response candidates for the plurality of first recognition result candidates, and a response of another candidate of the first recognition result is obtained. A selection unit for selecting a candidate for a response to another candidate of the first recognition result having the maximum likelihood among the candidates;
An update unit that updates the response sentence with a candidate word of a response to another candidate of the selected first recognition result,
When the response sentence is updated, the output unit outputs the synthesized voice of the response sentence after the update instead of the synthesized voice of the response sentence before the update,
A voice interaction device characterized by the above.
を特徴とする請求項1に記載の音声対話装置。 The output unit, when the response sentence is updated, outputs the synthesized speech of the updated response sentence from a phrase corresponding to a phrase that has not been output in the response sentence before update,
The voice interactive apparatus according to claim 1.
を特徴とする請求項2に記載の音声対話装置。 The output unit is updated when a phrase that has been output in the response sentence before the update is included at the end of the sentence from the phrase that is closest to the beginning of the updated phrase among the phrases included in the response sentence. Outputting the synthesized speech of the response sentence updated from the phrase closest to the beginning of the phrase,
The voice interactive apparatus according to claim 2.
を特徴とする請求項2に記載の音声対話装置。 The output unit is output when the phrase that has been output in the response sentence before the update is included in the response sentence before update from the phrase that is closest to the beginning of the updated phrase. Outputting the synthesized speech of the response sentence updated from the phrase included at the end of the sentence next to the phrase of
The voice interactive apparatus according to claim 2.
前記応答文生成部は、前記応答の候補を表す語句を、前記第2尤度が小さい順に文頭から含む前記応答文を生成すること、
を特徴とする請求項1に記載の音声対話装置。 The candidate generation unit further generates a second likelihood that represents a probability for each word that represents the response candidate,
The response sentence generation unit generates the response sentence including words representing the response candidates from the beginning of the sentence in order of increasing second likelihood;
The voice interactive apparatus according to claim 1.
候補生成部によって、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成ステップと、
応答文生成部によって、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成ステップと、
出力部によって、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する第1出力ステップと、
修正語句生成部によって、前記合成音声の出力中に第2音声が入力された場合、前記候補生成ステップで生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成ステップと、
選択部によって、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択ステップと、
更新部によって、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新ステップと、を備え、
出力部によって、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力する第2出力ステップと、
を備えたことを特徴とする音声対話方法。 A recognition step of recognizing input speech by the recognition unit and generating a plurality of recognition result candidates;
The candidate generation unit analyzes a plurality of first recognition result candidates for the first speech, and selects response candidates corresponding to the plurality of first recognition result candidates, and response candidates for the first recognition result candidates. A candidate generating step for generating a likelihood representing the likelihood;
A response sentence generator selects a candidate for a response to the first candidate of the first recognition result with the maximum likelihood, and includes a phrase that represents a candidate for a response to the selected first candidate of the first recognition result. A response sentence generation step for generating a response sentence for the first candidate of one recognition result;
A first output step of outputting a synthesized speech obtained by converting a response sentence to the first candidate of the first recognition result into a speech signal by the output unit;
When a second speech is input during the output of the synthesized speech by the correction word generation unit, the second recognition result candidate for the second speech generated in the candidate generation step is analyzed, and the first recognition result A corrected phrase generation step of generating a corrected phrase by correcting the phrase included in the response sentence to the first candidate of
The selection unit acquires a response candidate for another candidate of the first recognition result including the same phrase as the corrected phrase from the response candidates for the plurality of first recognition result candidates, A selection step of selecting a candidate for a response to another candidate of the first recognition result having the maximum likelihood among candidates for a response to the candidate;
An update step of updating the response sentence with a word of a candidate for a response to another candidate of the selected first recognition result by the update unit,
A second output step of outputting the synthesized speech of the response sentence after the update instead of the synthesized speech of the response sentence before the update when the response sentence is updated by the output unit;
A voice dialogue method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007213828A JP4987623B2 (en) | 2007-08-20 | 2007-08-20 | Apparatus and method for interacting with user by voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007213828A JP4987623B2 (en) | 2007-08-20 | 2007-08-20 | Apparatus and method for interacting with user by voice |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009047920A true JP2009047920A (en) | 2009-03-05 |
JP4987623B2 JP4987623B2 (en) | 2012-07-25 |
Family
ID=40500197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007213828A Active JP4987623B2 (en) | 2007-08-20 | 2007-08-20 | Apparatus and method for interacting with user by voice |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4987623B2 (en) |
Cited By (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224153A (en) * | 2009-03-23 | 2010-10-07 | Toyota Central R&D Labs Inc | Speech interaction device and program |
KR20120137434A (en) * | 2010-01-18 | 2012-12-20 | 애플 인크. | Intelligent automated assistant |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
WO2019035373A1 (en) * | 2017-08-17 | 2019-02-21 | ソニー株式会社 | Information processing device, information processing method, and program |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6395532A (en) * | 1986-10-13 | 1988-04-26 | Nippon Telegr & Teleph Corp <Ntt> | Control method for voice guidance output |
JPH01237597A (en) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | Voice recognizing and correcting device |
JPH02126300A (en) * | 1988-11-04 | 1990-05-15 | Nippon Telegr & Teleph Corp <Ntt> | Speech correction system |
JP2000029492A (en) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | Speech interpretation apparatus, speech interpretation method, and speech recognition apparatus |
JP2003208196A (en) * | 2002-01-11 | 2003-07-25 | Matsushita Electric Ind Co Ltd | Speech interaction method and apparatus |
JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
JP2006039120A (en) * | 2004-07-26 | 2006-02-09 | Sony Corp | Interactive device and interactive method, program and recording medium |
JP2007093789A (en) * | 2005-09-27 | 2007-04-12 | Toshiba Corp | Speech recognition apparatus, speech recognition method, and speech recognition program |
-
2007
- 2007-08-20 JP JP2007213828A patent/JP4987623B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6395532A (en) * | 1986-10-13 | 1988-04-26 | Nippon Telegr & Teleph Corp <Ntt> | Control method for voice guidance output |
JPH01237597A (en) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | Voice recognizing and correcting device |
JPH02126300A (en) * | 1988-11-04 | 1990-05-15 | Nippon Telegr & Teleph Corp <Ntt> | Speech correction system |
JP2000029492A (en) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | Speech interpretation apparatus, speech interpretation method, and speech recognition apparatus |
JP2003208196A (en) * | 2002-01-11 | 2003-07-25 | Matsushita Electric Ind Co Ltd | Speech interaction method and apparatus |
JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
JP2006039120A (en) * | 2004-07-26 | 2006-02-09 | Sony Corp | Interactive device and interactive method, program and recording medium |
JP2007093789A (en) * | 2005-09-27 | 2007-04-12 | Toshiba Corp | Speech recognition apparatus, speech recognition method, and speech recognition program |
Cited By (233)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
JP2010224153A (en) * | 2009-03-23 | 2010-10-07 | Toyota Central R&D Labs Inc | Speech interaction device and program |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
KR101588080B1 (en) * | 2010-01-18 | 2016-01-25 | 애플 인크. | Paraphrasing of user requests and results by automated digital assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
KR20120137434A (en) * | 2010-01-18 | 2012-12-20 | 애플 인크. | Intelligent automated assistant |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JPWO2019035373A1 (en) * | 2017-08-17 | 2020-10-08 | ソニー株式会社 | Information processing equipment, information processing methods, and programs |
WO2019035373A1 (en) * | 2017-08-17 | 2019-02-21 | ソニー株式会社 | Information processing device, information processing method, and program |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
Also Published As
Publication number | Publication date |
---|---|
JP4987623B2 (en) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4987623B2 (en) | Apparatus and method for interacting with user by voice | |
JP4542974B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US20200226327A1 (en) | System and method for direct speech translation system | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP4734155B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US6446041B1 (en) | Method and system for providing audio playback of a multi-source document | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
US10522133B2 (en) | Methods and apparatus for correcting recognition errors | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
JP4481972B2 (en) | Speech translation device, speech translation method, and speech translation program | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
CN110740275B (en) | Nonlinear editing system | |
JP2007264471A (en) | Voice recognition device and method therefor | |
JP5787780B2 (en) | Transcription support system and transcription support method | |
JP2003518266A (en) | Speech reproduction for text editing of speech recognition system | |
CN110798733A (en) | Subtitle generating method and device, computer storage medium and electronic equipment | |
WO2022003424A1 (en) | Phrase alternatives representation for automatic speech recognition and methods of use | |
JP2008243080A (en) | Device, method, and program for translating voice | |
JP7326931B2 (en) | Program, information processing device, and information processing method | |
JP5079718B2 (en) | Foreign language learning support system and program | |
US20230386475A1 (en) | Systems and methods of text to audio conversion | |
JP3958908B2 (en) | Transcription text automatic generation device, speech recognition device, and recording medium | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
JP2000047683A (en) | Segmentation support device and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120425 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4987623 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |