JP2009047920A - Device and method for interacting with user by speech - Google Patents

Device and method for interacting with user by speech Download PDF

Info

Publication number
JP2009047920A
JP2009047920A JP2007213828A JP2007213828A JP2009047920A JP 2009047920 A JP2009047920 A JP 2009047920A JP 2007213828 A JP2007213828 A JP 2007213828A JP 2007213828 A JP2007213828 A JP 2007213828A JP 2009047920 A JP2009047920 A JP 2009047920A
Authority
JP
Japan
Prior art keywords
candidate
response
phrase
recognition result
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007213828A
Other languages
Japanese (ja)
Other versions
JP4987623B2 (en
Inventor
Kentaro Kohata
建太郎 降幡
Tetsuro Chino
哲朗 知野
Satoshi Kamaya
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007213828A priority Critical patent/JP4987623B2/en
Publication of JP2009047920A publication Critical patent/JP2009047920A/en
Application granted granted Critical
Publication of JP4987623B2 publication Critical patent/JP4987623B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech interaction device capable of easily correcting an error part without interrupting interaction. <P>SOLUTION: The speech interaction device comprises: a candidate generation section 112 which recognizes speech, and which generates a candidate of response and a likelihood for showing probability of the candidate of response; a response sentence generation section 113 for generating a response sentence including a phrase for expressing a content that the candidate of the most likely response is selected; an output section 102 for outputting synthesis speech of response sentence; a correction phrase generation section 114 for generating at least one correction phrase corresponding to the phrase included in the response sentence by analyzing the recognition result for the speech a user utters during an output of synthesis speech; a selection section 115 which obtains the candidate of the response including the phrase of the same meaning content with the generated correction phrase from the generated candidate of the response, and which selects the candidate of the most likely response in the obtained response candidates; and an update section 116 for updating the response sentence with the phrase expressing the content of the candidate of the selected response. The output section 102 outputs synthesis speech of the response sentence after updating. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明は、入力した音声に応じた動作を実行することによりユーザと対話する装置および方法に関するものである。   The present invention relates to an apparatus and a method for interacting with a user by executing an operation according to an input voice.

近年、音声認識、音声合成および対話理解といった要素技術の研究が進み、それらを組み合わせることによって、複雑なボタン操作やコマンド入力をせずとも、自然言語音声の発話によって機械を操作できるような音声対話インターフェースが実用化されつつある。   In recent years, research on elemental technologies such as speech recognition, speech synthesis, and dialogue understanding has progressed, and by combining these, speech dialogue that can operate machines by uttering natural language speech without complicated button operations and command inputs Interfaces are being put into practical use.

また、デジタル家電やカーナビゲーションシステムの性能の向上に伴って、このような従来型のユーザ・インタフェースよりも高い処理性能が必要な音声対話インターフェースの実装も可能になりつつある。   In addition, with the improvement in performance of digital home appliances and car navigation systems, it is becoming possible to implement a voice interaction interface that requires higher processing performance than the conventional user interface.

しかし、上記のような各要素技術にはまだ多くの技術的課題が残されており、システムに対するユーザの入力音声を常に正しく解釈し、ユーザの要求を満たす動作の実行または応答の出力を可能とするほど精度の高いシステムの実現はきわめて困難である。   However, many technical problems still remain in each of the above elemental technologies, and it is possible to always interpret the user's input voice to the system correctly and execute an operation that satisfies the user's request or output a response. Therefore, it is very difficult to realize a highly accurate system.

例えば、音声からユーザの要求意図を解釈するためには、最初に音声認識処理によって、音声波形から言語情報を抽出する必要がある。ところが、この音声認識処理でさえ、常に正しい結果が得られるわけではない。例えば、雑音環境下では、認識精度が著しく低下するという課題が存在する。   For example, in order to interpret a user's request intention from speech, it is necessary to first extract language information from the speech waveform by speech recognition processing. However, even with this speech recognition processing, a correct result is not always obtained. For example, in a noisy environment, there is a problem that recognition accuracy is significantly reduced.

また、認識した言語情報(テキスト)から、形態素情報、構文情報を抽出し、さらに発話意図を解析する処理を行う必要があるが、いずれの過程でも誤りが生じる可能性が存在する。特に、発話意図を抽出するような対話理解には、文脈などを考慮した非常に高度な言語処理が必要である。このため、ユーザからの自由発話を入力できる音声対話処理システムが、ユーザの発話を常に正しく解釈し、曖昧性の発生を避けることは非常に困難である。   Further, it is necessary to extract morpheme information and syntax information from the recognized linguistic information (text) and to further analyze the speech intention, but there is a possibility that an error occurs in any process. In particular, in order to understand dialogues such as extracting utterance intentions, very advanced language processing in consideration of context and the like is required. For this reason, it is very difficult for a speech dialogue processing system that can input a user's free utterance to always correctly interpret the user's utterance and avoid the occurrence of ambiguity.

そこで、各処理段階における要素技術の改良とともに、ヒューマン・インターフェース(HI)を用いて、ユーザがシステムの解釈の曖昧性・誤りを訂正できるようにするという対策が採られている。   Therefore, along with improvements in elemental technology at each processing stage, measures are taken to enable the user to correct ambiguities and errors in the interpretation of the system using a human interface (HI).

ところが、ユーザに対するシステムの解釈結果のフィードバックの仕方によっては、手順が複雑になる場合や、ユーザ入力−システムの解釈結果応答−ユーザの訂正入力−システムの解釈訂正−システム動作実行という一連の訂正処理の時間が増加する場合があり、ユーザにストレスを与える可能性がある。   However, depending on the method of feedback of the system interpretation result to the user, the procedure may be complicated, or a series of correction processes of user input-system interpretation result response-user correction input-system interpretation correction-system operation execution Time may increase, which may stress the user.

例えば、ユーザの発話に対する複数の解釈候補が存在する場合に、各解釈候補をユーザに音声でフィードバックし、ユーザに正しい解釈候補を選択させる方法を考える。この方法では、解釈候補をテキストによって一覧表示することができないため、それぞれの解釈候補に対応する読み上げ音声を順番に出力する必要がある。このため、出力に時間がかかる上、ユーザがその音声を逐一聞いて確認するための処理負担も増大する。   For example, when there are a plurality of interpretation candidates for the user's utterance, consider a method in which each interpretation candidate is fed back to the user by voice and the user selects the correct interpretation candidate. In this method, since interpretation candidates cannot be displayed as a list by text, it is necessary to output read-out speech corresponding to each interpretation candidate in order. For this reason, it takes time to output, and the processing load for the user to listen to and confirm the sound one by one increases.

これを避けるための方法としては、例えば、システムが第1位の解釈候補のみを出力し、ユーザからの訂正入力を受け付けるという方式が考えられる。しかし、単純に応答出力−訂正入力−確認応答出力という手順で訂正する方式では、訂正処理が煩雑になるという問題がある。   As a method for avoiding this, for example, a system in which the system outputs only the first interpretation candidate and accepts a correction input from the user can be considered. However, there is a problem that the correction process becomes complicated in the method of correcting simply by the procedure of response output-correction input-confirmation response output.

また、音声でフィードバックするのではなく、テキストで一覧表示してフィードバックするテキスト表示型インターフェースも考えられる。しかし、表示部が小さい場合は、スクロール等の操作が必要になるため、上記と同様に訂正処理が煩雑になるという問題が生じうる。   In addition, a text display interface is also conceivable in which a list is displayed as text instead of being fed back by voice. However, when the display unit is small, an operation such as scrolling is required, and thus there may be a problem that the correction process becomes complicated as described above.

このように、音声対話型HIでは、人(ユーザ)と機械間の対話を円滑に進められるような工夫が求められる。   As described above, in the voice interactive HI, a device is required so that the conversation between the person (user) and the machine can be smoothly advanced.

例えば、特許文献1では、ユーザからの発話を音声認識する認識処理の過程で、認識誤りが生じたフレーズを自動的に検出し、検出部分のみを原言語話者にテキストまたは音声によって提示して訂正させることによって、円滑な訂正が可能な対話インターフェースを実現する技術が提案されている。この方法では、発話者に提示されるのは誤りフレーズのみであるため、文全体の確認や再入力が不要となり、訂正に要する時間を短くすることができる。   For example, in Patent Document 1, a phrase in which a recognition error has occurred is automatically detected in the process of recognizing a speech from a user, and only the detected portion is presented to a source language speaker by text or speech. There has been proposed a technique for realizing an interactive interface that can be corrected smoothly by making corrections. In this method, since only the erroneous phrase is presented to the speaker, it is not necessary to confirm or re-enter the entire sentence, and the time required for correction can be shortened.

特開2000−29492号公報JP 2000-29492 A

しかしながら、特許文献1の方法では、音声認識で誤認識が生じうるのと同様に、音声認識誤り箇所の特定にも誤りが生じうるため、誤認識箇所を正しく訂正できない場合があるという問題があった。また、特定された誤りフレーズ以外のフレーズを訂正することができないという問題があった。   However, the method disclosed in Patent Document 1 has a problem in that, in the same way that erroneous recognition may occur in speech recognition, an error may also occur in the identification of a speech recognition error location. It was. There is also a problem that phrases other than the specified erroneous phrase cannot be corrected.

このような問題を解消し、円滑な対話を実現するためには、誤り箇所のみでなく解釈結果全体を音声により確認し、音声により訂正可能とすることが望ましい。しかしこの場合も、解釈結果全体の音声をすべて出力してから訂正発話を受け付けるという一般的な確認・訂正方法では、対話の進行が妨げられるという問題が生じうる。   In order to solve such a problem and realize a smooth dialogue, it is desirable to check not only the error location but also the entire interpretation result by voice and correct it by voice. However, even in this case, the general confirmation / correction method in which the corrected speech is accepted after the entire speech of the interpretation result is output may cause a problem that the progress of the dialogue is hindered.

本発明は、上記に鑑みてなされたものであって、対話を阻害することなく誤り箇所を容易に訂正することができる装置および方法を提供することを目的とする。   The present invention has been made in view of the above, and it is an object of the present invention to provide an apparatus and a method that can easily correct an error location without hindering dialogue.

上述した課題を解決し、目的を達成するために、本発明は、入力した音声を認識し、認識結果の候補を複数生成する認識部と、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力すること、を特徴とする。   In order to solve the above-described problems and achieve the object, the present invention recognizes an input speech and generates a plurality of recognition result candidates, and a plurality of first recognition result candidates for the first speech. A candidate generation unit that analyzes and generates a response candidate corresponding to each of the plurality of first recognition result candidates and a likelihood that represents a likelihood of a response candidate for the first recognition result candidate; and the likelihood A response to the first candidate of the first recognition result including a phrase representing a candidate of a response to the first candidate of the first recognition result is selected. A response sentence generation unit that generates a sentence; an output unit that outputs a synthesized voice obtained by converting a response sentence to the first candidate of the first recognition result into a voice signal; and a second voice inputted during the output of the synthesized voice The candidate generated by the candidate generator Analyzing a candidate of the second recognition result for the speech and generating a corrected phrase that corrects the phrase included in the response sentence to the first candidate of the first recognition result; and a plurality of first recognition results A candidate for a response to another candidate of the first recognition result including the same phrase as the modified word is obtained from a candidate for the response to the candidate, and the likelihood among the candidates for the response to another candidate of the first recognition result is A selection unit that selects a response candidate for another candidate of the maximum first recognition result; and an update unit that updates the response sentence with a word of a response candidate for another candidate of the selected first recognition result. The output unit outputs the synthesized speech of the updated response sentence instead of the synthesized speech of the response sentence before the update when the response sentence is updated.

また、本発明は、上記装置を実行することができる方法である。   The present invention is also a method capable of executing the above apparatus.

本発明によれば、対話を阻害することなく誤り箇所を容易に訂正することができるという効果を奏する。   According to the present invention, there is an effect that an error part can be easily corrected without obstructing the dialogue.

以下に添付図面を参照して、この発明にかかる装置および方法の最良な実施の形態を詳細に説明する。   Exemplary embodiments of an apparatus and a method according to the present invention will be described below in detail with reference to the accompanying drawings.

本実施の形態にかかる音声対話装置は、ユーザの入力音声を解釈し、解釈結果に対応する応答文を音声出力するとともに、応答文の出力中に入力された応答文を修正するための修正音声を利用して解釈結果と応答文を同時に更新し、更新後の応答文を出力するものである。   The voice interactive apparatus according to the present embodiment interprets a user's input voice, outputs a response sentence corresponding to the interpretation result as a voice, and corrects a corrected voice for correcting the response sentence input during the output of the response sentence Is used to simultaneously update the interpretation result and response text, and output the updated response text.

なお、以下では、ハードディクレコーダーやマルチメディアパソコンなどの、録画した放送番組等を録画再生可能なビデオ録画再生装置として音声対話装置を実現した例について説明する。なお、適用可能な装置はビデオ録画再生装置に限られず、ユーザの入力音声に対応する応答を出力するものであればあらゆる装置に適用できる。   In the following, an example will be described in which a voice interactive apparatus is realized as a video recording / reproducing apparatus capable of recording / reproducing recorded broadcast programs, such as a hard disk recorder and a multimedia personal computer. The applicable apparatus is not limited to the video recording / reproducing apparatus, and can be applied to any apparatus that outputs a response corresponding to the user's input voice.

図1は、本実施の形態にかかるビデオ録画再生装置100の構成を示すブロック図である。図1に示すように、ビデオ録画再生装置100は、主はハードウェア構成として、マイク131と、スピーカ132と、記憶部120と、を備えている。また、ビデオ録画再生装置100は、主はソフトウェア構成として、受付部101と、対話処理部110と、出力部102と、録画再生部103とを備えている。   FIG. 1 is a block diagram showing a configuration of a video recording / playback apparatus 100 according to the present embodiment. As shown in FIG. 1, the video recording / reproducing apparatus 100 mainly includes a microphone 131, a speaker 132, and a storage unit 120 as a hardware configuration. The video recording / playback apparatus 100 mainly includes a reception unit 101, a dialogue processing unit 110, an output unit 102, and a recording / playback unit 103 as software configurations.

マイク131は、ユーザの発話した音声を入力するものである。また、スピーカ132は、応答を合成した合成音声などのデジタル形式の音声信号をアナログ形式の音声信号に変換(DA変換)して出力するものである。   The microphone 131 is used to input voice spoken by the user. In addition, the speaker 132 converts a digital audio signal such as a synthesized voice obtained by synthesizing the response into an analog audio signal (DA conversion) and outputs the analog audio signal.

記憶部120は、対話処理部110で生成されるアクション候補群、アクション断片、および応答フレーズリストなどの各種データ(詳細は後述)を記録するものである。記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。   The storage unit 120 records various data (details will be described later) such as action candidate groups, action fragments, and response phrase lists generated by the dialogue processing unit 110. The storage unit 120 can be configured by any generally used storage medium such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM (Random Access Memory).

受付部101は、マイク131から入力された音声のアナログ信号に対してサンプリングを行い、PCM(パルスデジタルコードモジュレーション)形式などのデジタル信号に変換して出力する処理を行うものである。受付部101の処理では、従来から用いられているA/D変換技術などを適用することができる。   The accepting unit 101 performs sampling on the analog signal of the audio input from the microphone 131, converts it into a digital signal such as a PCM (pulse digital code modulation) format, and outputs it. Conventionally used A / D conversion technology or the like can be applied to the processing of the receiving unit 101.

対話処理部110は、ユーザから入力された音声に対応する応答および応答の内容を表す応答文を生成して出力することにより、ユーザとの対話処理を実行するものである。具体的には、対話処理部110は、まず、デジタル信号を音声認識してユーザの要求を解釈する。次に、対話処理部110は、その解釈結果に応じた応答の候補を生成する。さらに、対話処理部110は、最尤の候補に対応する応答文を生成する。   The dialogue processing unit 110 executes dialogue processing with the user by generating and outputting a response corresponding to the voice input from the user and a response sentence representing the content of the response. Specifically, the dialogue processing unit 110 first interprets a user request by voice recognition of a digital signal. Next, the dialogue processing unit 110 generates response candidates according to the interpretation result. Furthermore, the dialogue processing unit 110 generates a response sentence corresponding to the most likely candidate.

以下に、対話処理部110の詳細な機能と構成について説明する。図1に示すように、対話処理部110は、認識部111と、候補生成部112と、応答文生成部113と、修正語句生成部114と、選択部115と、更新部116と、を備えている。   The detailed function and configuration of the dialogue processing unit 110 will be described below. As shown in FIG. 1, the dialogue processing unit 110 includes a recognition unit 111, a candidate generation unit 112, a response sentence generation unit 113, a corrected phrase generation unit 114, a selection unit 115, and an update unit 116. ing.

認識部111は、受付部101が出力した音声のデジタル信号を音声認識してユーザの要求を表す認識結果の候補を生成するものである。具体的には、認識部111は、入力したデジタル信号を音声認識して、少なくとも1つの認識候補テキストからなる認識候補群を生成する。認識部111による音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。   The recognizing unit 111 performs speech recognition on the audio digital signal output from the receiving unit 101 to generate a recognition result candidate representing a user request. Specifically, the recognition unit 111 performs speech recognition on the input digital signal and generates a recognition candidate group including at least one recognition candidate text. In the speech recognition processing by the recognition unit 111, all commonly used speech recognition methods using LPC analysis, Hidden Markov Model (HMM), dynamic programming, neural network, N-gram language model, and the like are used. Can be applied.

図2は、音声認識結果の一例を示す説明図である。図2は、「MHKで朝、英語講座を録ってね」を意味する日本語に対応する音声I0(「えむえっちけーであさえいごこうざをとってね」)に対する音声認識結果の例を示している。また、図2は、ラティス表現形式により音声認識結果を表した例を示している。   FIG. 2 is an explanatory diagram illustrating an example of a speech recognition result. FIG. 2 shows an example of a speech recognition result for a speech I0 corresponding to Japanese meaning “Make an English course in the morning at MHK” (“Take a good practice even at Emuecchi-ke”). Is shown. FIG. 2 shows an example in which the speech recognition result is expressed in a lattice expression format.

この例では、ノード201(「朝」)とノード202(「あさって」)との間、およびノード203(「英語講座を」)とノード204(「囲碁講座を」)との間に、それぞれ解釈の曖昧性が生じている。   In this example, interpretation is performed between node 201 (“morning”) and node 202 (“morning”), and between node 203 (“English course”) and node 204 (“Go course”). There is an ambiguity.

なお、ラティスのノード間の線に付された数値は、ラティスの生成過程で統計的な共起頻度などから計算されたコストを表す。同図では、例えば、ノード205(「MHKで」)とノード201(「朝」)との間のコストが2であること、ノード202(「あさって」)とノード203(「英語講座を」)との間のコストが4であることが示されている。   The numerical value attached to the line between the nodes of the lattice represents the cost calculated from the statistical co-occurrence frequency in the process of generating the lattice. In the figure, for example, the cost between node 205 ("MHK") and node 201 ("morning") is 2, node 202 ("morning") and node 203 ("English course") It is shown that the cost between

認識部111は、このような認識結果のラティス表現およびコストを元に、確からしさを表す尤度が上位の所定数の候補を含む認識候補群を生成する。図3は、生成された認識候補文の一例を示す説明図である。図3は、図2のスタートノードからエンドノードまでのコストの総和に対応する尤度にしたがって、第1位候補から第4位候補まで順位付けを決定した結果を示している。   The recognizing unit 111 generates a recognition candidate group including a predetermined number of candidates having higher likelihoods representing the likelihood based on the lattice expression and the cost of the recognition result. FIG. 3 is an explanatory diagram showing an example of the generated recognition candidate sentence. FIG. 3 shows the result of determining the ranking from the first candidate to the fourth candidate according to the likelihood corresponding to the total cost from the start node to the end node in FIG.

図3に示すように、認識部111は、認識候補を識別する候補番号と、認識候補の内容を表す候補テキストと、尤度とを対応づけた認識候補を生成する。なお、図3の例では、ユーザの要求に対応する正しい認識結果が第3位候補となっている。このように、音声認識処理では、第1位候補が誤りであっても、他の候補に正しい認識結果が含まれる場合が生じうる。   As illustrated in FIG. 3, the recognition unit 111 generates a recognition candidate in which a candidate number for identifying a recognition candidate, candidate text representing the content of the recognition candidate, and likelihood are associated with each other. In the example of FIG. 3, the correct recognition result corresponding to the user's request is the third candidate. As described above, in the speech recognition processing, even if the first candidate is incorrect, a case where the correct recognition result is included in other candidates may occur.

図1に戻り、候補生成部112は、このような状況を考慮し、最上位の候補に対する応答を生成するだけでなく、認識結果の候補それぞれについて、対応する応答の候補を生成するものである。なお、応答とは、ユーザの入力音声に対応して実行する処理または出力する内容を言う。本実施の形態は、ビデオ録画再生装置の例であるため、例えば、テレビ番組の再生・録画などの処理が応答となる。なお、以下では、応答をアクションといい、応答の候補をアクション候補という。   Returning to FIG. 1, the candidate generation unit 112 generates a corresponding response candidate for each recognition result candidate in addition to generating a response to the highest candidate in consideration of such a situation. . In addition, a response means the process performed according to a user's input audio | voice, or the content to output. Since this embodiment is an example of a video recording / playback apparatus, for example, processing such as playback / recording of a television program is a response. Hereinafter, a response is referred to as an action, and a response candidate is referred to as an action candidate.

図4は、アクションの一例を示す説明図である。図4に示すように、アクションは、「操作」、「日時」、「チャンネル」、および「番組名」の4つの属性(以下、アクション属性という)を含む。なお、図4の表の2行目以降がアクションに相当する。   FIG. 4 is an explanatory diagram illustrating an example of an action. As shown in FIG. 4, the action includes four attributes (hereinafter referred to as action attributes) of “operation”, “date / time”, “channel”, and “program name”. Note that the second and subsequent rows in the table of FIG. 4 correspond to actions.

例えば、2行目は、「朝」(日時)に「MHK」(チャンネル)の「英語講座」(番組名)を録画する(操作)というシステムの動作を表している。また、3行目は、「録画データ1」を再生するという動作を表す。ここで、「再生」は、ユーザ要求があった場合に、即時再生する動作を表すため、「日時」の値は空(「−」で表す)である。また、「チャンネル」の値も空である。   For example, the second line represents the system operation of recording (operation) “English course” (program name) of “MHK” (channel) in “morning” (date and time). The third line represents an operation of reproducing “recording data 1”. Here, since “reproduction” represents an operation of immediate reproduction when a user request is made, the value of “date and time” is empty (represented by “−”). The value of “channel” is also empty.

このように、アクションの表現形式は固定されるものではなく、少なくとも1つの語句によって、実行する処理や出力内容を表せればよい。図4の例では、少なくとも「操作」が設定されていればアクションの内容を特定することができる。   In this way, the action expression format is not fixed, and the process to be executed and the output contents may be represented by at least one word. In the example of FIG. 4, the content of the action can be specified if at least “operation” is set.

候補生成部112は、認識候補群に対して、形態素解析、構文解析、意味解析などの言語解析手法を適用することにより、ユーザの要求に対応するアクション候補群を生成する。このとき、候補生成部112は、音声認識処理で算出された認識候補それぞれの尤度および言語解析処理における確信度などから、各アクション候補についての尤度を算出し、各候補を順位付ける。   The candidate generation unit 112 generates an action candidate group corresponding to the user's request by applying a language analysis method such as morphological analysis, syntax analysis, and semantic analysis to the recognition candidate group. At this time, the candidate generation unit 112 calculates the likelihood for each action candidate from the likelihood of each recognition candidate calculated in the speech recognition process and the certainty in the language analysis process, and ranks each candidate.

図5は、アクション候補群の一例を示す説明図である。図5は、図3に示した各認識候補に対するアクション候補の例を示している。図5に示すように、アクション候補は、識別子である「候補」と、図4と同様の「操作」、「日時」、「チャンネル」、および「番組名」と、「尤度」とを含む。図5の表中、2行目以降の各行がアクションに相当し、第1位候補であるAct1から昇順に並べてある。図5の例では、簡単のため、言語処理が正しく行われているものと仮定し、アクション候補の尤度の値として、図3に示した認識候補の尤度値をそのまま用いている。   FIG. 5 is an explanatory diagram illustrating an example of an action candidate group. FIG. 5 shows an example of action candidates for each recognition candidate shown in FIG. As shown in FIG. 5, the action candidate includes an identifier “candidate”, “operation”, “date / time”, “channel”, “program name”, and “likelihood” similar to those in FIG. 4. . In the table of FIG. 5, the second and subsequent lines correspond to actions, and are arranged in ascending order from Act1 which is the first candidate. In the example of FIG. 5, for the sake of simplicity, it is assumed that the language processing is performed correctly, and the likelihood value of the recognition candidate shown in FIG. 3 is used as it is as the likelihood value of the action candidate.

図1に戻り、応答文生成部113は、尤度が最大のアクション候補が、ユーザの要求を満たすか否かをユーザに確認するための応答文を生成するものである。具体的には、応答文生成部113は、アクション属性によって記述したテンプレートを用いて応答文を生成する。   Returning to FIG. 1, the response sentence generation unit 113 generates a response sentence for confirming to the user whether or not the action candidate having the maximum likelihood satisfies the user's request. Specifically, the response sentence generation unit 113 generates a response sentence using a template described by action attributes.

図6は、テンプレートの一例を示す説明図である。図6に示すように、テンプレートTは、記号「{}」で指定した変数部と、その他の固定部とを含んでいる。変数部は、記号「{}」内にアクション属性を指定することにより、各アクション候補の対応するアクション属性の属性値を当てはめることを表している。また、テンプレートTは、記号「/」によって、それぞれ1つのアクション属性が含まれるようにフレーズ単位で分割される。このように、予めフレーズ単位に分割するのは、後述の出力部102が、応答文をフレーズ単位で順次出力できるようにするためである。なお、以下では、フレーズ単位で区切られた応答文を応答フレーズリストといい、P{P1〜PN}(Nはフレーズ数)と表す。   FIG. 6 is an explanatory diagram illustrating an example of a template. As shown in FIG. 6, the template T includes a variable part designated by the symbol “{}” and other fixed parts. The variable part indicates that the attribute value of the corresponding action attribute of each action candidate is applied by designating the action attribute in the symbol “{}”. Further, the template T is divided by the phrase “/” so as to include one action attribute. The reason why the phrase is divided in advance in this way is to enable the output unit 102 described later to sequentially output response sentences in phrase units. In the following, a response sentence divided in units of phrases is referred to as a response phrase list, and is represented as P {P1 to PN} (N is the number of phrases).

なお、応答文の生成方法はテンプレートを用いた方法に限られるものではなく、文法規則や生成規則を用いて文を生成する方法などの従来から用いられているあらゆる方法を適用できる。   The method for generating a response sentence is not limited to the method using a template, and any conventionally used method such as a method for generating a sentence using a grammar rule or a generation rule can be applied.

図7は、テンプレートを用いて生成された応答フレーズリストの一例を示す説明図である。図7は、図5のアクション候補CAct1を、図6のテンプレートに適用して生成した応答フレーズリストを表している。各応答フレーズP1〜P4は、この順で出力部102から音声出力される。   FIG. 7 is an explanatory diagram illustrating an example of a response phrase list generated using a template. FIG. 7 shows a response phrase list generated by applying the action candidate CAct1 of FIG. 5 to the template of FIG. The response phrases P1 to P4 are output from the output unit 102 in this order.

図1に戻り、修正語句生成部114は、後述する出力部102によって出力された応答文に対してユーザが発話した応答文の修正内容を表す修正語句を生成するものである。具体的には、修正語句生成部114は、修正のために発話された音声に対する認識部111による認識結果の候補を元に、アクションを構成する複数のアクション属性のうち少なくとも1つに対応する属性値を含むアクション断片を修正語句として生成する。   Returning to FIG. 1, the corrected phrase generation unit 114 generates a corrected phrase indicating the correction contents of the response sentence spoken by the user with respect to the response sentence output by the output unit 102 described later. Specifically, the correction phrase generation unit 114 is an attribute corresponding to at least one of a plurality of action attributes constituting the action based on a recognition result candidate by the recognition unit 111 for the speech uttered for correction. Generate an action fragment containing the value as a modified phrase.

ユーザが応答文を修正する場合、応答文のすべてを再度発話するのではなく、修正部分のみを発話する場合がある。すなわち、ユーザの発話に、アクションの全てのアクション属性(操作、日時、チャンネル、番組名)が含まれない場合がある。このような場合でも、修正語句生成部114は、認識結果の候補から、少なくともアクション属性の一部を抽出することができる。そして、このようにして抽出されたアクション属性の属性値は、ユーザが要求する修正内容を表すため、修正語句生成部114は、この属性値を修正語句として生成する。   When the user corrects the response sentence, the user may utter only the corrected portion instead of speaking the entire response sentence again. That is, the user's utterance may not include all action attributes (operation, date / time, channel, program name) of the action. Even in such a case, the corrected phrase generation unit 114 can extract at least a part of the action attributes from the recognition result candidates. Since the attribute value of the action attribute extracted in this way represents the correction content requested by the user, the corrected phrase generation unit 114 generates this attribute value as a corrected phrase.

図8は、認識部111により生成された認識候補文の別の例を示す説明図である。図8は、図7に示す応答フレーズを含む応答文に対して修正を要求するためユーザが発話した音声であり、アクション属性のうち「日時」を修正するために発話した、「朝だよ」を意味する日本語の入力音声I1(「あさだよ」)に対する音声認識結果の例を示している。また、図8は、認識結果の候補として唯一の候補(「朝だよ」)が生成されたことを示している。   FIG. 8 is an explanatory diagram illustrating another example of the recognition candidate sentence generated by the recognition unit 111. FIG. 8 is a voice uttered by the user for requesting correction of the response sentence including the response phrase shown in FIG. 7, and uttered to correct “date and time” among the action attributes, “Morning”. Shows an example of a speech recognition result for Japanese input speech I1 ("Asadayo") meaning FIG. 8 shows that the only candidate (“Morning is”) is generated as a recognition result candidate.

このような認識結果に対し、修正語句生成部114は、アクション属性「日時」の値が「朝」であるという情報をアクション断片として抽出する。図9は、このようにして生成されたアクション断片の一例を示す説明図である。図9は、上述の入力音声I1から生成されたアクション断片の例である。   In response to such a recognition result, the corrected phrase generation unit 114 extracts information that the value of the action attribute “date” is “morning” as an action fragment. FIG. 9 is an explanatory diagram showing an example of the action fragment generated in this way. FIG. 9 is an example of an action fragment generated from the input voice I1 described above.

なお、修正語句生成部114と候補生成部112とは、アクション属性の一部のみを含むアクション断片を生成するか、すべてを含むアクション候補を生成するかが異なるのみである。すなわち、認識結果に対して、形態素解析、構文解析、意味解析などの言語解析手法を実行してユーザの要求を解釈する処理手順は共通する。したがって、両者のうちいずれか一方を他方に統合するように構成してもよい。   Note that the modified phrase generation unit 114 and the candidate generation unit 112 differ only in whether an action fragment including only part of the action attribute or an action candidate including all of the action attributes is generated. That is, the processing procedure for interpreting the user's request by executing language analysis techniques such as morphological analysis, syntax analysis, and semantic analysis is common to the recognition result. Therefore, you may comprise so that either one may be integrated with the other.

選択部115は、アクション候補群から、アクション断片の属性値を全て含むアクション候補群を選択し、選択したアクション候補群の中から最も尤度の大きい候補を新たな第1位候補として選択するものである。   The selection unit 115 selects an action candidate group that includes all the action fragment attribute values from the action candidate group, and selects a candidate with the highest likelihood from the selected action candidate group as a new first candidate. It is.

例えば、図5に示すようなアクション候補群が生成され、さらに図9に示すようなアクション断片(以下、アクション断片SEG1という)が生成されたとする。この場合、選択部115は、図5のアクション候補群の中で、属性「日時」がアクション断片SEG1((当日)朝)と一致するアクション候補を探す。図5の例では、選択部115は、CAct3およびCAct4を取得することができる。次に、選択部115は、CAct3およびCAct4のうち、尤度の大きい方を新たに第1位候補として選択する。この例では、CAct3の尤度=0.2>CAct4の尤度=0.1であるため、CAct3が選択される。   For example, it is assumed that an action candidate group as shown in FIG. 5 is generated and an action fragment (hereinafter referred to as action fragment SEG1) as shown in FIG. 9 is generated. In this case, the selection unit 115 searches the action candidate group in FIG. 5 for an action candidate whose attribute “date and time” matches the action fragment SEG1 ((morning) morning). In the example of FIG. 5, the selection unit 115 can acquire CAct3 and CAct4. Next, the selection unit 115 newly selects the one with the highest likelihood of CAct3 and CAct4 as the first candidate. In this example, since the likelihood of CAct3 = 0.2> the likelihood of CAct4 = 0.1, CAct3 is selected.

更新部116は、選択部115により選択されたアクション候補を元に応答フレーズリストを更新するものである。具体的には、更新部116は、まず、選択部115が新たに選択したアクション候補(以下、新候補という)と、選択前の第1位のアクション候補(以下、旧候補という)との間で、すべてのアクション属性値を比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性を抽出する。   The update unit 116 updates the response phrase list based on the action candidates selected by the selection unit 115. Specifically, the update unit 116 first determines between the action candidate newly selected by the selection unit 115 (hereinafter referred to as a new candidate) and the first action candidate before selection (hereinafter referred to as an old candidate). Compare all action attribute values. Then, the update unit 116 extracts a new candidate action attribute corresponding to the mismatched portion.

図10は、旧候補の一例を示す説明図である。また、図11は、新候補の一例を示す説明図である。図10および図11の例では、アクション属性「日時」および「番組名」が相違しているため、更新部116は、これらのアクション属性を抽出する。   FIG. 10 is an explanatory diagram illustrating an example of an old candidate. FIG. 11 is an explanatory diagram showing an example of a new candidate. In the example of FIGS. 10 and 11, the action attributes “date and time” and “program name” are different, and the update unit 116 extracts these action attributes.

次に、更新部116は、旧候補から生成した応答フレーズリストのうち、抽出したアクション属性に対応する応答フレーズを、新たな属性値で更新する。図11の例では、更新部116は、属性値1101((当日)朝)および属性値1102(英語講座)を新たな属性値として取得する。そして、更新部116は、生成済みの応答フレーズリストの対応する応答フレーズの内容を新たな属性値で変更する。   Next, the update unit 116 updates the response phrase corresponding to the extracted action attribute in the response phrase list generated from the old candidate with the new attribute value. In the example of FIG. 11, the update unit 116 acquires the attribute value 1101 ((the day) morning) and the attribute value 1102 (English course) as new attribute values. Then, the update unit 116 changes the content of the corresponding response phrase in the generated response phrase list with a new attribute value.

図12は、更新された後の応答フレーズリストの一例を示す説明図である。図12は、図7の応答フレーズリストを、図11に示すようなアクション候補の属性を用いて更新した後の応答フレーズリストを表している。   FIG. 12 is an explanatory diagram showing an example of the response phrase list after being updated. FIG. 12 shows the response phrase list after the response phrase list of FIG. 7 is updated using the action candidate attributes as shown in FIG.

なお、上述のように、候補生成部112は、事前にすべての認識結果の候補に対応するアクション候補を生成している。このため、アクションを修正する場合は、選択部115が、ユーザの修正発話に応じて、生成済みのアクション候補から、より適切なアクション候補を選択するだけでよい。すなわち、応答文に対するユーザの修正発話に応じて、応答文(応答フレーズリスト)だけでなくアクション候補を同時に修正することが可能となる。   As described above, the candidate generating unit 112 generates action candidates corresponding to all recognition result candidates in advance. For this reason, when the action is corrected, the selection unit 115 only needs to select a more appropriate action candidate from the generated action candidates according to the user's corrected utterance. That is, it is possible to simultaneously correct not only the response sentence (response phrase list) but also the action candidate according to the user's correction utterance for the response sentence.

出力部102は、応答文生成部113によって生成された応答文、または更新部116によって更新された応答文を音声信号に変換した合成音声を生成し、合成音声をスピーカ132に出力するものである。   The output unit 102 generates a synthesized voice obtained by converting the response text generated by the response text generating unit 113 or the response text updated by the update unit 116 into a voice signal, and outputs the synthesized voice to the speaker 132. .

具体的には、出力部102は、まず、応答文を構成する各文字列を音声信号に変換する音声合成処理を行う。出力部102による音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。そして、出力部102は、生成した音声信号をDA変換してスピーカ132に出力する。   Specifically, the output unit 102 first performs speech synthesis processing for converting each character string constituting the response sentence into a speech signal. For the speech synthesis processing by the output unit 102, any generally used method such as speech segment editing speech synthesis, formant speech synthesis, speech corpus-based speech synthesis, or the like can be applied. Then, the output unit 102 performs DA conversion on the generated audio signal and outputs it to the speaker 132.

また、出力部102は、応答文が更新された場合、更新後の応答文をいずれの部分から出力するかを特定する。具体的には、出力部102は、更新前の応答文で出力されていない応答フレーズを特定し、特定した応答フレーズから更新後の応答文の合成音声を出力する。   Further, when the response sentence is updated, the output unit 102 specifies from which part the updated response sentence is output. Specifically, the output unit 102 identifies a response phrase that has not been output in the response sentence before the update, and outputs a synthesized speech of the response sentence after the update from the identified response phrase.

録画再生部103は、決定されたアクション、すなわち、尤度が最大のアクション候補を実行するものである。例えば、録画再生部103は、図5のCAct3が最尤のアクション候補として選択された場合、CAct3の各アクション属性に従い、指定された日時に、指定されたチャンネルの指定された番組名の番組を録画するアクションを実行する。   The recording / playback unit 103 executes the determined action, that is, the action candidate having the maximum likelihood. For example, when CAct3 in FIG. 5 is selected as the most likely action candidate, the recording / playback unit 103, according to each action attribute of CAct3, displays a program with a specified program name of a specified channel at a specified date and time. Perform the action to record.

なお、録画再生部103などのような実際のアクションを実行する構成部を外部装置に備えるように構成してもよい。この場合は、決定したアクションに関する情報を音声対話装置から外部装置に出力し、外部装置はこの情報を参照してアクションを実行するように構成する。   Note that a configuration unit that executes an actual action, such as the recording / playback unit 103, may be provided in the external device. In this case, information regarding the determined action is output from the voice interaction apparatus to the external apparatus, and the external apparatus is configured to execute the action with reference to this information.

次に、このように構成された本実施の形態にかかるビデオ録画再生装置100による音声対話処理について図13を用いて説明する。図13は、本実施の形態における音声対話処理の全体の流れを示すフローチャートである。   Next, a voice interaction process performed by the video recording / playback apparatus 100 according to the present embodiment configured as described above will be described with reference to FIG. FIG. 13 is a flowchart showing the overall flow of the voice interaction process in the present embodiment.

まず、受付部101は、マイク131から入力音声I0が入力されたか否かを判断する(ステップS1301)。入力音声I0が入力されていない場合は(ステップS1301:NO)、入力されるまで処理を繰り返す。   First, the reception unit 101 determines whether or not the input voice I0 is input from the microphone 131 (step S1301). If the input voice I0 has not been input (step S1301: NO), the process is repeated until it is input.

入力音声I0が入力された場合(ステップS1301:YES)、認識部111は、入力音声I0を音声認識し、認識候補群を生成する(ステップS1302)。次に、候補生成部112が、認識候補群の各候補について、対応するアクション候補を求め、アクション候補群CAct{CAct1〜CActM}(Mはアクション候補の個数)を生成する(ステップS1303)。   When the input voice I0 is input (step S1301: YES), the recognition unit 111 recognizes the input voice I0 and generates a recognition candidate group (step S1302). Next, the candidate generation unit 112 obtains a corresponding action candidate for each candidate of the recognition candidate group, and generates an action candidate group CAct {CAct1 to CActM} (M is the number of action candidates) (step S1303).

次に、応答文生成部113が、尤度が最大のアクション候補ACTを決定する(ステップS1304)。次に、応答文生成部113は、アクション候補ACTに対応する応答フレーズリストP{P1〜PN}(Nはフレーズ数)を生成する(ステップS1305)。具体的には、応答文生成部113は、図6に示すようなテンプレートを参照し、テンプレートの変数部に、アクション候補ACTの対応するアクション属性の属性値をそれぞれ当てはめることにより、応答フレーズリストPを生成する。   Next, the response sentence generation unit 113 determines the action candidate ACT having the maximum likelihood (step S1304). Next, the response sentence generation unit 113 generates a response phrase list P {P1 to PN} (N is the number of phrases) corresponding to the action candidate ACT (step S1305). Specifically, the response sentence generation unit 113 refers to the template as shown in FIG. 6 and applies the attribute value of the corresponding action attribute of the action candidate ACT to the variable part of the template, respectively, so that the response phrase list P Is generated.

次に、出力部102が、生成された応答フレーズリストPから順次応答フレーズPi(i=1〜N)を取得し、音声合成した合成音声を出力する(ステップS1306)。なお、iは応答フレーズの出力順を表すカウンタ値である。   Next, the output unit 102 sequentially obtains response phrases Pi (i = 1 to N) from the generated response phrase list P, and outputs synthesized speech obtained by speech synthesis (step S1306). Note that i is a counter value indicating the output order of response phrases.

次に、受付部101は、マイク131から入力音声Iiが入力されたか否かを判断する(ステップS1307)。なお、入力音声Iiは、i番目の応答フレーズPiの出力中に入力された音声であることを意味するが、応答フレーズPiの修正内容を表す音声であるとは限らない。すなわち、応答フレーズPiの前に出力された応答フレーズP1〜Pi−1のいずれかの修正内容を表す場合もある。また、未出力の応答フレーズPi+1〜PNをユーザが推測して発話した場合であれば、入力音声Iiが応答フレーズPi+1〜PNの修正内容を表す場合もある。   Next, the reception unit 101 determines whether or not the input voice Ii is input from the microphone 131 (step S1307). The input voice Ii means that the voice is input during the output of the i-th response phrase Pi, but it is not necessarily a voice that indicates the correction content of the response phrase Pi. That is, the correction contents of any of the response phrases P1 to Pi-1 output before the response phrase Pi may be represented. In addition, if the user guesses unspoken response phrases Pi + 1 to PN and speaks, the input voice Ii may represent the correction contents of the response phrases Pi + 1 to PN.

入力音声Iiが入力された場合は(ステップS1307:YES)、入力音声Iiの内容にしたがって最尤のアクション候補および対応する応答文を更新する候補更新処理が実行される(ステップS1308)。候補更新処理の詳細については後述する。   When the input voice Ii is input (step S1307: YES), candidate update processing for updating the most likely action candidate and the corresponding response sentence is executed according to the contents of the input voice Ii (step S1308). Details of the candidate update process will be described later.

候補更新処理の後、またはステップS1307で入力音声Iiが入力されていない場合(ステップS1307:NO)、出力部102は、すべての応答フレーズを処理したか否かを判断する(ステップS1309)。   After the candidate update process or when the input voice Ii is not input in step S1307 (step S1307: NO), the output unit 102 determines whether all response phrases have been processed (step S1309).

すべての応答フレーズを処理していない場合は(ステップS1309:NO)、出力部102は、次の応答フレーズに対して出力処理を繰り返す(ステップS1306)。なお、後述するように、候補更新処理でアクション候補が変更された場合は、変更後のアクション候補に対応して応答文(応答フレーズリスト)が更新されるため、出力部102は、更新後の応答フレーズリストから、次の応答フレーズを取得して出力する。   If all response phrases have not been processed (step S1309: NO), the output unit 102 repeats output processing for the next response phrase (step S1306). As will be described later, when the action candidate is changed in the candidate update process, the response sentence (response phrase list) is updated corresponding to the action candidate after the change. Obtain the next response phrase from the response phrase list and output it.

すべての応答フレーズを処理した場合は(ステップS1309:YES)、録画再生部103が、最尤のアクション候補ACTに対応するアクションを実行する(ステップS1310)。   When all the response phrases have been processed (step S1309: YES), the recording / playback unit 103 executes an action corresponding to the most likely action candidate ACT (step S1310).

このようにして、ユーザの要求に対する応答であるアクションの内容を確認するための応答文を生成し、応答文の出力中に修正のための音声が入力された場合は、この音声にしたがってアクションおよび応答文を同時に変更することができる。これにより、音声によって容易に誤り箇所を修正可能としつつ、ユーザとの対話を円滑に進めることができる。   In this way, a response sentence for confirming the content of the action that is a response to the user's request is generated, and when a sound for correction is input during the output of the response sentence, the action and Response sentences can be changed at the same time. Thereby, the dialog with the user can be smoothly advanced while the error part can be easily corrected by voice.

次に、ステップS1308の候補更新処理の詳細について図14を用いて説明する。図14は、本実施の形態における候補更新処理の全体の流れを示すフローチャートである。   Next, details of the candidate update process in step S1308 will be described with reference to FIG. FIG. 14 is a flowchart showing the overall flow of candidate update processing in the present embodiment.

まず、認識部111は、入力音声Iiを音声認識し、認識結果を出力する(ステップS1401)。次に、修正語句生成部114は、認識結果を解析して少なくとも1つのアクション属性の属性値を含むアクション断片群SEG{SEG1〜SEGK}(Kはアクション断片の個数)を生成する(ステップS1402)。   First, the recognition unit 111 recognizes the input voice Ii and outputs a recognition result (step S1401). Next, the corrected phrase generation unit 114 analyzes the recognition result and generates an action fragment group SEG {SEG1 to SEGK} (K is the number of action fragments) including an attribute value of at least one action attribute (step S1402). .

次に、選択部115は、アクション断片群SEGが存在するか否かを判断し(ステップS1403)、存在する場合は(ステップS1403:YES)、アクション断片群SEGの要素と同じアクション属性に対応する属性値が、すべての要素について一致するアクション候補を選択する。そして、選択したアクション候補のうち、尤度が最大のアクション候補CActkを選択する(ステップS1404)。   Next, the selection unit 115 determines whether or not the action fragment group SEG exists (step S1403). If it exists (step S1403: YES), it corresponds to the same action attribute as the element of the action fragment group SEG. Select action candidates whose attribute values match for all elements. Then, the action candidate CActk having the maximum likelihood is selected from the selected action candidates (step S1404).

次に、選択部115は、アクション候補CActkが存在するか否かを判断する(ステップS1405)。アクション候補CActkが存在する場合は(ステップS1405:YES)、更新部116が、アクション候補CActk(新候補)と、現在の最尤のアクション候補ACT(旧候補)とを比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性(以下、不一致属性という)を含む不一致属性群Att{Att1〜AttL}(Lは不一致属性の個数)を生成する(ステップS1406)。   Next, the selection unit 115 determines whether or not there is an action candidate CActk (step S1405). When the action candidate CActk exists (step S1405: YES), the update unit 116 compares the action candidate CActk (new candidate) with the current maximum likelihood action candidate ACT (old candidate). Then, the update unit 116 generates a mismatch attribute group Att {Att1 to AttL} (L is the number of mismatch attributes) including a new candidate action attribute (hereinafter referred to as a mismatch attribute) corresponding to the mismatch part (step S1406). .

次に、選択部115は、不一致属性群Attが存在するか否かを判断し(ステップS1407)、存在する場合は(ステップS1407:YES)、アクション候補CActkを最尤のアクション候補ACTとして設定する(ステップS1408)。   Next, the selection unit 115 determines whether or not the mismatch attribute group Att exists (step S1407), and if it exists (step S1407: YES), sets the action candidate CActk as the most likely action candidate ACT. (Step S1408).

次に、更新部116は、応答フレーズリストPのうち、不一致属性群Attに含まれるアクション属性に対応する応答フレーズを、不一致属性群Attの属性値で置換する(ステップS1409)。   Next, the update unit 116 replaces the response phrase corresponding to the action attribute included in the mismatch attribute group Att in the response phrase list P with the attribute value of the mismatch attribute group Att (step S1409).

続いて、更新後の応答フレーズリストPを、いずれの応答フレーズから出力するかを特定するため、出力部102が以下の処理を実行する(ステップS1410〜ステップS1412)。   Subsequently, the output unit 102 executes the following processing to specify from which response phrase the updated response phrase list P is to be output (steps S1410 to S1412).

まず、出力部102は、置換した属性値のうち、最も文頭に近い属性値の文頭からの位置jを取得する(ステップS1410)。次に、出力部102は、取得した属性値の位置jが、更新前の応答フレーズリストPで出力済みの応答フレーズの位置iより前か否かを判断する(ステップS1411)。   First, the output unit 102 acquires the position j from the beginning of the attribute value closest to the beginning of the replaced attribute values (step S1410). Next, the output unit 102 determines whether the position j of the acquired attribute value is before the position i of the response phrase already output in the response phrase list P before update (step S1411).

通常は、出力済みの応答フレーズに対する修正内容が発話され、対応する属性値が置換されるため、jはiより小さくなる。しかし、上述のようにユーザが応答フレーズを推測して未出力の応答フレーズに対する修正内容が発話された場合などには、jがiより小さくならない場合がある。   Normally, correction contents for the output response phrase are spoken and the corresponding attribute value is replaced, so j is smaller than i. However, j may not be smaller than i, for example, when the user guesses a response phrase as described above and correction contents for an unoutput response phrase are spoken.

位置jが位置iより前の場合は(ステップS1411:YES)、出力部102は、置換した属性値の位置jを、次の出力位置に設定する(ステップS1412)。すなわち、出力部102は、jをiに代入する。   When the position j is before the position i (step S1411: YES), the output unit 102 sets the position j of the replaced attribute value as the next output position (step S1412). That is, the output unit 102 substitutes j for i.

ステップS1403でアクション断片群SEGが存在しないと判断された場合(ステップS1403:NO、ステップS1405でアクション候補CActkが存在しないと判断された場合(ステップS1405:NO)、ステップS1407で不一致属性群Attが存在しないと判断された場合(ステップS1407:NO)、または、ステップS1411で位置jが位置iより前でないと判断された場合は(ステップS1411:NO)、候補更新処理を終了する。   When it is determined in step S1403 that the action fragment group SEG does not exist (step S1403: NO, in step S1405, it is determined that the action candidate CActk does not exist (step S1405: NO), the mismatch attribute group Att is determined in step S1407. If it is determined that it does not exist (step S1407: NO), or if it is determined in step S1411 that the position j is not before the position i (step S1411: NO), the candidate update process is terminated.

次に、本実施の形態のかかるビデオ録画再生装置100による音声対話処理の具体例について説明する。   Next, a specific example of voice dialogue processing by the video recording / playback apparatus 100 according to the present embodiment will be described.

まず、ユーザが、当日の朝、「MHK」というチャンネルの、「英語講座」という名称の番組の録画予約をセットする目的で、「MHKで朝、英語講座を録ってね」を意味する日本語の入力音声I0(えむえっちけーであさえいごこうざをとってね)を入力する(ステップS1301)。続いて、認識部111が、入力音声I0を音声認識し、図3に示すような認識候補群を生成する(ステップS1302)。さらに、候補生成部112が、この認識候補群から図5に示すアクション候補群CActを生成する(ステップS1303)。   First, in the morning of the day, in the morning of the day, “MHK” in the channel called “English lecture” is set for the purpose of setting a recording reservation for a program in Japan. The word input voice I0 (Emu-Ecchi-Ke, take a look at the word) is input (step S1301). Subsequently, the recognition unit 111 recognizes the input voice I0 and generates a recognition candidate group as shown in FIG. 3 (step S1302). Further, the candidate generation unit 112 generates an action candidate group CAct shown in FIG. 5 from this recognition candidate group (step S1303).

なお、上述のように、図3の例では、ユーザの要求に適ったアクション候補は第3位候補であることに注意されたい。   Note that, as described above, in the example of FIG. 3, the action candidate that meets the user's request is the third candidate.

アクション候補群CAct中、最も尤度が大きい候補は、尤度0.4のCAct1であるため、CAct1をACTに設定する(ステップS1304)。次に、応答文生成部113が、図6に示すようなテンプレートT({チャンネル}で/{日時}放送される/{番組名}を/{操作}しますね?)の変数部に対応するアクション属性のそれぞれに、CAct1の対応するアクション属性の属性値を挿入し、応答フレーズリストPを生成する(ステップS1305)。図7は、このときに生成される応答フレーズリストPを表している。   In the action candidate group CAct, the candidate having the highest likelihood is CAct1 having a likelihood of 0.4, and therefore CAct1 is set to ACT (step S1304). Next, the response sentence generation unit 113 corresponds to a variable part of a template T as shown in FIG. 6 (/ {date} broadcast on {channel} / {program name}). The attribute value of the action attribute corresponding to CAct1 is inserted into each of the action attributes to generate a response phrase list P (step S1305). FIG. 7 shows a response phrase list P generated at this time.

次に、出力部102が、カウンタi(=1)に対応する応答フレーズP1(MHKで)を音声合成して出力する(ステップS1306)。ここでは、応答フレーズP1の出力処理中には、ユーザから入力音声I1が入力されなかったと仮定する(ステップS1307:NO)。続いて、出力部102が、次のカウンタi(=2)に対応する応答フレーズP2(明後日放送される)を音声合成して出力する(ステップS1306)。   Next, the output unit 102 synthesizes and outputs a response phrase P1 (in MHK) corresponding to the counter i (= 1) (step S1306). Here, it is assumed that the input voice I1 is not input from the user during the output process of the response phrase P1 (step S1307: NO). Subsequently, the output unit 102 synthesizes and outputs a response phrase P2 (broadcasted tomorrow) corresponding to the next counter i (= 2) (step S1306).

ここで、応答フレーズP2の音声出力中、ユーザが最初の入力音声I0の日時の指定((今日の)朝)が、誤って解釈されていることに気づいたと仮定する。そして、ユーザが、録画する日時を朝に修正するために、「朝だよ」を意味する日本語の入力音声I2(あさだよ)を入力したと仮定する(ステップS1307:YES)。   Here, it is assumed that during the voice output of the response phrase P2, the user notices that the designation of the date and time (the morning of (today)) of the first input voice I0 is misinterpreted. Then, it is assumed that the user has input a Japanese input voice I2 (Asadayo) meaning “It is morning” in order to correct the recording date and time in the morning (step S1307: YES).

この場合は、入力音声I2を元に最尤のアクション候補ACTおよび応答フレーズリストPを更新する候補更新処理が実行される(ステップS1308)。   In this case, candidate update processing for updating the most likely action candidate ACT and the response phrase list P based on the input speech I2 is executed (step S1308).

候補更新処理では、まず、認識部111が、入力音声I2を音声認識し、図8に示すような認識候補群を生成する(ステップS1401)。さらに、修正語句生成部114が、認識候補群に対応するアクション断片群SEGを生成する(ステップS1402)。ここでは、アクション候補の属性「日時」の情報のみが抽出されるため、アクション断片群SEG{SEG1}が得られる。   In the candidate update process, first, the recognition unit 111 recognizes the input voice I2 and generates a recognition candidate group as shown in FIG. 8 (step S1401). Further, the corrected phrase generation unit 114 generates an action fragment group SEG corresponding to the recognition candidate group (step S1402). Here, since only the information of the attribute “date and time” of the action candidate is extracted, the action fragment group SEG {SEG1} is obtained.

続いて、選択部115が、アクション断片群SEGの要素(ここではSEG1のみ)の属性「日時」の値が「(当日)朝」であるアクション候補群をアクション候補群CActから選択する。この例では、選択部115は、図5のCAct3およびCAct4を選択する。そして、選択部115は、これら候補のうち、最も尤度の大きいCAct3(尤度0.3)を最尤候補CActkとする(ステップS1404)。   Subsequently, the selection unit 115 selects from the action candidate group CAct an action candidate group whose attribute “date and time” is “(morning) morning” of the element of the action fragment group SEG (here, only SEG1). In this example, the selection unit 115 selects CAct3 and CAct4 in FIG. And the selection part 115 makes CAct3 (likelihood 0.3) with the largest likelihood among these candidates the maximum likelihood candidate CActk (step S1404).

最尤候補CActkが見つかったため(ステップS1405:YES)、更新部116は、CAct3とACT(=CAct1)の各属性値を比較し、不一致属性群Attを生成する(ステップS1406)。この例では、図11に示すように、属性値1101に対応するアクション属性「日時」と、属性値1102に対応するアクション属性「番組名」とが不一致属性群Attに含まれる。   Since the maximum likelihood candidate CActk is found (step S1405: YES), the updating unit 116 compares the attribute values of CAct3 and ACT (= CAct1) to generate a mismatch attribute group Att (step S1406). In this example, as shown in FIG. 11, the action attribute “date” corresponding to the attribute value 1101 and the action attribute “program name” corresponding to the attribute value 1102 are included in the mismatch attribute group Att.

そこで、更新部116は、応答フレーズリストP({MHK}で/{明後日}放送される/{囲碁講座}を/{録画}しますね?})の対応する属性値({明後日}および{囲碁講座})を、CAct3の属性値(「朝」および「英語講座」)で置き換える(ステップS1409)。図12は、このようにして更新された応答フレーズリストPを表している。   Therefore, the updating unit 116 responds to the corresponding attribute values ({the day after tomorrow}) and {the day after tomorrow} with the response phrase list P ({MHK} / {the day after tomorrow} broadcast / {go course}}). (Course}) is replaced with the attribute value of CAct3 (“morning” and “English course”) (step S1409). FIG. 12 shows the response phrase list P updated in this way.

ここまでの処理によって、応答文に対応してユーザが発話した入力音声をフィードバックして、アクションおよびアクションに対応する応答フレーズも修正することができている。   Through the processing so far, the input speech uttered by the user in response to the response sentence is fed back, and the action and the response phrase corresponding to the action can also be corrected.

しかし、応答フレーズを修正した場合に、途中まで出力した応答文(応答フレーズリスト)を再度、最初から出力するか、修正箇所だけ出力するか、といった出力の仕方によってユーザの利便性が大きく異なる。   However, when the response phrase is corrected, the user's convenience varies greatly depending on whether the response sentence (response phrase list) output halfway is output again from the beginning or only the corrected portion is output.

そこで、本実施の形態では、上述のように、応答文のうち既に出力済みの部分は可能な限り再出力をさけつつ、変更箇所については必ず出力するように構成している。すなわち、更新した応答フレーズのうち、最も文頭に近い応答フレーズPj(最も添え字jが小さい応答フレーズ)が既に出力済みであれば、出力部102は、応答フレーズPjから出力を再開する。また、応答フレーズPjが未出力であれば、出力部102は、現在の出力位置を表すカウンタiが示す応答フレーズPiから続けて出力する。   Therefore, in the present embodiment, as described above, a part that has already been output in the response sentence is configured to be output as much as possible while avoiding re-output as much as possible. That is, if the response phrase Pj closest to the beginning of the sentence among the updated response phrases (the response phrase with the smallest subscript j) has already been output, the output unit 102 resumes output from the response phrase Pj. If the response phrase Pj is not output, the output unit 102 continuously outputs the response phrase Pi indicated by the counter i indicating the current output position.

上述の例では、最も文頭に近い更新された応答フレーズはP2({朝}放送される)である。すなわち、更新された応答フレーズの添え字うち最も小さい添え字jは2であり、現在のカウンタi=2と一致するため、カウンタiは更新しない(ステップS1411:NO)。   In the above example, the updated response phrase closest to the beginning of the sentence is P2 (broadcast {morning}). That is, the smallest subscript j among the subscripts of the updated response phrase is 2, which matches the current counter i = 2, so the counter i is not updated (step S1411: NO).

この後、出力部102は、更新後の応答フレーズP2({朝}放送される)の合成音声を出力する(ステップS1306)。ここで、ユーザが合成音声を聞くことにより入力音声I2が正しく解釈されたことを確認し、修正のための発話を行わなかったと仮定する。   Thereafter, the output unit 102 outputs the synthesized speech of the updated response phrase P2 (broadcasted in {morning}) (step S1306). Here, it is assumed that the user confirms that the input speech I2 has been correctly interpreted by listening to the synthesized speech, and has not made an utterance for correction.

以降、同様に、応答フレーズP3({英語講座}を)、および応答フレーズP4({録画}しますね?)が順次出力される。その間、ユーザからの応答発話が検出されなかったとすると、応答文の出力後、録画再生部103によって、確定されたアクションが実行される(ステップS1310)。その後、ユーザからの入力受付状態にもどる(ステップS1301)。   Thereafter, similarly, the response phrase P3 ({English course}) and the response phrase P4 ({record}?) Are sequentially output. If a response utterance from the user is not detected during that time, the confirmed action is executed by the recording / playback unit 103 after the response text is output (step S1310). Thereafter, the process returns to the state of accepting input from the user (step S1301).

このように、本実施の形態にかかる音声対話装置では、ユーザの要求発話に応じた応答フレーズを順次出力し、ユーザからの修正のための応答があった場合は、アクション候補と応答フレーズリストを同時に修正することができる。また、修正箇所から応答フレーズの発話を続行するため、更新前で出力済みの部分は出力を省略することができる。これにより、余分な手順を踏んで対話を阻害することなく、容易に修正可能な音声対話装置を実現することができる。   Thus, in the voice interaction apparatus according to the present embodiment, response phrases corresponding to the user's requested utterance are sequentially output, and when there is a response for correction from the user, action candidates and response phrase lists are displayed. It can be corrected at the same time. Moreover, since the utterance of the response phrase is continued from the corrected part, the output of the part that has been output before the update can be omitted. As a result, it is possible to realize a voice dialogue device that can be easily corrected without obstructing the dialogue by taking extra steps.

また、応答文の音声を聞いたユーザが、まだ出力されていない部分についての誤りを推測して言い直した場合であっても、修正箇所を特定し、適切な候補を選択しなおすことができる。これにより、ユーザの利便性を向上させ、対話をより円滑に進めることが可能となる。   Even if the user who has heard the voice of the response sentence guesses the error about the part that has not been output yet and rephrases it, the correction part can be identified and an appropriate candidate can be selected again. . As a result, the convenience of the user can be improved and the conversation can proceed more smoothly.

(変形例)
上記実施の形態では、図6に示したような固定のテンプレートにしたがって応答フレーズを生成し、生成した応答フレーズを順次出力していた。
(Modification)
In the above embodiment, response phrases are generated according to a fixed template as shown in FIG. 6, and the generated response phrases are sequentially output.

しかし、文の先頭に近い応答フレーズが誤っているような場合、誤った応答フレーズが出力された時点までに出力される情報が少ないため、その情報のみから、応答フレーズが誤っているか否かを適切に判断できない場合が生じうる。   However, if the response phrase near the beginning of the sentence is incorrect, there is little information that is output up to the point in time when the incorrect response phrase is output. There may be cases where it cannot be judged properly.

例えば、図7の応答フレーズリストの最初の応答フレーズP1({MHK}で)のチャンネル名である「MHK」が「LHK」の誤りであったとする。しかし、応答フレーズP1が出力された時点で、その断片的な情報のみから、その応答フレーズがチャンネル名に相当する箇所に対する応答フレーズであると、ユーザが瞬時に判別できるとは限らない。   For example, it is assumed that “MHK”, which is the channel name of the first response phrase P1 (with {MHK}) in the response phrase list of FIG. 7, is an error of “LHK”. However, when the response phrase P1 is output, it is not always possible for the user to instantaneously determine that the response phrase is a response phrase corresponding to the channel name from only the fragmentary information.

そこで、本変形例では、より解釈の曖昧性の少ない応答フレーズを先に出力することにより、このような問題を軽減する。ただし、単純に曖昧性の少ない順に応答フレーズを並べ替えただけでは、言語的な制約によって、不自然な意味の応答文や、文法的に不適格な応答文が生成されるおそれがある。   Therefore, in this modification, such a problem is reduced by outputting a response phrase with less ambiguity of interpretation first. However, if response phrases are simply rearranged in the order of less ambiguity, a response sentence with an unnatural meaning or a grammatically inappropriate response sentence may be generated due to linguistic restrictions.

例えば、図7に対応する応答文を「明後日放送される/MHKで/囲碁講座を/録画しますね?」のように並べ替えた場合、「放送される」が「MHK」に係り、意味的に誤った応答文となる。   For example, when the response sentence corresponding to FIG. 7 is rearranged as “Broadcast tomorrow / MHK / Go course / Record?”, “Broadcast” is related to “MHK”, meaning Will result in an incorrect response.

そこで、並べ替えのための制約規則を構築し、その規則にしたがって応答フレーズリストを生成する。例えば、並べ替え可能なパターンを網羅した複数のテンプレートを予め用意し、最適なテンプレートを選択して応答文を生成するように構成する。具体的には、応答文生成部113が、このようなテンプレートから、曖昧性に応じて最適なテンプレートを選択して最尤のアクション候補の属性値を当てはめて応答文を生成する。   Therefore, a restriction rule for rearrangement is constructed, and a response phrase list is generated according to the rule. For example, a plurality of templates covering patterns that can be rearranged are prepared in advance, and an optimum template is selected to generate a response sentence. Specifically, the response sentence generation unit 113 selects an optimal template from such a template according to ambiguity and applies the attribute value of the most likely action candidate to generate a response sentence.

図15は、本変形例で利用するテンプレートの一例を示す説明図である。図15では、応答フレーズの出力順が異なる4つのテンプレートの例が示されている。   FIG. 15 is an explanatory diagram showing an example of a template used in this modification. FIG. 15 shows an example of four templates with different response phrase output orders.

例えば、図5のアクション候補群が生成され、最尤のアクション候補CAct1の応答文を生成する場合、まず、応答文生成部113は、アクション候補のアクション属性それぞれの曖昧性を判断する。図5の例では、アクション属性「操作」および「チャンネル」は、ただ1通りの属性値を有するため、曖昧性は低いと判断される。アクション属性「日時」および「番組名」は、それぞれ2通りの属性値を有するため曖昧性が高いと判断される。   For example, when the action candidate group of FIG. 5 is generated and a response sentence of the maximum likelihood action candidate CAct1 is generated, first, the response sentence generation unit 113 determines the ambiguity of each action attribute of the action candidate. In the example of FIG. 5, since the action attributes “operation” and “channel” have only one attribute value, it is determined that the ambiguity is low. The action attributes “date and time” and “program name” have two attribute values, respectively, and thus are determined to have high ambiguity.

そこで、応答文生成部113は、アクション属性「操作」および「チャンネル」が先に出現するテンプレートを優先して選択する。図15の例では、応答文生成部113は、テンプレートT2({操作}しますね?/{チャンネル}で/{日時}放送される/{番組名}を/)を選択する。そして、この場合、応答文生成部113は、応答フレーズリストとして、「{録画}しますね?/{MHK}で/{明後日}放送される/{囲碁番組}を/」を生成する。   Therefore, the response sentence generation unit 113 preferentially selects a template in which the action attributes “operation” and “channel” appear first. In the example of FIG. 15, the response sentence generation unit 113 selects the template T2 ({Do you want to operate}? / {Channel} / {Date} broadcast / {Program name} /). In this case, the response sentence generation unit 113 generates “{record}} / {MHK} / {broadcast tomorrow} / {go program} /” as the response phrase list.

このように、事前に定められたテンプレートにしたがい応答文を生成しているため、文法的に誤った応答文が生成されることはない。また、曖昧性の少ない応答フレーズから順に出力するため、誤って認識された応答フレーズが出力されるまでに、多くの情報(応答フレーズ)が出力される可能性が高くなる。これにより、情報量が少ないことにより応答フレーズの適否を適切に判断できなくなるという上述の問題を解消することが可能となる。   In this way, since the response sentence is generated according to a predetermined template, a grammatically incorrect response sentence is not generated. Further, since the response phrases are output in order from the less ambiguous response phrases, there is a high possibility that a lot of information (response phrases) will be output before the erroneously recognized response phrases are output. As a result, it is possible to solve the above-described problem that the suitability of the response phrase cannot be properly determined due to the small amount of information.

次に、本実施の形態にかかる音声対話装置のハードウェア構成について図16を用いて説明する。図16は、本実施の形態にかかる音声対話装置のハードウェア構成を示す説明図である。   Next, the hardware configuration of the voice interaction apparatus according to the present embodiment will be described with reference to FIG. FIG. 16 is an explanatory diagram showing a hardware configuration of the voice interaction apparatus according to the present embodiment.

本実施の形態にかかる音声対話装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。   The voice interactive apparatus according to the present embodiment includes a communication I / O that communicates with a control device such as a CPU (Central Processing Unit) 51 and a storage device such as a ROM (Read Only Memory) 52 and a RAM 53 by connecting to a network. F54 and a bus 61 for connecting each part are provided.

本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、ROM52等に予め組み込まれて提供される。   The voice interaction program executed by the voice interaction apparatus according to the present embodiment is provided by being incorporated in advance in the ROM 52 or the like.

本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。   The voice dialogue program executed by the voice dialogue apparatus according to the present embodiment is a file in an installable format or an executable format, and is a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD-R. (Compact Disk Recordable), DVD (Digital Versatile Disk) or the like may be provided by being recorded on a computer-readable recording medium.

さらに、本実施の形態にかかる音声対話装置で実行される音声対話プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声対話装置で実行される音声対話プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。   Furthermore, the voice dialogue program executed by the voice dialogue apparatus according to the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. . Further, the voice dialogue program executed by the voice dialogue apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.

本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、上述した各部(受付部、対話処理部、出力部、録画再生部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声対話プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。   The voice dialogue program executed by the voice dialogue apparatus according to the present embodiment has a module configuration including the above-described units (accepting unit, dialogue processing unit, output unit, recording / playback unit), and as actual hardware. When the CPU 51 reads out and executes the voice interaction program from the ROM 52, the above-described units are loaded onto the main storage device, and the respective units are generated on the main storage device.

以上のように、本発明にかかる装置および方法は、音声で入力された要求に応じて動作するビデオ録画再生装置、カーナビゲーションシステム、ゲーム機器などに適している。   As described above, the apparatus and method according to the present invention are suitable for a video recording / playback apparatus, a car navigation system, a game machine, and the like that operate in response to a request input by voice.

本実施の形態にかかるビデオ録画再生装置の構成を示すブロック図である。It is a block diagram which shows the structure of the video recording / reproducing apparatus concerning this Embodiment. 音声認識結果の一例を示す説明図である。It is explanatory drawing which shows an example of a speech recognition result. 認識候補文の一例を示す説明図である。It is explanatory drawing which shows an example of a recognition candidate sentence. アクションの一例を示す説明図である。It is explanatory drawing which shows an example of an action. アクション候補群の一例を示す説明図である。It is explanatory drawing which shows an example of an action candidate group. テンプレートの一例を示す説明図である。It is explanatory drawing which shows an example of a template. 応答フレーズリストの一例を示す説明図である。It is explanatory drawing which shows an example of a response phrase list. 認識候補文の別の例を示す説明図である。It is explanatory drawing which shows another example of a recognition candidate sentence. アクション断片の一例を示す説明図である。It is explanatory drawing which shows an example of an action fragment. 旧候補の一例を示す説明図である。It is explanatory drawing which shows an example of an old candidate. 新候補の一例を示す説明図である。It is explanatory drawing which shows an example of a new candidate. 更新された後の応答フレーズリストの一例を示す説明図である。It is explanatory drawing which shows an example of the response phrase list | wrist after being updated. 本実施の形態における音声対話処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the voice dialogue process in this Embodiment. 本実施の形態における候補更新処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the candidate update process in this Embodiment. 変形例で利用するテンプレートの一例を示す説明図である。It is explanatory drawing which shows an example of the template utilized in a modification. 本実施の形態にかかる音声対話装置のハードウェア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of the voice interactive apparatus concerning this Embodiment.

符号の説明Explanation of symbols

51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 ビデオ録画再生装置
101 受付部
102 出力部
103 録画再生部
110 対話処理部
111 認識部
112 候補生成部
113 応答文生成部
114 修正語句生成部
115 選択部
116 更新部
120 記憶部
131 マイク
132 スピーカ
201〜205 ノード
1101、1102 属性値
51 CPU
52 ROM
53 RAM
54 Communication I / F
61 Bus 100 Video Recording / Playback Device 101 Reception Unit 102 Output Unit 103 Recording / Playback Unit 110 Dialogue Processing Unit 111 Recognition Unit 112 Candidate Generation Unit 113 Response Sentence Generation Unit 114 Corrected Phrase Generation Unit 115 Selection Unit 116 Update Unit 120 Storage Unit 131 Microphone 132 Speaker 201-205 Node 1101, 1102 Attribute value

Claims (6)

入力した音声を認識し、認識結果の候補を複数生成する認識部と、
第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、
前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、
第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、
前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、
複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、
選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、
前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力すること、
を特徴とする音声対話装置。
A recognition unit that recognizes input speech and generates a plurality of recognition result candidates;
A plurality of first recognition result candidates for the first speech are analyzed, and a response candidate corresponding to each of the plurality of first recognition result candidates and a likelihood representing a probability of a response candidate for the first recognition result candidate are expressed. A candidate generator for generating degrees;
The first candidate of the first recognition result including a phrase representing the candidate of the response to the first candidate of the selected first recognition result is selected from the candidate of the response to the first candidate of the first recognition result having the maximum likelihood. A response sentence generator for generating a response sentence for the candidate;
An output unit that outputs a synthesized speech obtained by converting a response sentence to the first candidate of the first recognition result into a speech signal;
When a second voice is input during the output of the synthesized voice, a second recognition result candidate for the second voice generated by the candidate generation unit is analyzed, and a response to the first candidate of the first recognition result A corrected phrase generation unit that generates a corrected phrase by correcting a phrase included in the sentence;
A response candidate for another candidate of the first recognition result including the same phrase as the corrected word is obtained from response candidates for the plurality of first recognition result candidates, and a response of another candidate of the first recognition result is obtained. A selection unit for selecting a candidate for a response to another candidate of the first recognition result having the maximum likelihood among the candidates;
An update unit that updates the response sentence with a candidate word of a response to another candidate of the selected first recognition result,
When the response sentence is updated, the output unit outputs the synthesized voice of the response sentence after the update instead of the synthesized voice of the response sentence before the update,
A voice interaction device characterized by the above.
前記出力部は、前記応答文が更新された場合、更新前の前記応答文で出力されていない語句に対応する語句から更新後の前記応答文の合成音声を出力すること、
を特徴とする請求項1に記載の音声対話装置。
The output unit, when the response sentence is updated, outputs the synthesized speech of the updated response sentence from a phrase corresponding to a phrase that has not been output in the response sentence before update,
The voice interactive apparatus according to claim 1.
前記出力部は、前記応答文に含まれる語句のうち、更新前の前記応答文で出力済みの語句が、更新された語句のうち最も文頭に近い語句より文末側に含まれる場合に、更新された語句のうち最も文頭に近い語句から更新後の前記応答文の合成音声を出力すること、
を特徴とする請求項2に記載の音声対話装置。
The output unit is updated when a phrase that has been output in the response sentence before the update is included at the end of the sentence from the phrase that is closest to the beginning of the updated phrase among the phrases included in the response sentence. Outputting the synthesized speech of the response sentence updated from the phrase closest to the beginning of the phrase,
The voice interactive apparatus according to claim 2.
前記出力部は、前記応答文に含まれる語句のうち、更新前の前記応答文で出力済みの語句が、更新された語句のうち最も文頭に近い語句より文頭側に含まれる場合に、出力済みの語句の次に文末側に含まれる語句から更新後の前記応答文の合成音声を出力すること、
を特徴とする請求項2に記載の音声対話装置。
The output unit is output when the phrase that has been output in the response sentence before the update is included in the response sentence before update from the phrase that is closest to the beginning of the updated phrase. Outputting the synthesized speech of the response sentence updated from the phrase included at the end of the sentence next to the phrase of
The voice interactive apparatus according to claim 2.
前記候補生成部は、さらに、前記応答の候補を表す語句ごとの確からしさを表す第2尤度を生成し、
前記応答文生成部は、前記応答の候補を表す語句を、前記第2尤度が小さい順に文頭から含む前記応答文を生成すること、
を特徴とする請求項1に記載の音声対話装置。
The candidate generation unit further generates a second likelihood that represents a probability for each word that represents the response candidate,
The response sentence generation unit generates the response sentence including words representing the response candidates from the beginning of the sentence in order of increasing second likelihood;
The voice interactive apparatus according to claim 1.
認識部によって、入力した音声を認識し、認識結果の候補を複数生成する認識ステップと、
候補生成部によって、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成ステップと、
応答文生成部によって、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成ステップと、
出力部によって、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する第1出力ステップと、
修正語句生成部によって、前記合成音声の出力中に第2音声が入力された場合、前記候補生成ステップで生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成ステップと、
選択部によって、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択ステップと、
更新部によって、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新ステップと、を備え、
出力部によって、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力する第2出力ステップと、
を備えたことを特徴とする音声対話方法。
A recognition step of recognizing input speech by the recognition unit and generating a plurality of recognition result candidates;
The candidate generation unit analyzes a plurality of first recognition result candidates for the first speech, and selects response candidates corresponding to the plurality of first recognition result candidates, and response candidates for the first recognition result candidates. A candidate generating step for generating a likelihood representing the likelihood;
A response sentence generator selects a candidate for a response to the first candidate of the first recognition result with the maximum likelihood, and includes a phrase that represents a candidate for a response to the selected first candidate of the first recognition result. A response sentence generation step for generating a response sentence for the first candidate of one recognition result;
A first output step of outputting a synthesized speech obtained by converting a response sentence to the first candidate of the first recognition result into a speech signal by the output unit;
When a second speech is input during the output of the synthesized speech by the correction word generation unit, the second recognition result candidate for the second speech generated in the candidate generation step is analyzed, and the first recognition result A corrected phrase generation step of generating a corrected phrase by correcting the phrase included in the response sentence to the first candidate of
The selection unit acquires a response candidate for another candidate of the first recognition result including the same phrase as the corrected phrase from the response candidates for the plurality of first recognition result candidates, A selection step of selecting a candidate for a response to another candidate of the first recognition result having the maximum likelihood among candidates for a response to the candidate;
An update step of updating the response sentence with a word of a candidate for a response to another candidate of the selected first recognition result by the update unit,
A second output step of outputting the synthesized speech of the response sentence after the update instead of the synthesized speech of the response sentence before the update when the response sentence is updated by the output unit;
A voice dialogue method characterized by comprising:
JP2007213828A 2007-08-20 2007-08-20 Apparatus and method for interacting with user by voice Active JP4987623B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007213828A JP4987623B2 (en) 2007-08-20 2007-08-20 Apparatus and method for interacting with user by voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007213828A JP4987623B2 (en) 2007-08-20 2007-08-20 Apparatus and method for interacting with user by voice

Publications (2)

Publication Number Publication Date
JP2009047920A true JP2009047920A (en) 2009-03-05
JP4987623B2 JP4987623B2 (en) 2012-07-25

Family

ID=40500197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007213828A Active JP4987623B2 (en) 2007-08-20 2007-08-20 Apparatus and method for interacting with user by voice

Country Status (1)

Country Link
JP (1) JP4987623B2 (en)

Cited By (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
KR20120137434A (en) * 2010-01-18 2012-12-20 애플 인크. Intelligent automated assistant
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
WO2019035373A1 (en) * 2017-08-17 2019-02-21 ソニー株式会社 Information processing device, information processing method, and program
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6395532A (en) * 1986-10-13 1988-04-26 Nippon Telegr & Teleph Corp <Ntt> Control method for voice guidance output
JPH01237597A (en) * 1988-03-17 1989-09-22 Fujitsu Ltd Voice recognizing and correcting device
JPH02126300A (en) * 1988-11-04 1990-05-15 Nippon Telegr & Teleph Corp <Ntt> Speech correction system
JP2000029492A (en) * 1998-07-09 2000-01-28 Hitachi Ltd Speech interpretation apparatus, speech interpretation method, and speech recognition apparatus
JP2003208196A (en) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd Speech interaction method and apparatus
JP2003330488A (en) * 2002-05-10 2003-11-19 Nissan Motor Co Ltd Voice recognition device
JP2006039120A (en) * 2004-07-26 2006-02-09 Sony Corp Interactive device and interactive method, program and recording medium
JP2007093789A (en) * 2005-09-27 2007-04-12 Toshiba Corp Speech recognition apparatus, speech recognition method, and speech recognition program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6395532A (en) * 1986-10-13 1988-04-26 Nippon Telegr & Teleph Corp <Ntt> Control method for voice guidance output
JPH01237597A (en) * 1988-03-17 1989-09-22 Fujitsu Ltd Voice recognizing and correcting device
JPH02126300A (en) * 1988-11-04 1990-05-15 Nippon Telegr & Teleph Corp <Ntt> Speech correction system
JP2000029492A (en) * 1998-07-09 2000-01-28 Hitachi Ltd Speech interpretation apparatus, speech interpretation method, and speech recognition apparatus
JP2003208196A (en) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd Speech interaction method and apparatus
JP2003330488A (en) * 2002-05-10 2003-11-19 Nissan Motor Co Ltd Voice recognition device
JP2006039120A (en) * 2004-07-26 2006-02-09 Sony Corp Interactive device and interactive method, program and recording medium
JP2007093789A (en) * 2005-09-27 2007-04-12 Toshiba Corp Speech recognition apparatus, speech recognition method, and speech recognition program

Cited By (233)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
KR101588080B1 (en) * 2010-01-18 2016-01-25 애플 인크. Paraphrasing of user requests and results by automated digital assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
KR20120137434A (en) * 2010-01-18 2012-12-20 애플 인크. Intelligent automated assistant
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
JPWO2019035373A1 (en) * 2017-08-17 2020-10-08 ソニー株式会社 Information processing equipment, information processing methods, and programs
WO2019035373A1 (en) * 2017-08-17 2019-02-21 ソニー株式会社 Information processing device, information processing method, and program
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems

Also Published As

Publication number Publication date
JP4987623B2 (en) 2012-07-25

Similar Documents

Publication Publication Date Title
JP4987623B2 (en) Apparatus and method for interacting with user by voice
JP4542974B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20200226327A1 (en) System and method for direct speech translation system
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
JP4734155B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US10522133B2 (en) Methods and apparatus for correcting recognition errors
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
JP4481972B2 (en) Speech translation device, speech translation method, and speech translation program
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
CN110740275B (en) Nonlinear editing system
JP2007264471A (en) Voice recognition device and method therefor
JP5787780B2 (en) Transcription support system and transcription support method
JP2003518266A (en) Speech reproduction for text editing of speech recognition system
CN110798733A (en) Subtitle generating method and device, computer storage medium and electronic equipment
WO2022003424A1 (en) Phrase alternatives representation for automatic speech recognition and methods of use
JP2008243080A (en) Device, method, and program for translating voice
JP7326931B2 (en) Program, information processing device, and information processing method
JP5079718B2 (en) Foreign language learning support system and program
US20230386475A1 (en) Systems and methods of text to audio conversion
JP3958908B2 (en) Transcription text automatic generation device, speech recognition device, and recording medium
JP6340839B2 (en) Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program
JP2000047683A (en) Segmentation support device and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120425

R151 Written notification of patent or utility model registration

Ref document number: 4987623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350