JP2001147698A - Method of generating pseudo word for voice recognition and voice recognition device - Google Patents
Method of generating pseudo word for voice recognition and voice recognition deviceInfo
- Publication number
- JP2001147698A JP2001147698A JP33093699A JP33093699A JP2001147698A JP 2001147698 A JP2001147698 A JP 2001147698A JP 33093699 A JP33093699 A JP 33093699A JP 33093699 A JP33093699 A JP 33093699A JP 2001147698 A JP2001147698 A JP 2001147698A
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- pseudo
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識システム
において認識対象語として登録されている単語以外が発
声された際に、その発声を候補外発声として棄却する方
式に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system for rejecting non-candidate utterances when a word other than a word registered as a recognition target word is uttered in a speech recognition system.
【0002】[0002]
【従来の技術】従来、候補外発声を棄却する方式として
は、特開平4-255900にあるように、認識候補単語の類似
度を参照用モデルの類似度で正規化することで、発声環
境や個人の声質の差に影響されず安定した候補外発声の
棄却を行うものがある。2. Description of the Related Art Conventionally, as a method for rejecting non-candidate utterances, as disclosed in Japanese Patent Application Laid-Open No. 4-255900, the similarity of a recognition candidate word is normalized by the similarity of a reference model, and the utterance environment and There are some which reject stable non-candidate utterances without being affected by differences in individual voice quality.
【0003】[0003]
【発明が解決しようとする課題】前記のような参照用モ
デルを用いて類似度を正規化する方式では、認識システ
ムの中心である音声とモデルの照合部において必要な正
規化をする必要があるため、候補外発声棄却機能を持た
ない認識システムに候補外発声棄却機能を追加すること
は困難であった。本発明の目的は、認識システムの利用
者が自由に扱うことの出来る認識候補辞書を利用して、
候補外発声棄却機能を持たない認識システムに容易に候
補外発声棄却機能を提供することにある。In the method of normalizing the similarity using the reference model as described above, it is necessary to perform necessary normalization in a voice-model collation unit which is the center of a recognition system. Therefore, it has been difficult to add the non-candidate utterance rejection function to a recognition system that does not have the non-candidate utterance rejection function. An object of the present invention is to use a recognition candidate dictionary that can be freely used by a user of a recognition system,
An object of the present invention is to easily provide a function for rejecting non-candidate utterances to a recognition system having no function for rejecting non-candidate utterances.
【0004】[0004]
【課題を解決するための手段】上記の目的を達成するた
めに、本発明では、ひとつまたは複数の単語を入力し、
入力された単語と他の単語の類似度を算出し、算出され
た単語の類似度に基づいて、上記入力された単語とは異
なる単語を生成することを特徴とする音声認識用疑似単
語生成方法を提供して辞書単語に類似する単語を自動生
成する。In order to achieve the above-mentioned object, according to the present invention, one or more words are inputted,
A pseudo word generation method for speech recognition, comprising calculating a similarity between an input word and another word, and generating a word different from the input word based on the calculated similarity between the words. To automatically generate words similar to dictionary words.
【0005】また、本発明では、上記の生成された疑似
単語に対して類似する単語との類似度を保持しており、
音声認識時に類似度を参照して候補外発声を棄却する棄
却部を有する音声認識装置とした。Further, in the present invention, the similarity between the generated pseudo word and the similar word is retained.
The speech recognition apparatus has a rejection unit that rejects non-candidate utterances by referring to the similarity during speech recognition.
【0006】この構成により、辞書中の単語と類似する
が辞書に保持されていない疑似単語を作成することがで
き、候補外発声に対しても、精度よく棄却し、音声認識
率を高めることができる。With this configuration, it is possible to create a pseudo word similar to a word in the dictionary but not stored in the dictionary, and it is possible to accurately reject non-candidate utterances and increase the speech recognition rate. it can.
【0007】[0007]
【発明の実施の形態】本発明の実施例について、図面を
参照して説明する。Embodiments of the present invention will be described with reference to the drawings.
【0008】図1は、本発明の一実施例を表す図であ
る。FIG. 1 is a diagram showing an embodiment of the present invention.
【0009】この実施例は、音声認識装置において、指
定されたキーワードが発声された場合は、認識候補とし
てその発声を受理し、指定されたキーワード以外の発声
は棄却する機能を実現するための、疑似単語を含んだ認
識候補辞書を生成するものであり、疑似単語生成ツー
ル、疑似単語生成関数、疑似単語生成API、疑似単語生
成ミドルウェアのような形態をなす。In this embodiment, in a speech recognition apparatus, when a designated keyword is uttered, the utterance is accepted as a recognition candidate, and a speech other than the designated keyword is rejected. It generates recognition candidate dictionaries containing pseudowords, and takes the form of pseudoword generation tools, pseudoword generation functions, pseudoword generation APIs, and pseudoword generation middleware.
【0010】この音声認識用疑似単語生成ツールは、キ
ーワード入力部101と、生成数指定部102と、疑似
単語生成部103及び、類似度計算部104から構成さ
れる。This pseudo-word generation tool for speech recognition includes a keyword input unit 101, a generation number designation unit 102, a pseudo-word generation unit 103, and a similarity calculation unit 104.
【0011】キーワード入力部101は、認識対象とな
る単語901を入力するためのインタフェースである。
生成数指定部102は、生成する疑似単語の数902を
指定するインタフェースである。疑似単語生成部103
は、認識対象となる単語901に対して、同一でない複
数の疑似単語を生成し、認識対象となる単語901と生
成した疑似単語を合わせて、認識候補辞書903として
出力するものである。類似度計算部104は、2つの与
えられた単語の類似度を計算するためのものである。The keyword input unit 101 is an interface for inputting a word 901 to be recognized.
The generation number specification unit 102 is an interface for specifying the number 902 of pseudo words to be generated. Pseudo word generator 103
Is to generate a plurality of non-identical pseudo-words for the word 901 to be recognized, combine the word 901 to be recognized with the generated pseudo-word, and output it as a recognition candidate dictionary 903. The similarity calculator 104 is for calculating the similarity between two given words.
【0012】次に図1の実施例の動作について説明す
る。Next, the operation of the embodiment of FIG. 1 will be described.
【0013】入力される認識対象となる単語901は、
例えばかなの文字列によってひとつもしくは複数がキー
ワード入力部101が提供するインタフェースを用いて
入力される。キーワード入力部101が提供するインタ
フェースは、例えば認識対象となる単語901を列挙し
たファイルの読み込みによる方法や、関数の引数として
認識対象となる単語901のリストを渡す方法を用いる
ことができる。The input word 901 to be recognized is
For example, one or more kana character strings are input using an interface provided by the keyword input unit 101. The interface provided by the keyword input unit 101 can use, for example, a method of reading a file listing the words 901 to be recognized or a method of passing a list of words 901 to be recognized as an argument of a function.
【0014】生成する疑似単語の個数902は、生成数
指定部102が提供するインタフェースを用いて入力さ
れる。生成数指定部102提供するインタフェースは、
例えば関数の引数として生成する疑似単語の個数を渡す
方法を用いることができる。The number 902 of pseudo words to be generated is input using an interface provided by the generation number specifying unit 102. The interface provided by the generation number specification unit 102 is as follows:
For example, a method of passing the number of pseudo words to be generated as an argument of a function can be used.
【0015】疑似単語生成部103では、入力された認
識対象となる単語901に対して、例えば次のアルゴリ
ズムでお互いに同一でない疑似単語を生成する。The pseudo-word generation unit 103 generates pseudo words that are not identical to each other with respect to the input word 901 to be recognized, for example, by the following algorithm.
【0016】1.キーワードに含まれる母音の数をnと
する 2.乱数を用いて母音だけからなり、母音数がn±αと
なる単語を生成する 3.類似度計算部104を用いて、生成した単語とキー
ワード及び既に生成してある単語との類似度をそれぞれ
計算する 4.生成した単語とキーワードの類似度がある基準以下
ならば生成した単語は破棄して、ステップ2へ 5.生成した単語と、キーワードもしくは既に生成して
ある単語との類似度がある基準以上ならば生成した単語
は破棄して、ステップ2へ 6.生成した単語を登録し、生成数指定部102によっ
て指定された個数に達していればステップ7へ、達して
いなければステップ2へ 7.キーワードと生成された単語のリストを認識候補辞
書903として出力する 類似度計算部104では、疑似単語生成部103から与
えられた2つの単語の類似度を、例えば、ダイナミック
プログラミングマッチング手法により単語を構成する音
素を対応・置換・脱落・沸き出しに分類し、それぞれに
点数を与えそれらの合計を求める方式により計算する。1. 1. Let n be the number of vowels included in the keyword. 2. Generate a word composed of only vowels using random numbers and having a vowel number of n ± α. 3. Use the similarity calculator 104 to calculate the similarity between the generated word, the keyword, and the already generated word. 4. If the similarity between the generated word and the keyword is equal to or less than a certain reference, the generated word is discarded and the process proceeds to step 2. If the similarity between the generated word and the keyword or the already generated word is equal to or more than a certain reference, the generated word is discarded, and the process proceeds to step 2. 6. Register the generated words, and if the number specified by the generation number specifying unit 102 has been reached, go to step 7; otherwise, go to step 2. The similarity calculator 104 outputs a list of keywords and the generated words as the recognition candidate dictionary 903. The similarity calculator 104 calculates the similarity between the two words given from the pseudo-word generator 103 by, for example, a dynamic programming matching method. The phonemes to be performed are classified into correspondence, substitution, dropout, and boiling out, and the score is given to each of them, and the total is calculated.
【0017】このように、第2の発明によれば、キーワ
ード以外の発声を棄却するための認識候補辞書903を
生成することができる。As described above, according to the second aspect, the recognition candidate dictionary 903 for rejecting utterances other than keywords can be generated.
【0018】図2は、本発明の一実施例を表す図であ
る。FIG. 2 is a diagram showing an embodiment of the present invention.
【0019】この実施例は、音声認識装置において、指
定されたキーワードが発声された場合は、認識候補とし
てその発声を受理し、指定されたキーワード以外の発声
は棄却する機能を実現するための、疑似単語とキーワー
ドに対する疑似単語の類似度順位に関する情報を含んだ
認識候補辞書を生成するものであり、疑似単語生成ツー
ル、疑似単語生成関数、疑似単語生成API、疑似単語生
成ミドルウェアのような形態をなす。In this embodiment, in a speech recognition apparatus, when a specified keyword is uttered, the utterance is accepted as a recognition candidate, and a utterance other than the specified keyword is rejected. It generates a recognition candidate dictionary that contains information on the similarity ranking of pseudowords and pseudowords for keywords, and includes forms such as pseudoword generation tools, pseudoword generation functions, pseudoword generation APIs, and pseudoword generation middleware. Eggplant
【0020】この音声認識用疑似単語生成ツールは、キ
ーワード入力部101、生成数指定部102、疑似単語
生成部103、類似度計算部104、相関度算出部20
1及び、認識用モデル202から構成される。The speech recognition pseudo word generation tool includes a keyword input unit 101, a generation number designation unit 102, a pseudo word generation unit 103, a similarity calculation unit 104, and a correlation calculation unit 20.
1 and a recognition model 202.
【0021】キーワード入力部101は、認識対象とな
る単語901を入力するためのインタフェースである。
生成数指定部102は、生成する疑似単語の生成数を指
定するインタフェースである。疑似単語生成部103
は、認識対象となる単語901に対して、同一でない複
数の疑似単語を生成し、認識対象となる単語901と生
成した疑似単語を合わせて、認識候補辞書902として
出力するものである。類似度計算部104は、2つの与
えられた単語の類似度を計算するためのものである。相
関度算出部201は、それぞれのキーワードについて、
生成された疑似単語の、キーワードに対する類似度の順
位付けを行うものである。認識用モデル202は、相関
度算出部201において類似度の計算を行うための情報
である。The keyword input unit 101 is an interface for inputting a word 901 to be recognized.
The generation number designation unit 102 is an interface for designating the number of pseudo words to be generated. Pseudo word generator 103
Is to generate a plurality of non-identical pseudo-words for the word 901 to be recognized, combine the word 901 to be recognized with the generated pseudo-word, and output it as a recognition candidate dictionary 902. The similarity calculator 104 is for calculating the similarity between two given words. The correlation calculation unit 201 calculates, for each keyword,
The ranking of the similarity of the generated pseudo-word to the keyword is performed. The recognition model 202 is information for the correlation degree calculation unit 201 to calculate the similarity.
【0022】次に図2の実施例の動作について説明す
る。Next, the operation of the embodiment of FIG. 2 will be described.
【0023】疑似単語生成部103が、キーワードと生
成された単語を含むリストを出力する段階までは、図1
に示した実施例と同様である。相関度算出部201で
は、キーワードそれぞれに対して、例えば次のアルゴリ
ズムによって、疑似単語の順位付けを行う。Until the pseudo-word generation unit 103 outputs a list including the keywords and the generated words, FIG.
This is the same as the embodiment shown in FIG. The correlation degree calculation unit 201 ranks pseudo words for each keyword by, for example, the following algorithm.
【0024】1.キーワードを構成する音素列に対応す
る認識用モデル202の列に変換する。認識用モデルと
しては、例えばHMM(Hidden Markov Model)を利用で
きる。HMMには音素の継続長に関する情報も含まれる
ので、継続長情報に従って各音素に対応する認識用モデ
ルを並べることで時間的な要素を備えた擬似的な発声を
表現することに相当する。(例)aki->aaaakkiiiiiii 2.認識モデルの列と各疑似単語を認識用モデル202
の情報を用いて照合し、類似度を計算する。これには、
例えばビタビ(viterbi)アルゴリズムを用いることが
できる 3.計算された類似度に従って、キーワードそれぞれに
対し、疑似単語の順位付けを行う 4.キーワードそれぞれに対しての疑似単語の順位情報
を含んだ認識候補辞書を出力する このように、第2の発明によれば、キーワード以外の発
声を棄却するための認識候補辞書904を生成すること
ができる。1. The keyword is converted into a sequence of the recognition model 202 corresponding to the phoneme sequence forming the keyword. For example, an HMM (Hidden Markov Model) can be used as the recognition model. Since the HMM also includes information on the duration of a phoneme, it is equivalent to expressing a pseudo utterance having a temporal element by arranging recognition models corresponding to each phoneme according to the duration information. (Example) aki-> aaaakkiiiiiii 2. The recognition model sequence and each pseudoword are recognized by the recognition model 202.
Is collated using the information of, and the similarity is calculated. This includes
For example, a Viterbi algorithm can be used. 3. Pseudo-word ranking is performed for each keyword according to the calculated similarity. Outputting a Recognition Candidate Dictionary Containing Pseudo Word Ranking Information for Each Keyword As described above, according to the second invention, it is possible to generate a recognition candidate dictionary 904 for rejecting utterances other than keywords. it can.
【0025】図3は、本発明の一実施例を表す図であ
る。FIG. 3 is a diagram showing an embodiment of the present invention.
【0026】この実施例は図1で示された発明によって
生成された認識候補辞書を用いて、キーワード以外の発
声を棄却する認識装置に関するものである。This embodiment relates to a recognition apparatus for rejecting utterances other than keywords using the recognition candidate dictionary generated by the invention shown in FIG.
【0027】この音声認識装置は、分析部301、認識
候補辞書302、照合部303、棄却部304及び、認
識用モデル202から構成される。This speech recognition apparatus comprises an analysis section 301, a recognition candidate dictionary 302, a collation section 303, a rejection section 304, and a recognition model 202.
【0028】分析部301は、入力された音声を分析
し、特徴量ベクトルの時系列906に変換するためのも
のである。認識候補辞書302は図1に示した実施例に
より生成される、キーワードと疑似単語を含んだ単語リ
ストである。照合部303は、認識候補辞書302に含
まれる単語と、特徴量ベクトルの時系列906を比較し
類似度を計算し、認識候補907を出力するものであ
る。棄却部304は、認識候補907の中で最も類似の
高い候補を認識結果として出力するかどうかを判定する
ためのものである。The analysis section 301 analyzes the input speech and converts it into a time series 906 of feature quantity vectors. The recognition candidate dictionary 302 is a word list including keywords and pseudo words generated by the embodiment shown in FIG. The matching unit 303 compares words included in the recognition candidate dictionary 302 with a time series 906 of feature amount vectors, calculates similarity, and outputs recognition candidates 907. The rejection unit 304 is for determining whether to output a candidate having the highest similarity among the recognition candidates 907 as a recognition result.
【0029】次に図3の実施例の動作について説明す
る。Next, the operation of the embodiment shown in FIG. 3 will be described.
【0030】入力された音声905は分析部301によ
って、特徴量ベクトルの時系列906に変換される。分
析手段としては、例えばNTTアドバンステクノロジ株
式会社発行の「音声認識の基礎(上)」(以下文献1と
する)の139ページに記されているような、LPCケ
プストラム(Linear Predictive Coding Cepstrum)を
用いることができる。特徴量ベクトルの時系列906
は、照合部303において認識候補辞書302に含まれ
る単語それぞれと比較され、類似度が計算される。照合
部303の比較では音声がどのように発声されるかとい
う情報のデータベースである認識用モデル202が用い
られる。認識用モデル202の表現方法としては、例え
ばHMMを用いることができ、この場合比較方法として
ビタビ・アルゴリズムを使用することができる。照合部
303においては、比較の結果類似度によって順位付け
された認識候補リスト907が出力される。棄却部30
4では、認識候補リスト907の中で最も高い類似度を
持つ単語が、キーワードであるか疑似単語であるかを認
識候補辞書の情報909によって判定し、それがキーワ
ードで合った場合は認識結果908を出力し、疑似単語
であった場合は認識結果を棄却する。The input speech 905 is converted by the analysis unit 301 into a time series 906 of feature quantity vectors. As the analysis means, for example, an LPC cepstrum (Linear Predictive Coding Cepstrum) as described on page 139 of “Basic of speech recognition (above)” (hereinafter referred to as Reference 1) issued by NTT Advanced Technology Corporation is used. be able to. Time series 906 of the feature vector
Is compared with each of the words included in the recognition candidate dictionary 302 by the matching unit 303, and the similarity is calculated. In the comparison by the matching unit 303, the recognition model 202, which is a database of information on how the voice is uttered, is used. As an expression method of the recognition model 202, for example, an HMM can be used. In this case, a Viterbi algorithm can be used as a comparison method. The matching unit 303 outputs a recognition candidate list 907 ranked according to the similarity as a result of the comparison. Rejection unit 30
4, whether the word having the highest similarity in the recognition candidate list 907 is a keyword or a pseudo word is determined by the information 909 of the recognition candidate dictionary, and if the word matches the keyword, the recognition result 908. Is output, and if the word is a pseudo-word, the recognition result is rejected.
【0031】このように、第5の発明によれば、分析部
・照合部・認識用モデルなど認識システムのコアとなる
部分には手を加えずに、キーワード外発声棄却機能を持
つ音声認識装置を実現することができる。As described above, according to the fifth invention, the speech recognition apparatus having the function of rejecting the utterance outside the keyword without modifying the core parts of the recognition system such as the analysis unit, the collation unit, and the recognition model. Can be realized.
【0032】図4は、本発明の一実施例を表す図であ
る。FIG. 4 is a diagram showing an embodiment of the present invention.
【0033】この実施例は図2で示された発明によって
生成された認識候補辞書を用いて、図1で示された発明
による認識候補辞書よりも少ない疑似単語を用いて、キ
ーワード以外の発声を棄却する認識装置に関するもので
ある。This embodiment uses the recognition candidate dictionary generated by the invention shown in FIG. 2 to generate utterances other than keywords using fewer pseudowords than the recognition candidate dictionary according to the invention shown in FIG. It relates to a recognizing device to be rejected.
【0034】この音声認識装置は、分析部301、認識
候補辞書401、照合部303、棄却部402及び、認
識用モデル202から構成される。This speech recognition apparatus comprises an analysis section 301, a recognition candidate dictionary 401, a collation section 303, a rejection section 402, and a recognition model 202.
【0035】分析部301は、入力された音声を分析
し、特徴量ベクトルの時系列906に変換するためのも
のである。認識候補辞書401は図2に示した実施例に
より生成される、順位付けの行われたキーワードと疑似
単語を含んだ単語リストである。照合部303は、認識
候補辞書401に含まれる単語と、特徴量ベクトルの時
系列906を比較し類似度を計算し、認識候補907を
出力するものである。棄却部402は、認識候補907
の中で最も類似の高い候補を認識結果として出力するか
どうかを判定するためのものである。The analysis unit 301 analyzes input speech and converts it into a time series 906 of feature quantity vectors. The recognition candidate dictionary 401 is a word list generated by the embodiment shown in FIG. 2 and including the ranked keywords and pseudo words. The matching unit 303 compares the words included in the recognition candidate dictionary 401 with the time series 906 of the feature amount vectors, calculates the similarity, and outputs the recognition candidates 907. Rejection section 402 recognizes candidate 907
This is for determining whether or not to output the candidate with the highest similarity among the recognition results.
【0036】次に図4の実施例の動作について説明す
る。Next, the operation of the embodiment shown in FIG. 4 will be described.
【0037】入力された音声905は分析部301によ
って、特徴量ベクトルの時系列906に変換される。分
析手段としては、例えばNTTアドバンステクノロジ株
式会社発行の「音声認識の基礎(上)」(以下文献1と
する)の139ページに記されているような、LPCケ
プストラム(Linear Predictive Coding Cepstrum)を
用いることができる。特徴量ベクトルの時系列906
は、照合部303において認識候補辞書402に含まれ
る単語それぞれと比較され、類似度が計算される。照合
部303の比較では音声がどのように発声されるかとい
う情報のデータベースである認識用モデル202が用い
られる。認識用モデル202の表現方法としては、例え
ばHMMを用いることができ、この場合比較方法として
ビタビ・アルゴリズムを使用することができる。照合部
303においては、比較の結果類似度によって順位付け
された認識候補リスト907が出力される。棄却部40
2では、発声された音声が、キーワードであるかどうか
を、次のように判定する。The input speech 905 is converted by the analyzer 301 into a time series 906 of feature quantity vectors. As the analysis means, for example, an LPC cepstrum (Linear Predictive Coding Cepstrum) as described on page 139 of “Basic of speech recognition (above)” (hereinafter referred to as Reference 1) issued by NTT Advanced Technology Corporation is used. be able to. Time series 906 of the feature vector
Is compared with each of the words included in the recognition candidate dictionary 402 by the matching unit 303, and the similarity is calculated. In the comparison by the matching unit 303, the recognition model 202, which is a database of information on how the voice is uttered, is used. As an expression method of the recognition model 202, for example, an HMM can be used. In this case, a Viterbi algorithm can be used as a comparison method. The matching unit 303 outputs a recognition candidate list 907 ranked according to the similarity as a result of the comparison. Rejection unit 40
In 2, it is determined whether the uttered voice is a keyword as follows.
【0038】1.認識候補リスト907の中で最も類似
度が高いのが疑似単語であればキーワードではない 2.認識候補リスト907の中で最も類似度が高いのが
キーワードであった場合、(i)認識候補辞書401か
ら、そのキーワードに関する疑似単語の順位付け情報9
10を取得する (ii)認識候補リスト907での疑似単語の出現順位と、
疑似単語の順位付け情報910を比較し、それらの類似
度が一定以上の値であればキーワードとし、一定以下で
あればキーワードではないとする。類似度の計算方法と
しては、例えば認識候補リスト907の上から10位ま
でについて、疑似単語の順位付け情報910においても
同じ順位であれば10点、順位が一つずれるごとに9
点、8点、・・・と重みをつけて総和をとった値を使用
することができる。1. If the highest similarity in the recognition candidate list 907 is a pseudo word, it is not a keyword. When the keyword having the highest similarity in the recognition candidate list 907 is a keyword, (i) ranking information 9 of the pseudo-word related to the keyword from the recognition candidate dictionary 401
(Ii) the order of appearance of the pseudo-words in the recognition candidate list 907;
The pseudo-word ranking information 910 is compared. If the similarity is equal to or more than a certain value, the keyword is determined to be a keyword. As a method of calculating the similarity, for example, the top ten ranks of the recognition candidate list 907 are the same rank in the pseudo-word ranking information 910, and 10 points.
Point, eight points,..., And weighted and summed values can be used.
【0039】棄却部402では、判定がキーワードであ
った場合、そのキーワードを認識結果908として出力
し、キーワードではなかった場合は、認識結果を棄却す
る。The rejection unit 402 outputs the keyword as a recognition result 908 when the determination is a keyword, and rejects the recognition result when the determination is not a keyword.
【0040】図3で示した実施例では、認識候補リスト
907の中で最も類似度が高いのがキーワードであれ
ば、発声されたのはキーワードであると判断していた
が、本発明では疑似単語の順位付け情報910を利用す
ることで、図3で示した実施例と比べて少ない数の疑似
単語を用いて、安定した棄却性能を得ることができる。In the embodiment shown in FIG. 3, if the keyword having the highest similarity in the recognition candidate list 907 is a keyword, it is determined that the uttered word is the keyword. By using the word ranking information 910, a stable rejection performance can be obtained using a smaller number of pseudo words as compared with the embodiment shown in FIG.
【0041】このように、第6の発明によれば、分析部
・照合部・認識用モデルなど認識システムのコアとなる
部分には手を加えずに、キーワード外発声棄却機能を持
つ音声認識装置を実現することができる。As described above, according to the sixth aspect, the speech recognition apparatus having the function of rejecting the utterance outside the keyword without changing the core parts of the recognition system such as the analysis unit, the matching unit, and the recognition model. Can be realized.
【0042】[0042]
【発明の効果】以上のように、本発明によれば、与えら
れた認識候補から自動的に棄却用疑似単語を生成し、さ
らに認識候補の順位情報を利用することで、容易に安定
した候補外発声棄却機能を実現することができる。As described above, according to the present invention, a pseudo word for rejection is automatically generated from a given recognition candidate, and further, by using the rank information of the recognition candidate, a stable candidate can be easily obtained. An external voice rejection function can be realized.
【図1】音声認識用疑似単語生成ツールの一実施例。FIG. 1 shows an embodiment of a pseudo-word generation tool for speech recognition.
【図2】音声認識用疑似単語生成ツールの一実施例。FIG. 2 shows an embodiment of a pseudo-word generation tool for speech recognition.
【図3】音声認識装置の一実施例。FIG. 3 shows an embodiment of a voice recognition device.
【図4】音声認識装置の一実施例。FIG. 4 shows an embodiment of a speech recognition device.
101:キーワード入力部、102:生成数部、10
3:疑似単語生成部、104:類似度計算部、201:
相関度算出部、202:認識用モデル、301:分析
部、302:認識候補辞書、303:照合部、304:
棄却部、401:認識候補辞書、402:棄却部、90
1:認識対象となる単語、902:生成する疑似単語の
数、903:認識候補辞書、904認識候補辞書、90
5:入力された音声、906:特徴量ベクトルの時系
列、907:順位付けされた認識候補リスト、908:
認識結果、909:認識候補辞書の情報、910:疑似
単語の順位付け情報。101: keyword input unit, 102: generated number unit, 10
3: pseudo word generator, 104: similarity calculator, 201:
Correlation calculation unit, 202: recognition model, 301: analysis unit, 302: recognition candidate dictionary, 303: collation unit, 304:
Rejection unit, 401: recognition candidate dictionary, 402: rejection unit, 90
1: Word to be recognized, 902: Number of pseudo words to be generated, 903: Recognition candidate dictionary, 904 Recognition candidate dictionary, 90
5: input voice, 906: time series of feature amount vectors, 907: ranked recognition candidate list, 908:
Recognition result, 909: recognition candidate dictionary information, 910: pseudo word ranking information.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 天野 明雄 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 Fターム(参考) 5D015 AA04 LL03 LL05 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Akio Amano 1-280 Higashi Koigakubo, Kokubunji-shi, Tokyo F-term in Central Research Laboratory, Hitachi, Ltd. 5D015 AA04 LL03 LL05
Claims (4)
れた単語と他の単語の類似度を算出し、算出された単語
の類似度に基づいて、上記入力された単語とは異なる単
語を生成することを特徴とする音声認識用疑似単語生成
方法。1. A method according to claim 1, wherein one or more words are input, a similarity between the input word and another word is calculated, and a word different from the input word is determined based on the calculated similarity between the words. A method for generating a pseudo-word for speech recognition, characterized by generating the pseudo-word.
語それぞれとの類似度を計算し、生成された単語が複数
の場合には、該生成された複数の単語に対する類似度に
応じて順位付けを行うことを特徴とする請求項1の音声
認識用疑似単語生成方法。2. A method for calculating a similarity between the generated word and each of the input words, and in a case where there are a plurality of generated words, according to the similarity to the plurality of generated words. 2. The pseudo-word generation method for speech recognition according to claim 1, wherein ranking is performed.
語とキーワードを認識候補辞書として保持する辞書部
と、発声された音声と前記辞書部に保持されている認識
候補辞書に含まれる単語との類似度を出力する照合部
と、前記照合部によって出力される類似度が最も高い単
語が、前記疑似単語である場合に認識結果を棄却する棄
却部を有することを特徴とする音声認識装置。3. A dictionary unit for holding a pseudo word and a keyword to which a similarity degree is attached to another word as a recognition candidate dictionary, and a uttered voice and a word included in the recognition candidate dictionary stored in the dictionary unit. A speech recognition apparatus, comprising: a matching unit that outputs a similarity to the word; and a rejection unit that rejects a recognition result when the word having the highest similarity output by the matching unit is the pseudo word. .
語とキーワードを認識候補辞書として保持する辞書部
と、発声された音声と前記辞書部に保持されている認識
候補辞書に含まれる単語との類似度を算出する照合部
と、前記照合部によって出力される類似度が最も高い単
語がキーワードのひとつであった場合に、前記認識候補
辞書に含まれる単語の中で前記照合部によって出力され
た類似度が高い単語の出現パターンを前記相関度算出部
によってなされた疑似単語の順位付け情報と比較するこ
とで、発声された音声がキーワードであるかどうかを判
定する棄却部を有することを特徴とする音声認識装置。4. A dictionary unit for holding a pseudo word and a keyword to which a similarity degree is attached to another word as a recognition candidate dictionary, and a uttered voice and a word included in the recognition candidate dictionary stored in the dictionary unit. A matching unit that calculates the degree of similarity with the keyword, and if the word having the highest similarity output by the matching unit is one of the keywords, the word is output by the matching unit among the words included in the recognition candidate dictionary. Having a rejection unit that determines whether the uttered voice is a keyword by comparing the appearance pattern of the word having a high similarity with the ranking information of the pseudo words made by the correlation degree calculation unit. Characteristic speech recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33093699A JP2001147698A (en) | 1999-11-22 | 1999-11-22 | Method of generating pseudo word for voice recognition and voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33093699A JP2001147698A (en) | 1999-11-22 | 1999-11-22 | Method of generating pseudo word for voice recognition and voice recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001147698A true JP2001147698A (en) | 2001-05-29 |
Family
ID=18238095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33093699A Pending JP2001147698A (en) | 1999-11-22 | 1999-11-22 | Method of generating pseudo word for voice recognition and voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001147698A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154658A (en) * | 2004-12-01 | 2006-06-15 | Nec Corp | Speech recognition dictionary preparation system, speech recognition dictionary preparation method, speech recognition system, and robot |
JP2009116075A (en) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | Speech recognition device |
JP2010230852A (en) * | 2009-03-26 | 2010-10-14 | Yamaha Corp | Command-recognizing device |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
-
1999
- 1999-11-22 JP JP33093699A patent/JP2001147698A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154658A (en) * | 2004-12-01 | 2006-06-15 | Nec Corp | Speech recognition dictionary preparation system, speech recognition dictionary preparation method, speech recognition system, and robot |
JP4539313B2 (en) * | 2004-12-01 | 2010-09-08 | 日本電気株式会社 | Speech recognition dictionary creation system, speech recognition dictionary creation method, speech recognition system, and robot |
JP2009116075A (en) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | Speech recognition device |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
JP2010230852A (en) * | 2009-03-26 | 2010-10-14 | Yamaha Corp | Command-recognizing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (en) | Voice search apparatus and voice search method | |
US7162423B2 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
US7657430B2 (en) | Speech processing apparatus, speech processing method, program, and recording medium | |
US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
Lin et al. | A new framework for recognition of Mandarin syllables with tones using sub-syllabic units | |
Eide | Distinctive features for use in an automatic speech recognition system | |
JPWO2008087934A1 (en) | Extended recognition dictionary learning device and speech recognition system | |
JP2004170765A (en) | Apparatus and method for speech processing, recording medium, and program | |
Tong et al. | A target-oriented phonotactic front-end for spoken language recognition | |
Furui | Vector-quantization-based speech recognition and speaker recognition techniques | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Sim et al. | On acoustic diversification front-end for spoken language identification | |
JP4259100B2 (en) | Unknown speech detection device for speech recognition and speech recognition device | |
JP2001147698A (en) | Method of generating pseudo word for voice recognition and voice recognition device | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP3378547B2 (en) | Voice recognition method and apparatus | |
Bahl et al. | Constructing groups of acoustically confusable words | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition | |
KR20030010979A (en) | Continuous speech recognization method utilizing meaning-word-based model and the apparatus | |
JP2008083165A (en) | Voice recognition processing program and voice recognition processing method | |
JPH10254480A (en) | Speech recognition method | |
Liao et al. | A Modular RNN-based method for continuous Mandarin speech recognition |