JP2010055030A - Acoustic processor and program - Google Patents

Acoustic processor and program Download PDF

Info

Publication number
JP2010055030A
JP2010055030A JP2008222817A JP2008222817A JP2010055030A JP 2010055030 A JP2010055030 A JP 2010055030A JP 2008222817 A JP2008222817 A JP 2008222817A JP 2008222817 A JP2008222817 A JP 2008222817A JP 2010055030 A JP2010055030 A JP 2010055030A
Authority
JP
Japan
Prior art keywords
data
acoustic model
recognition
acoustic
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008222817A
Other languages
Japanese (ja)
Other versions
JP5149107B2 (en
Inventor
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008222817A priority Critical patent/JP5149107B2/en
Publication of JP2010055030A publication Critical patent/JP2010055030A/en
Application granted granted Critical
Publication of JP5149107B2 publication Critical patent/JP5149107B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an acoustic model learning device which is capable of producing an acoustic model which corresponds to a variety of uttering styles by automatically generating the learning data of an acoustic model by a high recognition ratio even when an off-line subtitle in which the matching rate of the subtitle and the uttering content is low is used. <P>SOLUTION: Not only a matching section is cut and used, but information obtained from other sections is also used for acoustic model learning. For the purpose, when learning data is obtained by using the matching section of a speech recognition result and a written subtitle text, reliability of respective morphemes are introduced to automatically generate learning data using a speech not in the matching section as well. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、統計的処理に基づく音声処理に関する。特に、各音素の音響特徴量の統計量を音響モデルとして処理を行なう音響処理装置およびそのプログラムに関する。また特に、音響モデルの学習に関する。   The present invention relates to speech processing based on statistical processing. In particular, the present invention relates to an acoustic processing apparatus and a program for processing an acoustic feature quantity statistic of each phoneme as an acoustic model. In particular, it relates to learning of acoustic models.

統計モデルを用いた音声認識では、各音素の統計量を得るために大量の学習データが必要になる。この学習データは、大量の音声データとその音声に対する書き起こしの対であり、従来人手により時間とコストをかけて作成されてきた。   In speech recognition using a statistical model, a large amount of learning data is required to obtain the statistic of each phoneme. This learning data is a pair of a large amount of voice data and a transcription for the voice, and has been created manually and with time and cost.

現在、放送番組の一部には、高齢者や聴覚障害者の番組視聴など音声からの情報が十分に得られない環境でも番組内容が理解できるように、番組音声に対応する字幕テキストが付与されているものがある。この字幕テキストにはオンラインで付与された字幕テキストとオフラインで付与された字幕テキストの2種類があり、前者は番組中の発話内容とほぼ一致している。但し、後者は話し言葉の冗長性を除去し、簡潔で読みやすい字幕を付与できるため、発話内容と字幕との一致率が低い。   Currently, some broadcast programs are given subtitle text corresponding to program audio so that the contents of the program can be understood even in environments where information from the voice is not sufficiently available, such as watching a program for elderly or hearing-impaired people. There is something that is. There are two types of subtitle texts: subtitle text given online and subtitle text given offline. The former is almost identical to the utterance content in the program. However, the latter removes the redundancy of spoken words and can provide subtitles that are simple and easy to read, so the rate of coincidence between the utterance contents and the subtitles is low.

上記の一致率が高いオンライン字幕を利用できる場合には、音声区間の切り出しと、切り出された音声に対応する字幕区間の切りだしを行なうことで、音響モデルの学習データを容易に自動作成することができ、読み上げ音声が中心で比較的高い音声認識精度が得られるニュース番組を対象とした場合の認識精度の改善が報告されている(非特許文献1)。この方法では、字幕区間の切り出しに、字幕テキストで適応化した言語モデルを用いて得られた番組音声の認識結果を利用し、字幕テキストと認識結果の一致区間を音響モデルの学習データとしている。この番組音声の認識は、主に音声区間の切り出しと字幕と発話内容の不一致部分の検出を目的として行われ、言語モデルの適応化に用いる字幕テキストの重みは比較的小さいことが特徴である。   When online subtitles with a high matching rate are available, audio model learning data can be easily and automatically created by extracting audio segments and subtitle segments corresponding to the extracted audio. However, it has been reported that the accuracy of recognition is improved in the case of a news program in which the reading speech is mainly used and relatively high speech recognition accuracy is obtained (Non-Patent Document 1). In this method, the recognition result of the program sound obtained by using a language model adapted by subtitle text is used for subtitle section extraction, and the coincidence section between the subtitle text and the recognition result is used as learning data for the acoustic model. This program audio recognition is performed mainly for the purpose of extracting a voice section and detecting a mismatched portion between subtitles and utterance content, and is characterized in that the weight of subtitle text used for language model adaptation is relatively small.

図14は、従来技術による音響モデル学習装置の機能構成を示すブロック図である。この図に示す音響モデル学習装置200は、字幕テキストを形態素単位に分割した後、字幕テキストにWbiasの重みを付けて、バイアスのある言語モデル(バイアス化言語モデル86)を得る。この言語モデルを用いて番組音声を認識する(認識処理部90)。本装置の主目的は、字幕と発話内容の不一致区間の検出と音声と字幕の切り出しであるため、バイアス重みWbias(4程度)と言語重みWlm(10程度)は比較的小さな値を用いる。次に、番組全体で認識仮説と字幕テキストのDPマッチングを行い(アライメント処理部92)、字幕テキストと認識結果が3単語以上連続して一致している区間を選択し、番組音声中の音声区間と対応する単語列である学習データ(学習データ記憶部94)が得られる。
Long Nguyen,外1名,“Light Supervision in Acoustic Model Training”,IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos;04),2004年,Volume 1,p.17−21
FIG. 14 is a block diagram showing a functional configuration of an acoustic model learning apparatus according to the conventional technique. The acoustic model learning apparatus 200 shown in this figure divides subtitle text into morpheme units, and then assigns a weight of W bias to the subtitle text to obtain a biased language model (biased language model 86). A program sound is recognized using this language model (recognition processing unit 90). Since the main purpose of this apparatus is to detect a mismatch section between subtitles and utterance contents and to cut out audio and subtitles, the bias weight W bias (about 4) and the language weight W lm (about 10) use relatively small values. . Next, DP matching between the recognition hypothesis and the caption text is performed for the entire program (alignment processing unit 92), and a section in which the caption text and the recognition result continuously match three or more words is selected, and a voice section in the program sound is selected. Learning data (learning data storage unit 94), which is a corresponding word string, is obtained.
Long Nguyen, 1 other, “Light Supervision in Acoustic Model Training”, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos; 04), 2004, Volume 1, p. 17-21

現在、放送番組の対談部分などの比較的自由なスタイルで発話された部分の認識精度は、読み上げ音声の認識精度に比べて低く、このような部分の認識精度を向上させるため、様々なスタイルで発話された音響モデルの学習データが必要とされている。   Currently, the recognition accuracy of a part spoken in a relatively free style such as a dialogue part of a broadcast program is lower than the recognition accuracy of a reading speech, and in order to improve the recognition accuracy of such a part, various styles are used. Learning data for the spoken acoustic model is needed.

放送番組の対談部分などの比較的自由なスタイルでは、オフラインで作成される字幕テキストが用いられるが、前述の通りこの字幕テキストの作成の際は簡潔さが優先されるため、字幕テキストと実際の発話内容との一致率は低い。従来技術による音響モデル学習装置は字幕テキストと実際の発話内容との一致率が高いことを前提としており、従来技術による方法ではこの一致率の低いデータからは高い認識精度が得られず、その結果として音響モデルの学習データを効率よく多量に生成することができないという問題があった。   In a relatively free style such as a dialogue part of a broadcast program, subtitle text created offline is used. However, as mentioned above, priority is given to simplicity when creating this subtitle text. The matching rate with the utterance content is low. The acoustic model learning device according to the prior art is based on the premise that the matching rate between the subtitle text and the actual utterance content is high, and the method according to the prior art cannot obtain high recognition accuracy from the data with the low matching rate. As a problem, it is impossible to efficiently generate a large amount of learning data for an acoustic model.

本発明のより具体的な課題は、次の通りである。対談などの自由発話の音声を学習する場合、議事録や放送番組の字幕テキストなど、一般的に入手容易な書き起こしテキストは不完全であることが多く、十分な学習効果が得られないことがある。例えば、対談の自由発話には、「あの」、「で」、「まあ」などの多くの不要語が含まれており、これらの不要語は書き起こしのテキストには盛り込まれないことが多い。よって、そのような不完全な書き起こしのテキストからは、これらの不要語が得られない。また、字幕テキストを作成する目的に応じて、話し言葉に含まれる冗長な部分を読みやすいフレーズに置き換えて書き起こしのテキストが作成されることも多い。従って、その冗長な部分に対応するテキストが得られない。   More specific problems of the present invention are as follows. When learning free speech such as conversations, transcripts that are generally readily available, such as minutes and subtitles for broadcast programs, are often incomplete and may not provide sufficient learning effects. is there. For example, many free words such as “no”, “de”, and “well” are included in the free utterance of the conversation, and these unnecessary words are often not included in the transcription text. Therefore, these unnecessary words cannot be obtained from such incompletely transcribed text. In addition, depending on the purpose of creating subtitle text, a transcribed text is often created by replacing redundant parts included in spoken language with easy-to-read phrases. Therefore, the text corresponding to the redundant part cannot be obtained.

また、従来のように一致部分の音声区間を切り出して学習する技術では、不一致部分の音声は学習には用いられない。そのため、音声と書き起こしテキストの一致率が低い場合には、少量の学習データしか得られない。また、音声認識の入力となる発話切り出し単位と学習音声の切り出し単位とが異なり、細かく切り出された音声を学習データとしなければならず、学習時と認識時の音声切り出し単位の不接合を避けられないという問題もあった。また、従来技術を用いた場合には、認識結果(最尤仮説)と書き起こしテキストとの間の不一致には、例えば、「こと」と「事」のような表記の揺らぎによる不一致や、「ですから」と「です/から」といったように形態素分割が異なるために起こる不―致が見られ、これらの区間の音声が学習デ一タとしては用いられなかったという問題もあった。   Further, in the conventional technique of cutting out and learning the voice section of the matching portion, the voice of the mismatching portion is not used for learning. Therefore, only a small amount of learning data can be obtained when the matching rate between the speech and the transcribed text is low. In addition, the utterance cut-out unit used as input for speech recognition is different from the cut-out unit for learning speech, and finely cut-out speech must be used as learning data, thereby avoiding unjoining of the speech cut-out units during learning and recognition. There was also a problem of not. In addition, when the conventional technique is used, the mismatch between the recognition result (maximum likelihood hypothesis) and the transcription text includes, for example, a mismatch due to fluctuations in notation such as “thing” and “thing”, “ Therefore, there was a problem that the morpheme division was different, such as “is / kara”, and there was a problem that the speech of these sections was not used as learning data.

本発明は、上記のような事情を考慮して為されたものであり、字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成することを目的とするものである。また、本発明は、字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、より多くの量の音響モデルの学習データを生成することのできる音響処理装置およびプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and automatically generates learning data for an acoustic model at a high recognition rate even when offline subtitles having a low match rate between subtitles and utterance contents are used. Therefore, the object is to create an acoustic model that can support various utterance styles. In addition, the present invention provides an acoustic processing apparatus and program capable of generating a larger amount of learning data of an acoustic model even when offline subtitles having a low matching rate between subtitles and utterance contents are used. Objective.

上記の課題を解決するために、本発明では、次のような手段を用いる。即ち、所定数の形態素が連続して一致している区間が一致区間であるが、そのような一致区間を切り出して利用するのではなく、その他の区間から得られる情報も、音響モデル学習のために用いる。より具体的には、音声認識結果と書き起こし字幕テキストの一致区間を利用して学習データを得る際に、各形態素(単語)の信頼度を導入することにより、一致区間以外の音声も利用して学習データを自動生成させる。このように一致区間に対応する音声を切り出さずに学習できるようになるため、認識時と学習時の発話単位の不整合が解消されることにより認識精度の向上が期待される。   In order to solve the above problems, the present invention uses the following means. That is, a section in which a predetermined number of morphemes continuously match is a matching section. However, such a matching section is not cut out and used, but information obtained from other sections is also used for acoustic model learning. Used for. More specifically, when learning data is obtained using the speech recognition results and the matching sections of the transcription subtitle text, the speech other than the matching sections is also used by introducing the reliability of each morpheme (word). To automatically generate learning data. Thus, since it becomes possible to learn without cutting out the speech corresponding to the matching section, the recognition accuracy is expected to be improved by eliminating the inconsistency between the utterance units at the time of recognition and at the time of learning.

より具体的には、本発明の特別な技術的特長(Special Technical Feature)は、次に述べる構成あるいはその部分集合による構成によるものである。その構成とは即ち、
1)音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を備え、
2)認識処理部が、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力し、
3)選択処理部は、前記認識処理部が出力した認識結果データに基づき、各々の音素に対する信頼度データを付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力し、そして、
4)音響モデル適応化部は、前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、音響モデルを用いて、前記音響モデル記憶部を更新する。
More specifically, the special technical feature of the present invention is based on the following configuration or a configuration based on a subset thereof. The configuration is:
1) An acoustic model storage unit that stores an acoustic model that associates a phoneme with an acoustic feature corresponding to the phoneme,
2) The recognition processing unit performs speech recognition processing using the acoustic model read from the acoustic model storage unit, and outputs recognition result data including a recognition hypothesis,
3) The selection processing unit obtains teacher sequence data to which reliability data for each phoneme is added based on the recognition result data output from the recognition processing unit, and the teacher sequence data and corresponding acoustic feature data Is output as learning data, and
4) The acoustic model adaptation unit reads the learning data output from the selection processing unit, obtains the observation probability of each phoneme included in the learning data, and uses the acoustic model for each phoneme, and uses the acoustic model. Update the storage unit.

そして、本発明の第1の態様による音響処理装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部とを具備することを特徴とするものである。
ここで、言語的単位とは、言語的にまとまりのある単位であり、例えば、形態素、単語などである。また、認識仮説とは、認識処理の結果得られる認識の仮説であり、ある時刻でみたときには、複数の仮説が並立する場合もある。例えば形態素を単位としてみたとき、認識仮説は、形態素がアークに対応し、形態素間の接続点がノードに対応する形のラティス構造(時間方向の半順序構造)を有する。ある時刻において複数のアーク(相互に対立するアーク)が存在するとき、それらに対する確率を与えることができるが、本態様ではその確率を信頼度データとしている。また、教師系列データとは、信頼度データが付与されたラティスである。
本態様では、音響処理装置は、認識仮説の最尤パスと(書き起こしの字幕などの)テキストデータとの一致に基づき音声の区間を切り出す代わりに、教師音素列の信頼度を導入し、信頼度に基づいて学習する部分と学習しない部分を特定する。選択処理部が出力する学習データには、音声と教師音素列に加えて、それらに対応する教師音素列の信頼度を含んでいる。そして音響モデル適応化部は、音響モデルの統計量を推定する際に、例えばフォワードバックワードアルゴリズム(Forward-Backward Algorithm)やビタビアルゴリズム(Viterbi Algorithm)により得られる教師音素列の各音素の観測確率に、上記の信頼度による重み付けを行なって推定する。
このような構成により、認識結果データの中の一致区間だけではなく、その他の部分の音声の音響特徴量データを用いて、音響モデルの学習(音響モデル記憶部の更新(適応化))を行なえる。また、信頼度データを用いて、それによって重み付けをしていることにより、信頼度に応じた適切な学習を行なうことが可能となる。
The acoustic processing device according to the first aspect of the present invention includes an acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature amount corresponding to the phoneme are associated with each other, and an acoustic model read from the acoustic model storage unit A recognition processing unit that performs recognition processing of speech using speech recognition and outputs recognition result data including a recognition hypothesis, and acquires teacher sequence data based on the recognition result data output by the recognition processing unit, and the teacher sequence data A selection processing unit that adds reliability data to each phoneme included in the data, outputs the teacher sequence data to which the reliability data is added, and acoustic feature data corresponding to the teacher sequence data as learning data; The learning data output from the selection processing unit is read, observation probability data of each phoneme included in the learning data is calculated, and the learning data is calculated for each phoneme. An acoustic model that updates the acoustic model storage unit using an acoustic model that is obtained by multiplying the reliability data based on the acoustic feature amount data included in the data and the calculated observation probability data. And an adapting unit.
Here, the linguistic unit is a linguistic unit, such as a morpheme or a word. The recognition hypothesis is a recognition hypothesis obtained as a result of the recognition process. When viewed at a certain time, a plurality of hypotheses may be arranged side by side. For example, when a morpheme is taken as a unit, the recognition hypothesis has a lattice structure (a partial order structure in the time direction) in which a morpheme corresponds to an arc and a connection point between morphemes corresponds to a node. When there are a plurality of arcs (arcs that oppose each other) at a certain time, a probability can be given to them. In this aspect, the probability is used as reliability data. Teacher series data is a lattice to which reliability data is assigned.
In this aspect, the acoustic processing device introduces the reliability of the teacher phoneme string instead of extracting the speech section based on the match between the maximum likelihood path of the recognition hypothesis and the text data (such as a transcription subtitle) The part that learns based on the degree and the part that does not learn are identified. The learning data output by the selection processing unit includes the reliability of the teacher phoneme string corresponding to them in addition to the speech and the teacher phoneme string. When the acoustic model adaptation unit estimates the statistics of the acoustic model, the acoustic model adaptation unit calculates the observation probability of each phoneme of the teacher phoneme sequence obtained by, for example, the forward-backward algorithm (Forward-Backward Algorithm) or the Viterbi algorithm (Viterbi Algorithm). The estimation is performed by weighting according to the reliability.
With such a configuration, it is possible to learn an acoustic model (update (adaptation) of the acoustic model storage unit) using not only the matching section in the recognition result data but also the acoustic feature value data of other parts of speech. The Further, by using the reliability data and weighting it, it is possible to perform appropriate learning according to the reliability.

本発明の第2の態様による音響処理装置は、前記の音響処理装置において、前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスを前記教師系列データとして取得し、当該教師系列データと前記テキストデータが一致する一致区間に含まれる前記音素に対しては最高信頼度を表わす信頼度データを付加し、その他の区間に含まれる前記音素に対しては最低信頼度を表わす信頼度データを付加する、ことを特徴とする。
ここで、テキストデータとは、音声に対応するものであり、例えば書き起こしの字幕テキストのデータである。但し、音声(実際の発話内容)と字幕テキストの内容とは、必ずしも完全に一致しているとは限らない。また、信頼度データは、認識結果データに含まれるあるパス(パスは、言語的単位(形態素等)の系列に対応)が信頼できる度合いを表わす数値である。最高信頼度とは、その仮説の正しさを表わす確率が1である状態に対応する。最低信頼度とは、その仮説が正解に対して無情報である状態に対応する。信頼度データを0以上1以下の実数で表わしたとき、信頼度データが大きいほど信頼できる度合いが高く、最高信頼度は信頼度データ「1」に相当し、最低信頼度は信頼度データ「0」に相当する。
本態様では、音響処理装置は、最尤仮説とテキストデータの一致区間のみを学習するために、一致区間に含まれる形態素(単語)およびその形態素内の音素にのみ信頼度1を与え、それ以外の区間に含まれる形態素およびその形態素内の音素の信頼度を0とする。
これにより、一致区間に高い信頼度を与えて音響モデルの学習をすることができる。
The acoustic processing device according to a second aspect of the present invention is the acoustic processing device according to the first aspect, wherein the selection processing unit reads text data corresponding to the speech and determines a maximum likelihood path included in the recognition result data as the teacher series. Obtained as data, the reliability data representing the highest reliability is added to the phonemes included in the matching section where the teacher series data and the text data match, and the phonemes included in the other sections are added. Is characterized by adding reliability data representing the minimum reliability.
Here, the text data corresponds to audio, and is, for example, transcription subtitle text data. However, the voice (actual utterance content) and the content of the subtitle text do not necessarily match completely. The reliability data is a numerical value representing the degree to which a certain path included in the recognition result data (the path corresponds to a sequence of linguistic units (morpheme etc.)) is reliable. The highest reliability corresponds to a state where the probability representing the correctness of the hypothesis is 1. The minimum reliability corresponds to a state in which the hypothesis has no information with respect to the correct answer. When the reliability data is represented by a real number between 0 and 1, the greater the reliability data, the higher the degree of reliability, the highest reliability corresponds to the reliability data “1”, and the minimum reliability is the reliability data “0”. Is equivalent to.
In this aspect, in order to learn only the coincidence section between the maximum likelihood hypothesis and the text data, the sound processing device gives the reliability 1 only to the morpheme (word) included in the coincidence section and the phonemes in the morpheme, and otherwise. The reliability of the morpheme included in the interval and the phoneme in the morpheme is set to zero.
As a result, the acoustic model can be learned with high reliability in the coincidence section.

本発明の第3の態様による音響処理装置は、前記の音響処理装置において、前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り処理の結果得られる系列を前記教師系列データとして取得し、当該教師系列データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる前記音素に対する信頼度データとして付加する、ことを特徴とする。
本態様においては、一致区間に対立する区間を枝刈りしているため、一致区間の事後確率は1となる。つまり、この一致区間に含まれる音素には最高信頼度を表わす信頼度データ(=1)が付加される。そして、本態様では、音響処理装置は、認識結果データの形態素ラティスを利用し、最尤仮説とテキストデータとの一致区間以外の形態素にも非零の信頼度を付与する。これは、時間軸上で最尤仮説と対立する(重複する)仮説の枝刈り処理を行なった後の認識仮説のラティスを用いて、最尤仮説の各形態素の事後確率を算出し、この事後確率を信頼度として付与する方法である。
これにより、一致区間に最高信頼度を表わす信頼度データを付加し、その他の区間にも事後確率に応じた非零の信頼でデータを付加し、その重みを用いて音響モデルの学習を行なえる。
The acoustic processing device according to a third aspect of the present invention is the acoustic processing device, wherein the selection processing unit reads text data corresponding to the speech, and the maximum likelihood path and the text data included in the recognition result data. Pruning a matching section that coincides with each other on the time axis, obtaining a sequence obtained as a result of the pruning process as the teacher sequence data, and for each linguistic unit included in the teacher sequence data Is added as reliability data for the phonemes included in the linguistic unit.
In this aspect, since the section that opposes the matching section is pruned, the posterior probability of the matching section is 1. That is, reliability data (= 1) representing the maximum reliability is added to the phonemes included in the coincidence section. In this aspect, the acoustic processing device uses the morpheme lattice of the recognition result data, and gives nonzero reliability to the morpheme other than the coincidence section between the maximum likelihood hypothesis and the text data. This calculates the posterior probabilities for each morpheme of the maximum likelihood hypothesis using the recognition hypothesis lattice after pruning the hypothesis that opposes (overlaps) the maximum likelihood hypothesis on the time axis. This is a method of assigning probability as reliability.
As a result, reliability data representing the highest reliability is added to the matching interval, data is added to other intervals with non-zero reliability according to the posterior probability, and the acoustic model can be learned using the weight. .

上記の各態様の音響処理装置は、最尤仮説に含まれる各形態素を教師とし、これに基づいて信頼度を付与し、音響モデルの学習を行なっている。
これに対して、本発明の第4の態様による音響処理装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部とを具備することを特徴とするものである。
前記の第1の態様による音響処理装置と比較して、本態様の特徴は、音響処理装置が、観測確率で重み付けられた音響特徴量データとして得られる音響モデルを用いて音響モデル記憶部を更新する点である。また、選択処理部は、認識結果データに含まれる最尤パスとテキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加する。
本態様では、音響処理装置は、枝刈り処理後の認識仮説のラティス(このラティスには、下で述べる観測確率に信頼度が含まれている)を教師系列として、このラティスに直接フォワードバックワードアルゴリズムを適用して、音響モデルを学習する。この方法では、単語の信頼度(事後確率)は直接用いず、フォワードバックワードアルゴリズムにより得られる観測確率に信頼度が含まれている。
The acoustic processing apparatus according to each aspect performs learning of the acoustic model by using each morpheme included in the maximum likelihood hypothesis as a teacher and assigning reliability based on the teacher.
On the other hand, the acoustic processing device according to the fourth aspect of the present invention reads an acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature amount corresponding to the phoneme are associated with each other, and reads the acoustic model from the acoustic model storage unit. A recognition processing unit that performs speech recognition processing using an acoustic model and outputs recognition result data including a recognition hypothesis, and reads recognition result data output by the recognition processing unit and text data corresponding to the speech The linguistic unit included in the recognition result data after the pruning is performed by performing a process of pruning a matching interval in which the maximum likelihood path included in the recognition result data and the text data match with a conflicting interval on the time axis. Teacher series data obtained by adding each posterior probability as reliability data for each phoneme included in the linguistic unit, and corresponding to the teacher series data A selection processing unit that outputs reverberation feature amount data as learning data, and reads the learning data output by the selection processing unit, and obtains an observation probability of each phoneme included in the learning data using a forward backward algorithm And an acoustic model adaptation unit that updates the acoustic model storage unit using an acoustic model obtained as the acoustic feature data weighted with the observation probability for each phoneme. It is.
Compared with the acoustic processing device according to the first aspect, the feature of this aspect is that the acoustic processing device updates the acoustic model storage unit using an acoustic model obtained as acoustic feature amount data weighted by the observation probability. It is a point to do. In addition, the selection processing unit performs a process of pruning a matching section in which the maximum likelihood path included in the recognition result data and the text data match with a section that conflicts on the time axis, and is included in the recognition result data after this pruning A posteriori probability for each linguistic unit is added as reliability data for each phoneme included in the linguistic unit.
In this aspect, the acoustic processing apparatus directly uses the lattice of the recognition hypothesis after the pruning process (this lattice includes the reliability of the observation probability described below) as a teacher sequence and directly forwards the lattice to this lattice. Apply an algorithm to learn an acoustic model. In this method, the reliability (a posteriori probability) of the word is not directly used, and the reliability is included in the observation probability obtained by the forward backward algorithm.

本発明の第5の態様による音響処理装置は、前記の音響処理装置において、前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データと前記テキストデータが一致する一致区間に含まれる前記音素に対しては最高信頼度を表わす信頼度データを付加することを特徴とするものである。
本態様では、音響処理装置は、認識仮説のラティスとテキストデータの一致が最大になる形態素系列を教師系列とする。そして、一致区間には最高信頼度を表わす信頼度データを付加し、その他の区間にも適宜信頼度データを付加する。つまり、最尤仮説ではないパス内に一致区間が存在する場合にもそのような一致区間に最高信頼度が与えられる。これにより、最尤仮説とテキストデータとの間の表記の揺らぎや形態素分割の異なりに起因して不一致区間と判定されてしまう区間を一致区間として利用し、音響モデルを学習することができる。
The acoustic processing device according to a fifth aspect of the present invention is the acoustic processing device according to the first aspect, wherein the selection processing unit reads text data corresponding to the voice, and the matching with the text data is maximized from the recognition result data. Is selected and acquired as the teacher sequence data, and reliability data representing the highest reliability is added to the phonemes included in the matching section where the teacher sequence data and the text data match. It is characterized by doing.
In this aspect, the sound processing apparatus uses a morpheme sequence that maximizes the coincidence between the recognition hypothesis lattice and the text data as a teacher sequence. Then, reliability data representing the maximum reliability is added to the coincidence section, and reliability data is appropriately added to the other sections. In other words, even when a matching section exists in a path that is not the maximum likelihood hypothesis, the highest reliability is given to such a matching section. As a result, the acoustic model can be learned by using, as a matching section, a section that is determined to be a non-matching section due to fluctuations in notation between the maximum likelihood hypothesis and text data or a difference in morpheme division.

本発明の第6の態様による音響処理装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データ内で前記認識結果データと前記テキストデータとが一致する一致区間を選択し、前記一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部とを具備することを特徴とする。
前記の第4の態様による音響処理装置が最尤パスとテキストデータとが一致する一致区間を基準として対立する区間を枝刈りするのに対して、この第6の態様による音響処理装置は、認識結果データの全体(最尤パス以外の仮説も含む)とテキストデータとが一致する一致区間を基準として対立する区間を枝刈りする点が特徴である。
An acoustic processing apparatus according to a sixth aspect of the present invention uses an acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature amount corresponding to the phoneme are associated, and an acoustic model read from the acoustic model storage unit. A recognition processing unit that performs speech recognition processing and outputs recognition result data including a recognition hypothesis, reads the recognition result data output by the recognition processing unit and text data corresponding to the speech, and reads the recognition result data. To select the path that maximizes the match with the text data and obtain it as the teacher series data, and select the matching section in which the recognition result data and the text data match in the teacher series data The pruning is performed on the time interval that conflicts with the matching interval, and the linguistic unit included in the recognition result data after this pruning is processed. Selection processing for obtaining teacher sequence data to which the posterior probability of the above is added as reliability data for each phoneme included in the linguistic unit, and outputting the teacher sequence data and corresponding acoustic feature data as learning data And
Reading the learning data output from the selection processing unit, obtaining an observation probability of each phoneme included in the learning data using a forward backward algorithm, and the acoustic feature weighted by the observation probability for each phoneme And an acoustic model adaptation unit that updates the acoustic model storage unit using an acoustic model obtained as data.
While the sound processing apparatus according to the fourth aspect prunes the conflicting sections based on the matching section in which the maximum likelihood path and the text data match, the sound processing apparatus according to the sixth aspect recognizes A feature is that the opposite sections are pruned based on the matching section where the entire result data (including hypotheses other than the maximum likelihood path) and the text data match.

また、本発明の一態様は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を備えるコンピュータに、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理過程と、前記認識処理過程で出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理過程と、前記選択処理過程で出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化過程との処理を実行させるプログラム。   In addition, according to one embodiment of the present invention, a computer including an acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature amount corresponding to the phoneme are associated is used with the acoustic model read from the acoustic model storage unit. Based on a recognition processing step of performing speech recognition processing and outputting recognition result data including a recognition hypothesis, and recognition result data output in the recognition processing step, teacher sequence data is acquired and included in the teacher sequence data A selection processing step of adding reliability data to each phoneme, outputting the teacher sequence data to which the reliability data is added and acoustic feature data corresponding to the teacher sequence data as learning data; and the selection The learning data output in the process is read, the observation probability data of each phoneme included in the learning data is calculated, and the learning data is calculated for each phoneme. An acoustic model that updates the acoustic model storage unit based on the acoustic feature amount data included in the data and the calculated observation probability data and using an acoustic model obtained by multiplying the reliability data as a weight A program that performs processing with the adaptation process.

また、さらに、次のA1からA5までの態様として上記課題を解決するようにしても良い。   Furthermore, the above-described problems may be solved as the following aspects A1 to A5.

[A1]本発明の一態様は、上記の音響処理装置において、前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、前記選択処理部は、前記番組ごとに前記学習データを出力し、前記音響モデル適応化部は、当該番組用の前記音響モデルを更新することを特徴とする。
この構成によれば、認識対象の音声は放送等の番組の音声であり、番組ごとに音響モデルを持ち、番組ごとの認識結果を用いて音響モデルの適応化を行なえる。よって、番組ごとに特有の音響的特徴がある場合に、その特有の特徴に応じた適応化を行なうことができ、認識精度が上がり、より多量の学習モデルを獲得できる。
[A1] According to one aspect of the present invention, in the acoustic processing apparatus, the acoustic model storage unit stores the acoustic model for each program, and the recognition processing unit Voice recognition processing is performed using the acoustic model corresponding to the program, the selection processing unit outputs the learning data for each program, and the acoustic model adaptation unit selects the acoustic model for the program. It is characterized by updating.
According to this configuration, the sound to be recognized is the sound of a program such as a broadcast, and each program has an acoustic model, and the acoustic model can be adapted using the recognition result for each program. Therefore, when there is a specific acoustic feature for each program, adaptation according to the unique feature can be performed, recognition accuracy is improved, and a larger amount of learning models can be acquired.

[A2]本発明の一態様は、上記の音響処理装置において、言語モデルを記憶する言語モデル記憶部をさらに具備し、前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とすることを特徴とする。
この構成によれば、認識処理と、認識処理結果を用いた音響モデルの適応化とを、繰り返し行なう場合に、徐々に、言語モデルを用いる重みが相対的に低下する。よって、当初の認識率を高めるために言語モデルの重みを大きめにとった場合にも、音響モデルの適応化の進展に合わせて、言語モデルの重みを減ずることができ、認識精度が上がり、より多量の学習モデルを獲得できる。
[A2] According to one aspect of the present invention, the acoustic processing apparatus further includes a language model storage unit that stores a language model, and the recognition processing unit includes the language model read from the language model storage unit and the language model The acoustic model read from the acoustic model storage unit is weighted with a predetermined weight ratio value and used for recognition processing, and the recognition processing unit is updated by the acoustic model adaptation unit. The recognition process is performed again using an acoustic model, and the weight ratio value used at this time is a value used by the language model with a smaller weight than in the previous recognition process. .
According to this configuration, when the recognition process and the adaptation of the acoustic model using the recognition process result are repeatedly performed, the weight for using the language model gradually decreases. Therefore, even if the language model weight is increased in order to increase the initial recognition rate, the weight of the language model can be reduced in accordance with the progress of adaptation of the acoustic model, and the recognition accuracy is improved. Acquire a large amount of learning models.

[A3]本発明の一態様は、上記の音響処理装置において、前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部とをさらに具備し、前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理することを特徴とする。
この構成によれば、発話モデルを用いて音声区間の中の発話部分の音声区間を切り出す。そして、認識処理の結果得られた学習データを用いて、発話モデルを適応化する。よって、発話部分の音声区間の切り出しと、切り出された音声区間の認識処理と、認識結果に基づく学習データを用いた発話モデルの適応化の処理を繰り返すことができる。よって、音声区間の切り出しの精度が向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
[A3] According to one aspect of the present invention, in the acoustic processing apparatus, an utterance model storage unit that stores an utterance model that represents a feature amount of an utterance portion in the speech, and the utterance read from the utterance model storage unit Update the utterance model stored in the utterance model storage unit using the speech segment cutout unit that cuts out the speech segment of the utterance part in the speech using the model and the learning data output from the selection processing unit An utterance model adaptation unit that performs the recognition processing on the voice in the voice segment cut out by the voice segment cut-out unit.
According to this configuration, the speech section of the speech portion in the speech section is cut out using the speech model. Then, the utterance model is adapted using the learning data obtained as a result of the recognition process. Therefore, it is possible to repeat the extraction of the speech section of the utterance portion, the recognition processing of the extracted speech section, and the adaptation process of the utterance model using the learning data based on the recognition result. Therefore, the accuracy of segmentation of speech sections is improved, the recognition accuracy is increased, and a larger amount of learning models can be acquired.

[A4]本発明の一態様は、上記の音響処理装置において、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段とをさらに具備し、前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、さらに、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備えることを特徴とする。
この構成によれば、話者属性別発話モデルを用いて話者又は話者属性を推定する。また、話者又は話者属性ごとの音響モデルを備えており、前記の推定結果に応じた音響モデルを用いた認識処理を行なう。この認識処理の結果得られる学習データを用いて話者属性別発話モデルの適応化を行なう。この処理を繰り返すことにより、話者属性別発話モデルの質が向上し、話者又は話者属性を推定する精度が向上し、即ち、話者又は話者属性ごとの音響モデルに適した音声区間を切り出す精度が向上する。よって、認識精度が上がり、より多量の学習モデルを獲得できる。
[A4] According to one aspect of the present invention, in the above sound processing apparatus, the speaker attribute-specific utterance model storage unit that stores a speaker attribute-specific utterance model representing a statistic for each speaker or each speaker attribute; Speaker attribute estimation means for estimating a speaker or speaker attributes in a predetermined voice section in the speech using the speaker attribute-specific utterance model read from the speaker attribute-specific utterance model storage means, The acoustic model storage unit stores the acoustic model separately for each speaker or for each speaker attribute, and the recognition processing unit corresponds to the estimation result by the speaker attribute estimation unit. The acoustic model for the speaker or the speaker attribute is read from the acoustic model storage unit, and the speech recognition process is performed using the read acoustic model. For each speaker or each speaker attribute corresponding to the estimation result stored in the speaker attribute-specific utterance model storage unit, using the learning data corresponding to the estimation result by the speaker attribute estimation unit The apparatus includes a speaker attribute-specific utterance model adaptation means for updating the speaker attribute-specific utterance model.
According to this configuration, the speaker or speaker attribute is estimated using the speaker attribute-specific utterance model. In addition, an acoustic model is provided for each speaker or speaker attribute, and recognition processing using an acoustic model corresponding to the estimation result is performed. Using the learning data obtained as a result of this recognition processing, the speech model for each speaker attribute is adapted. By repeating this process, the quality of the utterance model for each speaker attribute is improved, and the accuracy of estimating the speaker or the speaker attribute is improved, that is, the speech section suitable for the acoustic model for each speaker or speaker attribute. The accuracy of cutting out is improved. Therefore, recognition accuracy is improved and a larger amount of learning models can be acquired.

[A5]本発明の一態様は、上記の音響処理装置において、前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものであることを特徴とする。
この構成によれば、前記の推定結果に対応した学習データを用いて、当該推定結果に対応した音響モデルを適応化する。よって、音響モデルの質がより向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
[A5] One aspect of the present invention is that the acoustic model adaptation unit corresponds to the estimation result using the learning data corresponding to the estimation result by the speaker attribute estimation unit in the acoustic processing device. The acoustic model is updated for each speaker or each speaker attribute.
According to this configuration, the learning model corresponding to the estimation result is used to adapt the acoustic model corresponding to the estimation result. Therefore, the quality of the acoustic model is further improved, the recognition accuracy is improved, and a larger amount of learning models can be acquired.

本発明によると、字幕が付与されている様々な番組音声から、大量の音響モデルの学習データを効率的に得ることができる。また、字幕と実際の音声との一致率が低い番組音声からも、より効率的に、音響モデルの学習データを得ることが可能となる。特に、字幕と音声の一致しない区間の一部からも学習データを得ることができる。また、これまで認識できなかった番組や話者の認識が可能になったり、音声認識の認識精度の向上が可能になったりする。   According to the present invention, it is possible to efficiently obtain a large amount of learning data of an acoustic model from various program sounds to which subtitles are assigned. In addition, it is possible to obtain learning data of an acoustic model more efficiently from program audio having a low matching rate between subtitles and actual audio. In particular, learning data can be obtained from a part of a section in which subtitles and audio do not match. In addition, it becomes possible to recognize programs and speakers that could not be recognized before, and to improve the recognition accuracy of voice recognition.

以下、図面を参照しながら本発明の実施形態について説明する。
[第1の実施の形態]
図1は、第1の実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示するように、音響モデル学習装置100は、字幕テキスト記憶部1と、形態素解析処理部2と、重み付け処理部3と、ベースラインコーパス記憶部4と、合成処理部5と、バイアス化言語モデル記憶部6(言語モデル記憶部)と、重み付け処理部7と、番組音声記憶部8と、音響モデル記憶部9と、認識処理部10と、認識仮説記憶部11と、アライメント処理部12と、選択処理部13と、学習データ記憶部14と、音響モデル適応化部15とを含んで構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram illustrating a functional configuration of the acoustic model learning device according to the first embodiment. As shown in the figure, the acoustic model learning device 100 includes a caption text storage unit 1, a morpheme analysis processing unit 2, a weighting processing unit 3, a baseline corpus storage unit 4, a synthesis processing unit 5, and a biased language model. A storage unit 6 (language model storage unit), a weighting processing unit 7, a program audio storage unit 8, an acoustic model storage unit 9, a recognition processing unit 10, a recognition hypothesis storage unit 11, an alignment processing unit 12, A selection processing unit 13, a learning data storage unit 14, and an acoustic model adaptation unit 15 are included.

字幕テキスト記憶部1は、放送番組の字幕テキストのデータを記憶する。形態素解析処理部2は、字幕テキスト記憶部1から読み出した字幕テキストについて、既存技術を用いて形態素解析処理を行い、その結果を、形態素に区切られた列として出力する。   The caption text storage unit 1 stores caption text data of a broadcast program. The morpheme analysis processing unit 2 performs a morpheme analysis process on the subtitle text read from the subtitle text storage unit 1 using an existing technique, and outputs the result as a column divided into morphemes.

重み付け処理部3は、形態素解析された字幕テキストについて、ベースラインコーパスと合成するための重み付けを行なう。つまり、重み付け処理部3は、字幕テキストの出現頻度に重み値Wbiasを乗ずるようなバイアスをかける。ベースラインコーパス記憶部4は、ベースラインコーパスを記憶する。ベースラインコーパスは、電子化された自然言語の大量の文章からなるデータベースである。例えば、蓄積された過去のニュース原稿のテキストをベースラインコーパスとして利用する。なお、ベースラインコーパスに対して予め統計処理を行い、後述する言語モデルに合う形式で記憶しておくようにしても良い。 The weighting processing unit 3 performs weighting for synthesizing the caption text subjected to morphological analysis with the baseline corpus. In other words, the weighting processing unit 3 applies a bias that multiplies the appearance frequency of the caption text by the weight value Wbias . The baseline corpus storage unit 4 stores a baseline corpus. The baseline corpus is a database composed of a large amount of electronic natural language sentences. For example, the accumulated past news manuscript text is used as the baseline corpus. Note that statistical processing may be performed on the baseline corpus in advance and stored in a format suitable for a language model described later.

合成処理部5は、重み付け処理部3によって重み付けされた字幕テキストのデータと、ベースラインコーパス記憶部4から読み出したベースラインコーパスとを用いて、これらを合成し、出現する語に関する統計的な数値とともに表わしたバイアス化言語モデルを作成する。バイアス化言語モデル記憶部6は、合成処理部5によって作成されたバイアス付きの言語モデルを記憶する。言語モデルの詳細については、後で図面を参照しながら説明する。   The synthesis processing unit 5 synthesizes the caption text data weighted by the weighting processing unit 3 and the baseline corpus read from the baseline corpus storage unit 4, and calculates statistical numerical values regarding the appearing words. Create a biased language model expressed with The biased language model storage unit 6 stores the biased language model created by the synthesis processing unit 5. Details of the language model will be described later with reference to the drawings.

重み付け処理部7は、認識処理部10による認識処理のために、バイアス化言語モデル記憶部6に記憶されている言語モデルに対して重み値Wlmによる重み付けを行なう。これにより、認識処理部10は、言語モデルと音響モデルとをWlm:1の重みの比で用いることとなる。 The weighting processing unit 7 weights the language model stored in the biased language model storage unit 6 with the weight value W lm for the recognition processing by the recognition processing unit 10. As a result, the recognition processing unit 10 uses the language model and the acoustic model at a weight ratio of W lm : 1.

番組音声記憶部8は、番組音声を記憶している。この番組音声は、字幕テキスト記憶部1に記憶される字幕テキストのデータと対応するものである。
音響モデル記憶部9は、音素とその音素に対応する音響特徴量とを関連付けた音響モデルのデータを記憶する。音響モデルのデータについては後でも説明する。
The program audio storage unit 8 stores program audio. This program audio corresponds to subtitle text data stored in the subtitle text storage unit 1.
The acoustic model storage unit 9 stores acoustic model data in which a phoneme is associated with an acoustic feature amount corresponding to the phoneme. The acoustic model data will be described later.

認識処理部10は、音響モデル記憶部9から読み出した音響モデルと重み値Wlmによる重み付けをつけた言語モデルとを用いて、番組音声記憶部8から読み出す音声の認識処理を行い、認識仮説(認識結果データ)を出力する。認識仮説記憶部11は、この認識仮説を記憶する。 The recognition processing unit 10 performs speech recognition processing read from the program audio storage unit 8 using the acoustic model read from the acoustic model storage unit 9 and the language model weighted by the weight value W lm , and the recognition hypothesis ( (Recognition result data) is output. The recognition hypothesis storage unit 11 stores this recognition hypothesis.

アライメント処理部12は、形態素解析処理部2によって形態素解析処理済みの字幕テキストデータと、認識仮説記憶部11から読み出す認識仮説との一致部分を見つける処理を行なう。具体的には、アライメント処理部12は、これら両データをサーチし、所定数以上連続して語が一致しているか所定数以上連続して文字が一致している箇所を見つける処理を行なう。   The alignment processing unit 12 performs a process of finding a matching portion between the caption text data that has been subjected to the morphological analysis processing by the morphological analysis processing unit 2 and the recognition hypothesis read from the recognition hypothesis storage unit 11. Specifically, the alignment processing unit 12 searches both of these data, and performs a process of finding a place where a predetermined number of consecutive words match or a predetermined number of consecutive characters match.

選択処理部13は、アライメント処理部12によってアライメントされたデータに基づいて、認識仮説の各パスに信頼度データを付加する処理を行なう。
一例として、選択処理部13は、最尤パスと字幕テキストデータとが一致する区間(およびその区間に含まれる音素)には信頼度1(最高信頼度を表わす)を与え、その他の区間(およびその区間に含まれる音素)には信頼度0(最低信頼度を表わす)を与える。そして、選択処理部13は、信頼度データが付加された認識結果データ(これが教師系列データであり、この系列中に音素が含まれる)と、これに対応する音響特徴量データとを、対応付けて出力する。具体的には、選択処理部13は、このデータを学習データ記憶部14に書き込む。
The selection processing unit 13 performs processing for adding reliability data to each path of the recognition hypothesis based on the data aligned by the alignment processing unit 12.
As an example, the selection processing unit 13 gives a reliability level 1 (representing the maximum reliability level) to a section (and a phoneme included in the section) where the maximum likelihood path and the caption text data match, and other sections (and A degree of reliability of 0 (representing the lowest degree of reliability) is given to the phonemes included in the section. Then, the selection processing unit 13 associates the recognition result data to which the reliability data is added (this is the teacher series data, and the phoneme is included in this series) and the corresponding acoustic feature quantity data. Output. Specifically, the selection processing unit 13 writes this data in the learning data storage unit 14.

学習データ記憶部14は、選択処理部13によって出力される学習データを記憶する。音響モデル適応化部15は、学習データ記憶部14から読み出した学習データを用いて、音響モデル記憶部9に記憶される音響モデルを適応化する(更新する)処理を行なう。   The learning data storage unit 14 stores the learning data output by the selection processing unit 13. The acoustic model adaptation unit 15 performs processing to adapt (update) the acoustic model stored in the acoustic model storage unit 9 using the learning data read from the learning data storage unit 14.

この音響モデル学習装置100の特徴は、音響モデル適応化部15が存在し、選択処理部13によって出力される学習データを用いて、最大事後推定法(MAP)や最尤線形回帰分析法(MLLR)等の適応化技術により、音響モデル記憶部9に記憶されている音響モデルを適応化(更新)し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにした点である。   The acoustic model learning device 100 is characterized in that the acoustic model adaptation unit 15 exists, and the learning data output by the selection processing unit 13 is used to perform maximum a posteriori estimation method (MAP) or maximum likelihood linear regression analysis method (MLLR). ) Etc., the acoustic model stored in the acoustic model storage unit 9 is adapted (updated), and the recognition processing is repeatedly performed using the adapted acoustic model.

また、従来技術と異なり、比較的大きな重み値Wbias(1000程度)と重み値Wlm(16程度)を用いて認識処理を行なう点も、特徴的である。字幕と発話の一致率が低く、自由発話の比率が高い番組では、上記のような重み値を用いることが、認識精度の向上を図りながらより多くの学習データを得られることにつながる。
これは、実験結果からも得られた適切な重み値である。具体的には、本願発明者らが、NHK(日本放送協会)の実際に番組の音声および字幕テキストを用いて行なった実験では、Wbias<5000の領域において、Wlmの変化による単語誤認識率(WER)の差が小さい。また、Wlm<18の領域において、Wbiasの変化による単語誤認識率の差が小さい。そして、Wbias<5000且つWlm<18の場合に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。そして、Wbiasが1000程度でWlmが16程度のときに、特に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。
In addition, unlike the prior art, it is also characteristic that recognition processing is performed using relatively large weight values W bias (about 1000) and weight values W lm (about 16). In a program with a low matching rate between subtitles and utterances and a high ratio of free utterances, using the weight values as described above leads to obtaining more learning data while improving recognition accuracy.
This is an appropriate weight value obtained from experimental results. Specifically, in an experiment conducted by the inventors of the present invention using NHK (Japan Broadcasting Corporation) actual program audio and subtitle text, word misrecognition due to changes in W lm in the region of W bias <5000. The difference in rate (WER) is small. Further, in the region of the W lm <18, the difference between the word erroneous recognition rate due to a change in W bias is small. When W bias <5000 and W lm <18, the word error recognition rate does not increase so much, and the amount of learning data to be obtained increases. When W bias is about 1000 and W lm is about 16, particularly, the word error recognition rate does not increase so much and the amount of learning data to be obtained increases.

次に、言語モデルについて説明する。
図2は、バイアス化言語モデル記憶部6によって記憶され認識処理部10によって認識処理の際に使用される言語モデルのデータの構成を示す概略図である。
図2(a)は、形態素単体での出現確率を表わすテーブルを示す。このテーブルは、表形式のデータであり、形態素と出現確率の項目(列)を有する。テーブルの行は、形態素の種類ごとに存在する。各形態素と、その形態素の出現確率とが関連付けられてこのテーブルに保持される。
図2(b)は、形態素と形態素の接続確率を表わすテーブルである。このテーブルは、表形式のデータであり、形態素1と形態素2と接続確率の項目(列)を有する。テーブルの行は、形態素1と形態素2の組み合わせごとに存在する。各行は、形態素1が出現したときその形態素1に直ちに続いて形態素2が出現する(接続する)確率である接続確率の情報を表わしている。
Next, the language model will be described.
FIG. 2 is a schematic diagram showing the structure of language model data stored in the biased language model storage unit 6 and used in the recognition processing by the recognition processing unit 10.
FIG. 2A shows a table representing the appearance probability of a morpheme alone. This table is tabular data, and has items (columns) of morphemes and appearance probabilities. A table row exists for each morpheme type. Each morpheme and the appearance probability of the morpheme are associated and held in this table.
FIG. 2B is a table showing connection probabilities between morphemes and morphemes. This table is tabular data, and has morpheme 1, morpheme 2, and connection probability items (columns). A table row exists for each combination of morpheme 1 and morpheme 2. Each row represents connection probability information that is a probability that a morpheme 2 appears (connects) immediately following the morpheme 1 when the morpheme 1 appears.

次に、音響モデルについて説明する。
図3は、音響モデル記憶部9によって記憶され認識処理部10によって認識処理の際に使用される音響モデルのデータの構成を示す概略図である。図示するように、音響モデルは、音素と、その音素が発話されるときの音響的特徴量とを関連付けて保持するデータである。音響的特徴量としては、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)や、PLP(Perceptual Linear Predictive)などを用いる。
Next, an acoustic model will be described.
FIG. 3 is a schematic diagram illustrating a configuration of acoustic model data stored in the acoustic model storage unit 9 and used in the recognition processing by the recognition processing unit 10. As shown in the figure, the acoustic model is data that holds a phoneme and an acoustic feature amount when the phoneme is spoken in association with each other. As the acoustic feature quantity, for example, MFCC (Mel-Frequency Cepstrum Coefficient) or PLP (Mel-Frequency Cepstrum Coefficient) based on the frequency power distribution in a 25-millisecond frame starting at intervals of 10 msec. Perceptual Linear Predictive) is used.

次に、認識処理部10による認識結果である認識仮説について説明する。
図4は、認識処理部10によって出力され認識仮説記憶部11によって記憶される認識仮説のデータ構成およびデータ例を示す概略図である。認識仮説は、論理的には、言語的単位(形態素)をアークとするラティス構造(半順序(partial order)構造)のグラフで表現される。
Next, a recognition hypothesis that is a recognition result by the recognition processing unit 10 will be described.
FIG. 4 is a schematic diagram illustrating a data configuration and a data example of a recognition hypothesis output by the recognition processing unit 10 and stored in the recognition hypothesis storage unit 11. The recognition hypothesis is logically represented by a graph of a lattice structure (partial order structure) with linguistic units (morphemes) as arcs.

図4(a)は、表形式で表現される認識仮説のデータ構成を示す。図示するように、表形式で表わした認識仮説は、各行がラティス上の各アークに対応し、始点ノード、終点ノード、言語的単位、信頼度の各項目(列)を有する。始点ノードおよび終点ノードは、ラティス上のノードに便宜的に与えられたノード識別情報を値として持つ。言語的単位は、そのアークに対応する形態素である。信頼度は、認識結果におけるそのアークの信頼度(言語モデルおよび音響モデルを基にした統計的処理で得られる認識結果の信頼度)を表わす数値で表わされるものであり、その数値の範囲は0以上1以下である)。図示しているデータ例は、例えば1行目のデータに相当するアークの始点ノードは「1」であり、終点ノードは「2」であり、言語的単位は「F」である。また例えば2行目のデータに相当するアークの始点ノードは「1」であり、終点ノードは「2」であり、言語的単位は「H」である。3行目以下のデータも同様である。同図では信頼度数値の記載を省略している。   FIG. 4A shows a data structure of recognition hypotheses expressed in a tabular format. As shown in the figure, in the recognition hypothesis expressed in a tabular form, each row corresponds to each arc on the lattice, and has items (columns) of a start point node, an end point node, a linguistic unit, and a reliability. The start point node and the end point node have node identification information given to the nodes on the lattice for convenience. A linguistic unit is a morpheme corresponding to the arc. The reliability is represented by a numerical value representing the reliability of the arc in the recognition result (reliability of the recognition result obtained by statistical processing based on the language model and the acoustic model), and the range of the numerical value is 0. 1 or less). In the illustrated data example, for example, the arc start point node corresponding to the data in the first row is “1”, the end point node is “2”, and the linguistic unit is “F”. Further, for example, the arc start point node corresponding to the data in the second row is “1”, the end point node is “2”, and the linguistic unit is “H”. The same applies to data in the third and subsequent rows. In the figure, the description of the reliability value is omitted.

図4(b)は、図4(a)の表形式のデータが表現するラティスを絵的に表現した概略図である。同図における丸印がそれぞれノードに相当し、アークはノード間を結ぶ矢印付きの線で表わされている。また、各アークに対応する言語的要素が付記されている。例えば一番左のノード(ノード「1」)を始点とするアークは3本あり、それらはそれぞれ、言語的要素が「F」で終点がノード「2」(左から二番目のノード)、言語的要素が「H」で終点がノード「2」、言語的要素が「M」で終点がノード「3」(左から三番目のノード)である。   FIG. 4B is a schematic diagram pictorially representing the lattice represented by the tabular data in FIG. Circles in the figure correspond to nodes, respectively, and arcs are represented by lines with arrows connecting the nodes. In addition, linguistic elements corresponding to each arc are added. For example, there are three arcs starting from the leftmost node (node "1"), each of which has a linguistic element of "F" and an end point of node "2" (second node from the left), language The target element is “H”, the end point is node “2”, the linguistic element is “M”, and the end point is node “3” (the third node from the left).

次に、音響モデル学習装置100の動作および処理手順について説明する。
図5は、音響モデル学習装置100全体の処理手順を示すフローチャートである。
図示するように、ステップS01において、まず形態素解析処理部2が、字幕テキスト記憶部1から読み出した字幕テキストの形態素解析処理を行なう。形態素解析処理は、既存の技術により可能である。
Next, the operation and processing procedure of the acoustic model learning device 100 will be described.
FIG. 5 is a flowchart showing a processing procedure of the entire acoustic model learning apparatus 100.
As shown in the figure, in step S01, first, the morpheme analysis processing unit 2 performs a morpheme analysis process on the subtitle text read from the subtitle text storage unit 1. The morphological analysis process can be performed by an existing technique.

次に、ステップS02において重み値Wbiasを用いて形態素解析処理結果に重み付けをするとともに、ステップS03において重み付けされた形態素解析処理結果とベースラインコーパスとを合成する処理を行なう。具体的には、合成処理部5は、形態素解析処理部2による処理結果を統計処理し、各形態素の出現確率を算出するとともに、2つの連続する形態素間の接続確率を算出し、図2(a)に示した形式の出現確率データおよび図2(b)に示した形式の接続確率データを得る。また、合成処理部5は、ベースラインコーパス記憶部4に記憶されているベースラインコーパスを基に、必要に応じて同様の統計処理を行い、図2(a)に示した形式の出現確率データおよび図2(b)に示した形式の接続確率データを得る。これらのうち形態素解析処理部2による字幕テキスト1の処理結果には重み付け処理部3が重み値Wbiasを用いた重み付けを行い、合成処理部5が両者を合成するための確率計算を行ない、その結果としてバイアス化言語モデルが算出され、これがバイアス化言語モデル記憶部6に書き込まれる。 Next, in step S02, the weight value Wbias is used to weight the morpheme analysis process result, and in step S03, the weighted morpheme analysis process result and the baseline corpus are combined. Specifically, the synthesis processing unit 5 statistically processes the processing result of the morpheme analysis processing unit 2, calculates the appearance probability of each morpheme, calculates the connection probability between two consecutive morphemes, and FIG. Appearance probability data in the format shown in a) and connection probability data in the format shown in FIG. 2B are obtained. Further, the synthesis processing unit 5 performs similar statistical processing as necessary based on the baseline corpus stored in the baseline corpus storage unit 4, and appearance probability data in the format shown in FIG. And connection probability data in the format shown in FIG. Among these, the processing result of the subtitle text 1 by the morphological analysis processing unit 2 is weighted by the weighting processing unit 3 using the weight value Wbias , and the synthesis processing unit 5 performs probability calculation for synthesizing both, As a result, a biased language model is calculated and written into the biased language model storage unit 6.

次に、ステップS04において重み値Wlmを用いてバイアス化言語モデル記憶部6から読み出される言語モデルに重み付けするとともに、ステップ05において認識処理部10は、重み付けされたバイアス化言語モデルと音響モデル記憶部9から読み出した音響モデルを用いて、番組音声記憶部8に記憶されている番組音声の認識処理を行い、その結果として生成される認識仮説を認識仮説記憶部に書き込む。なお、生成される認識仮説は文字列のデータであり、この文字列を形態素ごとに区切る情報を伴っている場合もある。ここで用いられる認識処理自体は、既存技術である。 Next, in step S04, the weight model W lm is used to weight the language model read from the biased language model storage unit 6, and in step 05, the recognition processing unit 10 stores the weighted biased language model and the acoustic model. Using the acoustic model read from the unit 9, the program audio stored in the program audio storage unit 8 is recognized, and the recognition hypothesis generated as a result is written in the recognition hypothesis storage unit. The generated recognition hypothesis is character string data, and may be accompanied by information for dividing the character string into morphemes. The recognition process itself used here is an existing technology.

次に、ステップS06において、アライメント処理部12は、形態素解析処理された字幕テキストと認識処理の結果得られた認識仮説とのアライメント処理を行なう。このアライメント処理は、両データが単語単位で一致する部分を探索することによって行ない、或いは両データ中の複数の単語が連続して一致する区間を探索することによって行なう。アライメント処理の結果、字幕テキストの中の区間と番組音声の中の区間がデータ的に対応付けられる。   Next, in step S06, the alignment processing unit 12 performs an alignment process between the caption text subjected to the morphological analysis process and the recognition hypothesis obtained as a result of the recognition process. This alignment process is performed by searching for a portion in which both data matches in units of words, or by searching for a section in which a plurality of words in both data match continuously. As a result of the alignment process, the section in the caption text and the section in the program audio are associated in terms of data.

次に、ステップS07において、選択処理部13は、認識仮説に信頼度を付加する処理を行なう。具体的な処理の一例は次の通りである。選択処理部13は、まずアライメント処理部12によるアライメント結果を用いて、元の字幕テキストと認識仮説に含まれる最尤パスとが3単語以上連続して一致している一致区間を選択し、その一致区間(およびその区間に含まれる各音素)に対しては、信頼度1を与える。そして、選択処理部13は、その他の区間に対しては信頼度0を与える。そして、選択処理部13は、そのようにして得られた学習データを、学習データ記憶部14に書き込む。   Next, in step S07, the selection processing unit 13 performs a process of adding reliability to the recognition hypothesis. An example of specific processing is as follows. First, the selection processing unit 13 selects a matching section in which the original subtitle text and the maximum likelihood path included in the recognition hypothesis match three or more words continuously using the alignment result by the alignment processing unit 12, A reliability level of 1 is given to the matching section (and each phoneme included in the section). And the selection process part 13 gives the reliability 0 with respect to another area. Then, the selection processing unit 13 writes the learning data thus obtained in the learning data storage unit 14.

次に、ステップS08において、繰り返し処理を終了するか否かを判定する。この判定は、例えば、認識結果の精度が十分かどうかにより行なう。より具体的には、この判定は(a)ステップS05〜S09のループを繰り返した回数(例えば、この回数を3〜4回として良い場合もある)、(b)番組音声全体のうちの選択処理部13によって選択された一致区間の長さの比率、(c)番組音声全体のうちの選択処理部13によって選択された一致区間の前回からの増分比率、などのいずれかによって行なう。
判定の結果、繰り返し処理を終了しない場合(ステップS08:NO)には、次のステップS09に進む。
判定の結果、繰り返しを終了する場合(ステップS08:YES)には、このフローチャート全体の処理を終了する。このとき、学習データ記憶部14に累積的に書き込まれたデータが、本装置による学習処理の結果として得られた音響モデルである。
Next, in step S08, it is determined whether or not to end the repetition process. This determination is made based on, for example, whether the accuracy of the recognition result is sufficient. More specifically, this determination includes (a) the number of times the loop of steps S05 to S09 is repeated (for example, this number may be 3 to 4 times), and (b) a selection process among the entire program audio. The ratio of the length of the coincidence section selected by the unit 13 or (c) an incremental ratio from the previous time of the coincidence section selected by the selection processing unit 13 of the entire program audio is performed.
As a result of the determination, if the repetition process is not terminated (step S08: NO), the process proceeds to the next step S09.
As a result of the determination, when the repetition is finished (step S08: YES), the processing of the entire flowchart is finished. At this time, the data cumulatively written in the learning data storage unit 14 is an acoustic model obtained as a result of the learning process by the present apparatus.

ステップS09においては、音響モデル適応化部15は、得られた学習データを用いて、音響モデル記憶部9に記憶されている音響モデルを適応化する(更新する)処理を行なう。なお、音響モデル適応化部15が如何に学習データを用いて具体的に音響モデルの更新を行うかについては、後で詳述する。   In step S09, the acoustic model adaptation unit 15 performs a process of adapting (updating) the acoustic model stored in the acoustic model storage unit 9, using the obtained learning data. Note that how the acoustic model adaptation unit 15 specifically updates the acoustic model using the learning data will be described in detail later.

上記のように、音響モデル学習装置100は、選択処理部13によって出力される学習データを用いて、音響モデル適応化部15が、音響モデル記憶部9に記憶されている音響モデルを適応化し、さらに適応化された音響モデルを用いて認識処理を繰り返し行なうようにしている。   As described above, the acoustic model learning device 100 uses the learning data output by the selection processing unit 13, the acoustic model adaptation unit 15 adapts the acoustic model stored in the acoustic model storage unit 9, Furthermore, the recognition process is repeatedly performed using the adapted acoustic model.

次に、上述した音響モデル適応化部15による音響モデルの適応化処理について詳しく説明する。本実施形態では、音声認識による音声認識区間rをそのまま用いて音響モデルを学習するため、認識結果の各形態素や音素jの信頼度を導入する。音響モデル適応化部15は、フォワードバックワードアルゴリズムを用いて、各時刻における音素jの観測確率に、信頼度による重みを与えて最尤推定を行ない、これにより得られる平均ベクトルを用いて音響モデル記憶部9に記憶されている音響モデルの更新を行なう。最尤推定により得られる音素(状態)jの平均ベクトルは、下の式(1)により計算される。   Next, acoustic model adaptation processing by the acoustic model adaptation unit 15 described above will be described in detail. In this embodiment, since the acoustic model is learned using the speech recognition section r by speech recognition as it is, the reliability of each morpheme and phoneme j of the recognition result is introduced. The acoustic model adaptation unit 15 performs maximum likelihood estimation by assigning a weight based on the reliability to the observation probability of the phoneme j at each time by using the forward backward algorithm, and uses the average vector obtained thereby to perform the acoustic model. The acoustic model stored in the storage unit 9 is updated. The average vector of phonemes (states) j obtained by maximum likelihood estimation is calculated by the following equation (1).

Figure 2010055030
Figure 2010055030

Figure 2010055030
Figure 2010055030

は、音声認識による音声切り出し区間rの時刻tにおける特徴量の観測ベクトルである。また、 Is an observation vector of the feature quantity at time t of the voice extraction section r by voice recognition. Also,

Figure 2010055030
Figure 2010055030

は、音声切り出し区間rの時刻tにおける音素jの観測確率である。なお、音響モデル適応化部15が、動的計画法の一種であるフォワードバックワードアルゴリズムによる手順を実行することにより、この観測確率を得ることができる。
また、
Is the observation probability of the phoneme j at the time t of the speech segmentation interval r. The observation probability can be obtained by the acoustic model adaptation unit 15 executing a procedure based on a forward backward algorithm which is a kind of dynamic programming.
Also,

Figure 2010055030
Figure 2010055030

は、音声切り出し区間rにおける音素jの信頼度である。
本実施形態では、選択処理部13は、次の式(2)により信頼度を与えている。
Is the reliability of phoneme j in the speech segmentation interval r.
In the present embodiment, the selection processing unit 13 gives the reliability by the following equation (2).

Figure 2010055030
Figure 2010055030

つまり、認識結果の最尤仮説のパスと元の字幕テキストとが一致する区間においては信頼度は1(信頼度最大を表わす)であり、その他の区間においては信頼度0(信頼度最低を表わす)とする。   In other words, the reliability is 1 (represents the maximum reliability) in the interval where the path of the maximum likelihood hypothesis of the recognition result matches the original caption text, and the reliability is 0 (represents the lowest reliability) in the other intervals. ).

図6は、本実施形態において選択処理部13が付加する信頼度の例を表わす概略図であり、最尤仮説のパスと書き起こしによる字幕テキストの一致を利用する方法による信頼度を表わしている。図6(a)は、書き起こしによる字幕テキストに対応するグラフを示す。図示するように、字幕テキストに対応するグラフは、形態素a、b、c、d、eにそれぞれ対応するアークが直列につながって構成されている。図6(b)は、最尤仮説の教師単語列に対応するグラフを示す。図示するように、最尤仮説に対応するグラフは、形態素a、f、c0、c1、q、e´にそれぞれ対応するアークが直列につながって構成されている。また、図6(b)に付記されている括弧内の数値は、信頼度である。本例において両者を比較すると、形態素aおよびdが一致しており、その他の形態素は不一致である。したがって、選択処理部13は、形態素aおよびdの区間にはそれぞれ信頼度1.0を与え、その他の区間には信頼度0.0を与えている。
そして、選択処理部13は、各々の区間の信頼度を、その区間に含まれる音素の信頼度として付加する。
FIG. 6 is a schematic diagram showing an example of the reliability added by the selection processing unit 13 in the present embodiment, and shows the reliability by the method using the match between the maximum likelihood hypothesis path and the subtitle text by transcription. . FIG. 6A shows a graph corresponding to subtitle text by transcription. As shown in the drawing, the graph corresponding to the subtitle text is configured by connecting arcs corresponding to the morphemes a, b, c, d, and e in series. FIG. 6B shows a graph corresponding to the maximum likelihood hypothesis teacher word string. As shown in the figure, the graph corresponding to the maximum likelihood hypothesis is configured by connecting arcs corresponding to morphemes a, f, c0, c1, q, and e ′ in series. Moreover, the numerical value in the parenthesis attached to FIG.6 (b) is a reliability. When both are compared in this example, morphemes a and d match, and the other morphemes do not match. Therefore, the selection processing unit 13 gives a reliability of 1.0 to the sections of the morphemes a and d, and gives a reliability of 0.0 to the other sections.
And the selection process part 13 adds the reliability of each area as the reliability of the phoneme contained in the area.

本実施形態による音響処理装置の特徴は、音声認識による音声切り出し区間rをそのまま用いて音響モデルの学習を行なうため、認識結果に含まれる状態(単語や音素)jの信頼度を導入した点にある。そして、音響モデル適応化部15が音響モデルの統計量の推定を行なう際に、フォワードバックワードアルゴリズムにより得られる音素jの観測確率に、信頼度による重みを与えている。そして、音響モデル適応化部15は、上記の式(1)による計算で得られる音素jの平均ベクトルを用いて、音響モデル記憶部9に記憶されている音響モデルを更新する。   The feature of the acoustic processing apparatus according to the present embodiment is that the reliability of the state (word or phoneme) j included in the recognition result is introduced because the acoustic model is learned using the speech extraction section r by speech recognition as it is. is there. When the acoustic model adaptation unit 15 estimates the statistics of the acoustic model, a weight based on reliability is given to the observation probability of the phoneme j obtained by the forward backward algorithm. And the acoustic model adaptation part 15 updates the acoustic model memorize | stored in the acoustic model memory | storage part 9 using the average vector of the phoneme j obtained by calculation by said Formula (1).

また、式(2)で表わされる信頼度を付与することにより、認識結果の最尤パスと字幕テキストの一致区間に含まれる音素に対応付けられた特徴量のみを、音響モデルの学習に利用することができる。   Further, by assigning the reliability expressed by the expression (2), only the feature amount associated with the phoneme included in the matching section between the maximum likelihood path of the recognition result and the caption text is used for learning the acoustic model. be able to.

なお、式(1)による計算では最尤推定に基づく特微量の平均ベクトルを得てこれを音響モデルの適応化に用いたが、その代わりに、最尤推定に基づく分散や混合重みなどを用いて音響モデルを更新するようにしても良い。さらに、最尤推定に限らず、MAP推定(maximum a posteriori estimation、最大事後確率推定)やMLLR(Maximum Likelihood Linear Regression、最尤線形回帰)推定などを用いるようにしても良い。   In the calculation by equation (1), an extraordinary average vector based on maximum likelihood estimation is obtained and used for adaptation of the acoustic model. Instead, variance or mixing weight based on maximum likelihood estimation is used. The acoustic model may be updated. Further, not limited to maximum likelihood estimation, MAP estimation (maximum a posteriori estimation) or MLLR (Maximum Likelihood Linear Regression) estimation may be used.

ここで、仮に、   Here, tentatively

Figure 2010055030
Figure 2010055030

をすべての区間において等しく1にすると、これは、認識結果と字幕テキストの一致に関する情報を全く利用しない教師なし学習となる。 Is equal to 1 in all intervals, this is an unsupervised learning that does not use any information regarding the match between the recognition result and the caption text.

また、上記の方法では、フォワードバックワードアルゴリズムにより得られる観測確率を用いたが、その代わりに、例えばビタビアルゴリズムを用いて得られる最尤パス(ビタビパス)を利用するようにしても良い。この場合は、最尤パス上の観測確率には1を与え、その他のパス上の観測確率には0を与えるようにする。   In the above method, the observation probability obtained by the forward backward algorithm is used. Instead, a maximum likelihood path (Viterbi path) obtained by using, for example, the Viterbi algorithm may be used. In this case, 1 is given to the observation probability on the maximum likelihood path, and 0 is given to the observation probability on the other paths.

図7は、音響モデル学習装置100による音響モデルの学習の概略を補足的に説明するための図である。
図7において、形態素解析結果は字幕テキストを形態素解析して得られたデータであり、このデータは形態素(単語)の一次元的な列である(図中のそれぞれの四角が形態素に相当)。また、認識結果は、認識処理部10による音声認識処理の結果得られる認識仮説のラティスに含まれるパスの一部に相当するデータである(図中のそれぞれの四角が形態素に相当)。そして、この図においては形態素解析結果と最尤パスとが一致する一致区間をハッチングで表わしている。また、これらの各々の区間には、音響特徴量および信頼度が対応付いている。本実施形態では、上記の一致区間の信頼度は1.0であり、その他の区間の信頼度は0.0である。そして、各区間に含まれる音素と、対応する音響特徴量と、対応する信頼度とを関連付けたものが、選択処理部13によって得られる学習データである。
FIG. 7 is a diagram for supplementarily explaining an outline of learning of an acoustic model by the acoustic model learning device 100.
In FIG. 7, the morpheme analysis result is data obtained by morphological analysis of the caption text, and this data is a one-dimensional column of morphemes (words) (each square in the figure corresponds to a morpheme). The recognition result is data corresponding to a part of a path included in the lattice of the recognition hypothesis obtained as a result of the speech recognition processing by the recognition processing unit 10 (each square in the figure corresponds to a morpheme). In this figure, the coincidence section where the morphological analysis result and the maximum likelihood path coincide is indicated by hatching. Each of these sections is associated with an acoustic feature amount and reliability. In the present embodiment, the reliability of the matching section is 1.0, and the reliability of the other sections is 0.0. Learning data obtained by the selection processing unit 13 is obtained by associating a phoneme included in each section, a corresponding acoustic feature amount, and a corresponding reliability.

本実施形態では、認識処理の結果である学習データを用いて、音響モデルの適応化を行なっている。そして、適応化された音響モデルを用いて再度認識を行い、学習データを生成する。この音響モデルの適応化と、適応化された音響モデルを用いた認識処理を繰り返すことにより、学習データの正確性が増し、より多くの量の学習データを効率的に得ることができる。   In the present embodiment, the acoustic model is adapted using the learning data that is the result of the recognition process. And it recognizes again using the adapted acoustic model, and produces | generates learning data. By repeating the adaptation of the acoustic model and the recognition process using the adapted acoustic model, the accuracy of the learning data is increased, and a larger amount of learning data can be efficiently obtained.

[第2の実施の形態]
次に第2の実施形態について説明する。本実施形態では、認識結果の単語ラティスを用いて、最尤パスと字幕テキストとの一致区間以外の形態素をも学習データとして利用する。
なお、以下では、本実施形態特有の部分のみを説明し、その他の部分については前記の実施形態1と同様であるため説明を省略する。
[Second Embodiment]
Next, a second embodiment will be described. In the present embodiment, using the word lattice of the recognition result, morphemes other than the matching interval between the maximum likelihood path and the caption text are also used as learning data.
In the following, only the parts specific to the present embodiment will be described, and the other parts are the same as those in the first embodiment, and the description thereof will be omitted.

本実施形態においては、選択処理部13は、認識仮説のラティスの枝刈り処理を行い、枝刈りの後のラティス内の最尤パスの各形態素の事後確率を求め、この事後確率を各形態素および形態素内の各音素の信頼度として付与する。ここで、枝刈りの対称となるのは、ある時間において最尤パスと対立するすべてのパスである。このような枝刈り処理の結果として、最尤パスと字幕テキストが一致する区間の各形態素の信頼度は1(信頼度最大を表わす)となる。つまり、最尤パスと字幕テキストが一致する区間の形態素については、第1の実施形態と同様の学習を行なうこととなる。   In the present embodiment, the selection processing unit 13 performs a pruning process of the recognition hypothesis lattice, obtains a posterior probability of each morpheme of the maximum likelihood path in the lattice after the pruning, and calculates the posterior probability as each morpheme and It is given as the reliability of each phoneme in the morpheme. Here, the pruning symmetry is all paths that conflict with the maximum likelihood path at a certain time. As a result of such pruning processing, the reliability of each morpheme in the section where the maximum likelihood path and the caption text match is 1 (represents the maximum reliability). That is, learning similar to that in the first embodiment is performed for the morphemes in the section where the maximum likelihood path and the caption text match.

次に、選択処理部13による認識仮説の枝刈りの処理についてより詳細に説明する。
図8は、選択処理部13によって枝刈りされた後の認識仮説のデータ例を示す概略図である。そして、図4に示したデータが、選択処理部13によって枝刈りされる前の認識仮説のデータである。
まず、選択処理部13は、図4に示した認識仮説のデータと字幕テキストのデータとの一致区間を選択する。ここでは選択処理部13は1形態素以上連続して両者が一致する区間を一致区間として選択するものとする。その結果、形態素B(始点ノードが「2」で終点ノードが「3」)と形態素C(始点ノードが「3」で終点ノードが「4」)と形態素E(始点ノードが「5」で終点ノードが「6」)が一致区間として選択される。
Next, the recognition hypothesis pruning process by the selection processing unit 13 will be described in more detail.
FIG. 8 is a schematic diagram illustrating an example of recognition hypothesis data after pruning by the selection processing unit 13. The data shown in FIG. 4 is the recognition hypothesis data before being pruned by the selection processing unit 13.
First, the selection processing unit 13 selects a matching section between the recognition hypothesis data and caption text data shown in FIG. Here, it is assumed that the selection processing unit 13 selects a section in which one or more morphemes are continuously matched as a matching section. As a result, morpheme B (start node is “2” and end node is “3”), morpheme C (start node is “3” and end node is “4”) and morpheme E (start point node is “5” and end point) Node “6”) is selected as the matching section.

その後、選択処理部13は、上で選択された一致区間の時間を含み且つ字幕テキストのデータとは一致しない認識仮説を枝刈りする。具体的には、図4に示した形態素Bの区間の時間を含み且つ形態素Bとは一致しない認識仮説(言い換えれば、形態素Bと対立する認識仮説)である形態素IとMとNは、選択処理部13による枝刈りの対象となる。同様に、一致区間として選択された形態素Cと対立する認識仮説である形態素JとNとOは、選択処理部13による枝刈りの対象となる。同様に、一致区間として選択された形態素Eと対立する認識仮説である形態素LとPは、選択処理部13による枝刈りの対象となる。
つまり、図4に示すラティスのうち、形態素IとJとLとMとNとOとPのそれぞれのアークが選択処理部13によって枝刈りされる。その枝刈りの結果として残るのは、形態素BとCとEとFとGとHとKのそれぞれのアークであり、これらのアークに対応するデータが、図8に示すデータである。
After that, the selection processing unit 13 prunes a recognition hypothesis that includes the time of the matching section selected above and does not match the caption text data. Specifically, morphemes I, M, and N that are recognition hypotheses that include the time of the morpheme B section shown in FIG. 4 and that do not match morpheme B (in other words, recognition hypotheses that oppose morpheme B) This is a target of pruning by the processing unit 13. Similarly, morphemes J, N, and O, which are recognition hypotheses that oppose the morpheme C selected as the coincidence section, are subject to pruning by the selection processing unit 13. Similarly, morphemes L and P, which are recognition hypotheses that oppose the morpheme E selected as the coincidence section, are subject to pruning by the selection processing unit 13.
That is, in the lattice shown in FIG. 4, the arcs of morphemes I, J, L, M, N, O, and P are pruned by the selection processing unit 13. As a result of the pruning, the arcs of morphemes B, C, E, F, G, H, and K are left, and the data corresponding to these arcs is the data shown in FIG.

図8(a)は、そのようなラティス構造のグラフを表わす表形式のデータであり、この表は、前記の形態素BとCとEとFとGとHとKに対応する行のデータを有している。またこの表において、形態素BとCとEは、それぞれ一致区間に含まれていたものであるため、その結果として、選択処理部13は、これらの形態素に対応する信頼度がいずれも最高の1となるように認識仮説のデータを更新している。また、その他の、形態素FとHとKとGのアークについては、選択処理部13は、枝刈り後の事後確率を算出し、その算出結果をそれぞれの信頼度データとして認識仮説のデータを更新する。図示する例では、形態素Fの信頼度は0.1、形態素Hの信頼度は0.9、形態素Kの信頼度は0.2、形態素Gの信頼度は0.8である。
図8(b)は、図8(a)の表形式のデータが表現するラティスを絵的に示した概略図である。
FIG. 8A shows tabular data representing such a lattice structure graph. This table shows data of rows corresponding to the morphemes B, C, E, F, G, H, and K. Have. In this table, since morphemes B, C, and E are included in the coincidence sections, as a result, the selection processing unit 13 has the highest reliability corresponding to these morphemes. The data of the recognition hypothesis is updated so that For other morpheme F, H, K, and G arcs, the selection processing unit 13 calculates posterior probabilities after pruning, and updates the recognition hypothesis data using the calculated results as respective reliability data. To do. In the illustrated example, the reliability of the morpheme F is 0.1, the reliability of the morpheme H is 0.9, the reliability of the morpheme K is 0.2, and the reliability of the morpheme G is 0.8.
FIG. 8B is a schematic diagram pictorially showing the lattice represented by the tabular data in FIG.

なお、選択処理部13が事後確率を算出する方法は次の通りである。選択処理部13は、動的計画法の一種であるフォワードバックワードアルゴリズムを用いることで、デコーダー(認識処理部10)の出力から得られる形態素mのスコアL(m)を基に、事後確率を算出する。ここで、L(m)としては、音響モデルの尤度、言語モデルの尤度、あるいはそれらの和を用いる。まず、形態素mの前向き確率α(m)と後ろ向き確率β(m)とを以下の式(3)〜(7)の通り定義する。   The method by which the selection processing unit 13 calculates the posterior probability is as follows. The selection processing unit 13 uses the forward backward algorithm, which is a kind of dynamic programming, to calculate the posterior probability based on the score L (m) of the morpheme m obtained from the output of the decoder (recognition processing unit 10). calculate. Here, the likelihood of the acoustic model, the likelihood of the language model, or the sum thereof is used as L (m). First, the forward probability α (m) and the backward probability β (m) of the morpheme m are defined as the following equations (3) to (7).

Figure 2010055030
Figure 2010055030

Figure 2010055030
Figure 2010055030

Figure 2010055030
Figure 2010055030

Figure 2010055030
Figure 2010055030

Figure 2010055030
Figure 2010055030

ここでは、事後確率を計算するため、図4(b)などに示したラティスの両端に、それぞれ、始端単語と終端単語に相当するアークを追加する。始端単語はその図のラティスの左端に追加され、「b」と表わされる。終端単語はその図のラティスの右端に追加され、「e」と表わされる。ここで前向きとは、始端から終端の方向であり、図のラティスでは左から右の方向である。また後ろ向きとは、終端から始端の方向であり、図のラティスでは右から左の方向である。また、LEFT(m)は、形態素mに左から(つまり始端側から)接続する形態素の集合である。また、RIGHT(m)は、形態素mに右から(つまり終端側から)接続する形態素の集合である。   Here, in order to calculate the posterior probability, arcs corresponding to the start word and the end word are added to both ends of the lattice shown in FIG. The starting word is added to the left end of the lattice in the figure and is represented as “b”. The end word is added to the right end of the lattice in the figure and is represented as “e”. Here, the forward direction is the direction from the start to the end, and in the lattice in the figure, the direction is from left to right. The backward direction is the direction from the end to the start, and in the lattice in the figure, the direction is from right to left. LEFT (m) is a set of morphemes connected to the morpheme m from the left (that is, from the start end side). RIGHT (m) is a set of morphemes connected to the morpheme m from the right (that is, from the terminal side).

式(3)に表わすように、始端単語(b)の前向き確率は1.0である。また、式(4)に表わすように、終端単語(e)の後ろ向き確率は1.0である。
式(5)に表わすように、形態素mの前向き確率は、形態素mに左から接続する各形態素m´の前向き確率α(m´)に当該形態素mのスコアL(m)を乗じた値の、左から接続する全ての形態素についての総和である。このように前向き確率は再帰的な定義となっているが、始端単語から前向きに順次計算していくことにより、ラティス中の全ての形態素の前向き確率を算出できる。
式(6)に表わすように、形態素mの後ろ向き確率は、形態素mに右から接続する各形態素m´の後ろ向き確率β(m´)に当該形態素mのスコアL(m)を乗じた値の、右から接続する全ての形態素についての総和である。このように後ろ向き確率は再帰的な定義となっているが、終端単語から後ろ向きに順次計算していくことにより、ラティス中の全ての形態素の後ろ向き確率を算出できる。
式(7)に表わすように、終端単語の前向き確率および始端単語の後ろ向き確率をZとする。
As shown in Expression (3), the forward probability of the start word (b) is 1.0. Further, as shown in Expression (4), the backward probability of the terminal word (e) is 1.0.
As shown in Expression (5), the forward probability of the morpheme m is a value obtained by multiplying the forward probability α (m ′) of each morpheme m ′ connected to the morpheme m from the left by the score L (m) of the morpheme m. , The sum of all morphemes connected from the left. Thus, the forward probability is recursively defined. However, the forward probability of all the morphemes in the lattice can be calculated by sequentially calculating forward from the start word.
As shown in Expression (6), the backward probability of the morpheme m is a value obtained by multiplying the backward probability β (m ′) of each morpheme m ′ connected to the morpheme m from the right by the score L (m) of the morpheme m. , The sum of all morphemes connected from the right. As described above, the backward probability is recursively defined, but the backward probability of all morphemes in the lattice can be calculated by sequentially calculating backward from the terminal word.
As shown in Expression (7), let Z be the forward probability of the end word and the backward probability of the start word.

そして、形態素mの事後確率γ(m)は、α、β、Zを用いて、式(8)により算出することができる。   Then, the posterior probability γ (m) of the morpheme m can be calculated by Expression (8) using α, β, and Z.

Figure 2010055030
Figure 2010055030

以上のように、選択処理部13は、認識結果に含まれる最尤パスと字幕テキストとの一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り処理の結果を教師系列データとして取得し、この教師系列データに含まれる形態素ごとの事後確率をその形態素に含まれる音素の信頼度データとして付加する。
そして、音響モデル適応化部15は、選択処理部13が得た信頼度データを用いて、第1の実施形態と同様に、例えば前記の式(1)を用いて音素に対応するベクトルの更新式を得て、これにより音響モデル記憶部9に記憶された音響モデルを更新する。
As described above, the selection processing unit 13 performs the process of pruning the matching section between the maximum likelihood path and the caption text included in the recognition result and the section that conflicts on the time axis, and the result of the pruning process is instructed. Acquired as sequence data, and the posterior probability of each morpheme included in the teacher sequence data is added as reliability data of phonemes included in the morpheme.
Then, the acoustic model adaptation unit 15 uses the reliability data obtained by the selection processing unit 13 to update the vector corresponding to the phoneme using the above formula (1), for example, as in the first embodiment. An equation is obtained, and thereby the acoustic model stored in the acoustic model storage unit 9 is updated.

[第3の実施の形態]
次に第3の実施形態について説明する。本実施形態では、選択処理部13が、第2の実施形態における枝刈り処理と同様の処理を行なう。そして、枝刈り後の認識結果のラティスに対して、直接フォワードバックワードアルゴリズムによる処理を行い、各音素の統計量を学習する。この場合、フォワードバックワードアルゴリズムの処理より得られる観測確率に、既に信頼度が含まれる。
[Third Embodiment]
Next, a third embodiment will be described. In the present embodiment, the selection processing unit 13 performs the same process as the pruning process in the second embodiment. The recognition result after pruning is directly processed by the forward backward algorithm to learn the statistic of each phoneme. In this case, the reliability is already included in the observation probability obtained by the processing of the forward backward algorithm.

第2の実施形態の場合と同様に本実施形態においても、選択処理部13は、枝刈り処理を行なう結果、最尤パスと字幕テキストとの一致区間では信頼度1(信頼度最大を表わす)を付与する。一方で、最尤パスと字幕テキストが一致しない区間においては、選択処理部13は、各々のパスの事後確率に応じた信頼度を付与する。   As in the case of the second embodiment, also in this embodiment, the selection processing unit 13 performs the pruning process. As a result, the reliability is 1 (represents the maximum reliability) in the matching section between the maximum likelihood path and the caption text. Is granted. On the other hand, in a section in which the maximum likelihood path and the caption text do not match, the selection processing unit 13 gives reliability according to the posterior probability of each path.

そして、音響モデル適応化部15は、得られている観測ベクトルと、選択処理部13により求められた観測確率とに基づき、下の式(9)を用いて音素jの平均ベクトルを計算する。   Then, the acoustic model adaptation unit 15 calculates the average vector of the phoneme j using the following equation (9) based on the obtained observation vector and the observation probability obtained by the selection processing unit 13.

Figure 2010055030
Figure 2010055030

この式(9)においては、   In this equation (9),

Figure 2010055030
Figure 2010055030

は、区間rの時刻tにおける音素jの観測確率であり、この観測確率は上述したフォワードバックワードアルゴリズムによる処理を用いた方法で選択処理部13によって算出されたものであり、信頼度が含まれている。 Is the observation probability of phoneme j at time t in section r, and this observation probability is calculated by the selection processing unit 13 by a method using the processing based on the forward backward algorithm described above, and includes the reliability. ing.

本実施形態で上記の平均ベクトルを計算する場合、式(9)からも明らかなように、ある時刻において対立する複数のパス(候補)間で、共通して出現する度合いの高い音素については、対立候補それぞれにおける当該音素の観測確率がすべて加算されるため、当該音素に対応する観測ベクトルの影響が強く効いた平均ベクトルが算出される。一方で、同じく式(9)からわかるように、対立する複数のパスのいずれかにしか現れない音素については、そのパス中の音素に対応する観測ベクトルが平均ベクトルには強い影響を与えない。   When calculating the above average vector in the present embodiment, as is clear from the equation (9), for phonemes having a high degree of common appearance among a plurality of paths (candidates) that conflict at a certain time, Since all the observation probabilities of the phoneme in each of the opposing candidates are added, an average vector in which the influence of the observation vector corresponding to the phoneme is highly effective is calculated. On the other hand, as can be seen from the equation (9), for a phoneme that appears only in any of a plurality of conflicting paths, the observation vector corresponding to the phoneme in that path does not strongly affect the average vector.

図9は、対立する複数のパス間で共通して出現する音素の例を示す概略図である。この図に沿って本実施形態の特徴を補足説明する。この図における時間軸は左から右への方向である。また、この図に示す認識結果のラティスは対立する2系列のパスを含んでいる。図における上側のパスは、音素j、j、jからなる形態素と、音素j、j、jからなる形態素を含んでいる。また、下側のパスは、音素j、j、jからなる形態素と、音素j、j、j10からなる形態素を含んでいる。ここで、各々の音素の観測確率が時刻tをパラメタとする関数になることは式(9)にも表わされているとおりであるが、上記の音素j〜j10のうちjとjだけは上側のパスと下側のパスの両方に共通して出現している。従って、式(9)によれば、このような音素jおよびjは、認識結果のラティス全体の中の図示している部分から学習データを得るのに、他の音素(jと、j〜j10)に比べてより大きな重みで作用する。 FIG. 9 is a schematic diagram illustrating an example of phonemes that appear in common between a plurality of conflicting paths. The features of this embodiment will be supplementarily described with reference to this figure. The time axis in this figure is from left to right. The lattice of the recognition result shown in this figure includes two opposing paths. The upper path in the figure includes a morpheme consisting of phonemes j 1 , j 2 and j 3 and a morpheme consisting of phonemes j 4 , j 5 and j 6 . The lower path includes a morpheme composed of phonemes j 7, j 2, j 3 , morphemes consisting of phonemes j 8, j 9, j 10 . Here, the fact that the observation probability of each phoneme becomes a function having time t as a parameter is as shown in the equation (9), but j 2 of the above phonemes j 1 to j 10 and j 3 only has appeared common to both the upper path and a lower path. Thus, according to equation (9), such phonemes j 2 and j 3 can be used to obtain learning data from the illustrated portion of the overall lattice of the recognition result, while other phonemes (j 1 , j 4 to j 10 ), which acts with a greater weight.

以上述べたように、本実施形態では、選択処理部13は、認識結果データに含まれる最尤パスと字幕テキストのデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる形態素ごとの事後確率を当該形態素に含まれる各々の音素に対する信頼度データとして実質的に付加し、この信頼度データが付加された教師系列データ(ラティス)とそれに対応する音響特徴量データとを、学習データとして出力する処理を行なう。
そして、音響モデル適用化部15は、学習データ記憶部14からこの学習データを読み込み、フォワードバックワードアルゴリズムを用いて、教師系列データ(ラティス)に含まれる各音素の観測確率を求め、この観測確率で重み付けられた観測ベクトルの平均ベクトルを音素ごとに算出し、得られた平均ベクトルを音響モデルとして用いて音響モデル記憶部に記憶されている音響モデルを適応化する。
As described above, in the present embodiment, the selection processing unit 13 performs a process of pruning a matching section in which the maximum likelihood path included in the recognition result data and the subtitle text data coincide with a section that conflicts on the time axis. The posterior probability for each morpheme included in the recognition result data after the branch hunting is substantially added as reliability data for each phoneme included in the morpheme, and the teacher sequence data ( Lattice) and corresponding acoustic feature data are processed as learning data.
Then, the acoustic model application unit 15 reads the learning data from the learning data storage unit 14, obtains the observation probability of each phoneme included in the teacher sequence data (lattice) using the forward backward algorithm, and the observation probability The average vector of the observation vectors weighted in step (b) is calculated for each phoneme, and the acoustic model stored in the acoustic model storage unit is adapted using the obtained average vector as the acoustic model.

このように、本実施形態による方法では、対立する複数の候補間で、含まれる音素のバリエーションに応じた結果が得られることとなる。   As described above, in the method according to the present embodiment, a result corresponding to the variation of phonemes included is obtained between a plurality of conflicting candidates.

[第4の実施形態]
次に、第4の実施形態を説明する。第1〜第3の実施形態が最尤パスと字幕テキストが一致する区間を基準として教師系列を求めていたのに対し、本実施形態の特徴は、認識結果のラティスと字幕テキストが一致する区間を基準として教師系列を作成する点である。
本実施形態では、選択処理部13は、認識結果のラティスと字幕テキストとのビタビアライメントを取ることにより、認識結果のラティスと字幕テキストが一致する区間を基に教師系列を得る。
[Fourth Embodiment]
Next, a fourth embodiment will be described. Whereas the first to third embodiments obtain the teacher sequence based on the section where the maximum likelihood path and the caption text match, the feature of this embodiment is that the recognition result lattice and the caption text match. The teacher series is created based on the above.
In the present embodiment, the selection processing unit 13 obtains a teacher sequence based on a section where the recognition result lattice matches the caption text by performing Viterbi alignment between the recognition result lattice and the caption text.

図6が最尤パスと字幕テキストとが一致する区間を用いた方法を説明しているのに対して、図10は、本実施形態による選択処理部13が、認識結果のラティスと字幕テキストの一致区間を抽出する処理を概念的に説明する概略図である。図示する例では、(a)の書き起こしの字幕テキストデータは、a−b−c−d−eという5つの形態素に対応するアークが直列する形のグラフによって表わされる。一方で、(b)の認識結果のラティスは、複数の対立候補のアーク(各々のアークは形態素に対応する)を含んだ構造を有しており、字幕テキストデータに対応する形態素a、b、c、eの他にも、形態素c0やc1やe´や、その他(f、g、h、i、j、k、l、m、n、・・・、以下記載省略)の形態素に対応するアークを含んでいる。そして、(c)は、(a)の字幕テキストと(b)の認識結果のラティスを基に、これらの一致区間を抽出して得られた教師形態素列を示している。(c)の例は、a−b−c−g−eという5つの形態素に対応するアークが直列する形のグラフを表わしている。ここで、形態素a、b、c、eは字幕テキストと認識結果のラティスが一致する区間であるため、選択処理部13は、それらに信頼度1.0を付与している。また、字幕テキストにおける形態素dに一致するパスが認識結果のラティス内に存在しないため、選択処理部13は、それに対応する時間の区間からは形態素gを選択するとともに、それに信頼度0.1を付与している。ここで、(b)に示した認識結果のラティスにおける最尤パスは、形態素c0−c1の系列を含み、また形態素e´の系列を含んでいるが、これらc0、c1、e´はいずれも字幕テキストと一致するものではない。そこで、選択処理部13は、c0−c1の系列に対立する区間からcを選び、また、e´に対立する区間であるeを選んでいる。これは、前述の通り、cおよびeがそれぞれ字幕テキストと一致するためである。   FIG. 6 illustrates a method using a section in which the maximum likelihood path and caption text match, whereas FIG. 10 illustrates a case where the selection processing unit 13 according to the present embodiment performs a recognition result lattice and caption text. It is the schematic which illustrates notionally the process which extracts a coincidence area. In the illustrated example, the transcription subtitle text data of (a) is represented by a graph in which arcs corresponding to five morphemes ab-c-d-e are arranged in series. On the other hand, the recognition result lattice of (b) has a structure including a plurality of conflict candidate arcs (each arc corresponding to a morpheme), and the morphemes a, b, In addition to c and e, it corresponds to morphemes c0, c1 and e ′, and other (f, g, h, i, j, k, l, m, n,..., omitted hereinafter) morphemes. Contains an arc. Then, (c) shows a teacher morpheme string obtained by extracting these matching sections based on the subtitle text of (a) and the lattice of the recognition result of (b). The example of (c) represents a graph in which arcs corresponding to five morphemes ab-c-g-e are connected in series. Here, since the morphemes a, b, c, and e are sections in which the caption text and the lattice of the recognition result match, the selection processing unit 13 gives the reliability 1.0. In addition, since there is no path that matches the morpheme d in the caption text in the lattice of the recognition result, the selection processing unit 13 selects the morpheme g from the corresponding time interval and sets the reliability 0.1. Has been granted. Here, the maximum likelihood path in the lattice of the recognition result shown in (b) includes a sequence of morphemes c0 to c1, and also includes a sequence of morphemes e ′. These c0, c1, and e ′ are all included. Does not match subtitle text. Therefore, the selection processing unit 13 selects c from the sections that conflict with the c0-c1 series, and also selects e that is the section that conflicts with e ′. This is because c and e match the subtitle text as described above.

上記の処理に具体例を当てはめると次の通りである。
例えば、形態素cは「ですから」であり、形態素c0−c1の系列は「です/から」に対応する。本実施形態の方法では、認識結果における最尤パスが「です/から」を含むものであっても、字幕テキストと一致する「ですから」を選択して教師形態素列を作る。つまり、最尤パスにおける形態素分割の結果が字幕テキストと異なることに起因して不一致区間と判定されてしまう区間を、一致区間と同等に扱うことができるようになる。
また例えば、形態素eは「こと」に対応し、形態素e´は「事」に対応する。本実施形態の方法では、認識結果における最尤パスが「事」を含むものであっても、字幕テキストと一致する「こと」を選択して教師形態素列を作る。つまり、表記の揺らぎに起因して不一致区間と判定されてしまう区間を、一致区間と同等に扱うことができるようになる。
A specific example is applied to the above processing as follows.
For example, the morpheme c is “because”, and the series of morphemes c0-c1 corresponds to “is / begin”. In the method of this embodiment, even if the maximum likelihood path in the recognition result includes “Da / kara”, “Daso” that matches the subtitle text is selected to create a teacher morpheme string. In other words, a section that is determined to be a non-matching section due to the result of morpheme division in the maximum likelihood path being different from the caption text can be handled in the same way as a matching section.
For example, the morpheme e corresponds to “thing”, and the morpheme e ′ corresponds to “thing”. In the method of the present embodiment, even if the maximum likelihood path in the recognition result includes “thing”, the “match” that matches the subtitle text is selected to create a teacher morpheme string. That is, a section that is determined to be a non-matching section due to the fluctuation of the notation can be handled in the same way as a matching section.

このように、本実施形態の方法では、選択処理部13は、最尤仮説と字幕テキストとの間では不一致となるものの、ラティス内の、その最尤仮説に対立する仮説の中に字幕テキストと一致するテキストがあると期待される場合に、認識結果のラティスが含む情報を最大限に活かすことが可能となる。   Thus, in the method of the present embodiment, the selection processing unit 13 does not match between the maximum likelihood hypothesis and the caption text, but the caption text and the caption in the hypothesis in the lattice that opposes the maximum likelihood hypothesis. When it is expected that there is a matching text, it is possible to make the most of the information contained in the recognition result lattice.

[第5の実施形態]
次に、第5の実施形態を説明する。第5の実施形態は、第4の実施形態と同様に、認識結果のラティスと字幕テキストが一致する区間を基準として教師系列を作成する点である。
本実施形態では、選択処理部13は、認識結果のラティスと字幕テキストとのビタビアライメントを取ることにより、認識結果のラティスと字幕テキストが一致する区間を得る。
そして、選択処理部13は、得られた一致区間と対立する区間の枝刈り処理を行なう。ここで、枝刈り処理の手法そのものは第3の実施形態におけるそれと同様であるが、第3の実施形態が最尤パスと字幕テキストとの一致区間を基準としていたのに対し、本実施形態は、認識結果のラティスと字幕テキストが最大に一致する区間を基準とする。
そのように枝刈り後のラティスが得られた後の処理は、第3の実施形態における処理と同様である。つまり、音響モデル適用化部15は、選択処理部13が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて学習データに含まれる各々の音素の観測確率を求め、音素ごとに、観測確率で重み付けられた音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する。
[Fifth Embodiment]
Next, a fifth embodiment will be described. As in the fourth embodiment, the fifth embodiment is that a teacher series is created with reference to a section where the recognition result lattice matches the caption text.
In the present embodiment, the selection processing unit 13 obtains a section where the recognition result lattice matches the caption text by taking Viterbi alignment between the recognition result lattice and the caption text.
And the selection process part 13 performs the pruning process of the area which opposes the acquired matching area. Here, the pruning processing method itself is the same as that in the third embodiment, but the third embodiment is based on the matching interval between the maximum likelihood path and the caption text, whereas this embodiment is The section where the lattice of the recognition result and the subtitle text match at the maximum is used as a reference.
The processing after the pruned lattice is obtained in this way is the same as the processing in the third embodiment. That is, the acoustic model application unit 15 reads the learning data output from the selection processing unit 13, obtains the observation probability of each phoneme included in the learning data using a forward backward algorithm, and uses the observation probability for each phoneme. The acoustic model storage unit is updated using an acoustic model obtained as weighted acoustic feature data.

次に、第1〜第5のいずれかの実施形態を用いたさらなるバリエーションとして、複数の追加実施形態を説明する。要約すると、追加実施形態の1は、各々の番組用に、学習データを抽出する。また、追加実施形態の2は、言語モデルの重みを適宜変える。また、追加実施形態の3は、話者の交代を検出し、話者ごと、又は話者属性ごとの音響モデルを抽出する。   Next, a plurality of additional embodiments will be described as further variations using any one of the first to fifth embodiments. In summary, one of the additional embodiments extracts learning data for each program. In the second embodiment, the weight of the language model is appropriately changed. In the third embodiment, speaker change is detected, and an acoustic model for each speaker or speaker attribute is extracted.

[追加実施形態の1]
本発明の追加実施形態の1について説明する。
図11は、同実施形態による音響モデル学習装置101の機能構成を示すブロック図である。図示するように、音響モデル学習装置101は、内部に、音響モデル学習装置(番組A用)101Aと音響モデル学習装置(番組B用)101Bと音響モデル学習装置(番組C用)101Cと音響モデル学習装置(番組D用)101Dとを含んで構成されている。これら音響モデル学習装置101A〜101Dの各々は、それぞれ単一の番組用のものである。
[Additional Embodiment 1]
An additional embodiment 1 of the present invention will be described.
FIG. 11 is a block diagram showing a functional configuration of the acoustic model learning device 101 according to the embodiment. As shown in the figure, an acoustic model learning device 101 includes an acoustic model learning device (for program A) 101A, an acoustic model learning device (for program B) 101B, an acoustic model learning device (for program C) 101C, and an acoustic model. And a learning device (for program D) 101D. Each of these acoustic model learning apparatuses 101A to 101D is for a single program.

ここで、番組とは、典型的にはテレビやラジオの放送番組であるが、公衆によって直接受信されることを目的とする無線通信の送信であるところの「放送」の番組に限らず、有線通信によるテレビ放送やラジオ放送の番組、インターネットを介してパケットデータとして配信される動画(音声を含む)による放送や音声放送の番組、通信衛星から多数の受信者に向けて送信される番組、視聴者或いは聴取者のリクエストに応じてオン・デマンド的に配信される番組など、音声を含むコンテンツを含んでいる。
なお、音響モデル学習装置101が内部に備える番組個別用の音響モデル学習装置の数は、4に限定されず、任意の自然数として構成しても良い。
Here, the program is typically a broadcast program of television or radio, but is not limited to a “broadcast” program that is a transmission of wireless communication intended to be directly received by the public, but wired Television and radio broadcast programs via communication, broadcast and audio broadcast programs (including audio) distributed as packet data via the Internet, programs sent to many recipients from communication satellites, viewing Content including audio, such as a program distributed on-demand in response to a request from a listener or listener.
Note that the number of acoustic model learning devices for individual programs included in the acoustic model learning device 101 is not limited to four, and may be configured as an arbitrary natural number.

音響モデル学習装置101A〜101Dの各々は、図示するように、第1の実施形態で説明した音響モデル学習装置100と同様の構成・機能を有し、同様の動作をする。
本実施形態においても、選択処理部13は、アライメント処理部12によってアライメントされたデータを用いて、認識結果データに信頼度を付加し、学習データとして出力する。
As illustrated, each of the acoustic model learning devices 101A to 101D has the same configuration and function as the acoustic model learning device 100 described in the first embodiment, and performs the same operation.
Also in the present embodiment, the selection processing unit 13 uses the data aligned by the alignment processing unit 12 to add reliability to the recognition result data and outputs it as learning data.

本実施形態のポイントは、音響モデル学習装置101A〜101Dの各々が専用の番組音声記憶部8と音響モデル記憶部9を備え、個々の音響モデル記憶部9に各々専用の音響モデルを記憶し、この各々専用の音響モデルを用いて認識処理部10が認識処理を行い、その結果得られる学習データが各々専用の学習データ記憶部14に書き込まれ、この学習データが蓄積されて出力されるとともに、この得られた学習データを用いて音響モデル適応化部15が当該番組用の音響モデル記憶部9を適応化する点であり、そのように番組ごとの音響モデルを用いて番組ごとの学習データを得る処理を繰り返す点である。
言い換えれば、音響モデル記憶部9は音響モデルを番組ごとに記憶するものであり、認識処理部10は番組の音声を当該番組に対応した音響モデルを用いて音声の認識処理を行なうものであり、選択処理部13は番組ごとに学習データを出力し、音響モデル適応化部15は、当該番組用の音響モデルを更新する。
The point of this embodiment is that each of the acoustic model learning devices 101 </ b> A to 101 </ b> D includes a dedicated program audio storage unit 8 and an acoustic model storage unit 9, and each dedicated acoustic model is stored in each acoustic model storage unit 9. The recognition processing unit 10 performs a recognition process using each dedicated acoustic model, and the learning data obtained as a result is written in the dedicated learning data storage unit 14, and the learning data is accumulated and output. The acoustic model adapting unit 15 adapts the acoustic model storage unit 9 for the program using the obtained learning data, and the learning data for each program is obtained using the acoustic model for each program. It is a point to repeat the process to obtain.
In other words, the acoustic model storage unit 9 stores an acoustic model for each program, and the recognition processing unit 10 performs speech recognition processing using the acoustic model corresponding to the program. The selection processing unit 13 outputs learning data for each program, and the acoustic model adaptation unit 15 updates the acoustic model for the program.

なお、音響モデル学習装置101A〜101Dは、そのすべての構成要素をそれぞれが専用に備えるようにしても良いし、一部の構成要素を共用にしても良い。例えば、認識処理部10とアライメント処理部12と選択処理部13と音響モデル適応化部15の処理機能自体は共通のハードウェアを用いて、音響モデル記憶部9に記憶される音響データと認識仮説記憶部11に記憶される認識仮説と学習データ記憶部14に記憶される学習データとが、それぞれの番組専用の領域に分けて管理されるように装置を構成しても良い。   Note that the acoustic model learning devices 101A to 101D may be provided with all of the components dedicated to each other, or some components may be shared. For example, the processing functions of the recognition processing unit 10, the alignment processing unit 12, the selection processing unit 13, and the acoustic model adaptation unit 15 use the same hardware, and the acoustic data stored in the acoustic model storage unit 9 and the recognition hypothesis. The apparatus may be configured such that the recognition hypothesis stored in the storage unit 11 and the learning data stored in the learning data storage unit 14 are managed separately in areas dedicated to each program.

本実施形態の利点は次の通りである。例えば、対談形式のテレビ放送番組の音声を認識させて学習データを得ることを考えた場合、そしてその番組の形式がレギュラー話者(毎回出演する話者)とゲスト話者(特定回のみ出演する話者)の2人による複数回にわたるシリーズ番組を対象とした場合(ここでは放送の各回が番組A〜Dに相当)、異なるゲスト話者の学習データが重要であるならば、番組回ごとの音響モデルの適応化処理を繰り返して行なったほうが、複数回に共通の音響モデルを適応化処理するよりも、話者適応の効果が得られると言える。この場合には、各回から得られた学習データを集めて最終的な音響モデルの学習データを得る。   The advantages of this embodiment are as follows. For example, when learning data is obtained by recognizing the voice of a conversational TV broadcast program, the program format is regular speakers (speakers who appear every time) and guest speakers (seen only a specific time) When a series of programs by two people (speakers) is targeted (in this case, each time of broadcasting corresponds to programs A to D), if learning data of different guest speakers is important, It can be said that the effect of speaker adaptation can be obtained by repeatedly performing the acoustic model adaptation process rather than performing the common acoustic model adaptation process multiple times. In this case, the learning data obtained from each time is collected to obtain the final learning data of the acoustic model.

さらに、上記のような対談形式の番組に限らず、放送番組の中には、限られた数人の話者しかいない番組や、特定の話者が継続してレギュラー出演している番組などがある。本実施形態では、音響モデルの適応化を番組ごとに行なうため、他の番組の学習データが混ざらず、その結果として高い認識精度が得られる。
なお、この実施形態は、前述した第1から第5のいずれかの実施形態と組み合わせて実現してよい。言い換えれば、第1から第5のいずれかの実施形態で述べた、選択処理部13および音響モデル適応化部15の処理を用いて、番組ごとに音響モデルの学習を行なうようにする。
Furthermore, not only the above-mentioned programs in the form of conversation, but also in the broadcast programs, there are programs that have only a limited number of speakers, programs that a specific speaker continues to appear regularly, etc. is there. In this embodiment, since the acoustic model is adapted for each program, the learning data of other programs are not mixed, and as a result, high recognition accuracy is obtained.
This embodiment may be realized in combination with any of the first to fifth embodiments described above. In other words, the acoustic model is learned for each program using the processing of the selection processing unit 13 and the acoustic model adaptation unit 15 described in any of the first to fifth embodiments.

[追加実施形態の2]
次に、本発明の追加実施形態の2について説明する。上記の実施形態では、認識処理部10による認識処理の際の言語モデルと音響モデルそれぞれの重みに影響する重み値Wlmとして固定的な値を用いていた。本実施形態では、音響モデルの適応度合いに応じて、この重み値Wlmを変化させる。
[Additional Embodiment 2]
Next, 2 of the additional embodiment of the present invention will be described. In the above embodiment, a fixed value is used as the weight value W lm that affects the weights of the language model and the acoustic model in the recognition process by the recognition processing unit 10. In the present embodiment, the weight value W lm is changed according to the degree of adaptation of the acoustic model.

なお、本実施形態においても、選択処理部13は、アライメント処理部12によってアライメントされたデータを用いて、認識結果データに信頼度を付加し、学習データとして出力する。   Also in the present embodiment, the selection processing unit 13 uses the data aligned by the alignment processing unit 12 to add reliability to the recognition result data and outputs it as learning data.

図12は、本実施形態による音響モデル学習装置の処理手順を示すフローチャートである。本フローチャートのステップS31からS39までは、図5に示したS01からS09までに対応し、同様の処理手順であるのでここでは説明を省略する。そして、本フローチャートのステップS39の処理に続いて、ステップS40では、バイアス化言語モデルの重み付け係数を更新する。一例としては、ステップS34からS40までの繰り返し処理の第n回目(n=1,2,3、・・・)における重み値(この重み値はnの関数であるためWlm(n)と表わす)を、
lm(n)=13−0.5n ・・・ (10)
とする。つまり、上の式(10)に従えば、1回目の認識処理に用いる重み値Wlm(1)は12.5であり、2回目の認識処理に用いる重み値Wlm(2)は12.0であり、3回目の認識処理に用いる重み値Wlm(3)は11.5であり、以下同様に、前回の認識処理のときよりも小さい重み値Wlm(n)を用いる。これは、認識処理において、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。
ステップS40の処理が終わると、ステップS34の処理に戻って新たな重み付け係数Wlmによる言語モデルの重み付けを行い、以下、ステップS35以降の処理に続く。
FIG. 12 is a flowchart illustrating a processing procedure of the acoustic model learning device according to the present embodiment. Steps S31 to S39 in this flowchart correspond to S01 to S09 shown in FIG. 5 and have the same processing procedure, and therefore the description thereof is omitted here. Then, following the process of step S39 of this flowchart, in step S40, the weighting coefficient of the biased language model is updated. As an example, a weight value in the n-th iteration (n = 1, 2, 3,...) Of the iterative processing from steps S34 to S40 (this weight value is a function of n, and is expressed as W lm (n). )
W lm (n) = 13−0.5n (10)
And That is, according to the above equation (10), the weight value W lm (1) used for the first recognition process is 12.5, and the weight value W lm (2) used for the second recognition process is 12. The weight value W lm (3) used for the third recognition process is 11.5, and the smaller weight value W lm (n) is used in the same manner as in the previous recognition process. This means that in the recognition process, the influence of restrictions by the language model is made smaller than in the previous recognition process.
When the process of step S40 is completed, the process returns to the process of step S34 to perform weighting of the language model by the new weighting coefficient Wlm , and the process from step S35 onward is continued.

ここでは言語モデルに対する重み値Wlmを用いて認識処理を行なっているが、これは、言語モデルと音響モデルの重みの比率をWlm:1の比としていることになる。そしてこれは、言語モデルの重み値を1に固定して音響モデルの重み値Wamを用いて(つまり言語モデルと音響モデルの重みの比率を1:Wamの比として)も相対的に同じことであり、この場合、本実施形態では認識処理の繰り返しごとに音響モデルの重み値Wamが徐々に大きくなるように変化させても、同様に、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。また、重み値WlmとWamとを用いて言語モデルと音響モデルの重みの比率をWlm:Wamの比としても同様であり、本実施形態では、認識処理において前回の認識処理のときよりも言語モデルによる制約の影響がより小さくなるようにする。 Here, the recognition processing is performed using the weight value W lm for the language model, and this means that the ratio of the weight of the language model and the acoustic model is W lm : 1. This is relatively the same even when the weight value of the language model is fixed at 1 and the weight value W am of the acoustic model is used (that is, the ratio of the weight of the language model and the acoustic model is 1: W am ). In this case, in this embodiment, even if the weight value W am of the acoustic model is gradually increased every time the recognition process is repeated, the language model is similarly used as compared with the previous recognition process. This means that the influence of constraints is reduced. Further, the ratio of the weight of the language model and the acoustic model by using the weight value W lm and W am W lm: The same as the ratio of W am, in the present embodiment, when the previous recognition process in the recognition process The effect of restrictions by the language model is made smaller.

また、本実施例の変形例として、重み値Wlmを固定したままで、当該番組音声に対応する字幕テキストのための重み値Wbiasを認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
さらにまた、本実施例の変形例として、重み値Wlmと重み値Wbiasの両方を認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
Further, as a modification of the present embodiment, the weight value W bias for the subtitle text corresponding to the program sound is gradually decreased as the recognition process is repeated while the weight value W lm is fixed. However, in the current recognition process, a similar effect is obtained in that the language model is used with a relatively smaller weight than the acoustic model than in the previous recognition process.
Furthermore, as a modification of the present embodiment, even if both the weight value W lm and the weight value W bias are gradually reduced as the recognition process is repeated, the current recognition process is the same as the previous recognition process. A similar effect is obtained in that the language model is used with a relatively smaller weight than the acoustic model.

言い換えれば、本実施形態あるいはその変形例においては、認識処理部10は、バイアス化言語モデル記憶部6から読み出した言語モデルと音響モデル記憶部9から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものである。また、認識処理部10は、音響モデル適応化部15によって更新された音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも言語モデルがより小さい重みで用いられる値としている。   In other words, in the present embodiment or its modification, the recognition processing unit 10 uses a predetermined weight ratio value between the language model read from the biased language model storage unit 6 and the acoustic model read from the acoustic model storage unit 9. The recognition process is carried out using the weights. The recognition processing unit 10 performs the recognition process again using the acoustic model updated by the acoustic model adaptation unit 15, and the weight ratio value used at this time is higher than that in the previous recognition process. The language model is a value used with a smaller weight.

これにより、音響モデルの適応度合いに応じて言語的な制約を減じることとなり、これによってより一層、音響モデルの学習の精度が向上する。
さらに詳細に述べると、前記の各実施形態では、認識精度を高めるため、従来技術による方法よりも強い言語的な制約を用いた認識処理を行なうようにしている。つまり、言語モデルの重み付けの度合いを比較的大きくしている。しかしながら、音響モデルを適応化する処理を繰り返すことにより、比較的小さな言語的な制約で認識精度を確保できるようになる。従って、本実施形態では、繰り返し処理による音響モデルの精度向上に応じて言語的制約を減ずるようにしている。この言語的制約の調整により、字幕と発話の不一致区間の検出制度の向上が可能となる。
なお、この実施形態は、前述した第1から第5のいずれかの実施形態と組み合わせて実現してよい。言い換えれば、第1から第5のいずれかの実施形態で述べた、選択処理部13および音響モデル適応化部15の処理を用いながら、重み値Wlmを徐々に変化させる。
Thereby, linguistic restrictions are reduced according to the degree of adaptation of the acoustic model, and this further improves the accuracy of learning of the acoustic model.
More specifically, in each of the above-described embodiments, in order to increase the recognition accuracy, recognition processing using linguistic restrictions stronger than the method according to the prior art is performed. That is, the degree of weighting of the language model is made relatively large. However, by repeating the process of adapting the acoustic model, the recognition accuracy can be ensured with relatively small linguistic restrictions. Therefore, in this embodiment, linguistic restrictions are reduced according to the improvement of the accuracy of the acoustic model by iterative processing. By adjusting this linguistic restriction, it is possible to improve the detection system for the inconsistent section between subtitles and utterances.
This embodiment may be realized in combination with any of the first to fifth embodiments described above. In other words, as described in the fifth embodiment of any of the first, while using the process of the selection processing unit 13 and the acoustic model adaptation section 15, gradually changing the weight value W lm.

[追加実施形態の3]
次に、本発明の追加実施形態の3について説明する。本実施形態では、話者の交代あるいは話者の属性の交代を検出し、話者に依存した音響モデル或いは話者の属性に依存した音響モデルを用いて認識処理を行なう点が特徴的である。
[Additional Embodiment 3]
Next, 3 of the additional embodiment of the present invention will be described. The present embodiment is characterized in that a speaker change or speaker attribute change is detected, and recognition processing is performed using an acoustic model dependent on the speaker or an acoustic model dependent on the speaker attribute. .

図13は、本実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示する構成において、音響モデル学習装置102が有する字幕テキスト記憶部1と形態素解析処理部2と重み付け処理部3とベースラインコーパス処理部4と合成処理部5とバイアス化言語モデル記憶部6と重み付け処理部7と番組音声記憶部8は、前述した実施形態におけるそれらと同様のものである。さらに、本実施形態の音響モデル学習装置102は、その特有の構成として、音響モデル記憶部9Fおよび9Mと、認識処理部10MFと、認識仮説記憶部11Fおよび11Mと、アライメント処理部12Fおよび12Mと、選択処理部13Fおよび13Mと、学習データ記憶部14Fおよび14Mと、音響モデル適応化部15Fおよび15Mと、女声発話モデル記憶部16F(発話モデル記憶部、話者属性別発話モデル記憶手段)と、男声発話モデル記憶部16M(発話モデル記憶部、話者属性別発話モデル記憶手段)と、発話モデル適応化部17Fおよび17Mと、音声区間切り出し部18(話者属性推定手段)とを含んで構成される。   FIG. 13 is a block diagram illustrating a functional configuration of the acoustic model learning device according to the present embodiment. In the illustrated configuration, the subtitle text storage unit 1, the morphological analysis processing unit 2, the weighting processing unit 3, the baseline corpus processing unit 4, the synthesis processing unit 5, and the biased language model storage unit 6 included in the acoustic model learning device 102 are weighted. The processing unit 7 and the program audio storage unit 8 are the same as those in the above-described embodiment. Furthermore, the acoustic model learning device 102 of the present embodiment has acoustic model storage units 9F and 9M, a recognition processing unit 10MF, recognition hypothesis storage units 11F and 11M, and alignment processing units 12F and 12M as its unique configuration. The selection processing units 13F and 13M, the learning data storage units 14F and 14M, the acoustic model adaptation units 15F and 15M, and the female utterance model storage unit 16F (utterance model storage unit, utterance model storage unit by speaker attribute), , A male voice utterance model storage unit 16M (speech model storage unit, utterance model storage unit by speaker attribute), utterance model adaptation units 17F and 17M, and a voice segment cutout unit 18 (speaker attribute estimation unit). Composed.

女声発話モデル記憶部16Fは、女性の声の統計的な音響特徴量を含む女声発話モデルを記憶している。また、男声発話モデル記憶部16Mは、男性の声の統計的な音響特徴量を含む男声発話モデルを記憶している。つまり、女声発話モデル記憶部16Fと男声発話モデル記憶部16Mは、話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶するための話者属性別発話モデル記憶手段としても機能する。なお、女声および男声の統計的音響特徴量としてはMFCCを用いている。この統計的音響特徴量としては、他にも、PLPやHMM(隠れマルコフモデル)やホルマント周波数の分布などを用いることができる。
音声区間切り出し部18は、女声発話モデル記憶部16Fから読み出した女声発話モデルと男声発話モデル記憶部16Mから読み出した男声発話モデルとを用いて、番組音声の中の、女声で発話されている部分と、男声で発話されている部分と、発話以外の部分(番組中の、例えば無音部分や、背景雑音のみの部分や、音楽の部分や、効果音の部分など)とを区別する。つまり音声区間切り出し部18は、入力される音声がヒトによる発話であるか否かを検出するとともに、発話である場合にはその話者属性(ここでは、話者の性別)を検知する。つまり、音声区間切り出し部18は、話者属性別発話モデルを用いて音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段としても機能する。そして、音声区間切り出し部18は、女声による音声区間と男声による音声区間とをそれぞれ切り出した形で認識処理部10MFに渡す。
The female voice utterance model storage unit 16F stores a female voice utterance model including statistical acoustic features of female voices. The male voice utterance model storage unit 16M stores a male voice utterance model including statistical acoustic features of male voices. That is, the female utterance model storage unit 16F and the male voice utterance model storage unit 16M serve as speaker attribute-specific utterance model storage means for storing a speaker attribute-specific utterance model that represents a statistic for each speaker or each speaker attribute. Also works. Note that MFCC is used as the statistical acoustic feature quantity of female voice and male voice. As the statistical acoustic feature amount, PLP, HMM (Hidden Markov Model), formant frequency distribution, and the like can be used.
The voice segment cut-out unit 18 uses a female voice utterance model read from the female voice utterance model storage unit 16F and a male voice utterance model read from the male voice utterance model storage unit 16M, and is a portion of the program voice uttered by a female voice. And a portion uttered by male voice and a portion other than the utterance (for example, a silent portion, a background noise only portion, a music portion, a sound effect portion, etc. in the program). That is, the voice segment cut-out unit 18 detects whether or not the input voice is an utterance by a human, and if the voice is an utterance, detects the speaker attribute (here, the gender of the speaker). That is, the speech segment cutout unit 18 also functions as a speaker attribute estimation unit that estimates a speaker or a speaker attribute in a predetermined speech segment in the speech using the speaker attribute-specific speech model. Then, the voice segment cutout unit 18 passes the female voice segment and the male voice segment to the recognition processing unit 10MF in a cutout form.

また、音響モデル学習装置102は、女声用と男声用の音響モデルを区別して管理し、記憶している。具体的には、音響モデル記憶部9Fには女声用の音響モデルが記憶され、音響モデル記憶部9Mには男声用の音響モデルが記憶されている。つまり、音響モデル記憶部9Fと9Mは、話者ごとまたは話者属性ごとに区別して音響モデルを記憶している。   In addition, the acoustic model learning device 102 manages and stores a female voice and a male voice acoustic model separately. Specifically, the acoustic model storage unit 9F stores an acoustic model for female voices, and the acoustic model storage unit 9M stores an acoustic model for male voices. That is, the acoustic model storage units 9F and 9M store the acoustic model separately for each speaker or speaker attribute.

そして、認識処理部10MFは、音声区間切り出し部18から渡された女声音声区間については音響モデル記憶部9Fから読み出した女声用音響モデルを用いて、また音声区間切り出し部18から渡された男声音声区間については音響モデル記憶部9Mから読み出した男声用音響モデルを用いて、それぞれ認識処理を行なう。つまり、認識処理部10MFは、音声区間切り出し部18によって切り出された音声区間の音声を認識処理する。またつまり、認識処理部10MFは、話者属性推定手段による推定結果に応じて、該当する話者用または話者属性用の音響モデルを用いて前記音声の認識処理を行なう。そして、認識処理部10MFは、女声音声区間から得られた認識結果仮説を認識仮説記憶部11Fに書き込み、男声音声区間から得られた認識結果仮説を認識仮説記憶部11Mに書き込む。   Then, the recognition processing unit 10MF uses the female acoustic model read from the acoustic model storage unit 9F for the female voice segment passed from the voice segment cutout unit 18, and the male voice passed from the voice segment cutout unit 18. For the sections, recognition processing is performed using the male voice model read from the acoustic model storage unit 9M. That is, the recognition processing unit 10MF performs a recognition process on the voice in the voice section cut out by the voice section cutout unit 18. In other words, the recognition processing unit 10MF performs the speech recognition process using the corresponding speaker or speaker attribute acoustic model according to the estimation result by the speaker attribute estimation means. Then, the recognition processing unit 10MF writes the recognition result hypothesis obtained from the female voice segment to the recognition hypothesis storage unit 11F, and writes the recognition result hypothesis obtained from the male voice segment to the recognition hypothesis storage unit 11M.

なお、男女別の音声の統計量(Male speech model, Female speech model)を用いて音声区間の検出と男女の話者交代を検出し、性別に依存する音響モデルを用いて認識を行なうには、Toru IMAI, Shoei SATO, Shinichi HOMMA, Kazuo ONOE, Akio KOBAYASHI「Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News」(IEICE Transactions on Information and Systems 2007 E90-D(8):1286-1291)に記載された方法を利用可能である。   To detect voice segments and male / female speaker changes using gender-specific speech statistics (Male speech model, Female speech model), and perform recognition using gender-dependent acoustic models, Toru IMAI, Shoei SATO, Shinichi HOMMA, Kazuo ONOE, Akio KOBAYASHI "Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News" (IEICE Transactions on Information and Systems 2007 E90-D (8): 1286-1291) Method is available.

アライメント処理部12Fは、認識仮説記憶部11Fから読み出した女声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部13Fは、アライメント処理部12Fによる処理結果に基づき、女声音声区間の認識仮説に、前述の手法を用いて信頼度データを付加し、得られた学習データを学習データ記憶部14Fに書き込む。
これと同様に、アライメント処理部12Mは、認識仮説記憶部11Mから読み出した男声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部13Mは、アライメント処理部12Mによる処理結果に基づき、男声音声区間の認識仮説に、前述の手法を用いて信頼度データを付加し、得られた学習データを学習データ記憶部14Mに書き込む。
このように、音声区間切り出し部18によって切り出された女声音声区間および男声音声区間それぞれに基づいて、女性用および男性用のそれぞれ専用の学習データが得られる。
The alignment processing unit 12F performs alignment processing similar to that in the above-described embodiment using only the recognition hypothesis of the female voice segment read from the recognition hypothesis storage unit 11F. The selection processing unit 13F adds reliability data to the recognition hypothesis of the female voice segment based on the processing result by the alignment processing unit 12F using the above-described method, and writes the obtained learning data to the learning data storage unit 14F. .
Similarly, the alignment processing unit 12M performs the same alignment processing as in the above-described embodiment using only the recognition hypothesis of the male voice segment read from the recognition hypothesis storage unit 11M. The selection processing unit 13M adds reliability data to the recognition hypothesis of the male voice segment based on the processing result by the alignment processing unit 12M using the above-described method, and writes the obtained learning data to the learning data storage unit 14M. .
In this way, dedicated learning data for women and men is obtained based on the female voice segment and male voice segment cut out by the voice segment cutout unit 18, respectively.

音響モデル適応化部15Fは、学習データ記憶部14Fから読み出した女声用学習データのみを用いて、音響モデル記憶部9Fに記憶されている女声用音響モデルを適応化(更新)する。また、音響モデル適応化部15Mは、学習データ記憶部14Mから読み出した男声用学習データのみを用いて、音響モデル記憶部9Mに記憶されている男声用音響モデルを適応化(更新)する。つまり、音響モデル適応化部15Fと15Mは、話者属性推定手段による推定結果に対応する学習データを用いて、当該推定結果に対応する話者ごとまたは話者属性ごとの音響モデルを更新するものである。   The acoustic model adaptation unit 15F adapts (updates) the female acoustic model stored in the acoustic model storage unit 9F using only the female voice learning data read from the learning data storage unit 14F. Also, the acoustic model adaptation unit 15M adapts (updates) the male voice acoustic model stored in the acoustic model storage unit 9M using only the male voice learning data read from the learning data storage unit 14M. That is, the acoustic model adaptation units 15F and 15M update the acoustic model for each speaker or each speaker attribute corresponding to the estimation result using the learning data corresponding to the estimation result by the speaker attribute estimation unit. It is.

発話モデル適応化部17Fは、学習データ記憶部14Fから読み出した女声用学習データのみを用いて、女声発話モデル記憶部16Fに記憶されている女声発話モデルを適応化(更新)する。また、発話モデル適応化部17Mは、学習データ記憶部14Mから読み出した男声用学習データのみを用いて、男声発話モデル記憶部16Fに記憶されている男声発話モデルを適応化(更新)する。つまり、発話モデル適応化部17Fと17Mは、話者属性推定手段による推定結果に対応する学習データを用いて、話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する話者ごとまたは話者属性ごとの話者属性別発話モデルを更新するものである。   The utterance model adaptation unit 17F adapts (updates) the female voice utterance model stored in the female voice utterance model storage unit 16F using only the female voice learning data read from the learning data storage unit 14F. The utterance model adaptation unit 17M adapts (updates) the male voice utterance model stored in the male voice utterance model storage unit 16F using only the male voice learning data read from the learning data storage unit 14M. That is, the utterance model adaptation units 17F and 17M use the learning data corresponding to the estimation result by the speaker attribute estimation unit, and the speaker corresponding to the estimation result stored in the speaker attribute-specific utterance model storage unit. Or a speaker attribute-specific utterance model for each speaker attribute.

また、音響モデル学習装置102は、上記の一連の認識処理、アライメント処理、選択処理、そして音響モデル適応化処理と発話モデル適応化処理を、繰り返し行なう。   The acoustic model learning device 102 repeatedly performs the above-described series of recognition processing, alignment processing, selection processing, acoustic model adaptation processing, and utterance model adaptation processing.

上記のような構成および作用により、入力音声の統計的音響特徴量(女声発話モデルおよび男声発話モデル)を利用して高精度な音声区間の切り出しを行なう方法を併用する場合において、得られた学習データを用いて切り出しに使用する上記の統計量も適応化することを繰り返すことができる。これにより、例えば雑音区間を発話区間の音声として認識してしまうような音声区間の切り出し誤りが減少し、学習データの質のさらなる向上が可能となる。
また、話者属性(性別)に依存した音響モデルを使用して認識処理を行なうことにより、話者属性非依存の音響モデルを用いた場合に比べ、高い認識精度を得ることができ、より多くの学習データを作成することができる。
また、入力音声の統計量を利用して話者或いは話者属性の推定手段(音声区間切り出し部18)を備えた音声アルゴリズムを併用する場合に、得られた学習データを用いて話者推定用の統計量(女声発話モデルおよび男声発話モデル)を適応化するとともに、話者(或いは話者属性)ごとに音響モデルを設けて(音響モデル記憶部9Fおよび9M)、これらをそれぞれ適応化しているため、さらに、認識精度の向上が図れる。
With the configuration and operation as described above, the learning obtained in the case of using in combination with the method of segmenting a high-accuracy speech segment using the statistical acoustic features (female voice utterance model and male voice utterance model) of the input speech It is possible to repeat adapting the above-mentioned statistics used for extraction using data. Thereby, for example, a voice segment cut-off error that causes a noise segment to be recognized as speech speech is reduced, and the quality of the learning data can be further improved.
Also, by performing recognition processing using an acoustic model that depends on speaker attributes (gender), it is possible to obtain higher recognition accuracy than when using an acoustic model that does not depend on speaker attributes. Learning data can be created.
In addition, when a speech algorithm including a speaker or speaker attribute estimation means (speech segment extraction unit 18) is used in combination with the statistic of the input speech, the obtained learning data is used for speaker estimation. Statistic (female voice utterance model and male voice utterance model), and an acoustic model is provided for each speaker (or speaker attribute) (acoustic model storage units 9F and 9M), respectively. Therefore, the recognition accuracy can be further improved.

なお、この実施形態は、前述した第1から第5のいずれかの実施形態と組み合わせて実現してよい。言い換えれば、選択処理部13Fおよび13Mはそれぞれ、第1から第5のいずれかの実施形態で述べた選択処理部13の処理を用いる。また、音響モデル適応化部15Fおよび15Mはそれぞれ、第1から第5のいずれかの実施形態で述べた音響モデル適応化部15の処理を用いる。このようにして、話者ごと、あるいは、話者属性ごとの音響モデルの学習を行なう。   This embodiment may be realized in combination with any of the first to fifth embodiments described above. In other words, each of the selection processing units 13F and 13M uses the processing of the selection processing unit 13 described in any one of the first to fifth embodiments. In addition, each of the acoustic model adaptation units 15F and 15M uses the processing of the acoustic model adaptation unit 15 described in any of the first to fifth embodiments. In this way, the acoustic model for each speaker or speaker attribute is learned.

なお、本実施形態の更なる変形例として、追加実施形態の1で説明した番組ごとの音響モデルを管理する構成(このとき、適宜、発話モデルも番組ごとに管理するようにしても良い)や、追加実施形態の2で説明した処理の繰り返しに伴って言語モデルの重み付けを徐々に変化させる構成を併用しても良い。   As a further modification of the present embodiment, a configuration for managing the acoustic model for each program described in 1 of the additional embodiment (at this time, the utterance model may be managed for each program as appropriate) A configuration in which the weighting of the language model is gradually changed with the repetition of the processing described in the additional embodiment 2 may be used together.

また、性別ごとに音声区間切り出しのための発話モデルおよび認識処理のための音響モデルを設ける代わりに、或いは性別に加えて、他の話者属性ごと或いは話者個人ごとに、発話モデルや音響モデルを設けて、その話者属性ごと或いは話者個人ごとの音声区間切り出し処理や認識処理を行なうようにしても良い。「他の話者属性」とは、例えば、年齢層などである。このとき、話者の年齢層を例えば、少年期(5歳から14歳)、青年期(15歳から24歳)、壮年期(25歳から44歳)、中年期(45歳から64歳)、高年期(65歳以上)などに分類する。   Also, instead of providing an utterance model for voice segment extraction and an acoustic model for recognition processing for each gender, or in addition to gender, an utterance model or acoustic model for each other speaker attribute or individual speaker May be provided to perform voice segment extraction processing or recognition processing for each speaker attribute or for each speaker individual. The “other speaker attribute” is, for example, an age group. At this time, the speaker's age group is, for example, boyhood (5 to 14 years), adolescence (15 to 24 years), middle age (25 to 44 years), middle age (45 to 64 years) ), And older age (65 years and older).

また、発話環境ごとに、発話モデルや音響モデルを設けるようにしても良い。ここで「発話環境ごと」とは、例えば、話者が原稿を読み上げている形式の場合、対談あるいは座談形式の場合、雑談の場合などである。   Further, an utterance model or an acoustic model may be provided for each utterance environment. Here, “for each utterance environment” includes, for example, a case where the speaker is reading a manuscript, a conversational or negotiated form, and a chat.

また、本実施形態では、発話モデルを利用して音声区間を切り出す構成と、話者属性ごとに音響モデルを設けるとともに話者属性ごとに音声区間を切り出してそれぞれ専用の音響モデルを用いて認識を行い、音響モデルを適応化する構成との両方を用いているが、これらのいずれか一方のみの構成を含むようにしても良い。   In this embodiment, the speech section is cut out using an utterance model, and an acoustic model is provided for each speaker attribute, and the voice section is cut out for each speaker attribute and recognized using a dedicated acoustic model. However, it is also possible to include only one of these configurations.

また、本実施形態では、認識仮説を、論理的には言語的単位(形態素)をアークとするラティス構造のグラフで表現して処理を行なったが、その代わりに、言語的単位として音素をアークとするラティス構造のグラフで表現して、同様の処理を行なうようにしても良い。   In this embodiment, the recognition hypothesis is logically expressed by a lattice-structured graph in which linguistic units (morphemes) are arcs, but instead, phonemes are arced as linguistic units. It is also possible to perform the same processing by expressing it as a lattice structure graph.

<コンピュータシステムを用いた実施形態>
なお、上述した各実施形態における音響モデル学習装置の機能をコンピュータで実現するようにしても良い。その場合、この音響モデル学習の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
<Embodiment using a computer system>
In addition, you may make it implement | achieve the function of the acoustic model learning apparatus in each embodiment mentioned above with a computer. In that case, the program for realizing the acoustic model learning function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer system and executed. good. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include those that hold a program for a certain time, such as a volatile memory inside a computer system serving as a server or client in that case. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、一致区間を選択する際に、選択処理部13は字幕テキストと認識仮説が3単語以上連続して一致している区間を選択することを説明したが、「3」に限らず、適宜所定の単語数以上連続して位置している区間を選択するようにしても良い。また、語数を基準とする代わりに、所定の文字数(例えば、5文字)以上連続して一致している区間を選択するようにしても良い。
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
For example, when the matching section is selected, the selection processing unit 13 has been described to select a section in which the caption text and the recognition hypothesis match three or more words continuously. You may make it select the area located continuously more than the number of words. Further, instead of using the number of words as a reference, a section that continuously matches a predetermined number of characters (for example, 5 characters) may be selected.

<認識実験の結果>
ここで、本願発明者らが実際に行なった認識実験について説明する。
2004年10月14日、および2007年6月25日、27日、28日(本放送と再放送を含む)にNHKで放送された5回分の番組「きょうの健康」を評価音声として認識実験を行なった。各放送回には約2600単語(形態素)の発話があり総計12807単語を評価した。
<Results of recognition experiment>
Here, a recognition experiment actually performed by the inventors will be described.
Experiments for recognition of five evaluation programs “Kyoto Health” broadcast on NHK on October 14, 2004, and June 25, 27, and 28 (including main broadcast and rebroadcast) in 2007 Was done. There were about 2600 words (morpheme) in each broadcast, and a total of 12807 words were evaluated.

音響モデルの学習用には、2004年から2007年に放送されたNHK「きょうの健康」から、評価対象と同一のコンテンツを除く93回分の音声と字幕を用いて、放送回ごとに下記の4手法(LS0〜LS3)を適用して約20時間分の学習データを生成し、性別依存不特定話者音響モデルをMLLRとMAPで適応化して認識実験を行なった。
LS0:これは従来技術による手法であり、認識結果(最尤仮説)と書き起こしのテキストデータとの一致部分の音声を切り出して、学習音声とした。
LS1:信頼度を全て1として、一致区間情報を利用しない教師なし学習とした。
LS2:最尤仮説と書き起こしのテキストデータとの一致部分の信頼度を1とし、それ以外の部分の信頼度を0として、音声を切り出さずに一区間のみを用いた学習とした。
LS3:最尤仮説と書き起こしのテキストデータとの一致部分の信頼度を1とし、最尤仮説の単語の事後確率から不一致部分の信頼度を得て、学習した。
For learning acoustic models, NHK “Kyoto Health” broadcasted from 2004 to 2007 uses 93 voices and subtitles excluding the same content as the evaluation target, and the following 4 The learning data for about 20 hours was generated by applying the method (LS0 to LS3), and the recognition experiment was performed by adapting the gender-dependent unspecified speaker acoustic model with MLLR and MAP.
LS0: This is a technique according to the prior art, and the voice of the matching part between the recognition result (maximum likelihood hypothesis) and the text data of transcription is cut out and used as a learning voice.
LS1: All the reliability was set to 1 and it was set as the unsupervised learning which does not use matching area information.
LS2: The reliability of the matching portion between the maximum likelihood hypothesis and the text data of the transcript is set to 1, and the reliability of the other portion is set to 0. The learning is performed using only one section without cutting out the speech.
LS3: The reliability of the matching part between the maximum likelihood hypothesis and the text data of the transcription is set to 1, and the reliability of the mismatching part is obtained from the posterior probability of the word of the maximum likelihood hypothesis, and learning is performed.

このときの言語的制約の強さは、Wbias=1000、Wlm=16を用いた。こうして作成されたこの適応化言語モデルでのテストセットパープレキシティーは22程度であった。また、上記の20時間分の学習データのうち、認識結果と字幕の一致部分、つまり従来のLS法で得られる学習音声の量は5〜8時間程度であった。
言語モデルは、情報番組の書き起こしの字幕テキストデータを基に、番組ホームページから得られる各放送回の番組内容紹介テキストに20倍の重みを付けて学習した番組依存言語モデルである。この言語モデルのテストセットパープレキシティーは59であり、未知語率は0.8%であった。
At this time, W bias = 1000 and W lm = 16 were used as linguistic constraints. The test set perplexity in this adaptive language model created in this way was about 22. Further, among the learning data for 20 hours, the coincidence portion between the recognition result and the caption, that is, the amount of learning speech obtained by the conventional LS method is about 5 to 8 hours.
The language model is a program-dependent language model in which the program content introduction text of each broadcast time obtained from the program home page is weighted 20 times and learned based on the caption text data of the information program. The test set perplexity of this language model was 59, and the unknown word rate was 0.8%.

認識実験および学習データの生成には、男女別のモノフォンHMMを用いて音声区間を検出し、男女の自動判別を行ないながら性別依存トライフォンHMMの両方を適応化する。したがって、適応化モデルにより発話の切り出し精度と男女の判別精度の向上も期待される。ベースラインの音響モデルは、340時間(男性)と250時間(女性)のニュース音声から学習され、モノフォンHMM(126状態32混合分布)、状態共有トライフォンHMM(4000状態、16混合分布)が男女別に作成された。   For the recognition experiment and the generation of learning data, a speech zone is detected using a monophone HMM for each gender, and both gender-dependent triphone HMMs are adapted while automatic gender discrimination is performed. Therefore, the adaptation model is also expected to improve the accuracy of utterance extraction and gender discrimination accuracy. The baseline acoustic model is learned from 340 hours (male) and 250 hours (female) news speech, and the monophone HMM (126 states 32 mixed distribution) and state sharing triphone HMM (4000 states, 16 mixed distribution) are male and female. Created separately.

実験結果は次の通りである。最尤仮説を教師単語列とした場合のLS0〜LS3でのWERを考察する。まず、最尤仮説と書き起こしの字幕テキストの一致部分のみを学習するLS0とLS2を比較すると、LS2では、信頼度を用いることにより認識と同一の発話区間検出を利用できたため、より大きな改善が得られた。次に、LS0以外の3手法を比較すると、収束の速さに若干の差があるものの、最終的にはほぼ同等の改善が得られた。本実験条件では、教師単語列作成時の言語的制約(Wbias,Wlm)が事前に最適化されていたため、書きお越しの一致の有無にかかわらず、全ての音声を学習(LS1)しても改善が得られた。一方、ラティスと字幕テキストの一致が最大になる単語列を教師とした場合、提案法LS3以外のLS1とLS2のWERの増加が見られた。本実験条件では、仮説の信頼度に関わらず教師単語列を選択したため、学習データ生成時の認識誤りを教師とすることが多くなり、評価音声の認識精度が低下したと思われる。これに対して提案法LS3では、教師単語列の制度が低い場合でも頑健な学習結果が得られ、WERの増加は小さかった。 The experimental results are as follows. Consider WER in LS0 to LS3 when the maximum likelihood hypothesis is a teacher word string. First, when comparing LS0 and LS2 which learn only the matching part between the maximum likelihood hypothesis and the transcript subtitle text, since LS2 can use the same utterance section detection as recognition by using the reliability, the improvement is much greater. Obtained. Next, when three methods other than LS0 were compared, although there was a slight difference in the convergence speed, finally, almost the same improvement was obtained. In this experimental condition, the linguistic restrictions (W bias , W lm ) at the time of creating the teacher word string were optimized in advance, so all the speeches were learned (LS1) regardless of whether there was a match in writing. Also improved. On the other hand, when the word string that maximizes the match between the lattice and the subtitle text is used as a teacher, the increase in WER of LS1 and LS2 other than the proposed method LS3 was observed. Under this experimental condition, the teacher word string was selected regardless of the reliability of the hypothesis. Therefore, the recognition error at the time of learning data generation is often used as the teacher, and the recognition accuracy of the evaluation speech seems to have decreased. On the other hand, in the proposed method LS3, a robust learning result was obtained even when the teacher word string system was low, and the increase in WER was small.

本発明は、不完全な書き起こしの字幕データから効率的に音響モデルを学習するため、教師単語系列に信頼度を与え、さらに認識ラティスの事後確率を信頼度とする方法を用いた。字幕テキストを用いた音響モデルの学習に本発明の方法を適用した結果、信頼度の導入により、従来法よりも低いWERが得られることが認識実験を通しても実証された。さらに事後確率を用いることで、頑健な学習が可能であることを示すことができた。   In the present invention, in order to efficiently learn an acoustic model from incompletely transcribed subtitle data, a method is used in which reliability is given to the teacher word sequence and the posterior probability of the recognition lattice is used as the reliability. As a result of applying the method of the present invention to learning of an acoustic model using subtitle text, it has been proved through a recognition experiment that a WER lower than that of the conventional method can be obtained by introducing reliability. Furthermore, by using posterior probabilities, we were able to show that robust learning is possible.

本発明の第1の実施形態による音響モデル学習装置の機能構成を示したブロック図である。It is the block diagram which showed the function structure of the acoustic model learning apparatus by the 1st Embodiment of this invention. 同実施形態で用いる言語モデルのデータ構成を示した概略図である。It is the schematic which showed the data structure of the language model used in the embodiment. 同実施形態で用いる音響モデルのデータ構成を示した概略図である。It is the schematic which showed the data structure of the acoustic model used in the embodiment. 同実施形態で用いる認識仮説記憶部のデータ構成およびデータ例、並びにそのデータが表わすラティス構造を示した概略図である。It is the schematic which showed the data structure and data example of the recognition hypothesis memory | storage part used in the embodiment, and the lattice structure which the data represents. 同実施形態による音響モデル学習の処理手順を示したフローチャートである。It is the flowchart which showed the processing procedure of the acoustic model learning by the same embodiment. 同実施形態により最尤仮説のパスと書き起こしによる字幕テキストの一致を利用して信頼度を付加する例を表わす概略図である。It is the schematic showing the example which adds the reliability using the match of the subtitle text by the path | pass of a maximum likelihood hypothesis, and transcription by the same embodiment. 同実施形態の音響モデル学習装置による音響モデルの学習の概略を説明するため概略図である。It is a schematic diagram for demonstrating the outline of the learning of the acoustic model by the acoustic model learning apparatus of the embodiment. 第2の実施形態において枝刈りされた後の認識仮説のデータ例、並びにそのデータが表わすラティス構造を示した概略図である。It is the schematic which showed the data structure of the recognition hypothesis after pruning in 2nd Embodiment, and the lattice structure which the data represent. 第3の実施形態において対立する複数のパス間で共通して出現する音素の例を説明するための概略図である。It is the schematic for demonstrating the example of the phoneme which appears in common between several path | passes which oppose in 3rd Embodiment. 第4の実施形態において、選択処理部13が認識結果のラティスと字幕テキストの一致区間を抽出する処理を概念的に説明する概略図である。In 4th Embodiment, it is the schematic explaining notionally the process in which the selection process part 13 extracts the coincidence section of the lattice of a recognition result, and a caption text. 本発明の追加実施形態の1による音響モデル学習装置の機能構成を示したブロック図である。It is the block diagram which showed the function structure of the acoustic model learning apparatus by 1 of additional embodiment of this invention. 本発明の追加実施形態の2による音響モデル学習装置の処理手順を示したフローチャートである。It is the flowchart which showed the process sequence of the acoustic model learning apparatus by 2 of additional embodiment of this invention. 本発明の追加実施形態の3による音響モデル学習装置の機能構成を示したブロック図である。It is the block diagram which showed the function structure of the acoustic model learning apparatus by 3 of the additional embodiment of this invention. 従来技術による音響モデル学習装置の機能構成を示したブロック図である。It is the block diagram which showed the function structure of the acoustic model learning apparatus by a prior art.

符号の説明Explanation of symbols

1 字幕テキスト(Caption text)記憶部
2 形態素解析(Morphological analysis)処理部
3 重み付け処理部
4 ベースラインコーパス(Baseline corpus)記憶部
5 合成処理部
6 バイアス化言語モデル(Biased LM)記憶部(言語モデル記憶部)
7 重み付け処理部
8 番組音声(Program audio)記憶部
9,9F,9M 音響モデル(AM)記憶部
10,10MF 認識(Recognition)処理部
11,11F,11M 認識仮説記憶部
12,12F,12M アライメント(Alignment)処理部
13,13F,13M 選択(Selection)処理部
14,14F,14M 学習データ(Transcripts)記憶部
15,15F,15M 音響モデル適応化部(Adaptation)
16F 女声発話モデル(Female speech model)記憶部(話者属性別発話モデル記憶手段)
16M 男声発話モデル(Male speech model)記憶部(話者属性別発話モデル記憶手段)
17F,17M 発話モデル適応化部(Adaptation)
18 音声区間切り出し部(話者属性推定手段)
100,101,101A〜101D,102 音響モデル学習装置
1 Caption text storage unit 2 Morphological analysis processing unit 3 Weighting processing unit 4 Baseline corpus storage unit 5 Composition processing unit 6 Biased language model (Biased LM) storage unit (language model) Storage unit)
7 Weighting processing unit 8 Program audio storage unit 9, 9F, 9M Acoustic model (AM) storage unit 10, 10MF Recognition processing unit 11, 11F, 11M Recognition hypothesis storage unit 12, 12F, 12M Alignment ( Alignment) processing unit 13, 13F, 13M Selection processing unit 14, 14F, 14M Learning data (Transcripts) storage unit 15, 15F, 15M Acoustic model adaptation unit (Adaptation)
16F Female speech model storage unit (speech model-specific speech model storage means)
16M Male speech model storage unit (speech model storage means by speaker attributes)
17F, 17M Utterance model adaptation unit (Adaptation)
18 Voice segment cutout part (speaker attribute estimation means)
100, 101, 101A to 101D, 102 Acoustic model learning apparatus

Claims (7)

音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、
を具備することを特徴とする音響処理装置。
An acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature corresponding to the phoneme are associated;
A recognition processing unit that performs speech recognition processing using the acoustic model read from the acoustic model storage unit, and outputs recognition result data including a recognition hypothesis;
Based on the recognition result data output by the recognition processing unit, teacher sequence data is acquired, reliability data is added to each phoneme included in the teacher sequence data, and the teacher sequence data to which the reliability data is added And a selection processing unit that outputs acoustic feature data corresponding to the teacher series data as learning data;
The learning data output by the selection processing unit is read, observation probability data of each of the phonemes included in the learning data is calculated, and the acoustic feature amount data included in the learning data is calculated for each phoneme. An acoustic model adaptation unit that updates the acoustic model storage unit based on the observation probability data and uses an acoustic model obtained by multiplying the reliability data as a weight;
A sound processing apparatus comprising:
請求項1に記載の音響処理装置であって、
前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスを前記教師系列データとして取得し、当該教師系列データと前記テキストデータが一致する一致区間に含まれる前記音素に対しては最高信頼度を表わす信頼度データを付加し、その他の区間に含まれる前記音素に対しては最低信頼度を表わす信頼度データを付加する、
ことを特徴とする音響処理装置。
The sound processing apparatus according to claim 1,
The selection processing unit reads text data corresponding to the speech, acquires a maximum likelihood path included in the recognition result data as the teacher sequence data, and includes the matching sequence in which the teacher sequence data and the text data match. The reliability data representing the highest reliability is added to the phonemes to be added, and the reliability data representing the lowest reliability is added to the phonemes included in other sections,
A sound processing apparatus.
請求項1に記載の音響処理装置であって、
前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り処理の結果得られる系列を前記教師系列データとして取得し、当該教師系列データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる前記音素に対する信頼度データとして付加する、
ことを特徴とする音響処理装置。
The sound processing apparatus according to claim 1,
The selection processing unit reads text data corresponding to the speech, and performs a process of pruning a matching section in which the maximum likelihood path included in the recognition result data matches the text data and a section that conflicts on the time axis. A sequence obtained as a result of the pruning process is acquired as the teacher sequence data, and a posteriori probability for each linguistic unit included in the teacher sequence data is added as reliability data for the phoneme included in the linguistic unit. ,
A sound processing apparatus.
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、
を具備することを特徴とする音響処理装置。
An acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature corresponding to the phoneme are associated;
A recognition processing unit that performs speech recognition processing using the acoustic model read from the acoustic model storage unit, and outputs recognition result data including a recognition hypothesis;
The recognition result data output by the recognition processing unit and the text data corresponding to the speech are read, and a matching interval in which the maximum likelihood path included in the recognition result data and the text data match with each other on the time axis Performing a process of pruning, obtaining posterior probabilities for each linguistic unit included in the recognition result data after this pruning is obtained as reliability data for each phoneme included in the linguistic unit, and obtaining teacher series data, A selection processing unit that outputs teacher series data and corresponding acoustic feature data as learning data;
Reading the learning data output from the selection processing unit, obtaining an observation probability of each phoneme included in the learning data using a forward backward algorithm, and the acoustic feature weighted by the observation probability for each phoneme Using an acoustic model obtained as data, an acoustic model adaptation unit that updates the acoustic model storage unit;
A sound processing apparatus comprising:
請求項1に記載の音響処理装置であって、
前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データと前記テキストデータが一致する一致区間に含まれる前記音素に対しては最高信頼度を表わす信頼度データを付加する、
ことを特徴とする音響処理装置。
The sound processing apparatus according to claim 1,
The selection processing unit reads text data corresponding to the speech, selects a path that maximizes the match with the text data from the recognition result data, obtains it as the teacher series data, and Reliability data representing the highest reliability is added to the phonemes included in the coincidence section where the sequence data and the text data match,
A sound processing apparatus.
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データ内で前記認識結果データと前記テキストデータとが一致する一致区間を選択し、前記一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝狩り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、
を具備することを特徴とする音響処理装置。
An acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature corresponding to the phoneme are associated;
A recognition processing unit that performs speech recognition processing using the acoustic model read from the acoustic model storage unit, and outputs recognition result data including a recognition hypothesis;
Read the recognition result data output by the recognition processing unit and the text data corresponding to the voice, and select a path that maximizes the match with the text data from the recognition result data as the teacher series data In addition to acquiring, the matching section in which the recognition result data and the text data are matched in the teacher series data is selected, and a process of pruning the matching section and a section that conflicts on the time axis is performed. The teacher sequence data obtained by adding the posterior probabilities for each linguistic unit included in the subsequent recognition result data as reliability data for each phoneme included in the linguistic unit is obtained, and the teacher sequence data and corresponding acoustic features A selection processing unit for outputting quantity data as learning data;
Reading the learning data output from the selection processing unit, obtaining an observation probability of each phoneme included in the learning data using a forward backward algorithm, and the acoustic feature weighted by the observation probability for each phoneme Using an acoustic model obtained as data, an acoustic model adaptation unit that updates the acoustic model storage unit;
A sound processing apparatus comprising:
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を備えるコンピュータに、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理過程と、
前記認識処理過程で出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理過程と、
前記選択処理過程で出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化過程と、
の処理を実行させるプログラム。
A computer including an acoustic model storage unit that stores an acoustic model in which a phoneme and an acoustic feature corresponding to the phoneme are associated with each other.
A recognition processing step of performing speech recognition processing using the acoustic model read from the acoustic model storage unit and outputting recognition result data including a recognition hypothesis,
Based on the recognition result data output in the recognition processing step, teacher sequence data is acquired, reliability data is added to each phoneme included in the teacher sequence data, and the teacher sequence data to which the reliability data is added And a process of outputting acoustic feature data corresponding to the teacher series data as learning data,
The learning data output in the selection process is read, the observation probability data of each of the phonemes included in the learning data is calculated, and the acoustic feature amount data included in the learning data is calculated for each phoneme An acoustic model adaptation process for updating the acoustic model storage unit based on the observation probability data and using an acoustic model obtained by multiplying the reliability data as a weight;
A program that executes the process.
JP2008222817A 2008-08-29 2008-08-29 Sound processing apparatus and program Active JP5149107B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008222817A JP5149107B2 (en) 2008-08-29 2008-08-29 Sound processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008222817A JP5149107B2 (en) 2008-08-29 2008-08-29 Sound processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2010055030A true JP2010055030A (en) 2010-03-11
JP5149107B2 JP5149107B2 (en) 2013-02-20

Family

ID=42070978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008222817A Active JP5149107B2 (en) 2008-08-29 2008-08-29 Sound processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5149107B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025299A (en) * 2011-07-26 2013-02-04 Toshiba Corp Transcription support system and transcription support method
JP2013057789A (en) * 2011-09-08 2013-03-28 Nippon Telegr & Teleph Corp <Ntt> Acoustic model generating device, acoustic model generating method and program
JP2013160930A (en) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Sound model adaptation device, voice recognition device, methods therefor, and program
JP2014115499A (en) * 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> Voice recognition device, error correction model learning method, and program
JP2015018186A (en) * 2013-07-12 2015-01-29 日本放送協会 Adaptation device and program
JP2015158582A (en) * 2014-02-24 2015-09-03 日本放送協会 Voice recognition device and program
JP2015187733A (en) * 2015-04-28 2015-10-29 株式会社東芝 Transcription support system and transcription support method
JP2016009430A (en) * 2014-06-26 2016-01-18 日本放送協会 Image discriminator learning device and program
JP2016177311A (en) * 2016-05-25 2016-10-06 株式会社東芝 Text processing device, text processing method and text processing program
JP2017045027A (en) * 2015-08-24 2017-03-02 日本放送協会 Speech language corpus generation device and its program
WO2023100999A1 (en) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 Voice registration device and voice registration method
US12125482B2 (en) 2019-11-22 2024-10-22 Intel Corporation Adaptively recognizing speech using key phrases

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305589A (en) * 1999-04-16 2000-11-02 Kobe Steel Ltd Adaptive type voice recognition device, voice processing device and pet toy
JP2000352993A (en) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd Voice recognition system and learning method of hidden markov model
JP2002372987A (en) * 2001-06-13 2002-12-26 Nec Corp Acoustic model learning device, acoustic model learning method, and program for the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305589A (en) * 1999-04-16 2000-11-02 Kobe Steel Ltd Adaptive type voice recognition device, voice processing device and pet toy
JP2000352993A (en) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd Voice recognition system and learning method of hidden markov model
JP2002372987A (en) * 2001-06-13 2002-12-26 Nec Corp Acoustic model learning device, acoustic model learning method, and program for the same

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304457B2 (en) 2011-07-26 2019-05-28 Kabushiki Kaisha Toshiba Transcription support system and transcription support method
JP2013025299A (en) * 2011-07-26 2013-02-04 Toshiba Corp Transcription support system and transcription support method
JP2013057789A (en) * 2011-09-08 2013-03-28 Nippon Telegr & Teleph Corp <Ntt> Acoustic model generating device, acoustic model generating method and program
JP2013160930A (en) * 2012-02-06 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Sound model adaptation device, voice recognition device, methods therefor, and program
JP2014115499A (en) * 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> Voice recognition device, error correction model learning method, and program
JP2015018186A (en) * 2013-07-12 2015-01-29 日本放送協会 Adaptation device and program
JP2015158582A (en) * 2014-02-24 2015-09-03 日本放送協会 Voice recognition device and program
JP2016009430A (en) * 2014-06-26 2016-01-18 日本放送協会 Image discriminator learning device and program
JP2015187733A (en) * 2015-04-28 2015-10-29 株式会社東芝 Transcription support system and transcription support method
JP2017045027A (en) * 2015-08-24 2017-03-02 日本放送協会 Speech language corpus generation device and its program
JP2016177311A (en) * 2016-05-25 2016-10-06 株式会社東芝 Text processing device, text processing method and text processing program
US12125482B2 (en) 2019-11-22 2024-10-22 Intel Corporation Adaptively recognizing speech using key phrases
WO2023100999A1 (en) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 Voice registration device and voice registration method

Also Published As

Publication number Publication date
JP5149107B2 (en) 2013-02-20

Similar Documents

Publication Publication Date Title
JP5149107B2 (en) Sound processing apparatus and program
JP4869268B2 (en) Acoustic model learning apparatus and program
US9990915B2 (en) Systems and methods for multi-style speech synthesis
US20200120396A1 (en) Speech recognition for localized content
KR101183344B1 (en) Automatic speech recognition learning using user corrections
US9117450B2 (en) Combining re-speaking, partial agent transcription and ASR for improved accuracy / human guided ASR
Huijbregts Segmentation, diarization and speech transcription: surprise data unraveled
JP2005165272A (en) Speech recognition utilizing multitude of speech features
JP2015212731A (en) Acoustic event recognition device and program
JP5271299B2 (en) Speech recognition apparatus, speech recognition system, and speech recognition program
JP6637332B2 (en) Spoken language corpus generation device and program thereof
JP6183988B2 (en) Speech recognition apparatus, error correction model learning method, and program
Lanchantin et al. The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge
JP2013050605A (en) Language model switching device and program for the same
JP5184467B2 (en) Adaptive acoustic model generation apparatus and program
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
Georgescu et al. Rodigits-a romanian connected-digits speech corpus for automatic speech and speaker recognition
JP4949310B2 (en) Sound processing apparatus and program
JP6637333B2 (en) Acoustic model generation device and its program
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.
JP4972660B2 (en) Speech learning apparatus and program
JP2004347732A (en) Automatic language identification method and system
Govender et al. Objective measures to improve the selection of training speakers in HMM-based child speech synthesis
Akesh et al. Real-Time Subtitle Generator for Sinhala Speech
US20240153493A1 (en) Techniques for improved audio processing using combinations of clipping engines and acoustic models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121129

R150 Certificate of patent or registration of utility model

Ref document number: 5149107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250