JP2015158582A - Voice recognition device and program - Google Patents
Voice recognition device and program Download PDFInfo
- Publication number
- JP2015158582A JP2015158582A JP2014033024A JP2014033024A JP2015158582A JP 2015158582 A JP2015158582 A JP 2015158582A JP 2014033024 A JP2014033024 A JP 2014033024A JP 2014033024 A JP2014033024 A JP 2014033024A JP 2015158582 A JP2015158582 A JP 2015158582A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic event
- character string
- acoustic
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識装置、及びプログラムに関する。 The present invention relates to a speech recognition apparatus and a program.
生放送番組の字幕制作に音声認識を利用する技術が実用化されている。放送字幕は、放送番組の音声を音声認識した結果を人手により修正して作成される(例えば、特許文献1参照)。 A technology that uses speech recognition to produce subtitles for live broadcast programs has been put into practical use. Broadcast subtitles are created by manually correcting the result of speech recognition of broadcast program audio (see, for example, Patent Document 1).
放送番組の音声認識は、主に聴覚障碍者や高齢者への情報補償を目的としている。このときの音声認識の対象は、放送番組における音声言語の音声のみである。しかし、多くの放送番組の音声は、音声言語だけから構成されている訳ではない。例えば、番組の演出上の要請から、非言語的な音声(例えば、笑い声)や、拍手、背景音楽などの音響イベントが付加されている。音響イベントは、放送番組のシーンを補足的に説明したり、場面の転換を知らせたりするなど、音声言語同様、情報伝達において重要な役割を担っていると考えられる。このとこから、音響イベントは、視聴者が番組を理解する際に欠かせない要素の一つといえる。 Speech recognition of broadcast programs is mainly aimed at information compensation for hearing impaired and elderly people. The target of voice recognition at this time is only the voice of the voice language in the broadcast program. However, the sound of many broadcast programs is not composed solely of sound languages. For example, a non-linguistic sound (for example, laughter), applause, background music, and other acoustic events are added in response to a program production request. The acoustic event is considered to play an important role in information transmission, like the spoken language, such as supplementarily explaining the scene of the broadcast program or notifying the change of the scene. From this point, it can be said that the acoustic event is one of the elements indispensable for the viewer to understand the program.
ところが、現在の音声認識による字幕制作では、音響イベントは考慮されておらず、番組理解のための情報が視聴者に十分伝えられていないことがある。音響イベントの持つ情報が字幕に反映されれば、伝達する字幕に彩りやアクセント、あるいはニュアンスといった補足的な情報を付加することとなり、視聴者の番組理解に大いに貢献するものと考えられる。そのためには、音響イベントの情報を付加した字幕制作することが求められる。 However, in current caption production by voice recognition, acoustic events are not taken into account, and information for understanding a program may not be sufficiently conveyed to viewers. If the information of an acoustic event is reflected in subtitles, supplemental information such as color, accent, or nuance will be added to the subtitles to be transmitted, which will greatly contribute to viewer understanding of the program. To that end, it is required to produce captions with information on acoustic events.
本発明は、このような事情を考慮してなされたもので、音響イベントの情報を付加した字幕を制作することができる音声認識装置、及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and provides a speech recognition apparatus and program capable of producing subtitles with information on acoustic events added thereto.
本発明の一態様は、音声データを音声認識し、音声認識結果の発話内容を示す文字列のデータを出力する音声認識部と、前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する音響イベント認識部と、前記音声認識部が出力した前記発話内容の文字列のデータと、前記音響イベント認識部が出力した前記音響イベントを表す文字列のデータとを修正端末に表示させ、表示させた中から指定された前記発話内容の文字列における注釈挿入位置と、表示させた中から選択された前記音響イベントを表す文字列とを示す注釈挿入指示を前記修正端末から受信し、受信した前記注釈挿入指示に従って前記発話内容を示す文字列のデータに前記音響イベントを表す文字列のデータを挿入した注釈付き字幕データを生成する認識結果修正部と、を備えることを特徴とする音声認識装置である。
この発明によれば、音声認識装置は、音声データを音声認識して得た発話内容を示す文字列と、当該音声データについて検出された音響イベントを表す文字列とを修正端末に表示させる。音声認識装置は、修正者が修正端末において指定した発話内容の文字列における注釈挿入位置と、挿入する注釈として選択した音響イベントを表わす文字列とに従って、発話内容に音響イベントを表す文字列を挿入して注釈付き字幕を生成する。
これにより、音声認識装置は、修正者が修正端末の表示を見ながら、注釈を挿入したい発話内容の位置と、注釈として挿入したい音響イベントを表す文字列を選択する簡易な操作によって、音響イベントの情報を付加した字幕を生成することができる。
According to one aspect of the present invention, a speech recognition unit that recognizes speech data and outputs character string data indicating the utterance content of the speech recognition result; and an acoustic event based on an acoustic feature obtained from the speech data. A sound event recognition unit for calculating a posteriori probability and outputting character string data representing an acoustic event detected based on the calculated posteriori probability; and a character string data of the utterance content output by the voice recognition unit And the character string data representing the acoustic event output by the acoustic event recognition unit is displayed on the correction terminal, and the annotation insertion position in the character string of the utterance content specified from the displayed is displayed. An annotation insertion instruction indicating the character string representing the acoustic event selected from the inside is received from the correction terminal, and the character string indicating the utterance content is received according to the received annotation insertion instruction. A recognition result correction unit for generating an annotated caption data inserting a string of characters representing the acoustic events over data, a speech recognition apparatus comprising: a.
According to this invention, the voice recognition device displays a character string indicating the utterance content obtained by voice recognition of voice data and a character string representing an acoustic event detected for the voice data on the correction terminal. The speech recognition device inserts a character string representing an acoustic event into the utterance content according to the annotation insertion position in the character string of the utterance content designated by the corrector at the correction terminal and the character string representing the acoustic event selected as the annotation to be inserted. To generate subtitles with annotations.
Thus, the voice recognition device allows the corrector to view the acoustic event by a simple operation of selecting the position of the utterance content to which the annotation is to be inserted and the character string representing the acoustic event to be inserted as the annotation while viewing the display on the correction terminal. Subtitles with information added can be generated.
本発明の一態様は、上述する音声認識装置であって、前記音声データをフレームに分割し、各フレームの音響特徴量と、無音、音響イベント、及び音声言語それぞれの音響特徴量とを照合して音響イベントを含んだ区間を検出する音響イベント区間検出部を備え、前記音響イベント認識部は、前記音響イベント区間検出部が検出した前記区間の前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する、ことを特徴とする。
この発明によれば、音声認識装置は、音声データから音響イベントを含んだ区間を検出し、検出した区間の音声データを対象に音響イベント認識を行う。
これにより、音声認識装置は、音響イベントが含まれている区間のみを音響イベント認識の対象とするため、音響イベント認識の精度を良くすることができる。
One aspect of the present invention is the speech recognition device described above, wherein the speech data is divided into frames, and the acoustic feature amount of each frame is compared with the acoustic feature amount of each of silence, acoustic event, and speech language. An acoustic event section detection unit that detects a section including an acoustic event, and the acoustic event recognition unit is based on an acoustic feature amount obtained from the audio data of the section detected by the acoustic event section detection unit. A posterior probability of the acoustic event is calculated, and character string data representing the acoustic event detected based on the calculated posterior probability is output.
According to this invention, the voice recognition device detects a section including an acoustic event from voice data, and performs acoustic event recognition on the voice data of the detected section.
Thereby, since the speech recognition apparatus sets only the section including the acoustic event as a target for the acoustic event recognition, the accuracy of the acoustic event recognition can be improved.
本発明の一態様は、上述する音声認識装置であって、前記音響イベント認識部は、前記音声データを分割した時刻順のフレームそれぞれの音響特徴量を並べて畳み込みニューラルネットワークに入力して音響イベントの事後確率を算出し、前記畳み込みニューラルネットワークは、入力層、隠れ層、プーリング層、及び出力層を有し、前記入力層は、時刻順に並べた前記フレームそれぞれの音響特徴量を入力とし、前記隠れ層の各ユニットは、所定フレーム数分のシフトを保ちながら前記入力層の所定数のフレームと結合しており、結合している前記入力層のフレームの音響特徴量を畳み込み演算した結果を示し、前記プーリング層の各ユニットは、当該プーリング層のユニット数に応じた数の前記隠れ層のユニットと結合しており、結合している前記隠れ層のユニットのうち最大値が伝搬され、前記出力層の各ユニットは、異なる種類の音響イベントに対応しており、前記プーリング層の全てのユニットと、対応する前記音響イベントの事後確率を算出するためのそれぞれの重みにより結合している、ことを特徴とする。
この発明によれば、音声認識装置は、音声データを音響イベント認識における音響特徴量の処理単位であるフレームに分割し、分割した各フレームの音響特徴量を、対応するフレームの時刻順に並べて畳み込みニューラルネットワークに入力することにより、各音響イベントの事後確率を算出する。
これにより、音声認識装置は、音声データから得られた各フレームの音響特徴量を用いて、各音響イベントの事後確率を得ることができる。
One aspect of the present invention is the speech recognition device described above, in which the acoustic event recognition unit arranges acoustic feature amounts of time-ordered frames obtained by dividing the speech data and inputs the acoustic feature amounts to a convolutional neural network to input an acoustic event. The posterior probability is calculated, and the convolutional neural network has an input layer, a hidden layer, a pooling layer, and an output layer, and the input layer receives the acoustic feature values of the frames arranged in time order as inputs, and Each unit of the layer is combined with a predetermined number of frames of the input layer while maintaining a shift by a predetermined number of frames, and shows the result of convolution calculation of the acoustic feature amount of the frame of the input layer combined, Each unit of the pooling layer is coupled to the number of hidden layer units corresponding to the number of units of the pooling layer. A maximum value is propagated among the hidden layer units, each unit of the output layer corresponds to a different type of acoustic event, and all the units of the pooling layer and the corresponding posterior probability of the acoustic event Are combined by respective weights for calculating.
According to this invention, the speech recognition apparatus divides speech data into frames that are processing units of acoustic feature amounts in acoustic event recognition, and arranges the acoustic feature amounts of the divided frames in the order of the times of the corresponding frames to perform a convolutional neural network. By inputting to the network, the posterior probability of each acoustic event is calculated.
Thereby, the speech recognition apparatus can obtain the posterior probability of each acoustic event using the acoustic feature amount of each frame obtained from the speech data.
本発明の一態様は、上述する音声認識装置であって、前記音響特徴量は、時間周波数領域の特徴量である、ことを特徴とする。
この発明によれば、音声認識装置は、音声データの時間周波数領域の特徴量を用いて音響イベントを認識する。
これにより、音声認識装置は、周波数領域の特徴量を所定時間分以上連結して音響イベントを認識することができるため、音響イベントの認識の精度を良くすることができる。
One aspect of the present invention is the speech recognition device described above, wherein the acoustic feature amount is a feature amount in a time-frequency domain.
According to the present invention, the voice recognition device recognizes an acoustic event using the feature quantity in the time frequency domain of the voice data.
Thereby, since the speech recognition apparatus can recognize the acoustic event by connecting the feature quantities in the frequency domain for a predetermined time or more, it can improve the accuracy of the acoustic event recognition.
本発明の一態様は、コンピュータを、音声データを音声認識し、音声認識結果の発話内容を示す文字列のデータを出力する音声認識手段と、前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する音響イベント認識手段と、前記音声認識手段が出力した前記発話内容の文字列のデータと、前記音響イベント認識手段が出力した前記音響イベントを表す文字列のデータとを修正端末に表示させ、表示させた中から指定された前記発話内容の文字列における注釈挿入位置と、表示させた中から選択された前記音響イベントを表す文字列とを示す注釈挿入指示を前記修正端末から受信し、受信した前記注釈挿入指示に従って前記発話内容を示す文字列のデータに前記音響イベントを表す文字列のデータを挿入した注釈付き字幕データを生成する認識結果修正手段と、を具備する音声認識装置として機能させるためのプログラムである。 According to one aspect of the present invention, a computer recognizes voice data, outputs voice string data indicating the utterance content of the voice recognition result, and an acoustic feature obtained from the voice data. A sound event recognition means for calculating a posterior probability of an acoustic event and outputting data of a character string representing an acoustic event detected based on the calculated posterior probability; and a character of the utterance content output by the voice recognition means Annotation insertion position in the character string of the utterance content designated from among the data of the column and the character string data representing the acoustic event output by the acoustic event recognition unit is displayed on the correction terminal, An annotation insertion instruction indicating the character string representing the acoustic event selected from among the displayed events is received from the correction terminal, and the previous instruction is received according to the received annotation insertion instruction. A recognition result correction means for generating an annotated caption data inserting a string of characters representing the acoustic event data string indicating the speech content is a program to function as the speech recognition apparatus comprising.
本発明によれば、音響イベントの情報を付加した字幕を制作することができる。 According to the present invention, it is possible to produce a caption with information on an acoustic event added.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
字幕制作を目的とした音声認識では、遅延のない認識結果文字列の出力が重要視されている。従来は、視聴者への情報伝達に重要な音声言語のみが音声から文字列へと変換する字幕化の対象であり、音響イベントのような非言語音は字幕化の対象外であった。これは、特に生放送の番組では、音声認識誤りの修正のための時間が十分に取れず、音声言語以外の情報を字幕化することが困難であったためである。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In speech recognition for the purpose of subtitle production, output of recognition result character strings without delay is regarded as important. Conventionally, only a speech language important for information transmission to a viewer is a subject of subtitle conversion from speech to a character string, and non-language sounds such as acoustic events are not subject to subtitle conversion. This is because, particularly in a live broadcast program, there is not enough time for correcting a speech recognition error, and it is difficult to subtitle information other than the speech language.
ニュースなどの番組では、音声言語が極めて重要なウェイトを占めており、効果音などの音響イベントはほとんど含まれていない。よって、音声言語のみを字幕化するだけで、必要な情報を視聴者に伝達することが可能である。一方、スポーツ番組や情報番組では、非言語音である笑い声や拍手、歓声などの音響的なイベントがより大きな役割を果たしている。ニュースが事実を伝えることに主眼を置いている一方で、その他の番組は、臨場感を伝えるなどの演出上の要請から、非言語音の重要性が増すことが一因である。演出上重要な存在である音響イベントは、従来の生放送を対象とした字幕制作では、どちらかといえば重要視されてこなかったという背景がある。しかし、聴覚障碍者や高齢者が放送番組をより楽しむ、あるいは、理解するという観点から見た場合、非言語音である音響イベントを字幕として充実させることが求められるのは当然といえる。 In a program such as news, the speech language occupies a very important weight, and hardly includes sound events such as sound effects. Therefore, it is possible to transmit necessary information to the viewer only by subtitling only the audio language. On the other hand, in sports programs and information programs, acoustic events such as laughter, applause, and cheers, which are non-verbal sounds, play a larger role. While the news focuses on telling the facts, other programs are partly due to the increasing importance of non-verbal sounds due to staging demands such as telling a sense of reality. Sound events, which are important in production, have a background that they have not been regarded as important in conventional caption production for live broadcasting. However, from the viewpoint of hearing impaired people and elderly people more enjoying or understanding broadcast programs, it is natural to enhance non-verbal sound events as subtitles.
図1(a)は、従来の字幕制作手法を示す図である。従来の字幕制作手法では、入力音声に含まれるテキスト化可能な音声言語のみを字幕制作の対象としているため、入力音声から音声言語を含む音声区間を検出し、該当区間を切り出している。次に、切り出した音声区間を音声認識し、認識結果である単語列のテキストデータを出力する。この認識結果には通常認識誤りが含まれているため、人手により認識結果中の誤りを修正し、修正結果を放送字幕として送出する。
この一連の手続きは、音声区間が切り出されるたびに逐次的に行われ、低遅延で字幕制作を行うことができる。
FIG. 1A is a diagram showing a conventional caption production method. In the conventional caption production method, only a speech-capable speech language included in the input speech is subject to caption production. Therefore, a speech section including the speech language is detected from the input speech, and the corresponding section is cut out. Next, the extracted speech section is speech-recognized, and text data of a word string as a recognition result is output. Since the recognition result usually includes a recognition error, the error in the recognition result is manually corrected, and the correction result is transmitted as a broadcast subtitle.
This series of procedures is performed sequentially every time a voice section is cut out, and caption production can be performed with low delay.
音声認識に基づく従来の字幕制作手法において音響イベントを挿入する場合、非言語音が表す内容を修正者が適宜解釈した上で、キーボード等の入力方法を用いて、音響イベントを表す文字列を注釈として音声認識結果に挿入することが考えられる。しかし、キーボード入力には時間を要するため、修正者が、音声認識結果を修正しながら、さらに追加のキーボード入力作業を行うことは現実的には非常に困難である。
本実施形態の音声認識装置は、このような問題を解決し、音響イベントに関する情報伝達を視聴者に行うための字幕制作を行う。
When inserting an acoustic event in the conventional caption production method based on speech recognition, the corrector interprets the content represented by the non-language sound as appropriate, and then uses a keyboard or other input method to annotate the character string representing the acoustic event. Can be inserted into the speech recognition result. However, since keyboard input takes time, it is actually very difficult for the corrector to perform additional keyboard input work while correcting the speech recognition result.
The speech recognition apparatus according to the present embodiment solves such a problem and performs caption production for performing information transmission regarding an acoustic event to a viewer.
そこで、本実施形態の音声認識装置は、従来の字幕制作手法と同様の音声認識結果とともに、音響イベントの認識結果を注釈として出力する。ここで「注釈」とは、音声言語に対する付加情報である音響イベントを言語表現としてテキスト(文字列)で表したものである。また、音声言語の音声認識結果に基づく従来の字幕に対して注釈が挿入されたものを「注釈付き字幕」と記載する。 Therefore, the speech recognition apparatus according to the present embodiment outputs the recognition result of the acoustic event as an annotation together with the speech recognition result similar to the conventional caption production method. Here, the “annotation” is a text (character string) representing an acoustic event, which is additional information for the speech language, as a language expression. In addition, an annotation inserted with respect to a conventional caption based on a speech recognition result of a speech language is referred to as “annotated caption”.
図1(b)は、本実施形態の音声認識装置による字幕制作手法を示す図である。
同図に示すように、本実施形態の音声認識装置による字幕制作手法においては、従来の音声区間検出処理及び音声認識処理に併せて、音響イベント区間検出処理及び音響イベント認識処理を並列で実行する。音響イベント区間検出処理では、入力音声から音響イベントを含む音声区間を検出し、該当区間を切り出す。音響イベント認識処理では、切り出された音響イベント区間の音響イベントを認識し、認識した音響イベントを表す単語列のテキストデータを出力する。音声認識処理と音響イベント認識処理の並列動作により、本実施形態の音声認識装置は、個々の認識処理に対して独立に最適なアルゴリズムを実装することが可能となる。また、音響イベントの認識が不要であれば、音響イベント認識処理の実行プログラムを動作させないように本実施形態の音声認識装置に設定すればよい。これにより、字幕制作者のニーズに合わせた字幕制作手法を選択することも可能である。
FIG. 1B is a diagram showing a caption production method by the speech recognition apparatus of the present embodiment.
As shown in the figure, in the caption production method by the speech recognition apparatus of the present embodiment, the acoustic event section detection process and the acoustic event recognition process are executed in parallel with the conventional speech section detection process and the speech recognition process. . In the acoustic event section detection process, a voice section including an acoustic event is detected from the input voice, and the corresponding section is cut out. In the acoustic event recognition process, an acoustic event in the extracted acoustic event section is recognized, and text data of a word string representing the recognized acoustic event is output. Through the parallel operation of the speech recognition process and the acoustic event recognition process, the speech recognition apparatus according to the present embodiment can mount an optimal algorithm independently for each recognition process. If the recognition of the acoustic event is unnecessary, the sound recognition device of the present embodiment may be set so that the execution program for the acoustic event recognition process is not operated. This makes it possible to select a caption production method that meets the needs of the caption producer.
そして、本実施形態の音声認識装置による字幕制作手法においては、人手による音声認識結果の修正作業時に音声認識結果と音響イベント認識結果とを統合し、放送する注釈付き字幕である注釈付き放送字幕を制作する。上述のように、本実施形態の音声認識装置が、音声認識処理と音響イベント認識処理を並列に実行した場合、最終的な音声認識結果と、注釈として与えられる音響イベント認識結果とを統合する必要がある。通常は、音声認識結果に対して修正端末において人手による修正が行われる。本実施形態の音声認識装置は、修正端末に表示させた音声認識結果に対して修正者が修正指示を入力する際に、音響イベント認識結果である注釈についても修正端末に表示させ、音声認識結果に挿入するための効率的なインタフェースを有する。このインタフェースにより、キーボード入力による音響イベント文字列作成の省力化を図る。 Then, in the caption production method by the speech recognition apparatus of the present embodiment, the annotated broadcast subtitle that is an annotated caption to be broadcast is integrated by integrating the speech recognition result and the acoustic event recognition result at the time of manually correcting the speech recognition result. Produce. As described above, when the speech recognition apparatus of the present embodiment executes speech recognition processing and acoustic event recognition processing in parallel, it is necessary to integrate the final speech recognition result and the acoustic event recognition result given as an annotation. There is. Normally, manual correction is performed on the voice recognition result at the correction terminal. When the corrector inputs a correction instruction to the voice recognition result displayed on the correction terminal, the voice recognition device of the present embodiment also displays the annotation that is the acoustic event recognition result on the correction terminal, and the voice recognition result With an efficient interface for insertion into This interface will save labor for creating acoustic event character strings by keyboard input.
上記のような音声認識処理と音響イベント認識処理の並列実行、及び、修正作業時の音声認識結果と音響イベント認識結果の統合により、本実施形態の音声認識装置は、従来困難であった、音響イベントに関する注釈を付加した効率的な字幕制作を可能とする。 Due to the parallel execution of the speech recognition process and the acoustic event recognition process as described above, and the integration of the speech recognition result and the acoustic event recognition result at the time of the correction work, the speech recognition apparatus according to the present embodiment has been difficult to achieve. Enables efficient caption production with annotations about events.
図2は、本発明の一実施形態による字幕制作システムの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。同図に示すように、字幕制作システムは、音声認識装置1と修正端末5とを備えて構成される。音声認識装置1と修正端末5とはネットワークを介して接続される。同図においては、字幕制作システムが、2台の修正端末5を備える場合を示しているが、修正端末5を1台のみ備えてもよく、3台以上備えてもよい。2台の修正端末5をそれぞれ、修正端末5−1、5−2とする。
FIG. 2 is a block diagram showing a configuration of a caption production system according to an embodiment of the present invention, and shows only functional blocks related to the present embodiment. As shown in the figure, the caption production system includes a voice recognition device 1 and a
音声認識装置1は、コンピュータ装置により実現される。同図に示すように、音声認識装置1は、記憶部10、音声分岐部11、音声区間検出部12、音声認識部13、音響イベント区間検出部14、音響イベント認識部15、及び認識結果修正部16を備えて構成される。
The voice recognition device 1 is realized by a computer device. As shown in the figure, the speech recognition apparatus 1 includes a
記憶部10は、音声区間検出用の統計的音響モデルと、音声認識用の統計的音響モデル及び統計的言語モデルを格納する。さらに、記憶部10は、音響イベント区間検出用の統計的音響モデルと、音響イベント認識用のニューラルネットワークを格納する。音声分岐部11は、音声認識装置1に入力された音声データD1を2つに分岐し、音声区間検出部12と音響イベント区間検出部14に出力する。
The
音声区間検出部12は、記憶部10に記憶されている音声区間検出用の統計的音響モデルを用いて、音声分岐部11から入力された音声データD1において、テキスト化の対象となる音声言語の音声区間である音声言語区間を検出する。音声区間検出部12は、検出した音声データD1の音声言語区間である音声言語区間データD2を音声認識部13に出力する。音声認識部13は、記憶部10に記憶されている音声認識用の統計的音響モデル及び統計的言語モデルを用いて音声言語区間データD2を音声認識する。音声認識部13は、発話内容の音声認識結果を設定した音声認識結果データD3を認識結果修正部16に出力する。
The speech section detection unit 12 uses the statistical acoustic model for speech section detection stored in the
音響イベント区間検出部14は、記憶部10に記憶されている音響イベント区間検出用の統計的音響モデルを用いて、音声分岐部11から入力された音声データD1において、音響イベントが含まれる音声区間である音響イベント区間を検出する。音響イベント区間検出部14は、検出した音声データD1の音響イベント区間である音響イベント区間データD4を音響イベント認識部15に出力する。音響イベント認識部15は、記憶部10に記憶されている音響イベント認識用のニューラルネットワークを用いて音響イベント区間データD4の音響イベントを認識する。音響イベント認識部15は、音響イベント認識結果を設定した音響イベント認識結果データD5を認識結果修正部16に出力する。音響イベント認識結果は、検出した音響イベントを表すテキスト表現(文字列)である。
The acoustic event
認識結果修正部16は、音声認識部13から出力された音声認識結果データD3と、音響イベント認識部15から出力された音響イベント認識結果データD5を修正端末5へ出力し、表示させる。認識結果修正部16は、修正端末5から受信した修正指示に基づいて音声認識結果を修正するとともに、修正端末5から受信した注釈挿入指示に基づいて注釈文字列を音声認識結果に挿入し、注釈付き放送字幕データD6を生成する。修正指示は、音声認識結果における修正箇所と、その修正箇所における文字の削除、挿入、置換などの修正内容を示す。注釈挿入指示は、音声認識結果における注釈挿入箇所と、その注釈挿入箇所に挿入する注釈文字列を示す。注釈文字列は、修正端末5に表示させた音響イベント認識結果データD5の音響イベントのテキスト表現の中から、修正者が選択したものである。認識結果修正部16は、生成した注釈付き放送字幕データD6を出力する。
The recognition
修正端末5は、例えば、パーソナルコンピュータなどのコンピュータ装置により実現される。修正端末5は、制御部51、表示部52、入力部53、及び音声出力部54を備えて構成される。表示部52は、ディスプレイであり、画面を表示する。入力部53は、キーボードやマウスなどであり、修正者による操作を受ける。本実施形態では、修正端末5がタッチパネルと、キーボードを備える場合を例に説明する。タッチパネルは、表示部52と入力部53を兼ねる。音声出力部54は、ヘッドホンやスピーカーであり、音声データD1の再生音声を出力する。制御部51は、音声認識装置1から受信した音声認識結果データD3と音響イベント認識結果データD5を表示部52に表示させる。また、制御部51は、入力部53により修正者が入力した音声認識結果の修正指示や、音声認識結果への注釈挿入指示を音声認識装置1に出力する。さらに、制御部51は、音声データD1の再生音声を音声出力部54から出力させる。
The
次に、音声認識装置1の動作について説明する。
まず、音声認識装置1は、音声区間検出用、音響イベント区間検出用それぞれの統計的音響モデルと、音声認識用の統計的音響モデル及び統計的言語モデルと、音響イベント認識用のニューラルネットワークを記憶部10に格納する。音声区間検出用の統計的音響モデルや、音声認識用の統計的音響モデル及び統計的言語モデルは、従来と同様のものを用いることができる。本実施形態では、音響イベント区間検出用の統計的音響モデルとして、HMM(Hidden Markov Model、隠れマルコフモデル)及びGMM(Gaussian Mixture Model、ガウス混合分布)を用いる。この音響イベント区間検出用のHMM及びGMMは、音声、音響イベント、及び無音の3つのクラスそれぞれのラベルがつけられた音声データを学習データとして用い、従来技術と同様の学習方法により学習される。なお、音声のラベルは、音声言語の音声データにつけられる。例えば、音響イベントのGMMの場合、混合されるガウス分布のそれぞれが、異なる種類の音響イベントの特徴を表すようにする。また、音響イベント認識用のニューラルネットワークの学習には、各音響イベントのラベルが付けられた音声データを学習データとして用い、従来技術と同様の学習方法により学習される。音響イベント区間検出用のHMMについては図4を用いて、音響イベント認識用のニューラルネットワークについては図6を用いて後述する。
Next, the operation of the voice recognition device 1 will be described.
First, the speech recognition apparatus 1 stores a statistical acoustic model for speech segment detection and acoustic event segment detection, a statistical acoustic model and statistical language model for speech recognition, and a neural network for acoustic event recognition. Stored in the
図3は、音声認識装置1の全体処理フローを示す図である。音声認識装置1は、音声データD1が入力される度に、同図に示す処理を行う。
音声認識装置1に放送番組の音声データD1が入力されると、音声分岐部11は、入力された音声データD1を、音声認識及び音響イベント認識それぞれの入力とするために2つに分岐する。これは、音声言語と音響イベントに重なりがあるためである。音声認識処理と音響イベント認識処理を分割することにより、それぞれ独立に最適な認識アルゴリズムを適用できるようにする。音声分岐部11は、2つに分岐した音声データD1のうち一方を、音声認識の前処理を行う音声区間検出部12に出力し、もう一方を、音響イベント認識の前処理を行う音響イベント区間検出部14に出力する(ステップS1)。
FIG. 3 is a diagram showing an overall processing flow of the speech recognition apparatus 1. The voice recognition device 1 performs the process shown in the figure every time the voice data D1 is input.
When the audio data D1 of the broadcast program is input to the audio recognition device 1, the
音声区間検出部12は、従来技術によって、音声データD1においてテキスト化が必要となる音声言語区間を検出して切り出す(ステップS2)。この音声言語区間には、背景音などの音響イベントとの重なりが含まれ得る。本実施形態では、特開2007−233148号公報や、特開2007−233149号公報に記載の技術により、音声区間を検出する。音声区間検出部12は、検出した音声データD1の音声言語区間である音声言語区間データD2を音声認識部13に出力する。
The speech section detection unit 12 detects and cuts out a speech language section that needs to be converted into text in the speech data D1 by the conventional technique (step S2). This speech language segment may include overlap with acoustic events such as background sounds. In the present embodiment, a voice section is detected by the techniques described in Japanese Patent Application Laid-Open No. 2007-233148 and Japanese Patent Application Laid-Open No. 2007-233149. The speech segment detection unit 12 outputs the speech language segment data D2, which is the speech language segment of the detected speech data D1, to the
具体的には、音声区間検出部12は、音声データD1が入力される度に、音声データD1が示す音声を、所定の時間間隔の1処理単位のフレームである入力フレームに分割する。音声区間検出部12は、時刻が早い順に選択した所定数の入力フレームそれぞれの音響特徴量を計算する。発話区間検出用の状態遷移ネットワークは、発話開始から発話終了までに、非音声言語、音声言語、無音の3状態を飛越しなく遷移するleft−to−right型のHMMである。なお、無音の状態に代えて、非音声言語の状態を用いてもよい。音声区間検出部12は、記憶部10から非音声言語、音声言語それぞれの音響モデルを読み出し、読み出したこれらの音響モデルを用いて各入力フレームの音響スコア(対数尤度)計算を行う。非音声言語の音響モデルは、無音や音響イベントなどのHMMを表す。また、音声言語の音響モデルは、各音素の音素HMMからなる。音声区間検出部12は、各入力フレームの状態遷移の記録を記憶しておき、現在の状態から開始状態に向かって状態遷移の記録を遡り、状態遷移ネットワークを用いて処理開始(始端)の入力フレームからの各状態系列の累積の音響スコアを算出する。音声区間検出部12は、各状態系列の累積の音響スコアのうち最大のものと、始端の音響スコアとの差が閾値より大きい場合、最大の累積の音響スコアが得られた系列において最後に非音声言語の状態であった時刻から所定時間遡った時刻を発話開始時刻とする。
音声区間検出部12は、さらに発話開始時刻検出後の入力フレームについて、上記と同様に処理開始の入力フレームからの現在の入力フレームまでの各状態系列の累積の音響スコアを算出する。音声区間検出部12は、各状態系列の中で最大の累積の音響スコアと、各状態系列のうち音声言語から非音声言語の終端に至る状態系列の中で最大の累積の音響スコアとの差が閾値を超えたかを判断する。音声区間検出部12は、閾値を超えた状態が所定時間経過した場合、その経過した時刻から所定時間遡った時刻を発話終了時刻とする。
音声区間検出部12は、発話開始時刻から発話終了時刻までの区間の入力フレームをまとめた音声言語区間データD2を出力する。
Specifically, every time voice data D1 is input, the voice section detection unit 12 divides the voice indicated by the voice data D1 into input frames that are frames of one processing unit at a predetermined time interval. The voice section detection unit 12 calculates the acoustic feature amount of each of a predetermined number of input frames selected in order from the earliest time. The state transition network for detecting an utterance section is a left-to-right type HMM that makes a transition between non-speech language, speech language, and silence without skipping from the start of utterance to the end of utterance. Note that a non-speech language state may be used instead of the silent state. The speech section detection unit 12 reads out the acoustic models of the non-speech language and the speech language from the
Further, the speech section detection unit 12 calculates the accumulated acoustic score of each state series from the input frame at the start of processing to the current input frame in the same manner as described above for the input frame after the speech start time is detected. The speech section detection unit 12 determines the difference between the maximum cumulative acoustic score in each state series and the maximum cumulative acoustic score in the state series from the spoken language to the end of the non-speech language in each state series. Determines whether the threshold value has been exceeded. When a predetermined time has elapsed after the threshold value is exceeded, the voice section detection unit 12 sets a time that is a predetermined time later than the elapsed time as the utterance end time.
The speech section detection unit 12 outputs speech language section data D2 in which input frames in a section from the utterance start time to the utterance end time are collected.
音声認識部13は、従来技術により、記憶部10に記憶されている音声認識用の統計的音響モデル及び統計的言語モデルを用いて音声言語区間データD2を音声認識する(ステップS3)。本実施形態では、音声認識部13は、統計的音響モデルに、HMM、及びGMMを用いる。また、本実施形態では、音声認識部13は、統計的言語モデルに単語n−gram言語モデルを用いたマルチパス音声認識により認識結果を得る。この認識結果は、単語を単位とした分かち書きであり、音声認識部13は、各単語に、当該単語が発話された時刻情報を付与する。音声認識部13は、音声認識結果を設定した音声認識結果データD3を認識結果修正部16に出力する(ステップS4)。
The
一方、音響イベント区間検出部14は、音声データD1において背景音等の音響イベントを含む音響イベント区間を検出して切り出す(ステップS5)。この音響イベント区間には、音声認識によりテキスト化が必要となる部分との重複が含まれ得る。音響イベント区間検出部14は、音声区間検出部12と同様のアルゴリズムにより、記憶部10に記憶されている音響イベント区間検出用のGMMとHMMを用いて音響イベント区間の検出を行う。ただし、音声区間検出部12が、音声言語の音声区間(音声言語区間)を検出対象としているのに対し、音響イベント区間検出部14は、非言語音の音声区間を検出対象とする点が異なる。また、発話区間検出用の状態遷移ネットワークに代えて、音響イベント区間検出用のHMMを用いる。
On the other hand, the acoustic event
図4は、記憶部10に記憶されている音響イベント区間検出用のHMMを示す図である。本実施形態では、HMMの構成を、いわゆるエルゴディックHMMとする。同図に示すように、このエルゴディックHMMは、音声、音響イベント、無音の3クラスの遷移を表現したHMMである。各遷移には、学習により得られた遷移確率が付与されている。
FIG. 4 is a diagram illustrating an HMM for detecting an acoustic event section stored in the
図5は、音響イベント区間検出部14の音響イベント区間検出処理フローを示す図であり、図3のステップS5における詳細な処理を示す。まず、音響イベント区間検出部14は、音声データD1が入力される度に、音声データD1を、所定の時間間隔の1処理単位のフレームである入力フレームD11に分割する。
FIG. 5 is a diagram showing an acoustic event section detection processing flow of the acoustic event
音響イベント区間検出部14は、まだ処理対象としていない入力フレームD11のうち、時刻が早い順に所定数の入力フレームD11を取得する(ステップS51)。音響イベント区間検出部14は、取得した各入力フレームD11の音響特徴量を計算する。音響イベント区間検出部14は、記憶部10からHMMの各状態である音声、音響イベント、及び無音それぞれのGMMを読み出す。音響イベント区間検出部14は、読み出したこれらのGMMと各入力フレームD11の音響特徴量とを照合して各入力フレームD11の音響スコア計算を行い、必要があればHMMの状態間の遷移を行う(ステップS52)。音響イベント区間検出部14は、トレースバックに必要な定められた数の入力フレームを処理していない場合(ステップS53:NO)、ステップS51に戻って新たな入力フレームD11を取得し、音響スコアの計算を行う。
The acoustic event
音響イベント区間検出部14は、トレースバックに必要な定められた数の入力フレームを処理した場合(ステップS53:YES)、現在の状態に至るまでの状態系列のリストをトレースバックにより求める(ステップS54)。つまり、音響イベント区間検出部14は、現在の状態から開始状態に向かって状態遷移の記録を遡り、図4に示すエルゴディックHMMを用いて、処理開始の入力フレームD11の状態(開始状態)から現在の状態までの各状態系列の累積の音響スコアを算出する。この際、音響イベント区間検出部14は、累積の音響スコアが大きい順に系列をソートしておく。
When the predetermined number of input frames necessary for traceback are processed (step S53: YES), the acoustic event
音響イベント区間検出部14は、トレースバックにより得られたHMMの状態系列から、第1位の系列と第2位の系列を比較する(ステップS55)。音響イベント区間検出部14は、累積の音響スコアの差が予め定めた閾値以下である場合、区間が確定しないと判断し(ステップS56:NO)、ステップS51に戻って新たな入力フレームD11に対して音響スコアの計算を行う。音響イベント区間検出部14は、累積の音響スコアの差が予め定めた閾値を超えたと判断した場合(ステップS56:YES)、第1位の系列を確定区間とする。音響イベント区間検出部14は、最後に音響イベントの確定区間のフレームをまとめあげたフレーム列を、音響イベント区間データD4として出力する(ステップS57)。
The acoustic event
図3において、音響イベント認識部15は、記憶部10に記憶されている音響イベント認識用のニューラルネットワークを用いて、音響イベント区間検出部14において得られた音響イベント区間データD4から音響イベントを認識する(ステップS6)。そこでまず、音響イベント認識部15は、音響イベント区間データD4を構成する音響イベントのフレーム列を、フレーム列連結により予め定めた長さNフレーム以上に至るまで連結する。これは、短すぎるフレーム列からは音響イベントの周波数特性の時間変化をとらえることが困難となり、精度よく音響イベントを推定することは困難なためである。音響イベント認識部15は、フレーム連結によりNフレーム以上のフレーム列からなる入力フレーム列を得ると、記憶部10に記憶されているニューラルネットワークを用いて、音響イベント認識を行う。
In FIG. 3, the acoustic
図6は、記憶部10に記憶されている音響イベント認識用のニューラルネットワークを示す図である。同図に示すように、本実施形態では、音響イベント認識部15は、音響イベント認識に、ニューラルネットワークの一種である畳み込みニューラルネットワークを用いる。畳み込みニューラルネットワークの例は、例えば、文献「Andrew L. Maas et al., "Word-level Acoustic Modeling with Convolutional Vector Regression", ICML Representation Learning Workshop, 2012」に記載されている。
FIG. 6 is a diagram showing a neural network for acoustic event recognition stored in the
同図に示す畳み込みニューラルネットワークは、入力層、隠れ層、プーリング層、出力層の4層から構成される。入力層は、音響イベント区間検出部14で出力された時刻順の複数のフレームに対応し、入力層の値は、対応するフレームから得られたメル周波数ケプストラムなどの時間周波数領域の音響特徴量である。この音響特徴量は、例えば、ベクトルで表される。本実施形態において、入力層の音響特徴量の総フレーム数Ns(≧N)は可変である。
The convolutional neural network shown in the figure is composed of four layers: an input layer, a hidden layer, a pooling layer, and an output layer. The input layer corresponds to a plurality of time-ordered frames output from the acoustic event
隠れ層の各ユニット(素子)は、入力層の総フレーム数Nsのフレーム(素子)のうち、連続するns個のフレームのみと結合している。隠れ層の各ユニットが結合している入力層のns個のフレームは、1つ前の隣接するユニットが結合しているns個のフレームよりも後の時刻に対応するが、一部が重複するようにkフレームずつシフトしている(k<ns)。例えば、入力層のi〜(i+2)番目のフレームが隠れ層のi番目のユニットに結合しているとする。隠れ層のi番目のユニットの値は、入力層のi〜(i+2)番目のフレームの値の加算(畳み込み演算)となる。ただし、入力層のi番目のフレーム、(i+1)番目のフレーム、(i+2)番目のフレームそれぞれと隠れ層のi番目のユニットとの結合重み(加算の際の重み)は均等でなくてもよい。例えば、入力層の1〜3番目のフレームが隠れ層の第1番目のユニットに結合し、入力層の2〜4番目のフレームが隠れ層の第2番目のユニットに結合し、入力層の3〜5番目のフレームが隠れ層の第3番目のユニットに結合する。このとき、(入力層の1番目のフレームから隠れ層の1番目のユニットの結合重み)=(入力層の2番目のフレームから隠れ層の2番目のユニットの結合重み)=(入力層の3番目のフレームから隠れ層の3番目のユニットの結合重み)=…である。同様に、(入力層の2番目のフレームから隠れ層の1番目のユニットの結合重み)=(入力層の3番目のフレームから隠れ層の2番目のユニットの結合重み)=(入力層の4番目のフレームから隠れ層の3番目のユニットの結合重み)=…である。つまり、隠れ層のユニットと入力層のフレームとの結合は、kフレーム分のシフトを保ちながら、入力層と隠れ層の各素子の間を同じ結合重みで結んでいる。隠れ層のユニット数Nhは、入力層のユニット数に応じた数になる。 Each unit (element) of the hidden layer is coupled to only the continuous n s frames among the frames (elements) of the total number of frames N s of the input layer. The n s number of frames of the input layer units of the hidden layer are bonded, but the previous adjacent units corresponds to the time after the n s frames attached, some Shifting by k frames so as to overlap (k < ns ). For example, it is assumed that the i to (i + 2) -th frame in the input layer is coupled to the i-th unit in the hidden layer. The value of the i-th unit of the hidden layer is an addition (convolution operation) of the values of the i to (i + 2) -th frames of the input layer. However, the connection weight (weight at the time of addition) of the i-th frame of the input layer, the (i + 1) -th frame, the (i + 2) -th frame, and the i-th unit of the hidden layer may not be equal. . For example, the first to third frames of the input layer are coupled to the first unit of the hidden layer, the second to fourth frames of the input layer are coupled to the second unit of the hidden layer, and 3 The fifth frame binds to the third unit of the hidden layer. At this time, (combination weight of the first unit of the hidden layer from the first frame of the input layer) = (joint weight of the second unit of the hidden layer from the second frame of the input layer) = (3 of the input layer) The coupling weight of the third unit of the hidden layer from the th frame) =. Similarly, (combination weight of the first unit of the hidden layer from the second frame of the input layer) = (joint weight of the second unit of the hidden layer from the third frame of the input layer) = (4 of the input layer) The coupling weight of the third unit of the hidden layer from the th frame) =. In other words, the coupling between the hidden layer unit and the input layer frame connects the elements of the input layer and the hidden layer with the same coupling weight while maintaining a shift of k frames. The number of hidden layer units Nh is a number corresponding to the number of units in the input layer.
隠れ層の上位のプーリング層は、予め定められた固定のユニット数Npのユニットにより構成される。プーリング層の各ユニットは、隠れ層のユニットのうち可変のユニット数nh=Np/Nhのユニットと結合している。プーリング層のユニットと隠れ層のユニットとの結合は、同じプーリング層のユニットに結合されている隠れ層のユニットの値のうち、最大値のみプーリング層に伝搬するという特質をもつ。 Pooling layer above the hidden layer is constituted by a unit of the number of units N p of predetermined fixed. Each unit in the pooling layer is coupled to a unit having a variable number of units n h = N p / N h among the units in the hidden layer. The coupling between the pooling layer unit and the hidden layer unit has a characteristic that only the maximum value among the values of the hidden layer units coupled to the same pooling layer unit propagates to the pooling layer.
プーリング層と出力層は、互いに各ユニットが全て結合している。出力層の値は、プーリング層の値に、プーリング層の各ユニットと出力層の各ユニットとの間それぞれの重みを表す重み係数行列を作用させた後、Softmax関数を用いて出力層の各ユニットの出力を正規化して計算される。出力層のユニットは、音響イベントに対応したテキスト表現(文字列)を表しており、音響特徴量が与えられたときのテキスト表現の事後確率を与える。
なお、本実施形態では、プーリング層と出力層を連結しているが、この間には任意の数の隠れ層及びプーリング層を挿入可能である。
The pooling layer and the output layer are all connected to each other. The value of the output layer is obtained by applying the weighting coefficient matrix representing the weight between each unit of the pooling layer and each unit of the output layer to the value of the pooling layer, and then using the Softmax function for each unit of the output layer. Is calculated by normalizing the output of. The unit of the output layer represents a text expression (character string) corresponding to an acoustic event, and gives a posterior probability of the text expression when an acoustic feature amount is given.
In this embodiment, the pooling layer and the output layer are connected, but any number of hidden layers and pooling layers can be inserted between them.
図7は、音響イベント認識部15の音響イベント認識処理フローを示す図であり、図3のステップS6における詳細な処理を示す。
音響イベント認識部15は、畳み込みニューラルネットワークの入力特徴量が十分な長さとなるよう、音響イベント区間検出部14からの出力である音響イベント区間データD4のフレーム列を時刻順にフレーム連結し、入力フレーム列を生成する(ステップS61)。入力フレーム列の長さがNに達していない場合(ステップS62:NO)、音響イベント認識部15は、ステップS61に戻り、Nフレーム以上の入力フレーム列が得られるまで新たな音響イベント区間データD4のフレーム列をフレーム連結する。入力フレーム列の長さが音響イベント認識に必要なN以上となった場合(ステップS62:YES)、音響イベント認識部15は、記憶部10に記憶されている畳み込みニューラルネットワークにより音響イベント認識を行う(ステップS63)。音響イベント認識部15は、入力フレーム列を構成する各フレームの音響特徴量を計算する。音響イベント認識部15は、入力フレーム列の各フレームについて計算した音響特徴量を、図6に示す畳み込みニューラルネットワークの入力層の入力とし、隠れ層、プーリング層、出力層の各ユニットの値を計算する。
FIG. 7 is a diagram showing an acoustic event recognition processing flow of the acoustic
The acoustic
最後に音響イベント認識部15は、畳み込みニューラルネットワークの出力層のユニットを、各ユニットの出力が示す事後確率に基づいて選択する。例えば、音響イベント認識部15は、事後確率が最大のものから順に所定数のユニットを選択してもよく、事後確率が所定以上のユニットを選択してもよく、事後確率が所定以上の中から事後確率が大きい順に所定数までのユニットを選択してもよい。記憶部10には、予め、出力層のユニットの番号と、その番号のユニットが表す音響イベントについてユーザが選んだテキスト表現とを対応付けて記憶しておく。音響イベント認識部15は、選択したユニットに対応する音響イベントのテキスト表現を記憶部10から読み出す。
Finally, the acoustic
本実施形態では、以下の表1から表5に示すような分類に従った音響イベントのテキスト表現を用いる。 In this embodiment, the text representation of the acoustic event according to the classification as shown in Table 1 to Table 5 below is used.
表1から表5では、該当する音響イベントのテキスト表現の例を示しているが、ある音響イベントに対応するテキスト表現を一意に定めることは難しい。そこで、過去に行われた字幕放送のテキストを解析し、頻度の高い代表的な表現をテキスト表現として選んでおく。例えば、これらの表現は、字幕放送のト書き(場面の説明を行う脚注)として表現されるものである。そして、出力層のユニットの番号と、その番号のユニットが表す音響イベントとして選んだテキスト表現とを対応付けて記憶部10に記憶しておく。
Tables 1 to 5 show examples of the text representation of the corresponding acoustic event, but it is difficult to uniquely determine the text representation corresponding to a certain acoustic event. Therefore, the text of subtitle broadcasting performed in the past is analyzed, and a representative expression with high frequency is selected as the text expression. For example, these expressions are expressed as a subtitle broadcast (footnote explaining the scene). Then, the unit number of the output layer and the text expression selected as the acoustic event represented by the unit of that number are stored in the
図3において、音響イベント認識部15は、読み出した音響イベントのテキスト表現に、事後確率が大きい順に順位を付与する。音響イベント認識部15は、順位が付与された音響イベントのテキスト表現である注釈文字列を音響イベント認識結果データD5に設定し、認識結果修正部16に出力する(ステップS7)。
In FIG. 3, the acoustic
認識結果修正部16は、音声認識結果データD3が示す音声認識結果と、音響イベント認識結果データD5が示す注釈文字列とを統合して、最終的な放送字幕を作成する(ステップS8)。本実施形態の音声認識装置1は、両者を効率的に実施可能な効率的なインタフェースを提供する。このインタフェースの提供方法には、以下の2つがある。
The recognition
第1のインタフェースの提供方法は、修正者が認識結果を修正する際に、注釈を挿入する方法である。認識結果の修正は、タッチパネルを具備したコンピュータ装置によって実現される修正端末5を用い、操作者の入力に基づいて行われる。
The first interface providing method is a method of inserting an annotation when the corrector corrects the recognition result. The correction of the recognition result is performed based on the input of the operator using the
図8は、修正端末5の表示部52に表示されるコンピュータディスプレイ画面である修正作業画面8を示す。修正作業画面8は、音声認識結果表示ウィンドウ80、音響イベント認識結果表示ウィンドウ83、音響イベント認識結果候補ウィンドウ86、履歴表示ウィンドウ87を含む。
音声認識結果表示ウィンドウ80は、音声認識結果と、音声認識結果に修正や注釈文字列の挿入を行った文字列とを表示する。音響イベント認識結果表示ウィンドウ83は、注釈文字列を表示する。音響イベント認識結果表示ウィンドウ83に表示される注釈文字列は、音響イベント認識結果データD5に設定されている順位が最も高い注釈文字列である。音響イベント認識結果候補ウィンドウ86は、注釈文字列の候補を表示する。注釈文字列の候補は、音響イベント認識結果データD5に設定されている順位が2番目以下の注釈文字列である。履歴表示ウィンドウ87は、音声認識結果に対する修正文字列を表示する。
FIG. 8 shows a
The voice recognition
音声認識装置1の認識結果修正部16は、音声認識部13から出力された音声認識結果データD3と、音響イベント認識部15から出力された音響イベント認識結果データD5を、修正端末5に随時出力する。このとき、認識結果修正部16は、音声認識結果データD3に対応した音声データD1も修正端末5に出力する。認識結果修正部16は、修正端末5に出力した音声認識結果データD3が示す音声認識結果を作業中字幕とする。
The recognition
各修正端末5の制御部51は、受信した音声データD1の再生音声を音声出力部54から出力する。制御部51は、音声認識結果表示ウィンドウ80に、受信した音声認識結果データD3から読み出した音声認識結果を、修正対象の文字列として音声認識結果表示ウィンドウ80の最下行に表示させる。このとき、制御部51は、音声認識結果を、単語間に縦棒を挟んだ文字列により表示させる。なお、音声認識結果表示ウィンドウ80にすでに最下行まで修正済みの音声認識結果が表示されていた場合、制御部51は、表示していた修正済みの音声認識結果の中で最も先の時刻の修正済みの音声認識結果を消去する。消去後、制御部51は、残りの修正済みの音声認識結果を現在よりも上の行に移動し、受信した音声認識結果データD3から読み出した音声認識結果を、音声認識結果表示ウィンドウ80の最下行に表示させる。
The
また、各修正端末5の制御部51は、音響イベント認識結果表示ウィンドウ83の右端から順に最新の注釈文字列を表示させる。つまり、制御部51は、音声認識装置1から新たな音響イベント認識結果データD5を受信する度に、音響イベント認識結果表示ウィンドウ83に表示していた注釈文字列を左にシフトして表示させる。制御部51は、新たに受信した音響イベント認識結果データD5から読み出した、最も順位の高い注釈文字列を、音響イベント認識結果表示ウィンドウ83の右端に表示させる。また、制御部51は、音響イベント認識結果候補ウィンドウ86に、受信した音響イベント認識結果データD5に設定されている2位以下の順位の注釈文字列をメニュー表示させる。
Further, the
音声認識結果の修正作業は、以下のように行う。修正者は、番組音声を聞きながら、音声認識結果表示ウィンドウ80により表示部52が表示している文字列の中から、修正対象の文字列を含む文字の表示部分を指などにより触れる。修正者は、指を移動させて、複数の文字に触れてもよい。入力部53は、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれる単語を選択し、選択された単語を特定する指摘情報を音声認識装置1に送信する。例えば、指摘情報には、単語が発音された時刻を用いることができる。音声認識装置1の認識結果修正部16は、修正端末5−1からの指摘情報を最も早く受信したとする。認識結果修正部16は、修正端末5−1から受信した指摘情報により示される文字列の表示を赤色等の選択色に変更するよう各修正端末5に指示する。各修正端末5の制御部51は、音声認識装置1からの指示に基づき選択された文字列の表示を選択色に変更する。さらに、認識結果修正部16は、修正端末5−2には、選択色に変更に併せて修正ガードを指示する。修正ガードが指示された修正端末5−2においては、修正作業や注釈の挿入作業はできない。
The speech recognition result correction operation is performed as follows. While listening to the program sound, the corrector touches the display portion of the character including the character string to be corrected from the character string displayed on the
修正端末5−1を使用している修正者は、入力部53を用いて、選択色で表示されている文字列に対する置換、挿入、消去などの修正作業を行う。例えば、修正者は、単語が選択された状態で、キーボードにより文字を入力する。修正者は、修正作業が終了すると、修正作業終了操作として、キーボード上でEnter等のキーを押下する。制御部51は、修正作業終了操作の入力を受けると、修正作業の内容を音声認識装置1に送信する。音声認識装置1の認識結果修正部16は、作業中字幕における選択文字列を、修正端末5−1から受信した修正作業内容に従って修正し、新たな作業中字幕を生成する。認識結果修正部16は、新たな作業中字幕と、修正作業において修正者がキーボードから入力した文字列を各修正端末5に送信する。各修正端末5の制御部51は、音声認識装置1から受信した作業中字幕により、音声認識結果表示ウィンドウ80に表示されている音声認識結果の表示を置き代える。また、各修正端末5の制御部51は、一覧の作業の履歴として、修正者がキーボードから入力した文字列を履歴表示ウィンドウ87に表示させる。修正端末5−2は、修正ガードを解除する。
The corrector using the correction terminal 5-1 uses the
注釈の挿入作業は、以下のように行う。修正者は、番組音声を聞きながら、音響イベント認識結果表示ウィンドウ83に表示されている任意の注釈文字列を、音声認識結果表示ウィンドウ80に表示されている文字列の任意の箇所に挿入していく。
例えば、文字列81が示す音声認識結果(あるいは修正済み音声認識結果)「お料理が上手ですね。」の直後に、音響イベント認識結果表示ウィンドウ83に表示されている注釈文字列84「(笑い)」を挿入する場合、修正者は次の操作を行う。修正者は、注釈文字列を挿入したい文字列81の最後の文字「。」に触れる。入力部53は、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれる単語「。」を選択し、選択された単語を特定する指摘情報を音声認識装置1に送信する。つまり、このときの指摘情報は、注釈挿入位置を示す。音声認識装置1の認識結果修正部16は、修正端末5−1からの指摘情報を最も早く受信したとする。認識結果修正部16は、修正端末5−1から受信した指摘情報により示される文字列の表示を赤色等の選択色に変更するよう各修正端末5に指示する。各修正端末5の制御部51は、音声認識装置1からの指示に基づき、選択された文字列の表示を選択色に変更する。さらに、認識結果修正部16は、修正端末5−2に、選択色への変更に併せて修正ガードを指示する。
Annotation is inserted as follows. The corrector inserts an arbitrary annotation character string displayed in the acoustic event recognition
For example, immediately after the voice recognition result (or the corrected voice recognition result) indicated by the character string 81 “I am good at cooking,” the
修正端末5−1を使用している修正者は、キーボード上の「挿入(Insert)」キーを押下し、さらに、注釈文字列84「(笑い)」のいずれかの文字に触れる。入力部53は、「挿入(Insert)」キーの押下と、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれる注釈文字列を判断すると、その注釈文字列を特定する情報、あるいは、注釈文字列を設定した挿入注釈情報を音声認識装置1に送信する。先に送信した指摘情報と挿入注釈情報とを併せたものが注釈挿入指示に相当する。音声認識装置1の認識結果修正部16は、挿入注釈情報により特定される、あるいは、挿入注釈情報が示す注釈文字列を、作業中字幕における選択された単語「。」の直後に挿入し、新たな作業中字幕「お料理が上手ですね。(笑い)」を生成する。認識結果修正部16は、新たな作業中字幕を各修正端末5に送信する。各修正端末5の制御部51は、音声認識装置1から受信した作業中字幕により、音声認識結果表示ウィンドウ80に表示されている音声認識結果(あるいは修正済み音声認識結果)の表示を置き代える。修正端末5−2は、修正ガードを解除する。
The corrector using the correction terminal 5-1 presses the “Insert” key on the keyboard, and touches any character of the
なお、修正者は、注釈文字列「(笑い)」を挿入したい場合、音響イベント認識結果表示ウィンドウ83に表示されている注釈文字列84「(笑い)」に代えて、注釈文字列85「(笑い)」のいずれかの文字に触れてもよい。
また、例えば、音声認識結果表示ウィンドウ80に表示されている文字列82が示す修正済みの認識結果「○○さんの趣味はなんですか。」の直後に、注釈文字列を挿入する場合、文字列82の最後の文字「。」に触れればよい。
When the corrector wants to insert the annotation character string “(laugh)”, the corrector replaces the annotation character string “(laugh)” displayed in the acoustic event recognition
Further, for example, when an annotation character string is inserted immediately after the corrected recognition result “What is Mr. XX's hobby?” Indicated by the character string 82 displayed in the voice recognition
音響イベント認識結果が誤っている場合、音響イベント認識結果表示ウィンドウ83から正しい注釈文字列を選択することができない。この場合、作業者は、音響イベント認識結果候補ウィンドウ86にメニュー表示される注釈文字列の候補の一覧の中から、挿入する注釈文字列を選択する。
If the acoustic event recognition result is incorrect, a correct annotation character string cannot be selected from the acoustic event recognition
第2のインタフェースの提供方法は、修正後の文字列の装飾時に注釈文字列を挿入する方法である。情報番組やスポーツ中継の字幕制作では、話者(番組出演者)に応じて、該当する字幕の色を、白、青、黄等に色分けすることが行われる。色分けは、修正後の字幕について別の作業者が行うことが多い。この場合は、図8に示す画面において、文字列を修正する代わりに、表示されている文字列の各行に対して適切な色を指定する同時に、音響イベント認識結果表示ウィンドウ83から適切な音響イベント認識結果を挿入すればよい。以下では、修正端末5−1により音声認識結果の修正を行い、修正端末5−2により修正後の音声認識結果に装飾を行う場合について、第1のインタフェースの提供方法との差分を中心に説明する。
The second interface providing method is a method of inserting an annotation character string when decorating a corrected character string. In the production of subtitles for information programs and sports broadcasts, the corresponding subtitle color is classified into white, blue, yellow, etc., depending on the speaker (program performer). Color coding is often performed by another operator for the subtitles after correction. In this case, on the screen shown in FIG. 8, instead of correcting the character string, an appropriate color is designated for each line of the displayed character string, and at the same time, an appropriate acoustic event is displayed from the acoustic event recognition
音声認識装置1の認識結果修正部16は、音声認識部13から出力された音声認識結果データD3、及び対応する音声データD1と、音響イベント認識部15から出力された音響イベント認識結果データD5を、修正端末5に随時出力する。各修正端末5の制御部51は、受信した音声データD1の再生音声を音声出力部54から出力し、図8に示す修正作業画面8を示す。修正端末5−1の修正者による音声認識結果の修正作業は、第1のインタフェースの提供方法と同様である。ただし、音声認識装置1の認識結果修正部16は、音声認識結果の修正を行う他の修正端末5がある場合には修正ガードを送信するが、修正後の音声認識結果に装飾を行う修正端末5−2には、修正ガードを送信しなくてもよい。
The recognition
続いて、音声認識装置1の認識結果修正部16は、新たに生成された音声認識結果データD3と、対応する音声データD1を音声認識装置1に出力する。各修正端末5の制御部51は、新たに受信した音声データD1の再生音声を音声出力部54から出力する。さらに、制御部51は、第1のインタフェースの提供方法と同様に、受信した音声認識結果データD3から読み出した音声認識結果を、修正対象の文字列として音声認識結果表示ウィンドウ80の最下行に表示させる。
Subsequently, the recognition
修正端末5−2の修正者は、番組音声を聞きながら、音声認識結果表示ウィンドウ80により表示部52が表示している文字列の中から、色を変えたい修正済みの音声認識結果(例えば、文字列82)を含む文字の表示部分を指などにより触れ、文字色を入力する。文字色は、キーボードなどにより入力してもよく、音声認識結果表示ウィンドウ80に文字色を選択するボタンを設け、そのボタンに触れることにより入力してもよい。入力部53は、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれる行を選択し、選択された行を特定する情報と、入力された文字色とを示す装飾情報を音声認識装置1に送信する。音声認識装置1の認識結果修正部16は、修正端末5−2から受信した装飾情報により示される作業中字幕における行の文字列を、装飾情報により示される文字色に変更し、新たな作業中字幕を生成する。認識結果修正部16は、選択された行の文字列を、変更後の文字色により表示するよう各修正端末5に指示する。各修正端末5の制御部51は、音声認識装置1からの指示に従って、音声認識結果表示ウィンドウ80の指定された行(修正済みの音声認識結果)の文字列を変更後の文字色により表示する。
The corrector of the correction terminal 5-2, while listening to the program audio, corrects the corrected voice recognition result (for example, the color of the character string displayed on the
さらに、修正端末5−2の修正者は、音響イベント認識結果表示ウィンドウ83に表示されている任意の注釈文字列を、音声認識結果表示ウィンドウ80に表示されている修正済みの音声認識結果の任意の箇所に挿入していく。
例えば、文字列82が示す修正済みの音声認識結果「○○さんの趣味はなんですか。」の直後に、注釈文字列84「(笑い)」を挿入する場合、修正者は、キーボード上の「挿入(Insert)」キーを押下し、さらに、文字列82の最後の文字「。」に触れる。入力部53は、「挿入(Insert)」キーの押下と、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれる単語を選択し、選択された単語を特定する注釈挿入位置情報を生成する。さらに、修正者は、注釈文字列84「(笑い)」のいずれかの文字に触れる。入力部53は、接触を検知した画面位置の情報を制御部51に出力する。制御部51は、接触を検知した画面位置に表示させていた文字が含まれ注釈文字列を判断すると、その注釈文字列を特定する情報、あるいは、注釈文字列を設定した挿入注釈情報を生成する。制御部51は、注釈挿入位置情報と挿入注釈情報を設定した注釈挿入指示を音声認識装置1に送信する。音声認識装置1の認識結果修正部16は、注釈挿入位置情報により、作業中字幕における注釈挿入対象の単語「。」を特定する。認識結果修正部16は、挿入注釈情報により特定される、あるいは、挿入注釈情報が示す注釈文字列を、作業中字幕における注釈挿入対象の単語「。」の直後に挿入し、新たな作業中字幕を生成する。認識結果修正部16は、新たな作業中字幕を各修正端末5に送信する。各修正端末5の制御部51は、音声認識装置1から受信した作業中字幕により、音声認識結果表示ウィンドウ80に表示されている修正済みの音声認識結果の表示を置き代える。
Further, the corrector of the correction terminal 5-2 changes the arbitrary annotation character string displayed in the acoustic event recognition
For example, when the
図2において、音声認識装置1の認識結果修正部16は、上記の音声認識結果の修正作業と、注釈の挿入作業とが反映された作業中字幕を設定した注釈付き放送字幕データD6を出力する(ステップS9)。注釈付き放送字幕データD6は、放送局内で放送波に重畳されて放送される。
In FIG. 2, the recognition
上記のように、修正者は、音響イベントのテキスト表現である注釈を、簡易な操作によって音声認識結果に挿入し、注釈付き字幕を制作することができる。よって、キーボード入力により注釈文字列を挿入する場合と比較し、大幅に作業を効率化することが可能となる。 As described above, the corrector can create an annotated caption by inserting an annotation, which is a text representation of an acoustic event, into the speech recognition result by a simple operation. Therefore, it is possible to greatly improve the work efficiency as compared with the case where an annotation character string is inserted by keyboard input.
なお、字幕制作システムが修正端末5を1台のみ備える場合、第1のインタフェースの提供方法において、音声認識装置1の認識結果修正部16は、上述した処理のうち、最も早く指摘情報を送信した修正端末5以外の修正端末5との間の動作は実行しない。
また、認識結果修正部16は、音響イベント認識結果が変わったタイミングで、音響イベント認識結果データD5を修正端末5に出力して表示させるようにしてもよい。これにより、音響イベント認識結果表示ウィンドウ83に、同じ注釈文字列が連続して表示されないようにすることができる。
When the caption production system includes only one
Further, the recognition
本実施形態によれば、音声認識装置1は、従来の音声認識に加え、音響イベントの認識を並行して行って修正端末5にそれらの認識結果を表示させ、修正者は、修正端末5の表示から注釈挿入位置と、挿入する注釈(音響イベントのテキスト表現)を指定する。従って、人手による注釈付き字幕制作の負荷を大幅に軽減することが可能となる。また、音声認識装置1は、様々な種類の音響イベントについてのテキスト表現を認識結果として得ることができるため、得られた音響イベントのテキスト表現を注釈として字幕に挿入することによって、より豊かな字幕表現が可能となる。
According to the present embodiment, the speech recognition apparatus 1 performs acoustic event recognition in parallel with conventional speech recognition and displays the recognition results on the
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。 The voice recognition device 1 described above has a computer system inside. The operation process of the speech recognition apparatus 1 is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1…音声認識装置、5…修正端末、10…記憶部、11…音声分岐部、12…音声区間検出部、13…音声認識部、14…音響イベント区間検出部、15…音響イベント認識部、16…認識結果修正部、51…制御部、52…表示部、53…入力部、54…音声出力部
DESCRIPTION OF SYMBOLS 1 ... Voice recognition apparatus, 5 ... Correction terminal, 10 ... Memory | storage part, 11 ... Voice branching part, 12 ... Voice area detection part, 13 ... Voice recognition part, 14 ... Acoustic event area detection part, 15 ... Acoustic event recognition part, 16 ... Recognition
Claims (5)
前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する音響イベント認識部と、
前記音声認識部が出力した前記発話内容の文字列のデータと、前記音響イベント認識部が出力した前記音響イベントを表す文字列のデータとを修正端末に表示させ、表示させた中から指定された前記発話内容の文字列における注釈挿入位置と、表示させた中から選択された前記音響イベントを表す文字列とを示す注釈挿入指示を前記修正端末から受信し、受信した前記注釈挿入指示に従って前記発話内容を示す文字列のデータに前記音響イベントを表す文字列のデータを挿入した注釈付き字幕データを生成する認識結果修正部と、
を備えることを特徴とする音声認識装置。 A speech recognition unit that recognizes speech data and outputs character string data indicating the utterance content of the speech recognition result;
An acoustic event recognition unit that calculates a posteriori probability of an acoustic event based on an acoustic feature obtained from the voice data and outputs character string data representing the acoustic event detected based on the calculated posteriori probability; ,
The character string data of the utterance content output by the voice recognition unit and the character string data representing the acoustic event output by the acoustic event recognition unit are displayed on the correction terminal, and specified from the display. An annotation insertion instruction indicating the annotation insertion position in the character string of the utterance content and the character string representing the acoustic event selected from the displayed contents is received from the correction terminal, and the utterance is received according to the received annotation insertion instruction. A recognition result correction unit that generates annotated caption data in which character string data representing the acoustic event is inserted into character string data indicating content;
A speech recognition apparatus comprising:
前記音響イベント認識部は、前記音響イベント区間検出部が検出した前記区間の前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する、
ことを特徴とする請求項1に記載の音声認識装置。 An audio event section detection unit that divides the audio data into frames and compares the acoustic feature amount of each frame with the acoustic feature amount of each of silence, acoustic event, and speech language to detect a section including the acoustic event; Prepared,
The acoustic event recognizing unit calculates a posterior probability of the acoustic event based on the acoustic feature amount obtained from the audio data of the section detected by the acoustic event section detecting unit, and based on the calculated posterior probability. Output character string data representing the detected acoustic event,
The speech recognition apparatus according to claim 1.
前記畳み込みニューラルネットワークは、入力層、隠れ層、プーリング層、及び出力層を有し、
前記入力層は、時刻順に並べた前記フレームそれぞれの音響特徴量を入力とし、
前記隠れ層の各ユニットは、所定フレーム数分のシフトを保ちながら前記入力層の所定数のフレームと結合しており、結合している前記入力層のフレームの音響特徴量を畳み込み演算した結果を示し、
前記プーリング層の各ユニットは、当該プーリング層のユニット数に応じた数の前記隠れ層のユニットと結合しており、結合している前記隠れ層のユニットのうち最大値が伝搬され、
前記出力層の各ユニットは、異なる種類の音響イベントに対応しており、前記プーリング層の全てのユニットと、対応する前記音響イベントの事後確率を算出するためのそれぞれの重みにより結合している、
ことを特徴とする請求項1または請求項2のいずれか1項に記載の音声認識装置。 The acoustic event recognizing unit calculates the posterior probability of the acoustic event by inputting the acoustic feature amounts of the frames in time order obtained by dividing the audio data and inputting the acoustic feature amounts into a convolutional neural network,
The convolutional neural network has an input layer, a hidden layer, a pooling layer, and an output layer,
The input layer has an acoustic feature amount of each of the frames arranged in time order as an input,
Each unit of the hidden layer is combined with a predetermined number of frames of the input layer while maintaining a shift by a predetermined number of frames, and the result of convolution calculation of the acoustic feature amount of the frame of the input layer that is combined is obtained. Show
Each unit of the pooling layer is coupled to a number of the hidden layer units corresponding to the number of units of the pooling layer, and the maximum value of the coupled hidden layer units is propagated,
Each unit of the output layer corresponds to a different type of acoustic event, and is coupled to all the units of the pooling layer by respective weights for calculating the posterior probability of the corresponding acoustic event.
The voice recognition apparatus according to claim 1, wherein the voice recognition apparatus is a voice recognition apparatus.
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。 The acoustic feature amount is a feature amount in a time-frequency domain.
The speech recognition apparatus according to any one of claims 1 to 3, wherein
音声データを音声認識し、音声認識結果の発話内容を示す文字列のデータを出力する音声認識手段と、
前記音声データから得られた音響特徴量に基づいて音響イベントの事後確率を計算し、計算された前記事後確率に基づいて検出した音響イベントを表す文字列のデータを出力する音響イベント認識手段と、
前記音声認識手段が出力した前記発話内容の文字列のデータと、前記音響イベント認識手段が出力した前記音響イベントを表す文字列のデータとを修正端末に表示させ、表示させた中から指定された前記発話内容の文字列における注釈挿入位置と、表示させた中から選択された前記音響イベントを表す文字列とを示す注釈挿入指示を前記修正端末から受信し、受信した前記注釈挿入指示に従って前記発話内容を示す文字列のデータに前記音響イベントを表す文字列のデータを挿入した注釈付き字幕データを生成する認識結果修正手段と、
を具備する音声認識装置として機能させるためのプログラム。 Computer
Voice recognition means for voice recognition of voice data and outputting character string data indicating the utterance content of the voice recognition result;
An acoustic event recognition means for calculating a posteriori probability of an acoustic event based on an acoustic feature obtained from the voice data, and outputting character string data representing the acoustic event detected based on the calculated posteriori probability; ,
The character string data of the utterance content output by the voice recognition unit and the character string data representing the acoustic event output by the acoustic event recognition unit are displayed on the correction terminal and designated from among the displayed items. An annotation insertion instruction indicating the annotation insertion position in the character string of the utterance content and the character string representing the acoustic event selected from the displayed contents is received from the correction terminal, and the utterance is received according to the received annotation insertion instruction. Recognition result correcting means for generating annotated subtitle data in which character string data representing the acoustic event is inserted into character string data indicating contents;
A program for causing a voice recognition apparatus to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033024A JP6327745B2 (en) | 2014-02-24 | 2014-02-24 | Speech recognition apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033024A JP6327745B2 (en) | 2014-02-24 | 2014-02-24 | Speech recognition apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015158582A true JP2015158582A (en) | 2015-09-03 |
JP6327745B2 JP6327745B2 (en) | 2018-05-23 |
Family
ID=54182614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014033024A Active JP6327745B2 (en) | 2014-02-24 | 2014-02-24 | Speech recognition apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6327745B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015212731A (en) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | Acoustic event recognition device and program |
KR20180106619A (en) * | 2017-03-21 | 2018-10-01 | 한국전자통신연구원 | Method for establishing a neural network to detect a call word |
CN112349298A (en) * | 2019-08-09 | 2021-02-09 | 阿里巴巴集团控股有限公司 | Sound event recognition method, device, equipment and storage medium |
US11003954B2 (en) | 2016-01-19 | 2021-05-11 | Nec Corporation | Information processing device, information processing method, and recording medium |
US11176943B2 (en) | 2017-09-21 | 2021-11-16 | Kabushiki Kaisha Toshiba | Voice recognition device, voice recognition method, and computer program product |
WO2022254909A1 (en) * | 2021-06-01 | 2022-12-08 | 株式会社Nttドコモ | Sound recognition device |
JP7516900B2 (en) | 2019-09-02 | 2024-07-17 | 富士通株式会社 | Apparatus and method for recognizing audio events |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03111898A (en) * | 1989-09-26 | 1991-05-13 | Sekisui Chem Co Ltd | Voice detection system |
JP2001060192A (en) * | 1999-08-20 | 2001-03-06 | Nippon Hoso Kyokai <Nhk> | Character data corrector and storage medium |
JP2003018462A (en) * | 2001-06-28 | 2003-01-17 | Canon Inc | Character inserting device and character inserting method |
JP2004226910A (en) * | 2003-01-27 | 2004-08-12 | Nippon Hoso Kyokai <Nhk> | Device, method, and program for speech recognition error correction |
JP2005123984A (en) * | 2003-10-17 | 2005-05-12 | Sony Corp | Information processor, program, and information processing method |
JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
JP2012226220A (en) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | Speech recognition device, speech recognition method, and speech recognition program |
-
2014
- 2014-02-24 JP JP2014033024A patent/JP6327745B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03111898A (en) * | 1989-09-26 | 1991-05-13 | Sekisui Chem Co Ltd | Voice detection system |
JP2001060192A (en) * | 1999-08-20 | 2001-03-06 | Nippon Hoso Kyokai <Nhk> | Character data corrector and storage medium |
JP2003018462A (en) * | 2001-06-28 | 2003-01-17 | Canon Inc | Character inserting device and character inserting method |
JP2004226910A (en) * | 2003-01-27 | 2004-08-12 | Nippon Hoso Kyokai <Nhk> | Device, method, and program for speech recognition error correction |
JP2005123984A (en) * | 2003-10-17 | 2005-05-12 | Sony Corp | Information processor, program, and information processing method |
JP2010055030A (en) * | 2008-08-29 | 2010-03-11 | Nippon Hoso Kyokai <Nhk> | Acoustic processor and program |
JP2012226220A (en) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | Speech recognition device, speech recognition method, and speech recognition program |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015212731A (en) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | Acoustic event recognition device and program |
US11003954B2 (en) | 2016-01-19 | 2021-05-11 | Nec Corporation | Information processing device, information processing method, and recording medium |
KR20180106619A (en) * | 2017-03-21 | 2018-10-01 | 한국전자통신연구원 | Method for establishing a neural network to detect a call word |
KR102158766B1 (en) * | 2017-03-21 | 2020-09-22 | 한국전자통신연구원 | Method for establishing a neural network to detect a call word |
US11176943B2 (en) | 2017-09-21 | 2021-11-16 | Kabushiki Kaisha Toshiba | Voice recognition device, voice recognition method, and computer program product |
CN112349298A (en) * | 2019-08-09 | 2021-02-09 | 阿里巴巴集团控股有限公司 | Sound event recognition method, device, equipment and storage medium |
JP7516900B2 (en) | 2019-09-02 | 2024-07-17 | 富士通株式会社 | Apparatus and method for recognizing audio events |
WO2022254909A1 (en) * | 2021-06-01 | 2022-12-08 | 株式会社Nttドコモ | Sound recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP6327745B2 (en) | 2018-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6327745B2 (en) | Speech recognition apparatus and program | |
EP3469592B1 (en) | Emotional text-to-speech learning system | |
JP3724649B2 (en) | Speech recognition dictionary creation device and speech recognition device | |
JP5104762B2 (en) | Content summarization system, method and program | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
US7054817B2 (en) | User interface for speech model generation and testing | |
CN108231065A (en) | Multi-lingual person's speech recognition correction system | |
CN110740275B (en) | Nonlinear editing system | |
WO2006054724A1 (en) | Voice recognition device and method, and program | |
JP6122792B2 (en) | Robot control apparatus, robot control method, and robot control program | |
US10553206B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
JP2007108407A (en) | System and method of speech recognition, and program therefor | |
KR20120038198A (en) | Apparatus and method for recognizing speech | |
JP2012043000A (en) | Retrieval device, retrieval method, and program | |
JP7101057B2 (en) | Language model learning device and its program, and word estimation device and its program | |
JP2012181358A (en) | Text display time determination device, text display system, method, and program | |
CN110781649A (en) | Subtitle editing method and device, computer storage medium and electronic equipment | |
JP2013109061A (en) | Voice data retrieval system and program for the same | |
JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
JP7326931B2 (en) | Program, information processing device, and information processing method | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5273844B2 (en) | Subtitle shift estimation apparatus, subtitle shift correction apparatus, playback apparatus, and broadcast apparatus | |
JP2013050605A (en) | Language model switching device and program for the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6327745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |