JP3496706B2 - 音声認識方法及びそのプログラム記録媒体 - Google Patents
音声認識方法及びそのプログラム記録媒体Info
- Publication number
- JP3496706B2 JP3496706B2 JP24835197A JP24835197A JP3496706B2 JP 3496706 B2 JP3496706 B2 JP 3496706B2 JP 24835197 A JP24835197 A JP 24835197A JP 24835197 A JP24835197 A JP 24835197A JP 3496706 B2 JP3496706 B2 JP 3496706B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- probability
- category
- recognition method
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【発明の属する技術分野】この発明は、言語的な各カテ
ゴリの特徴量をモデル化しておき、入力特徴量系列に対
する各モデルの確率を求めて入力データの認識を行う音
声認識方法及びそのプログラム記録媒体に関する。
ゴリの特徴量をモデル化しておき、入力特徴量系列に対
する各モデルの確率を求めて入力データの認識を行う音
声認識方法及びそのプログラム記録媒体に関する。
【0002】
【従来の技術】確率、統計論に基づいた確率モデルによ
る認識方法は、音声、文字、図形等のパターン認識にお
いて有用な技術である。以下では、特に、音声認識を例
に隠れマルコフモデル(Hidden Markov
Model、以下HMMと記す)を用いた従来技術につ
いて説明する。隠れマルコフモデルについては、例え
ば、中川聖一「確率モデルによる音声認識」電子情報通
信学会編(1988)に説明がある。
る認識方法は、音声、文字、図形等のパターン認識にお
いて有用な技術である。以下では、特に、音声認識を例
に隠れマルコフモデル(Hidden Markov
Model、以下HMMと記す)を用いた従来技術につ
いて説明する。隠れマルコフモデルについては、例え
ば、中川聖一「確率モデルによる音声認識」電子情報通
信学会編(1988)に説明がある。
【0003】 従来の音声認識装置において、ある音声
単位(音素、音節、単語など)をHMMを用いてモデル
化しておく方法は、性能が高く、現在の主流になってい
る。図6に従来のHMMを用いた音声認識装置の機能構
成例を示す。入力端子11から入力された音声は、A/
D変換部12においてディジタル信号に変換される。そ
のディジタル信号から音声特徴パラメータ抽出部13に
おいて音声特徴パラメータを抽出する。あらかじめ、あ
る音声単位ごとに作製したHMMをモデルパラメータメ
モリ14から読み出し、モデル確率計算部15におい
て、入力音声に対する各モデルの確率を計算する。最も
大きな確率を示すモデルが表現する音声単位を認識結果
として認識結果出力部16より出力する。
単位(音素、音節、単語など)をHMMを用いてモデル
化しておく方法は、性能が高く、現在の主流になってい
る。図6に従来のHMMを用いた音声認識装置の機能構
成例を示す。入力端子11から入力された音声は、A/
D変換部12においてディジタル信号に変換される。そ
のディジタル信号から音声特徴パラメータ抽出部13に
おいて音声特徴パラメータを抽出する。あらかじめ、あ
る音声単位ごとに作製したHMMをモデルパラメータメ
モリ14から読み出し、モデル確率計算部15におい
て、入力音声に対する各モデルの確率を計算する。最も
大きな確率を示すモデルが表現する音声単位を認識結果
として認識結果出力部16より出力する。
【0004】現在よく用いられる音響モデルとしてのH
MMは3状態3ループのものである。HMMをある音声
単位ごと(一般には、単語、音素や音節など)に作成す
る。各状態には、音声特徴パラメータの統計的な確率分
布がそれぞれ付与される。現在の主流では、音声単位と
して単語ではなく、音素や音節を用い、認識させたい語
彙に応じてそれらのHMMを連結して用いる。認識装置
を構成するには、先ず、音響モデル学習用音声データを
用いて、音響モデルを生成する。データベース17から
の学習用データを音声特徴パラメータ抽出部18で特徴
パラメータへ変換し、これを用いて、音響モデルパラメ
ータ学習部19において、初期音響モデル生成部21で
得られた初期モデルを元にモデルを学習する。ここで得
られたモデルパラメータを認識装置で用いる。
MMは3状態3ループのものである。HMMをある音声
単位ごと(一般には、単語、音素や音節など)に作成す
る。各状態には、音声特徴パラメータの統計的な確率分
布がそれぞれ付与される。現在の主流では、音声単位と
して単語ではなく、音素や音節を用い、認識させたい語
彙に応じてそれらのHMMを連結して用いる。認識装置
を構成するには、先ず、音響モデル学習用音声データを
用いて、音響モデルを生成する。データベース17から
の学習用データを音声特徴パラメータ抽出部18で特徴
パラメータへ変換し、これを用いて、音響モデルパラメ
ータ学習部19において、初期音響モデル生成部21で
得られた初期モデルを元にモデルを学習する。ここで得
られたモデルパラメータを認識装置で用いる。
【0005】このような音声認識装置では、実際的な使
用を考えると、高い認識精度が必要なだけでなく、語彙
外発声を棄却できる能力が必要である。そのための方法
として、一般的には、語彙制約のない音声認識系を語彙
に基づく音声認識系と並列に動作させ、語彙制約なし認
識系で得られる累積尤度で、尤度正規化を行い、その正
規化尤度の大きさで判定するものがある。
用を考えると、高い認識精度が必要なだけでなく、語彙
外発声を棄却できる能力が必要である。そのための方法
として、一般的には、語彙制約のない音声認識系を語彙
に基づく音声認識系と並列に動作させ、語彙制約なし認
識系で得られる累積尤度で、尤度正規化を行い、その正
規化尤度の大きさで判定するものがある。
【0006】
【発明が解決しようとする課題】しかし、語彙制約なし
認識系の尤度で正規化した場合、語彙内単語に音素系列
として全く異なるものはリジェクトしやすいが、部分的
に異なるもの、例えば、数個の音素だけ異なる場合、に
対しては効果的に働かなくなる。
認識系の尤度で正規化した場合、語彙内単語に音素系列
として全く異なるものはリジェクトしやすいが、部分的
に異なるもの、例えば、数個の音素だけ異なる場合、に
対しては効果的に働かなくなる。
【0007】
【課題を解決するための手段】この発明によれば語彙制
約なし認識系による尤度正規化に加え、部分的な照合を
取り入れることで、より精度の高いリジェクト方法を実
現する。部分的な照合としては、音素、音節、単語など
の単位が考えられる。ある単位を決め、その個々の部分
的な区間に対するカテゴリ間の尤度比を計算する。この
尤度比は相対的な確率と考えられ、この値が高ければ、
対象としているカテゴリの確率が高いと信頼でき、逆
に、尤度比が低ければ、対象カテゴリの確率は低いとい
える。この比に応じて対象となっている認識候補の確率
に重みづけする。これにより、認識精度とともにリジェ
クト精度を高めることができる。
約なし認識系による尤度正規化に加え、部分的な照合を
取り入れることで、より精度の高いリジェクト方法を実
現する。部分的な照合としては、音素、音節、単語など
の単位が考えられる。ある単位を決め、その個々の部分
的な区間に対するカテゴリ間の尤度比を計算する。この
尤度比は相対的な確率と考えられ、この値が高ければ、
対象としているカテゴリの確率が高いと信頼でき、逆
に、尤度比が低ければ、対象カテゴリの確率は低いとい
える。この比に応じて対象となっている認識候補の確率
に重みづけする。これにより、認識精度とともにリジェ
クト精度を高めることができる。
【0008】
【発明の実施の形態】この発明では認識処理時に部分区
間での相対的確率を反映することで、認識精度、リジェ
クト精度の向上を図る。部分区間の単位としては、音
素、音節、単語などが考えられる。以下の例では、音素
単位で扱う。音素単位で他の音素に対し相対的な尤度を
求め、その対数尤度を各経路の累積対数尤度に加えるこ
とで、各音素の確からしさに応じて重みづけする。あら
かじめ統計的にこの相対的な尤度分布を求めておき、こ
れを相対的確率モデルとする。その分布から認識時に尤
度を得る。ここでは、音素単位の相対的な尤度を音素信
頼度尤度と呼ぶことにする。
間での相対的確率を反映することで、認識精度、リジェ
クト精度の向上を図る。部分区間の単位としては、音
素、音節、単語などが考えられる。以下の例では、音素
単位で扱う。音素単位で他の音素に対し相対的な尤度を
求め、その対数尤度を各経路の累積対数尤度に加えるこ
とで、各音素の確からしさに応じて重みづけする。あら
かじめ統計的にこの相対的な尤度分布を求めておき、こ
れを相対的確率モデルとする。その分布から認識時に尤
度を得る。ここでは、音素単位の相対的な尤度を音素信
頼度尤度と呼ぶことにする。
【0009】これにより、音素信頼度尤度の小さい音素
は、認識処理の過程で枝刈りされる可能性が大きくな
る。また、最終的にその音素を含む候補が残った場合で
もその候補全体の尤度を下げることになり、誤認識が減
る。さらに、未知語の場合でも、単語より小さい単位、
音素単位あるいは音節単位で自由な連鎖を許容できる語
彙制約のない音声認識による尤度正規化で、リジェクト
しやすくなると考えられる。
は、認識処理の過程で枝刈りされる可能性が大きくな
る。また、最終的にその音素を含む候補が残った場合で
もその候補全体の尤度を下げることになり、誤認識が減
る。さらに、未知語の場合でも、単語より小さい単位、
音素単位あるいは音節単位で自由な連鎖を許容できる語
彙制約のない音声認識による尤度正規化で、リジェクト
しやすくなると考えられる。
【0010】図1にこの発明を適用した認識装置のブロ
ック図を示す。入力音声をA/D変換し、音声特徴パラ
メータを抽出する。図6中のモデル確率計算部15が、
ネットワーク探索部31、累積尤度計算部32、音響モ
デル尤度計算部33に対応する。音響モデル尤度計算部
33では、入力音声の特徴量と音響モデルの照合を行
い、その尤度を得て、累積尤度計算部32へ送る。信頼
度尤度計算部34において、音素単位での信頼度を計
算、累積尤度計算部32で、累積尤度へ反映する。この
累積尤度が音素単位での確からしさ、つまり音素信頼度
尤度に応じて重みづけられたものになり、これを元にネ
ットワーク探索部31で尤度の高い候補を残しながら探
索する。音声終端で、認識候補を確定し、結果出力部1
6へ送る。
ック図を示す。入力音声をA/D変換し、音声特徴パラ
メータを抽出する。図6中のモデル確率計算部15が、
ネットワーク探索部31、累積尤度計算部32、音響モ
デル尤度計算部33に対応する。音響モデル尤度計算部
33では、入力音声の特徴量と音響モデルの照合を行
い、その尤度を得て、累積尤度計算部32へ送る。信頼
度尤度計算部34において、音素単位での信頼度を計
算、累積尤度計算部32で、累積尤度へ反映する。この
累積尤度が音素単位での確からしさ、つまり音素信頼度
尤度に応じて重みづけられたものになり、これを元にネ
ットワーク探索部31で尤度の高い候補を残しながら探
索する。音声終端で、認識候補を確定し、結果出力部1
6へ送る。
【0011】 音素信頼度について以降で詳しく述べ
る。図2は、ある候補の第i番目の音素を表すHMMの
状態系列である。音素終端で、音素信頼度尤度pi(X
12)の対数を計算し、定数α倍したあと、その時点での
累積対数尤度Li(X02)、(音響モデル尤度計算部3
3で求めた認識候補の累積対数尤度)に加えて補正す
る。 ここで、X12は時刻t1からt2までの音声特徴量、α
は定数である。このL′i(X02)をその経路の累積対
数尤度とすることで、その音素の信頼度に応じ、重みづ
けすることになる。式(1)は対数計算であるための掛
算が加算になっている(請求項1)。
る。図2は、ある候補の第i番目の音素を表すHMMの
状態系列である。音素終端で、音素信頼度尤度pi(X
12)の対数を計算し、定数α倍したあと、その時点での
累積対数尤度Li(X02)、(音響モデル尤度計算部3
3で求めた認識候補の累積対数尤度)に加えて補正す
る。 ここで、X12は時刻t1からt2までの音声特徴量、α
は定数である。このL′i(X02)をその経路の累積対
数尤度とすることで、その音素の信頼度に応じ、重みづ
けすることになる。式(1)は対数計算であるための掛
算が加算になっている(請求項1)。
【0012】さらに音声終端では、語彙制約なし音声認
識系から得られる累積対数尤度、および音声長によっ
て、認識候補の尤度を正規化する。この正規化尤度の大
きさにより、リジェクトする。この場合、語彙制約あり
音声認識も語彙制約なし音声認識系の何れに対しても前
記式(1)により累積対数尤度を用いる(請求項2)。
音素信頼度として以下のように定義する(請求項3)。
識系から得られる累積対数尤度、および音声長によっ
て、認識候補の尤度を正規化する。この正規化尤度の大
きさにより、リジェクトする。この場合、語彙制約あり
音声認識も語彙制約なし音声認識系の何れに対しても前
記式(1)により累積対数尤度を用いる(請求項2)。
音素信頼度として以下のように定義する(請求項3)。
【0013】
【数式1】
ここで、gi(Xt)は時刻tの音声特徴量Xtに対す
る、現在注目している候補の第i音素モデルの対数尤
度、Nは音素モデルの総数、diは継続時間でdi=t
2−t1である。ηを定数として、値の大きなものに重
みを置いた平均確率注目候補(第i音素)外の全音素モ
デルのXtに対する尤度の平均で、対象となる音素の確
率を割ることで(式(2)は対数計算であるから引算に
なっている)相対的な確率としている。ηgj(Xt)
のイキスポーネシャルを取って、平均確率注目候補(第
i音素)外の音素モデルのXtに対する確率としてい
る。
る、現在注目している候補の第i音素モデルの対数尤
度、Nは音素モデルの総数、diは継続時間でdi=t
2−t1である。ηを定数として、値の大きなものに重
みを置いた平均確率注目候補(第i音素)外の全音素モ
デルのXtに対する尤度の平均で、対象となる音素の確
率を割ることで(式(2)は対数計算であるから引算に
なっている)相対的な確率としている。ηgj(Xt)
のイキスポーネシャルを取って、平均確率注目候補(第
i音素)外の音素モデルのXtに対する確率としてい
る。
【0014】 また、この値の定義としては、相対的な
確率として、gj(Xt)の最大値を用いる場合、 Ci(X12)=(1/di) Σt=t1 t2[gi(Xt)−max gj(Xt)]
(3) maxはjについての最大となるgi(Xt)を示す も考えられる。これも対数計算であるため引算となって
いるが請求項4と対応している。
確率として、gj(Xt)の最大値を用いる場合、 Ci(X12)=(1/di) Σt=t1 t2[gi(Xt)−max gj(Xt)]
(3) maxはjについての最大となるgi(Xt)を示す も考えられる。これも対数計算であるため引算となって
いるが請求項4と対応している。
【0015】以下の実験では、(4)式を用いる(請求
項5)。
項5)。
【数2】
式(2)では対数演算を行うための計算量が多くなるの
で計算効率のため、この式(4)では確率の平均ではな
く、確率の対数に対する平均(1/(N−1))Σg
j(Xt)で代用している。以上の値Ci(X12)を確
率値として用いるため、以下のようにシグモイド関数を
用い、音素信頼度尤度pi(X12)を定義する。
で計算効率のため、この式(4)では確率の平均ではな
く、確率の対数に対する平均(1/(N−1))Σg
j(Xt)で代用している。以上の値Ci(X12)を確
率値として用いるため、以下のようにシグモイド関数を
用い、音素信頼度尤度pi(X12)を定義する。
【0016】 pi(X12)=1/(1+exp{−a
{Ci(X12)+b}} (5) ここで、a,bは定数である。pi(X12)は0〜1の
間の値を取ることになり、今注目している音素モデルが
他の音素モデルに対し、相対的に尤度が大きい場合に
は、1に近づき、そうでない場合は、0に近づくことに
なる。また、シグモイド関数中の定数aは傾きを表し、
これは実験から設定する。定数bについては、実際の音
声から信頼度の統計を取り、その最小値を各音素モデル
ごとに設定する。このようにして、pi(X 12 )を設定
することにより、対象とするカテゴリで得られる確率
と、他のカテゴリでの確率との分布差に基づいて求めら
れる変量を、あらかじめ統計的にモデル化する。
{Ci(X12)+b}} (5) ここで、a,bは定数である。pi(X12)は0〜1の
間の値を取ることになり、今注目している音素モデルが
他の音素モデルに対し、相対的に尤度が大きい場合に
は、1に近づき、そうでない場合は、0に近づくことに
なる。また、シグモイド関数中の定数aは傾きを表し、
これは実験から設定する。定数bについては、実際の音
声から信頼度の統計を取り、その最小値を各音素モデル
ごとに設定する。このようにして、pi(X 12 )を設定
することにより、対象とするカテゴリで得られる確率
と、他のカテゴリでの確率との分布差に基づいて求めら
れる変量を、あらかじめ統計的にモデル化する。
【0017】なお図1における認識処理の流れを図7を
参照して簡単に説明する。入力音声をA/D変換し(S
1)、そのA/D変換された入力音声を音声分析して音
声特徴パラメータを得る(S2)。この例では、ある長
さの分析フレーム単位で分析と照合処理を行う。認識対
象のネットワークは、語彙に対応するものと、あらゆる
音節の接続を許した語彙制約なし認識系に対応するもの
を持ち、平行して照合計算を行う。
参照して簡単に説明する。入力音声をA/D変換し(S
1)、そのA/D変換された入力音声を音声分析して音
声特徴パラメータを得る(S2)。この例では、ある長
さの分析フレーム単位で分析と照合処理を行う。認識対
象のネットワークは、語彙に対応するものと、あらゆる
音節の接続を許した語彙制約なし認識系に対応するもの
を持ち、平行して照合計算を行う。
【0018】 まず音声の終端であるかを調べ(S3)
終端でなければまず、認識候補を探索し(S4)、その
候補がネットワーク上で現フレームで対象としている部
分(この実施例ではHMMの状態にあたる)になってい
る候補であるかを調べ(S5)、そうであればその候補
と対応する音響モデルの尤度を図1の音響モデル尤度計
算部33で計算する(S6)。その尤度計算した部分が
音素終端であるかを調べ(S7)、音素終端でなけれ
ば、その計算した尤度を、前フレームまでの累積尤度に
計算してステップS4に戻る(S8)。ステップS7で
計算対象の各部分が音素終端であれば、信頼度尤度計算
部34において、音素信頼度尤度pi(Xt)を例えば
式(5)で計算してステップS8に移り(S9)、対数
尤度を累積尤度計算部32において、前フレームまでの
累積尤度に加算していくが、この場合はステップS9で
計算した音素信頼度情報pi(Xt)にαを掛けたもの
も加える。つまり式(1)を計算する。
終端でなければまず、認識候補を探索し(S4)、その
候補がネットワーク上で現フレームで対象としている部
分(この実施例ではHMMの状態にあたる)になってい
る候補であるかを調べ(S5)、そうであればその候補
と対応する音響モデルの尤度を図1の音響モデル尤度計
算部33で計算する(S6)。その尤度計算した部分が
音素終端であるかを調べ(S7)、音素終端でなけれ
ば、その計算した尤度を、前フレームまでの累積尤度に
計算してステップS4に戻る(S8)。ステップS7で
計算対象の各部分が音素終端であれば、信頼度尤度計算
部34において、音素信頼度尤度pi(Xt)を例えば
式(5)で計算してステップS8に移り(S9)、対数
尤度を累積尤度計算部32において、前フレームまでの
累積尤度に加算していくが、この場合はステップS9で
計算した音素信頼度情報pi(Xt)にαを掛けたもの
も加える。つまり式(1)を計算する。
【0019】ステップS5でネットワーク上のすべての
計算対象について、累積尤度を求めてしまうと、つまり
計算対象候補がないと、ネットワーク探索部31で、累
積尤度の大きさに応じて見込みのありそうな候補を残
し、ステップS2に戻って次フレームの計算対象とする
(S10)。このようなことを音声終端まで繰り返し、
ステップS3で音声終端が検出されると、語彙に対応し
たネットワークから、語彙内の認識結果を得て、語彙制
約なし認識系のネットワークからも認識結果を得る(S
11)。この結果の累積尤度を用いて、尤度正規化を行
う(S12)。具体的には、語彙内候補の対数尤度か
ら、語彙制約なし認識系による対数尤度を引き、入力音
声の長さで割る。ここで得られる値が大きいほど、語彙
内発声である可能性が高くなる。そこで、あらかじめし
きい値を決めておき、そのしきい値と比較して、大きけ
れば、語彙内と判定し、小さければ、語彙外と判定する
(S13)。
計算対象について、累積尤度を求めてしまうと、つまり
計算対象候補がないと、ネットワーク探索部31で、累
積尤度の大きさに応じて見込みのありそうな候補を残
し、ステップS2に戻って次フレームの計算対象とする
(S10)。このようなことを音声終端まで繰り返し、
ステップS3で音声終端が検出されると、語彙に対応し
たネットワークから、語彙内の認識結果を得て、語彙制
約なし認識系のネットワークからも認識結果を得る(S
11)。この結果の累積尤度を用いて、尤度正規化を行
う(S12)。具体的には、語彙内候補の対数尤度か
ら、語彙制約なし認識系による対数尤度を引き、入力音
声の長さで割る。ここで得られる値が大きいほど、語彙
内発声である可能性が高くなる。そこで、あらかじめし
きい値を決めておき、そのしきい値と比較して、大きけ
れば、語彙内と判定し、小さければ、語彙外と判定する
(S13)。
【0020】発声自体は全体的には了解可能であって
も、大きく発声変形して不明瞭な音素が存在する場合も
ある。そのため、音素信頼度尤度は必ずしも実際に該当
する音素において他の候補に対し、優位な値を得られな
いときもある。したがって、該当する音素の信頼度だけ
で重みづけすることは危険なので、信頼度尤度の履歴情
報を用いることも考えられる。
も、大きく発声変形して不明瞭な音素が存在する場合も
ある。そのため、音素信頼度尤度は必ずしも実際に該当
する音素において他の候補に対し、優位な値を得られな
いときもある。したがって、該当する音素の信頼度だけ
で重みづけすることは危険なので、信頼度尤度の履歴情
報を用いることも考えられる。
【0021】音素単位で得られた信頼度尤度を保持して
おき、それを累積対数尤度と同時に伝搬していくことで
履歴を残す。各音素終端では、履歴を用いてその経路の
累積対数尤度に重みづけする。 L′i(X02)=Li(X02)+α×(1/(M+1))Σj=0 M Lij (6) Lijは第i音素信頼度対数尤度のj個前の履歴、Mは
履歴の数で、M=0のときは履歴情報を用いない場合に
なる。
おき、それを累積対数尤度と同時に伝搬していくことで
履歴を残す。各音素終端では、履歴を用いてその経路の
累積対数尤度に重みづけする。 L′i(X02)=Li(X02)+α×(1/(M+1))Σj=0 M Lij (6) Lijは第i音素信頼度対数尤度のj個前の履歴、Mは
履歴の数で、M=0のときは履歴情報を用いない場合に
なる。
【0022】次に実験例を述べる。分析条件をサンプリ
ング周波数12kHz、フレーム長32ms、フレーム
周期8msとし、特徴量として16次選択線形予測ケプ
ストラム、16次Δケプストラム、Δパワーを用いた。
音響モデルとして27音素450状態4混合分布のHM
netを使用した。学習データは、ATRデータベース
Aセット音素バランス216単語、重要語5240単語
の男女各10名分、日本音響学会データベース503文
の男性30名、女性34名分を用いた。
ング周波数12kHz、フレーム長32ms、フレーム
周期8msとし、特徴量として16次選択線形予測ケプ
ストラム、16次Δケプストラム、Δパワーを用いた。
音響モデルとして27音素450状態4混合分布のHM
netを使用した。学習データは、ATRデータベース
Aセット音素バランス216単語、重要語5240単語
の男女各10名分、日本音響学会データベース503文
の男性30名、女性34名分を用いた。
【0023】評価は、100都市名および駅名を含む1
202単語での単語認識をタスクとした。語彙内の発声
として男性5名、女性4名による100都市の発声を用
いた。未知語としては、ATRデータベースCセットか
ら男女各10名の音素バランス216単語を用いた。ま
た、簡単なため、gi(Xt)については、3状態音素
モデルの中心状態を用いて計算した。一般的には、信頼
度尤度用の音響モデルを作成して用いることも考えられ
る。
202単語での単語認識をタスクとした。語彙内の発声
として男性5名、女性4名による100都市の発声を用
いた。未知語としては、ATRデータベースCセットか
ら男女各10名の音素バランス216単語を用いた。ま
た、簡単なため、gi(Xt)については、3状態音素
モデルの中心状態を用いて計算した。一般的には、信頼
度尤度用の音響モデルを作成して用いることも考えられ
る。
【0024】尤度正規化して最終的に得られた候補の正
規化尤度をしきい値によって、リジェクトの判定を行っ
た。このしきい値を変えたときの実験結果として、図3
に誤棄却率(False Rejection Rat
es)に対する誤受理率(False Accepta
nce Rates)を図4に誤棄却率に対する単語認
識率(Word Recognition Rate
s)を示す。図中、“no phoneme conf
idence prob.”は、信頼度尤度を用いない
で語彙制約なし認識系の結果で正規化する場合であり、
これが従来法になる。図中、“no history”
は音素信頼度尤度を履歴なしで用いる場合、“hist
ory1,2”は履歴を音素1つ前あるいは2つ前まで
利用する場合である。また、シグモイド関数の係数aと
しては、5.0×10-5のときの結果を図に示してい
る。ここで、信頼度尤度を加える際の係数はα=1.0
とした。
規化尤度をしきい値によって、リジェクトの判定を行っ
た。このしきい値を変えたときの実験結果として、図3
に誤棄却率(False Rejection Rat
es)に対する誤受理率(False Accepta
nce Rates)を図4に誤棄却率に対する単語認
識率(Word Recognition Rate
s)を示す。図中、“no phoneme conf
idence prob.”は、信頼度尤度を用いない
で語彙制約なし認識系の結果で正規化する場合であり、
これが従来法になる。図中、“no history”
は音素信頼度尤度を履歴なしで用いる場合、“hist
ory1,2”は履歴を音素1つ前あるいは2つ前まで
利用する場合である。また、シグモイド関数の係数aと
しては、5.0×10-5のときの結果を図に示してい
る。ここで、信頼度尤度を加える際の係数はα=1.0
とした。
【0025】図3では、曲線が原点に近づくほど精度が
よいことを示しており、信頼度尤度を用いることで精度
の改善が得られたのがわかる。図5に示すように、誤受
理率と誤棄却率が等確率になる点では2%改善した。そ
の時の単語認識率は5%向上した。また、図4に示すよ
うに、リジェクト性能を高めた場合でも語彙内発声に対
する認識率は従来法とほとんど変わらないか、精度が高
くなっている。図5にリジェクトを全くしない場合の単
語認識結果を示すように、14.0%の誤り改善率が得
られた。これは、信頼度尤度を用いることで認識処理内
で各音素の確からしさに応じて重みづけでき、それまで
誤認識していた場合でも部分的な精度改善により、正し
く認識できるようになっているといえる。
よいことを示しており、信頼度尤度を用いることで精度
の改善が得られたのがわかる。図5に示すように、誤受
理率と誤棄却率が等確率になる点では2%改善した。そ
の時の単語認識率は5%向上した。また、図4に示すよ
うに、リジェクト性能を高めた場合でも語彙内発声に対
する認識率は従来法とほとんど変わらないか、精度が高
くなっている。図5にリジェクトを全くしない場合の単
語認識結果を示すように、14.0%の誤り改善率が得
られた。これは、信頼度尤度を用いることで認識処理内
で各音素の確からしさに応じて重みづけでき、それまで
誤認識していた場合でも部分的な精度改善により、正し
く認識できるようになっているといえる。
【0026】履歴情報を用いた場合を比較すると、誤棄
却率の高い領域で履歴を考慮しない場合と若干精度がよ
くなっているが、この実験では大きな改善は見られてい
ない。しかし、騒音下でのように、音声が必ずしも明瞭
に取り込むことができない場合には、履歴なしで用いる
場合に比べ、安定した性能が得られると考えられる。
却率の高い領域で履歴を考慮しない場合と若干精度がよ
くなっているが、この実験では大きな改善は見られてい
ない。しかし、騒音下でのように、音声が必ずしも明瞭
に取り込むことができない場合には、履歴なしで用いる
場合に比べ、安定した性能が得られると考えられる。
【0027】
【発明の効果】以上述べたようにこの発明によれば、部
分区間において相対的確率を認識候補全体の確率に反映
することができ、語彙制約なし認識系による入力音声全
体に対する尤度正規化に加え、部分的な照合をとり入れ
ることができるので、認識精度を向上できるとともに、
精度の高いリジェクションが可能になる。
分区間において相対的確率を認識候補全体の確率に反映
することができ、語彙制約なし認識系による入力音声全
体に対する尤度正規化に加え、部分的な照合をとり入れ
ることができるので、認識精度を向上できるとともに、
精度の高いリジェクションが可能になる。
【図1】この発明の音声認識方法を適用した音声認識装
置の機能構成を示すブロック図。
置の機能構成を示すブロック図。
【図2】信頼度尤度計算部14と音響モデル尤度計算部
33から累積尤度の計算するときの第i音素HMMの状
態図。
33から累積尤度の計算するときの第i音素HMMの状
態図。
【図3】誤受理率と誤棄却率をプロットした実験結果を
示す図。
示す図。
【図4】単語認識率と誤棄却率をプロットした実験結果
を示す図。
を示す図。
【図5】等誤り率、等誤り率での単語認識率、リジェク
トしないときの単語認識率の各実験結果を示す図。
トしないときの単語認識率の各実験結果を示す図。
【図6】従来の音声認識装置の機能構成を示すブロック
図。
図。
【図7】この発明の認識方法の処理手順の一例を示す流
れ図。
れ図。
フロントページの続き
(56)参考文献 特開 昭59−46698(JP,A)
特開 平9−62290(JP,A)
特開 平5−314320(JP,A)
特許2864506(JP,B2)
特許3100180(JP,B2)
實廣, 高橋, 相川,部分的尤度分
布の差に着目した未知語のリジェクショ
ン,日本音響学会平成9年度秋季研究発
表会講演論文集,日本,1997年 9月17
日,3−1−1,Pages 87−88
(58)調査した分野(Int.Cl.7,DB名)
G10L 15/00 - 15/28
JICSTファイル(JOIS)
Claims (9)
- 【請求項1】 入力される音声信号をディジタル信号に
変換し、そのディジタル信号から音声特徴パラメータを
抽出し、その抽出した音声特徴パラメータに対して言語
的単位の各カテゴリの特徴を表現した確率モデルの確率
を計算し、最も高い確率を示すモデルが表現するカテゴ
リを認識結果として出力する音声認識方法において、 音素、音節、単語などの部分区間での、対象とするカテ
ゴリで得られる確率と、他のカテゴリでの確率との分布
差に基づいて求められる変量を、あらかじめ統計的に相
対的確率モデルとしてモデル化しておき、各認識候補の全体確率に、対応する相対的確率モデルか
ら計算される確率を掛け合わせて認識結果を決定するた
めの確率とする ことを特徴とする音声認識方法。 - 【請求項2】 請求項1に記載の音声認識方法におい
て、 単語より小さい単位、音素単位あるいは音節単位で自由
な連鎖を許容できる語彙制約のない音声認識処理によ
り、同じ入力音声での認識結果の確率と音声長を用いて
認識候補の確率との比を取り、その値に応じて認識候補
が語彙外であるかどうか判別する、ことを特徴とする音
声認識方法。 - 【請求項3】 請求項1または2に記載の音声認識方法
において、 部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、対象
とするカテゴリの確率を、非対象カテゴリの確率の平均
で割ったものを用いることを特徴とする音声認識方法。 - 【請求項4】 請求項1または2に記載の音声認識方法
において、 部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、 対象とするカテゴリの確率を、全カテゴリの中の最大確
率で割ったものを用いることを特徴とする音声認識方
法。 - 【請求項5】 請求項1または2に記載の音声認識方法
において、 部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、 対象とするカテゴリの対数確率を、それ以外のカテゴリ
の対数確率の平均で引いたものを用いることを特徴とす
る音声認識方法。 - 【請求項6】 請求項1乃至5の何れかに記載の音声認
識方法において、 上記相対確率モデルから計算される確率を、その計算ご
とに、各上記単語より小さい単位ごとに履歴情報として
記憶しておき、上記認識候補の確率に掛け合わせる確率
として、対応する上記履歴情報の平均を用いることを特
徴とする音声認識方法。 - 【請求項7】 入力された音声信号から音声特徴パラメ
ータを抽出し、その抽出した音声特徴パラメータに対し
て言語的単位の各カテゴリの特徴を表現した確率モデル
の尤度を計算し最も高い尤度を示すモデルが表現するカ
テゴリを認識結果として出力する音声認識方法の各過程
をコンピュータに実行させるプログラムを記録した記録
媒体であって、 上記音声認識方法は、上記尤度計算ごとに、その対象モ
デルが上記言語的単位の終端か否かを調べる判定過程
と、 その過程が終端でないと判定すると、上記計算した尤度
をそれまでの累積尤度に加算して、カテゴリ候補を探索
する過程に移る過程と、 上記判定過程が終端であると判定すると、上記対象カテ
ゴリで得られる尤度と、他のカテゴリで得られる尤度と
の分布差に基づいて求められた予め統計的モデルから信
頼度尤度を計算する過程と、 その計算された信頼度尤度を、上記累積尤度の加算に対
し、更に加算して上記カテゴリ候補を探索する過程に移
る過程を有することを特徴とするコンピュータによる読
出し可能な記録媒体。 - 【請求項8】 上記音声認識方法は、上記終端であると
判定され、かつ上記累積尤度を計算して、カテゴリ候補
を探索する過程に移り、認識対象のネットワーク上で対
象となる候補があるか否かを調べ、あればその対象候補
の尤度計算を行う過程と、 対象となる候補がなければ、上記ネットワーク探索有効
な候補を残して、次の入力音声特徴パラメータの分析に
移る過程と、 を有することを特徴とする請求項7記載の記録媒体。 - 【請求項9】 上記音声認識方法は、上記認識対象のネ
ットワークが、語彙に対応するものと、あらゆる音節の
接続を許した語彙制約なしに対応するものとの両認識系
に対して探索を行い、 上記入力音声信号が終端であるか否かを判定する過程
と、 その過程で終端であると判定すると、語彙に対応したネ
ットワークから語彙内の認識結果を得、語彙制約なし認
識系のネットワークから認識結果を得る過程と、 この認識結果を用いて前者の認識結果に対し、尤度正規
化を行う過程と、 その尤度正規化された値を基準と比較して、語彙内か否
かを判定する過程とを含むことを特徴とする請求項8記
載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24835197A JP3496706B2 (ja) | 1997-09-12 | 1997-09-12 | 音声認識方法及びそのプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24835197A JP3496706B2 (ja) | 1997-09-12 | 1997-09-12 | 音声認識方法及びそのプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185188A JPH1185188A (ja) | 1999-03-30 |
JP3496706B2 true JP3496706B2 (ja) | 2004-02-16 |
Family
ID=17176813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24835197A Expired - Fee Related JP3496706B2 (ja) | 1997-09-12 | 1997-09-12 | 音声認識方法及びそのプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3496706B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ131399A0 (en) | 1999-06-30 | 1999-07-22 | Silverbrook Research Pty Ltd | A method and apparatus (NPAGE02) |
US7038797B1 (en) | 1999-05-25 | 2006-05-02 | Silverbrook Research Pty Ltd | Method and system for delivery of mail |
JP2001175276A (ja) * | 1999-12-17 | 2001-06-29 | Denso Corp | 音声認識装置及び記録媒体 |
US6760699B1 (en) * | 2000-04-24 | 2004-07-06 | Lucent Technologies Inc. | Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels |
JP3819896B2 (ja) * | 2003-11-14 | 2006-09-13 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
WO2010024052A1 (ja) * | 2008-08-27 | 2010-03-04 | 日本電気株式会社 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
JP5035208B2 (ja) * | 2008-10-10 | 2012-09-26 | 株式会社デンソー | 情報処理装置,インタフェース提供方法およびプログラム |
JP5593608B2 (ja) * | 2008-12-05 | 2014-09-24 | ソニー株式会社 | 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム |
JP5158877B2 (ja) * | 2009-01-29 | 2013-03-06 | Kddi株式会社 | 音声認識方法および装置 |
JP4951035B2 (ja) * | 2009-07-08 | 2012-06-13 | 日本電信電話株式会社 | 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5946698A (ja) * | 1982-09-09 | 1984-03-16 | 株式会社日立製作所 | 音声認識方式 |
JP2864506B2 (ja) * | 1988-11-07 | 1999-03-03 | 日本電気株式会社 | パターンマッチング回路 |
JP3100180B2 (ja) * | 1991-05-07 | 2000-10-16 | 株式会社リコー | 音声認識方法 |
JPH05314320A (ja) * | 1992-05-08 | 1993-11-26 | Fujitsu Ltd | 認識距離の差と候補順を利用した認識結果の評価方式 |
JP3315565B2 (ja) * | 1995-08-22 | 2002-08-19 | シャープ株式会社 | 音声認識装置 |
-
1997
- 1997-09-12 JP JP24835197A patent/JP3496706B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
實廣, 高橋, 相川,部分的尤度分布の差に着目した未知語のリジェクション,日本音響学会平成9年度秋季研究発表会講演論文集,日本,1997年 9月17日,3−1−1,Pages 87−88 |
Also Published As
Publication number | Publication date |
---|---|
JPH1185188A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5675706A (en) | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US5797123A (en) | Method of key-phase detection and verification for flexible speech understanding | |
EP0831456A2 (en) | Speech recognition method and apparatus therefor | |
JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN112233651B (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
US8229744B2 (en) | Class detection scheme and time mediated averaging of class dependent models | |
CN101452701B (zh) | 基于反模型的置信度估计方法及装置 | |
JP3496706B2 (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
CN116580706B (zh) | 一种基于人工智能的语音识别方法 | |
JP3004023B2 (ja) | 音声認識装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Benıtez et al. | Different confidence measures for word verification in speech recognition | |
CN114155882A (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JP3104900B2 (ja) | 音声認識方法 | |
JP3494338B2 (ja) | 音声認識方法 | |
Hussain et al. | Endpoint detection of speech signal using neural network | |
KR20000025827A (ko) | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 | |
CN112997247A (zh) | 利用大数据的最佳语言模型生成方法及用于其的装置 | |
JP3368989B2 (ja) | 音声認識方法 | |
CA2896801C (en) | False alarm reduction in speech recognition systems using contextual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081128 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091128 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |