JP2011191423A - 発話認識装置、発話認識方法 - Google Patents

発話認識装置、発話認識方法 Download PDF

Info

Publication number
JP2011191423A
JP2011191423A JP2010056266A JP2010056266A JP2011191423A JP 2011191423 A JP2011191423 A JP 2011191423A JP 2010056266 A JP2010056266 A JP 2010056266A JP 2010056266 A JP2010056266 A JP 2010056266A JP 2011191423 A JP2011191423 A JP 2011191423A
Authority
JP
Japan
Prior art keywords
utterance
feature amount
unit
extracted
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010056266A
Other languages
English (en)
Inventor
Kazuhiro Nakadai
一博 中臺
Takami Yoshida
尚水 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2010056266A priority Critical patent/JP2011191423A/ja
Publication of JP2011191423A publication Critical patent/JP2011191423A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。
【解決手段】音響を集音する音響集音部と、映像を撮像する映像撮像部と、集音された音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、撮像された画像情報に基づき顔領域の特徴量と唇領域の特徴量を抽出する唇特徴量抽出部と、抽出された唇領域の特徴量に基づき唇の横方向の長さに関する視覚特徴量を抽出し、抽出された所定区間の視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、生成された視覚特徴量と抽出された音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、発話区間検出部が検出した発話区間の発話を認識する音声認識部とを備える。
【選択図】図1

Description

本発明は、発話認識装置、発話認識方法に関する。
話者が発話した音声をマイク等によって集音して、集音した音声を音声認識し文字データに変換したり、集音した音声を音声認識しコンピュータを操作したりする音声認識技術が知られている。音声認識を行う場合、話者が話している文節の解析の行いやすさや、認識における演算量の削減などのために、発話区間を検出し、検出した発話区間の音声を認識することで発話を認識する手法が用いられている。
音声情報から発話区間を検出し、検出した発話区間の雑音による誤認識を話者の唇の動きの映像情報を用いて防止して、発話認識を行う発話認識装置が提案されている(例えば、特許文献1参照)。また、話者の唇を含む画像を撮像し、撮像した唇の変形度合いを算出し、算出した変化度合いと集音した音声情報のレベルに基づいて発話区間を認識して発話認識を行う発話認識装置が提案されている(例えば、特許文献2参照)。
特開2007−156493号公報 特開2008−152125号公報
しかしながら、特許文献1及び特許文献2の従来技術では、唇の動き検出のために唇を含む画像を高い解像度で撮像する必要があるという問題点がった。また、撮像に用いるカメラにより画像の解像度が変化する場合、また、話者とカメラとの距離が変化することで唇部分の解像度が変化する場合など、解像度が変化してしまうため唇の動き検出を用いて精度良く発話区間を検出することが困難な場合があるという問題点があった。
本発明は、上記の問題点に鑑みてなされたものであって、精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。
上記目的を達成するため、本発明の発話認識装置が、音響を集音する音響集音部(例えば、実施例におけるマイク2、21、22)と、映像を撮像する映像撮像部(例えば、実施例におけるカメラ1)と、前記音響集音部が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部(例えば、実施例における音声特徴量抽出部4)と、 前記映像撮像部が撮像した画像情報に基づき唇領域の特徴量を抽出する唇特徴量抽出部(例えば、実施例における唇検出部32)と、前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部(例えば、実施例における画像特徴量による唇の縦横長抽出部33)と、前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部(例えば、実施例における視聴覚統合発話区間検出部5)と、前記発話区間検出部が検出した発話区間の発話を認識する音声認識部(例えば、実施例における視聴覚統合音声認識部6)とを備えることを特徴としている。
また、本発明の発話認識装置おいて、前記発話区間検出部は、前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とをベイジアンネットワークを用いて統合して発話確率を算出することで前記発話区間を検出するようにしてもよい。
また、本発明の発話認識装置おいて、前記視覚特徴量生成部は、前記3次以上の関数の係数を前記視覚特徴量とするようにしてもよい。
また、本発明の発話認識装置において、前記音声認識部は、前記音響特徴量抽出部が抽出した前記音響情報の特徴量と、前記視覚特徴量生成部が生成した前記視覚特徴量と、前記発話区間検出部が検出した前記発話区間とに基づき前記発話を認識するようにしてもよい。
また、本発明の発話認識装置において、前記視覚特徴量生成部は、前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出し、抽出した所定区間の前記唇の縦方向の長さに関する視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで唇の縦方向の長さに関する視覚特徴量を生成し、前記発話区間検出部が前記生成された前記唇の縦方向の長さに関する前記視覚特徴量を更に用いて前記発話区間を検出するようにしてもよい。
また、本発明の発話認識装置において、前記画像特徴量抽出部は、前記撮像された画像情報に基づき顔領域を抽出し、抽出した顔領域の信頼度を算出し、前記発話区間検出部が算出された顔領域の信頼度をさらに用いて前記発話区間を検出するようにしてもよい。
また、本発明の発話認識装置において、前記音響特徴量抽出部は、前記音響集音部が集音した音響信号を用いて、音源方向を推定し、推定した音源方向に基づき前記集音された音響信号を分離し、前記分離した音響信号に基づき音響情報の特徴量を抽出し、前記発話区間検出部が抽出された前記分離された音響信号に基づき音響情報の特徴量を用いて前記発話区間の検出を行うようにしてもよい。
また、本発明の発話認識装置において、前記発話区間検出部は、検出された前記発話区間に所定のマージンを付加するようにしてもよい。
上記目的を達成するため、本発明の発話認識装置の発話認識方法において、発話認識装置における発話認識方法において、音響集音部(例えば、実施例におけるマイク2、21、22)が、音響を集音する音響集音工程と、映像撮像部(例えば、実施例におけるカメラ1)が、映像を撮像する映像撮像工程と、音響特徴量抽出部(例えば、実施例における音声特徴量抽出部4)が、前記音響集音工程が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出工程と、画像特徴量抽出部(例えば、実施例における画像特徴量抽出3)が、前記映像撮像工程が撮像した画像情報に基づき唇領域の特徴量を抽出する画像特徴量抽出工程と、視覚特徴量生成部(例えば、実施例における画像特徴量による唇検出部32)が、前記画像特徴量抽出工程が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する前記視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する特徴量平滑工程と、発話区間検出部(例えば、実施例における視聴覚統合発話区間検出部5)が、前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出工程と、音声認識部(例えば、実施例における視聴覚統合音声認識部6)が、前記発話区間検出部が検出した発話区間の発話を認識する発話認識工程とを備えることを特徴としている。
本発明によれば、集音された音響情報に基づく音響情報の特徴量と撮像された画像情報に基づく唇特徴量を時間軸方向に平滑化した視覚特徴量とを統合して発話区間を検出し、検出された発話区間に基づき発話を認識するので、精度良く発話区間の検出を行うことができるので精度良く発話認識を行うことが可能になる。
また、本発明によれば、視覚特徴量と音響情報の特徴量とをベイジアンネットワークを用いて統合することで発話確率を算出して発話区間を検出するので、さらに精度良く発話区間の検出を行うことが可能になる。
また、本発明によれば、音響情報の特徴量と視覚特徴量と発話区間とに基づき発話を認識するため、さらに精度良く発話認識を行うことが可能になる。
また、本発明によれば、唇領域の特徴量に基づき唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出して、抽出された唇の縦方向の長さに関する唇領域における視覚特徴量を平滑化した視覚特徴量も用いて発話区間を検出するため、さらに精度良く発話区間の検出を行ことが可能になる。
また、本発明によれば、抽出された顔領域の信頼度を算出し、算出された顔領域の信頼度をさらに用いて発話区間を検出するため、さらに精度良く発話区間の検出を行ことが可能になる。
また、本発明によれば、音源方向を推定し、推定した音源方向に基づき集音された音響信号を分離し、分離した音響信号に基づき音響情報の特徴量を抽出して発話区間を検出するため、さらに精度良く発話区間の検出を行うことが可能になる。
また、本発明によれば、発話区間検出部は、発話区間検出時に検出される発話区間に所定のマージンを付加するようにしたので、発話区間の開始部分と終了部分とが誤って検出されることによる発話区間の欠けを防ぐことができ、さらに精度良く発話区間の検出を行うことが可能になる。
本発明の実施形態に係る発話認識装置のブロック図である。 本発明の実施形態に係る顔検出部と唇検出を説明する図である。 本発明の実施形態に係る唇の縦横長さの検出を説明する図と唇の大きさを検出するためのスムージングを説明する図である。 本発明の実施形態に係るベイジアンネットワークを用いた発話区間検出を説明する図である。 本発明の実施形態に係る移動平均処理を説明する図である。 本発明の実施形態に係る発話検出区間にマージンを付加する説明図である。 本発明の実施形態に係る評価1及び評価2の受信者動作特性を示す図である。 本発明の実施形態に係る音声認識実験の結果を示す図である。 本発明の実施形態に係るASR性能における顔サイズ変化に対するロバスト性の評価の一例の図である。
以下、図1〜図9を用いて本発明の実施形態について詳細に説明する。なお、本発明は斯かる実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
[第1実施形態]
図1は、本実施形態における発話認識装置のブロック図である。図1のように、本発話認識装置は、カメラ1、マイク2、画像特徴量抽出3、音声特徴量抽出部4、視聴覚統合発話区間検出部5及び視聴覚統合音声認識部6を備えている。また、画像特徴量抽出3は、顔検出部31、唇検出部32、唇の縦横長抽出部33及び画像特徴量による発話区間検出部34を備えている。また、音声特徴量抽出部4は、音源方向推定部41、音源分離部42、MSLS抽出部43、音声特徴量による発話区間検出部44を備えている。また、視聴覚統合発話区間検出部5は、画像・音声特徴量による発話区間検出部51を備え、視聴覚統合音声認識部6は、音声認識部61を備えている。
カメラ1は、画像を撮像し、撮像した画像情報を画像特徴量抽出3に出力する。また、カメラ1は、例えばCCD(Charge Coupled Device)イメージセンサを内蔵し、CCDイメージセンサ上に結像した画像を示す画像情報を画像特徴量抽出3に出力する。なお、カメラ1は、所定の間隔、例えば1秒間に33回(約30[msec]間隔)で画像を取り込む。
マイク2は、マイク21とマイク22を備え、音声を集音し、集音した音声を音声特徴量抽出部4に出力する。なお、マイク21と22は、所定の間隔、例えば1秒間に100回(10[msec]間隔)で音声を取り込む。また、マイク2は、マイク21〜22だけではなく、例えば8本使用してもよい。また、マイク2は、音声のみではなく他の音が混じっている音響信号を集音しても良い。
画像特徴量抽出3の顔検出部31には、撮像された画像情報が入力され、入力された画像情報から図2(a)のように顔領域の画像情報を検出し、検出した顔領域の画像情報を唇検出部32に出力する。図2は、顔検出部と唇検出を説明する図である。顔領域検出は、例えばFacial Feature Tracking SDKが提供する検出モジュールを用いる。
唇検出部32には、検出された顔領域の画像情報が入力され、入力された顔領域の画像情報から図2(b)のように唇領域の画像情報を検出する。唇検出部32は、検出した唇領域の画像情報から図3(a)のように、唇の特徴量を抽出し、抽出した特徴量に基づき周辺部分の所定箇所の特徴点の位置、例えば唇周辺の8点(左L1、右L8、上L3、下L6、左上L2、左下L5、右上L4、右下L7)を検出する。図3は、唇の縦横長さの検出を説明する図と唇の大きさを検出するためのスムージングを説明する図である。さらに、唇検出部32は、検出した唇の特徴点情報を唇の縦横長抽出部33と画像特徴量による発話区間検出部34とに出力する。唇領域検出及び唇の所定箇所の特徴点検出は、例えばFacial Feature Tracking SDKが提供する検出モジュールを用いる。
唇の縦横長抽出部33には、検出された唇の特徴点情報と顔領域の画像情報が入力され、入力された唇の特徴点情報を用いて、唇の縦方向(長手方向)の長さH[t]と唇の横方向の長さW[t]を抽出する。なお、唇の縦方向(長手方向)の長さH[t]は、検出された唇周辺の8点の特徴点のうち、上L3と下L6との差により算出する。また、唇の横方向の長さW[t]は、検出された唇周辺の8点の特徴点のうち、左L1と右L8との差により算出する。また、唇の縦横長抽出部33は、話者との距離変化に対応するため、顔検出部31が検出した顔サイズに基づき、抽出した唇の縦方向の長さH[t]と唇の横方向の長さW[t]を正規化する。さらに、唇の縦横長抽出部33は、後述する方法で検出された唇の特徴点情報から視覚特徴量を抽出し、抽出した視覚特徴量と顔領域の画像情報を視聴覚統合音声認識部6に出力する。なお、視覚特徴量とは、後述するように、唇周辺の特徴量に基づく特徴量である。
画像特徴量による発話区間検出部34には、検出された唇の特徴点情報と顔領域の画像情報が入力され、入力された顔領域の画像情報に基づき顔検出の信頼度xfaceを検出し、入力された唇の特徴点情報に基づき視覚特徴量xlipを検出する。そして、画像特徴量による発話区間検出部34は、検出した顔検出の信頼度xfaceと視覚特徴量xlipを視聴覚統合発話区間検出部5に出力する。顔検出の信頼度xfaceと視覚特徴量xlipは、既存の手法、例えば汎用大語彙連続音声認識エンジンであるオープンソースのJulius(https://julius.sourceforge.jp/)を用いて算出する。
なお、音声情報と画像情報とのフレームレートが異なるため、本実施形態では、得られた画像特徴量(顔検出の信頼度xfaceと視覚特徴量xlip)に対してアップサンプリングを行い、音声特徴量(非発話の対数尤度xdvad)との同期を行っている。アップサンプリングは、例えば、キュービックスプライン補間(cubic spline interpolation)を用いる。
音声特徴量抽出部4の音源方向推定部41には、マイク21と22から音声情報が入力され、入力された音声情報を用いて、既存の手法で音源方向を推定し、推定した音源方向情報と音声情報を音源分離部42に出力する。音源方向の推定は、既存の手法、例えば話者位置推定法であるMUSIC(Multiple Signal Classification;電波到来方向推定)法などを用いる。
音源分離部42には、推定された音源方向情報と音声情報が入力され、入力された音源方向情報と音声情報を用いて、音声情報から同時発話の場合等の分離を行い、分離した音源情報をMSLS抽出部43と音声特徴量による発話区間検出部44に出力する。音源の分離は、既存の手法、例えばGSS(Geometric Sound Separation;幾何学的音源分離)法などを用いる。また、GSSは、音源分離時に音源とマイクの位置関係である推定された音源方向情報を制約条件として利用する。
MSLS(Mel Scale Logarithmic Spectrum;メルスケール対数スペクトル)抽出部43には、分離された音声情報が入力され、入力された音声情報から音声特徴量であるMSLSを抽出し、抽出したMSLS情報を視聴覚統合音声認識部6に出力する。MSLSは、音声認識の特徴量としてスペクトル特徴量を用い、MFCC(Mel Frequency Cepstrum Coefficient;メル周波数ケプストラム係数)を逆離散コサイン変換することによって得られる。MFCCは、音声分離した分離音に分離歪みが生じて特徴量に影響を与えるが、MSLSは周波数領域の特徴量のため、分離歪みによる影響が特定の周波数バンドにしか影響を与えないという利点がある。
音声特徴量による発話区間検出部44には、分離された音声情報が入力され、入力された音声情報に基づき発話と発話との間、すなわち無音期間である非発話の対数尤度xdvadを算出し、算出した非発話の対数尤度xdvadを視聴覚統合発話区間検出部5に出力する。非発話の対数尤度xdvadの算出は、既存の手法、例えばデータベース発話区間検出法を用いる。すなわち、本実施形態では、音声情報による発話区間検出(Audio VAD(Voice Activity Detection);A−VAD)の途中結果である非発話の対数尤度xdvadを用いていることに特徴がある。また、本実施形態では、従来のモデルには登録されていなかった無音単語(sp)を無音部としてモデル登録することで、無音らしさを確認して非発話の対数尤度xdvadを算出することに特徴がある。
視聴覚統合発話区間検出部5の画像・音声特徴量による発話区間検出部51には、検出された画像特徴量である顔検出の信頼度xfaceと特徴量xlip、及び音声特徴量である非発話の対数尤度xdvadが入力される。また、画像・音声特徴量による発話区間検出部51は、入力された顔検出の信頼度xfaceと視覚特徴量xlip及び非発話の対数尤度xdvadをそれぞれGMM(Gaussian Mixture Model;混合正規分布)法とEMアルゴリズム(Expectation−maximization algorithm)を用いて、顔検出の信頼度xfaceと視覚特徴量xlip及び非発話の対数尤度xdvadの各確からしさ(確率)を算出する。さらに、画像・音声特徴量による発話区間検出部51は、算出した各確からしさに基づき、不確かな出来事の連鎖について確率の相互作用を集計する手法であるベイジアンネットワーク(Bayesian Network)を用いて、顔検出の信頼度xfaceと視覚特徴量xlip及び非発話の対数尤度xdvadを統合し、その結果に基づき非発話・発話区間を検出し、検出した非発話・発話区間情報を視聴覚統合音声認識部6に出力する。すなわち、本実施形態は、ベイジアンネットワークを用いて画像特徴量と音声特徴量を統合して、非発話・発話区間を検出していることに特徴がある。
視聴覚統合音声認識部6の音声認識部61は、画像・音声特徴量による発話区間検出部51により検出された非発話・発話区間情報と、唇の縦横長抽出部33により抽出された視覚特徴量と、MSLS抽出部43により抽出された音声特徴量のMSLS情報とが入力される。そして、音声認識部61は、入力された発話区間情報と視覚特徴量と音声特徴量のMSLS情報とを用いて発話認識を行う。発話認識は、例えば、汎用大語彙連続音声認識エンジンであるストリーム重み付を指定で可能なマルチバンドJulius(Y. Nishimura, et al., “Speech recognition for a humanoid with motor noise utilizing missing feature theory,”Humanoids 2006, pp. 26-33)を用いる。
さらに、音声認識部61は、認識した発話情報を、非図示の表示部、記憶部、処理部等に出力する。
次に、本発話認識装置の動作の一例について詳細に説明する。
カメラ1で撮像された画像情報が画像特徴量抽出3に入力される。画像特徴量抽出3の顔検出部31は、図2(a)のように、入力された画像情報から顔領域および顔サイズをFacial Feature Tracking SDKが提供する検出モジュールを用いて検出する。
次に、唇検出部32は、図2(b)のように、検出された顔領域から唇領域をFacial Feature Tracking SDKが提供する検出モジュールを用いて検出する。また、唇検出部32は、検出した唇領域から図3(a)のように、唇周辺の8点(L1〜L8)の特徴量を用いて、唇の縦方向の長さH[t]と唇の横方向の長さW[t]を抽出する。さらに、唇の縦横長抽出部33は、顔検出部31が検出した顔サイズを用いて抽出した唇の縦横長さを正規化する。
さらに、唇の縦横長抽出部33は、図3(b)のように、唇周辺の8点(L1〜L8)の特徴量のうち上下左右の特徴量L1、L3、L6、L8の4点を用いて画像情報を30[msec]間隔で5回分用いて最小自乗法により3次関数にフィッティングを行うことで平滑化する。この処理を行う理由は、唇の動きは比較的穏やかであり、視覚特徴量は高周波成分を含まないため、視覚特徴量に含まれる高周波成分を雑音と見なすことができる。このため、この高周波成分である雑音を除去するために平滑化を行う。平滑化は、時刻kフレームにおける唇の縦長をh[k]、唇の横長をw[k]とする。このとき、区間tk−2〜tk+2に含まれる5フレームのh[k]、w[k]を用いて最小自乗方に基づき、擬似逆行列を用いて唇の縦長、唇の横長を次式(1)、式(2)を用いて3次関数にフィッティングを行う。
W[t]=a+a(t−t)+a(t−t+a(t−t3…(1)
H[t]=b+b(t−t)+b(t−t+b(t−t3…(2)
さらに、唇の縦横長抽出部33は、式(1)と式(2)を用いて、a〜a,b〜bの8個の係数を算出する。なお、a〜a,b〜bの8個の係数が視覚特徴量xlipである。そして、唇の縦横長抽出部33は、抽出した視覚特徴量xlipを視聴覚統合発話区間検出部56に出力する。
次に、画像特徴量による発話区間検出部34は、検出された顔領域の画像情報からJuliusを用いて、顔検出時に求められた顔検出の信頼度xfaceを検出する。なお、顔検出の信頼度とは、切り出した領域が顔である信頼度を示す値であり、例えば、0〜1である。
顔検出の信頼度が低い場合、検出された顔に基づく特徴量の信頼度も低いため、顔検出の信頼度xfaceを発話区間検出に反映している。また、画像特徴量による発話区間検出部34は、検出した顔検出の信頼度xfaceを視聴覚統合発話区間検出部5に出力する。
マイク21〜22で集音された音声データが音声特徴量抽出部4に入力される。音源方向推定部41は、入力された音声データに対してHARK(Honda Research Institute Japan Audition for Robots with Kyoto University;https://winnie.kuis.kyoto-u.ac.jp/HARK/)によるMUSIC法を用いて、音源とマイクの位置関係である音源の方向を推定する。なお、HARKは、多くの多チャンネル音響信号入力デバイスをサポートしており、音源定位、追跡、分離や分離音の認識といったロボット聴覚に必要とされるモジュールが一通り用意されている。
音源分離部42は、推定された音源方向情報を制約条件として利用し、GSS法を用いて音源の分離を行う。音源の分離とは、例えば多数の話者が同時に発話した場合、個別に認識を行えるように分離することである。
次に、音声特徴量による発話区間検出部44は、分離された音声情報からデータベース発話区間検出法を用いて非発話の対数尤度xdvad(デコーダベースの特徴量)を、次式(3)を用いて算出する。非発話・発話区間を検出するには、発話と発話の間、すなわち無音の状態を検出することが重要である。このため、本実施形態では、予め無音単語sp(short pause)として検索エンジンに学習させ登録しておく。
dvad=log(p(ω|x))・・・(3)
(3)において、xは音声情報を表し、ωは非発話に対応する仮説を表している。そして、無音単語以外の対数尤度と、無音単語時の対数尤度とを比較することで音声区間検出ができ、この手法はすでにJuliusに実装されている。本実施形態では、この処理過程で算出される対数尤度xdvadを音声情報の特徴量として用いる。また、音声特徴量による発話区間検出部44は、算出した対数尤度xdvadを視聴覚統合発話区間検出部5に出力する。
次に、MSLS抽出部43は、分離された音声情報から周波数領域の特徴量であるMSLSを抽出する。まず、スペクトルの周波数軸をメルスケールに変換し、変換されたメルスケールスペクトルからMSLS特徴量を抽出する。さらに、MSLS特徴量の対雑音ロバスト性を向上させるため正規化を行い、MSLS特徴量から一次線形回帰を用いて、Δ 特徴量を算出する。本実施形態では、13次元MSLSと13次元ΔMSLSと1次元Δlog powerの27次元特徴量を使用する。なお、Δlog powerは、フレーム中の信号のパワーを計算し、そのlog(対数)をとってdBに直してlog power算出し、算出に用いたフレームと後前後2フレームずつ計5フレームを使って線形回帰を行い、Δlog powerを算出する。
次に、画像・音声特徴量による発話区間検出部51は、画像特徴量抽出3から入力された視覚特徴量xlipと顔検出の信頼度xfaceと、音声特徴量抽出部4から入力された非発話の対数尤度xdvadに対して、図4のように、ベイジアンネットワークを用いて画像特徴量と音声特徴量とを統合して非発話・発話区間を検出する。ベイジアンネットワークは、不確かな出来事の連鎖について、確率の相互作用を集計する手法であり、すなわち各特徴量を用いて各発話の確率を算出し、算出した各発話の確率を統合して発話の確率を算出する。図4は、ベイジアンネットワークを用いた発話区間検出を説明する図である。
まず、画像・音声特徴量による発話区間検出部51は、視覚特徴量xlipに対応する条件付き確率p(xlip|ω)を、4混合GMMを用いて近似し、さらに、確率モデルのパラメータを最尤法に基づいて推定する手法であるEMアルゴリズムを用いて学習により求める。発話区間の仮説ωは、ωとωであり、ωは非発話に対する仮説、ωは発話に対する仮説を表している。
次に、画像・音声特徴量による発話区間検出部51は、視覚特徴量xlipに対応する発話確率を、ベイズの公式である次式(4)を用いて算出する。
Figure 2011191423
式(4)において、x=[xdvad,xlip,xface]である。
次に、画像・音声特徴量による発話区間検出部51は、顔検出の信頼度xfaceに対応する条件付き確率p(xface|ω)を、4混合GMMを用いて近似し、さらに、EMアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部51は、顔検出の信頼度xfaceに対応する発話確率を、ベイズの公式である式(4)を用いて算出する。
次に、画像・音声特徴量による発話区間検出部51は、非発話の対数尤度xdvadに対応する条件付き確率p(xdvad|ω)を、4混合GMMを用いて近似し、さらに、EMアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部51は、非発話の対数尤度xdvadに対応する発話確率を、ベイズの公式である式(4)を用いて算出する。
次に、画像・音声特徴量による発話区間検出部51は、算出した各確率p(ω|x)を用いて、統合した発話確率P(ω|xvdad,xlip,xface)を、次式(5)を用いて算出する。
Figure 2011191423
また、画像・音声特徴量による発話区間検出部51は、この発話確率P(ω|xvdad,xlip,xface)をフレーム毎に算出する。
次に、画像・音声特徴量による発話区間検出部51は、算出した発話確率P(ω|xvdad,xlip,xface)に対して移動平均処理により平滑化を行う。これは、発話確率P(ω|xvdad,xlip,xface)に含まれている高周波成分を除去するためであり、移動平均にしきい値を用いて、次式(6)により発話区間か非発話区間かを判別する。式(6)のように、ω[t]がθ未満の場合を発話区間と判定し、それ以外の場合を非発話区間と判定する。
Figure 2011191423
式(6)において、τはマージンであり、Tは移動平均長であり、kは時刻kのフレームであり、θはしきい値であり、xは[xdvad,xlip,xface]である。
図5は、移動平均処理を説明する図である。図5(a)と図5(b)において、横軸はフレーム数であり、縦軸は算出した発話確率を正規化した値である。図5(a)のように、統合した特徴量から算出した発話確率には、雑音の影響による高周波成分が含まれ、非発話区間中において、例えばスパイク状のノイズ501を発話区間として誤検出してしまう場合もある。図5(b)のように、しきい値0.8で移動平均処理を行うと高周波成分が減少し、ある程度まとまった発話と判別される区間のみを検出することができる。図5(b)においては、画像・音声特徴量による発話区間検出部51は、時刻t1からt2までの区間が発話区間として検出し、他の区間を非発話区間として検出する。
図6および式(6)のように、算出する発話区間の前後に付加している。図6は、発話検出区間にマージンを付加する説明図である。図6(a)は、図5(a)と同様に、正規化された発話区間の確率と、移動平均を行った発話区間の確率であり、図6(b)は、移動平均を行った発話区間の確率とマージンを付加した発話区間の確率である。マージンの効果は、発話区間の開始部分と終了部分とが誤って検出されることによる欠けを防ぐためであり、例えば100msecである。なお、このマージンは発話認識装置や環境に合わせて設定しても良く、例えば200msecでも良く、0〜500msecの間の値でも良い。
画像・音声特徴量による発話区間検出部51は、以上のようにして算出した発話区間か非発話区間か示す情報(以下、非発話・発話区間情報という)を視聴覚統合音声認識部6に出力する。
次に、音声認識部61は、画像特徴量抽出3から視覚特徴量が入力され、音声特徴量抽出部4から音声特徴量であるMSLS情報が入力され、視聴覚統合発話区間検出部5から非発話・発話区間情報が入力される。また、音声認識部61は、入力された視覚特徴量と、音声特徴量であるMSLS情報と、非発話・発話区間情報を用いて、ストリーム重み付を指定で可能なマルチバンドJuliusを用いて発話認識を行う。なお、ストリーム重み付けは、例えば、認識率が高くなるような重みを実験により予め求めて用いる。
重み付けの算出は、例えば、以下のように行う。8次元の視覚特徴量と27次元の聴覚特徴量を一つの35次元の特徴量ベクトルとして生成し、そして、フレームごとに、生成したこの35次元の特徴量ベクトルを音声認識部61に入力する。音声認識部61内では、発話区間情報を用いて、発話区間に該当する35次元の特徴量ベクトルにのみ認識処理を行う。認識処理はミッシングフィーチャ理論を適用したJuliusつまり、マルチバンドJuliusのオンライン処理版を用いている。マルチバンドJuliusのマスクの部分にストリーム重みを用いることで視覚、聴覚の重みづけが可能になっている。
以下に、本発話認識装置の評価のためにおこなった評価結果の一例を説明する。各評価では、男性10人、1 人当たり266単語(ATR(Advanced Telecomminications Research Institute International)音素バランス単語216単語とATR重要単語データはクリーンな環境で16bit、16KHzサンプリングで収録し、画像データはクリーンな環境で8bitモノクロ,640×480ピクセル、100Hzで収録した。AV−VAD(音声情報と画像情報とによる発話区間検出)モデルは、視聴覚データセットのうちATR音素バランス単語216単語、話者5人分のクリーンデータを使用し学習を行った。AVSRの音響モデルは、視聴覚データセットのうちATR音素バランス単語216単語、話者10人分のクリーンデータ(CL)を使用し学習を行った。
測定した伝達関数を音声データに畳みこみ、正面(0度方向)からの発話を8chマイクアレイで収録したデータを作成した。その後、雑音として音楽データを話者と60度をなす方向から来るように作成し、SNRが20dBから−5dBまで5dB刻みとなるように調整して音声データに加えた。画像データは、一般のカメラのフレームレートに近い33Hzとして使用した。評価は、学習用データには含まれないデータセットから作成した8ch視聴覚データセットを用いた。評価用データは、学習に用いたデータセットに含まれる話者5人が発話したATR重要単語50単語を使用した(話者クローズ、単語オープンテスト)。
評価1(視聴覚発話区間検出評価)では、A−VAD(マイクアレイ処理なし)、A−VAD(マイクアレイ処理あり)、AV−VAD(マイクアレイ処理なし)、AV−VAD(マイクアレイ処理あり)の組み合わせ4通りの条件でVAD(発話区間検出)を行った。この視聴覚統合には、十分な解像度の画像データを使用した。評価2(音声認識評価結果)では、ASR、VSR、AVSRの孤立単語認識の性能比較を行った。なお、A−VADは音声情報のみによる発話区間検出、ASR(Audio Speech Recognition)は音声情報による発話認識であり、VSR(Visual Speech Recognition)は画像情報による発話認識、AVSR(Audio−Visual Speech Recognition)は音声情報と画像情報による発話認識である。
図7は、評価1及び評価2の受信者動作特性を示す図である。図7(a)はSNRが20dB時の受信者動作特性、図7(b)はSNRが15dB時の受信者動作特性、図7(c)はSNRが10dB時の受信者動作特性、図7(d)はSNRが5dB時の受信者動作特性、図7(e)はSNRが0dB時の受信者動作特性、図7(f)はSNRが−5dB時の受信者動作特性である。図7のように、音声発話区間検出は、SNR(信号対ノイズ比)が低くなるにつれ性能が悪化するが、視聴覚統合により大きく性能が向上している。マイクアレイ処理はSNRを改善するため、マイクアレイ処理を行わない場合に比べ性能が向上している。この結果は、VADにおける視聴覚統合の有効性、および本稿で提案する視聴覚統合とマイクアレイ処理を組み合わせた手法が性能をより向上させることを示している。
図8は、音声認識実験の結果を示す図である。図8(a)は、マイク1本使用時のマイクアレイ処理なしの音声認識実験の結果であり、図8(b)は、マイク8本使用時のマイクアレイ処理ありの音声認識実験の結果である。図8のように、AVSRの性能がASR、VSRに比べ向上している。単語に関してオープンな条件で評価であるが、提案手法では70%の単語正解精度が得られている。音声入力にマイクアレイ処理を行わない場合、視聴覚統合により16.7ポイント性能が向上した。音声入力にマイクアレイ処理を行った場合、SNR改善によりASRの性能が向上したにも関わらず、さらに9.8ポイント性能が向上している。
図9は、ASR性能における顔サイズ変化に対するロバスト性の評価の一例の図である。図9において、横軸はSNRを示し、縦軸は発話認識率を示している。また、CL(Clean)は、雑音がない音声情報の場合である。さらに、奥行き方向は、音声情報のみ(Audio Only)、顔サイズがフルサイズ(full size)、顔サイズが半分(half size;1/2)、顔サイズが三分の一(One−third;1/3)、顔サイズが四分の一(Quarter;1/4)、顔サイズが五分の一(One−fifth;1/5)、顔サイズが六分の一(One−sixth;1/6)を表している。なお、顔サイズとは、カメラ1により撮像された画像中に占める顔の大きさであり、例えば顔サイズが四分の一とは、画面中の1/4のサイズを顔領域の画像である。
例えば、顔サイズが1/6について、各SNRについて比較すると、ノイズがないCLでは顔サイズに影響されずに単語認識率は約100%である。SNRが下がる程、単語認識率も低下するが、音声情報だけの認識手法と比較して、本実施形態による発話認識の認識率は高い。すなわち、本実施形態による発話認識装置は、認識に用いる画像中の顔サイズが小さい(解像度が低い)場合でも、従来の手法と比較して発話認識率を改善することが可能になる。
以上のように、検出した唇の特徴点に基づきフィッティングを行って視覚特徴量を抽出し、音声情報から音声特徴量を抽出し、抽出された視覚特徴量と音声特徴量とをベイジアンネットワークを用いて統合して非発話・発話区間を検出し、検出された非発話・発話区間と視覚特徴量と音声特徴量に基づき発話認識を行うようにしたので、精度良く発話区間の検出を行い、発話認識を行うことが可能になる。
また、本実施形態では、唇の縦横長抽出部33は、唇の縦長さと横長さを抽出し、式(1)、式(2)を用いて3次関数にフィッティングを行う例を説明したが、唇の横長さを抽出し、式(1)を用いて3次関数にフィッティングを行い、a〜aの4個の係数を算出し、算出したa〜aの4個の係数を唇に関する画像情報の特徴量xlipとしてもよい。
また、本実施形態では、唇の縦横長抽出部33は、唇周辺の8点(L1〜L8)の特徴量のうち上下左右の特徴量L1、L3、L6、L8の4点を用いて画像情報を30[msec]間隔で5回分用いて3次関数にフィッティングを行う例を説明したが、用いる視覚特徴量の箇所はこれに限られず、他の箇所も用いるようにしても良く、またフィッティングを行う関数も3次以上であっても良く、さらに用いる画像情報も5フレーム分に限られなくてもよい。
また、本実施形態では、視聴覚統合発話区間検出部5は、顔検出の信頼度xfaceを用いて非発話・発話区間を検出する例を説明したが、顔検出の信頼度xfaceを用いなくても非発話・発話区間の検出は可能である。顔検出の信頼度xfaceを用いない場合は、図4において、視覚特徴量xlipに対応する条件付き確率p(xlip|ω)のみを、4混合GMMを用いて近似し、さらに、確率モデルのパラメータを最尤法に基づいて推定する手法であるEMアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部51は、視覚特徴量xlipに対応する発話確率のみを、式(4)を用いて算出する。なお、式(4)〜式(6)において、x=[xdvad,xlip]である。次に、画像・音声特徴量による発話区間検出部51は、算出した各確率p(ω|x)を用いて、統合した発話確率P(ω|xvdad,xlip)を、式(5)を用いて算出する。次に、画像・音声特徴量による発話区間検出部51は、この発話確率P(ω|xvdad,xlip)をフレーム毎に算出する。次に、画像・音声特徴量による発話区間検出部51は、算出した発話確率P(ω|xvdad,xlip)に対して平滑化を行い、式(6)により発話区間か非発話区間かを判別する。
なお、本発話認識装置をヒト型ロボット等に適用することも可能であり、この場合、例えば、カメラをヒト型ロボットの目に相当する位置に配置し、マイク21と22をヒト型ロボットの耳に相当する位置に配置するようにしても良く、マイクの本数は2本でなくとも例えば左右に4本ずつ8本備えるようにしても良く、カメラとマイクを配置する位置もロボットの形状や環境に応じて認識に最適な位置であってもよい。
なお、実施形態の図1の各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、USB(Universal Serial Bus) I/F(インタフェース)を介して接続されるUSBメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1・・・カメラ(映像撮像部)
2、21、22・・・マイク(音響集音部)
3・・・画像特徴量抽出
4・・・音声特徴量抽出部(音響特徴量抽出部)
5・・・視聴覚統合発話区間検出部(発話区間検出部)
6・・・視聴覚統合音声認識部(音声認識部)
31・・・顔検出部
32・・・唇検出部(唇特徴量抽出部)
33・・・唇の縦横長抽出部(視覚特徴量生成部)
34・・・画像特徴量による発話区間検出部
41・・・音源方向推定部
42・・・音源分離部
43・・・MSLS抽出部
44・・・音声特徴量による発話区間検出部
51・・・画像・音声特徴量による発話区間検出部
61・・・音声認識部

Claims (9)

  1. 音響を集音する音響集音部と、
    映像を撮像する映像撮像部と、
    前記音響集音部が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、
    前記映像撮像部が撮像した画像情報に基づき唇領域の特徴量を抽出する唇特徴量抽出部と、
    前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する前記特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、
    前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、
    前記発話区間検出部が検出した発話区間の発話を認識する音声認識部と、
    を備えることを特徴とする発話認識装置。
  2. 前記発話区間検出部は、
    前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とをベイジアンネットワークを用いて統合して発話確率を算出することで前記発話区間を検出する
    ことを特徴とする請求項1に記載の発話認識装置。
  3. 前記視覚特徴量生成部は、
    前記3次以上の関数の係数を前記視覚特徴量とする
    ことを特徴とする請求項1または請求項2に記載の発話認識装置。
  4. 前記音声認識部は、
    前記音響特徴量抽出部が抽出した前記音響情報の特徴量と、前記視覚特徴量生成部が生成した前記視覚特徴量と、前記発話区間検出部が検出した前記発話区間とに基づき前記発話を認識する
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の発話認識装置。
  5. 前記視覚特徴量生成部は、
    前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出し、抽出した所定区間の前記唇の縦方向の長さに関する視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで唇の縦方向の長さに関する視覚特徴量を生成し、
    前記発話区間検出部が前記生成された前記唇の縦方向の長さに関する前記視覚特徴量を更に用いて前記発話区間を検出する
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の発話認識装置。
  6. 前記画像特徴量抽出部は、
    前記撮像された画像情報に基づき顔領域を抽出し、抽出した顔領域の信頼度を算出し、
    前記発話区間検出部が算出された顔領域の信頼度をさらに用いて前記発話区間を検出する
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の発話認識装置。
  7. 前記音響特徴量抽出部は、
    前記音響集音部が集音した音響信号を用いて、音源方向を推定し、推定した音源方向に基づき前記集音された音響信号を分離し、前記分離した音響信号に基づき音響情報の特徴量を抽出し、
    前記発話区間検出部が抽出された前記分離された音響信号に基づき音響情報の特徴量を用いて前記発話区間の検出を行う
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の発話認識装置。
  8. 前記発話区間検出部は、
    検出された前記発話区間に所定のマージンを付加する
    ことを特徴とする請求項1から請求項7のいずれか1項に記載の発話認識装置。
  9. 発話認識装置における発話認識方法において、
    音響集音部が、音響を集音する音響集音工程と、
    映像撮像部が、映像を撮像する映像撮像工程と、
    音響特徴量抽出部が、前記音響集音工程が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出工程と、
    画像特徴量抽出部が、前記映像撮像工程が撮像した画像情報に基づき唇領域の特徴量を抽出する画像特徴量抽出工程と、
    視覚特徴量生成部が、前記画像特徴量抽出工程が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する前記視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成工程と、
    発話区間検出部が、前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出工程と、
    音声認識部が、前記発話区間検出部が検出した発話区間の発話を認識する発話認識工程と、
    を備えることを特徴とする発話認識方法。
JP2010056266A 2010-03-12 2010-03-12 発話認識装置、発話認識方法 Pending JP2011191423A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010056266A JP2011191423A (ja) 2010-03-12 2010-03-12 発話認識装置、発話認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010056266A JP2011191423A (ja) 2010-03-12 2010-03-12 発話認識装置、発話認識方法

Publications (1)

Publication Number Publication Date
JP2011191423A true JP2011191423A (ja) 2011-09-29

Family

ID=44796447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010056266A Pending JP2011191423A (ja) 2010-03-12 2010-03-12 発話認識装置、発話認識方法

Country Status (1)

Country Link
JP (1) JP2011191423A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114647A (ja) * 2011-12-01 2013-06-10 Exvision Inc ジェスチャー入力システム
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
US8822089B2 (en) 2007-12-12 2014-09-02 Lg Chem, Ltd. Method of operating fuel cell with high power and high power fuel cell system
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
JP2019113820A (ja) * 2017-12-25 2019-07-11 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
CN110875060A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 语音信号处理方法、装置、系统、设备和存储介质
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
WO2020144857A1 (ja) * 2019-01-11 2020-07-16 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
JP2020122958A (ja) * 2019-01-29 2020-08-13 富士ゼロックス株式会社 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
CN112786052A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音识别方法、电子设备和存储装置
KR20210101413A (ko) * 2020-02-10 2021-08-19 대구대학교 산학협력단 베이지안 분류를 이용한 입 모양 기반의 발음 인식방법
JP2022028772A (ja) * 2019-08-23 2022-02-16 サウンドハウンド,インコーポレイテッド オーディオデータおよび画像データに基づいて人の発声を解析する車載装置および発声処理方法、ならびにプログラム
KR20230012800A (ko) * 2021-07-16 2023-01-26 서울과학기술대학교 산학협력단 멀티모달 학습 기반 e-스포츠 하이라이트 영상 자동생성 방법 및 이를 수행하기 위한 장치
US11763839B2 (en) 2021-03-05 2023-09-19 Kabushiki Kaisha Toshiba Voice activity detection apparatus, learning apparatus, and voice activity detection method
JP7498231B2 (ja) 2022-08-25 2024-06-11 Necパーソナルコンピュータ株式会社 情報処理装置、音声認識支援方法、及び音声認識支援プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2009139592A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声処理装置、音声処理システム及び音声処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2009139592A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声処理装置、音声処理システム及び音声処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNJ201110010222; 竹内 伸一、外3名: 'マルチモーダルVADにおける複数特徴量の統合法に関する検討' 日本音響学会 2010年 春季研究発表会 , 20100301, p.213-214, 社団法人日本音響学会 *
JPN6013044219; 竹内 伸一、外3名: 'マルチモーダルVADにおける複数特徴量の統合法に関する検討' 日本音響学会 2010年 春季研究発表会 , 20100301, p.213-214, 社団法人日本音響学会 *
JPN7014001176; Juliusにおける入力の無音区間・休止の扱い , 20070308, Julius development team *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9780396B2 (en) 2007-12-12 2017-10-03 Lg Chem, Ltd. Method of operating fuel cell with high power and high power fuel cell system
US8822089B2 (en) 2007-12-12 2014-09-02 Lg Chem, Ltd. Method of operating fuel cell with high power and high power fuel cell system
JP2013114647A (ja) * 2011-12-01 2013-06-10 Exvision Inc ジェスチャー入力システム
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US9595259B2 (en) 2014-08-29 2017-03-14 Honda Motor Co., Ltd. Sound source-separating device and sound source-separating method
JP2016051081A (ja) * 2014-08-29 2016-04-11 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
JP2019113820A (ja) * 2017-12-25 2019-07-11 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
CN110033790A (zh) * 2017-12-25 2019-07-19 卡西欧计算机株式会社 声音认识装置、机器人、声音认识方法以及记录介质
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
CN110033790B (zh) * 2017-12-25 2023-05-23 卡西欧计算机株式会社 声音认识装置、机器人、声音认识方法以及记录介质
CN110875060A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 语音信号处理方法、装置、系统、设备和存储介质
WO2020144857A1 (ja) * 2019-01-11 2020-07-16 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
JP2020122958A (ja) * 2019-01-29 2020-08-13 富士ゼロックス株式会社 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム
JP7392492B2 (ja) 2019-01-29 2023-12-06 富士フイルムビジネスイノベーション株式会社 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム
JP2022028772A (ja) * 2019-08-23 2022-02-16 サウンドハウンド,インコーポレイテッド オーディオデータおよび画像データに基づいて人の発声を解析する車載装置および発声処理方法、ならびにプログラム
JP7525460B2 (ja) 2019-08-23 2024-07-30 サウンドハウンド,インコーポレイテッド オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム
KR20210101413A (ko) * 2020-02-10 2021-08-19 대구대학교 산학협력단 베이지안 분류를 이용한 입 모양 기반의 발음 인식방법
KR102405570B1 (ko) * 2020-02-10 2022-06-03 대구대학교 산학협력단 베이지안 분류를 이용한 입 모양 기반의 발음 인식방법
CN112786052A (zh) * 2020-12-30 2021-05-11 科大讯飞股份有限公司 语音识别方法、电子设备和存储装置
CN112786052B (zh) * 2020-12-30 2024-05-31 科大讯飞股份有限公司 语音识别方法、电子设备和存储装置
US11763839B2 (en) 2021-03-05 2023-09-19 Kabushiki Kaisha Toshiba Voice activity detection apparatus, learning apparatus, and voice activity detection method
KR20230012800A (ko) * 2021-07-16 2023-01-26 서울과학기술대학교 산학협력단 멀티모달 학습 기반 e-스포츠 하이라이트 영상 자동생성 방법 및 이를 수행하기 위한 장치
KR102512396B1 (ko) * 2021-07-16 2023-03-20 서울과학기술대학교 산학협력단 멀티모달 학습 기반 e-스포츠 하이라이트 영상 자동생성 방법 및 이를 수행하기 위한 장치
JP7498231B2 (ja) 2022-08-25 2024-06-11 Necパーソナルコンピュータ株式会社 情報処理装置、音声認識支援方法、及び音声認識支援プログラム

Similar Documents

Publication Publication Date Title
JP2011191423A (ja) 発話認識装置、発話認識方法
TWI442384B (zh) 以麥克風陣列為基礎之語音辨識系統與方法
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
US8306817B2 (en) Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5328744B2 (ja) 音声認識装置及び音声認識方法
EP2431972B1 (en) Method and apparatus for multi-sensory speech enhancement
JP5738020B2 (ja) 音声認識装置及び音声認識方法
US20100211387A1 (en) Speech processing with source location estimation using signals from two or more microphones
JP5156043B2 (ja) 音声判別装置
US20030191638A1 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP2011186351A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2011059186A (ja) 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
CN112786052B (zh) 语音识别方法、电子设备和存储装置
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
KR20190117448A (ko) 음성 검출기를 구비한 보청기 및 그 방법
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
US20220093102A1 (en) Utterance section detection device, utterance section detection method, and storage medium
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140422