JP3688879B2 - 画像認識装置、画像認識方法及びその記録媒体 - Google Patents

画像認識装置、画像認識方法及びその記録媒体 Download PDF

Info

Publication number
JP3688879B2
JP3688879B2 JP01987198A JP1987198A JP3688879B2 JP 3688879 B2 JP3688879 B2 JP 3688879B2 JP 01987198 A JP01987198 A JP 01987198A JP 1987198 A JP1987198 A JP 1987198A JP 3688879 B2 JP3688879 B2 JP 3688879B2
Authority
JP
Japan
Prior art keywords
face
image
speech recognition
speaker
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01987198A
Other languages
English (en)
Other versions
JPH11219421A (ja
Inventor
功雄 三原
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP01987198A priority Critical patent/JP3688879B2/ja
Priority to US09/241,078 priority patent/US6504944B2/en
Publication of JPH11219421A publication Critical patent/JPH11219421A/ja
Priority to US10/282,143 priority patent/US6690815B2/en
Application granted granted Critical
Publication of JP3688879B2 publication Critical patent/JP3688879B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、取得した距離画像に基づいて画像の形状および/または動きを認識する画像認識装置及び画像認識方法に関する。
【0002】
【従来の技術】
従来、人間の口唇の形状や動きを認識して読唇したり、顔の向き、表情などを判別するような画像処理を行う場合、まず、CCDカメラなどの撮像装置を用いて、人間の口唇周辺や顔部などを撮影し、その画像から背景などの余計な部分を取り除き、口唇部のみ、顔のみなど認識したい対象のみを切り出すという前処理を行う。そして、その処理後の画像を用いることで、形状や動きなどの認識を行っていた。
【0003】
まず、この認識対象の切り出しという前処理部分について説明する。
【0004】
従来の手法では、カメラで撮影した画像から取得したい対象物の部分のみを切り出す処理において、対象物とそれ以外の部分との間の何らかの相違点を手掛かりとして対象物の切り出しが行われていた。この手掛かりとして、色相の変化を利用する方法、差分画像を利用する方法、マーカーなどを利用する方法、クロマキーを利用する方法などが用いられていた。これらについて、人物の映っている画像から、口唇部分のみを切り出す場合を例として説明する。
【0005】
色相の変化を利用する方法では、口唇の部分はほぼ均一に赤色をしており、周りの肌の部分はほぼ均一に肌色をしている、という色相(画素値)の急激な変化を利用することで、口唇部のみを判別し、切り出しを行っていた。
【0006】
しかしこの方法では、照明の状況によって、肌や口唇の部分に影ができるなどして、色相が変化してしまうなど、通常と異なる色相を示す環境下では、巧く、確実に抽出することが出来なくなるといったような問題点があった。また、口唇の形状を安定的に得るために、特定の色の口紅を用いることで、色相変化を強調したりしなければならない場合もあった。
【0007】
差分画像を利用する方法では、話者が会話をしている際には、顔の中で、口唇の部分のみが動いているということを利用して、現在のフレームと、次のフレームとの差分画像を取ることによって、動いている部分を取得し、それを口唇の部分とする、ということが行われていた。
【0008】
しかしこの方法では、背景で何かが動いているような環境下では、口唇以外の不必要な部分も抽出してしまう、口唇が動いていないときには抽出できない、というように、環境や条件に著しく依存してしまい、常に、確実に口唇の部分のみを抽出するのは大変困難であった。
【0009】
マーカーを利用する方法では、口唇の周りに幾つかのマーカーを貼って特徴点とし、その特徴点の動きをもとに、口唇部を抽出していた。
【0010】
しかしこの方法では、顔に、マーカーなどを貼らなくてはならないため、使える環境が限られているなどの問題があった。
【0011】
クロマキーを利用する方法では、例えば、青色など、人物の顔にあまり現れないような色のスクリーンの前に人物が配置し、カメラなどで得た画像から青色を取り除くことで、顔の部分のみを抽出していた。
【0012】
しかしこの方法では、背景の色を強要されるため、特定の状況でのみしか用いることができない、口唇のような顔の内部の一部分のみの抽出ができない、などというような問題があった。
【0013】
このように従来の手法では、カメラで撮影した画像から取得したい対象物の部分のみを確実に切り出す処理は、大変困難なものであった。
【0014】
次に、対象物が切り出された画像から、対象物の形状、動きなどの認識を行う部分について説明する。
【0015】
従来、切り出された対象物の画像は、2次元情報しか含んでいない。これは、従来の撮像装置では3次元形状を取得することは困難であり、3次元形状を取得するような撮像装置があっても、それらは、動きの様なリアルタイムの認識に適していなかったからである。また、そのような3次元形状の撮像装置は、大変高価で、気軽に用いることができないという問題もあった。そのため、従来の画像処理では、2次元情報のみを用いて、人間の顔や口唇の形状、動きといった、本来は3次元的ものを、なんとか認識しようと努力していた。
【0016】
しかし、本来3次元的な形状や動きを2次元情報として用いていたため、必要な情報が欠落してしまい、様々な工夫はしているものの、簡単な形状や動きの認識のみしか行えないといったように、どうしても無理があった。
【0017】
また、上述したとおり、画像から対象物のみを切り出すという作業を確実に行うことは大変困難であるため、この切り出しの不確実さも、認識率を下げる要因に大きく関わっていた。
【0018】
以上のように、従来方法では、画像からの対象物の抽出方法にも、画像の認識方法にも、様々な問題点があった。
【0019】
【発明が解決しようとする課題】
以上のように、従来、カメラで撮影した画像から取得したい対象物の部分のみを確実に切り出す処理は大変困難なものであり、それが画像認識の認識率の低下の要因となっていた。
【0020】
また、様々な制約から、カメラなどを用いて画像を2次元情報として取得していたため、3次元形状や3次元的動きの認識を2次元情報のみから行うしかなく、簡単な形状、動きの認識しか行うことができないという問題があった。
【0021】
本発明は、上記事情を考慮してなされたものであり、人間の口唇の形状や動きを高速かつ高精度に認識可能な画像認識装置及び画像認識方法を提供することを目的とする。
【0022】
【課題を解決するための手段】
本発明に係る画像認識装置は、光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得手段と、前記画像取得手段により取得された距離画像から口腔部分を抽出する口腔部抽出手段と、前記口腔部抽出手段により抽出された口腔部分の距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な形状を認識するための画像認識手段と、前記画像認識手段により得られた前記口唇の3次元的な形状の情報に基づいて、話者の口唇の方向を識別し、これを話者の顔の方向とするための方向識別手段と、入力された音声を認識するための音声認識手段と、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする。
また、本発明に係る画像認識装置は、光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得手段と、前記画像取得手段により取得された距離画像ストリームから口腔部分を抽出する口腔部抽出手段と、前記口腔部抽出手段により抽出された口腔部分の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な動きを認識するための画像認識手段と、前記画像認識手段により得られた前記口唇の3次元的な動きの情報に基づいて、話者の口唇の方向を識別し、これを話者の顔の方向とするための方向識別手段と、入力された音声を認識するための音声認識手段と、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする。
また、本発明に係る画像認識装置は、光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得手段と、前記画像取得手段により取得された距離画像から顔部分を抽出する顔部抽出手段と、前記顔部抽出手段により抽出された顔部分の距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な形状を認識するための画像認識手段と、前記画像認識手段により得られた前記顔部の3次元的な形状の情報に基づいて、話者の顔の方向を識別するための方向識別手段と、入力された音声を認識するための音声認識手段と、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする。
また、本発明に係る画像認識装置は、光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得手段と、前記画像取得手段により取得された距離画像ストリームから顔部分を抽出する顔部抽出手段と、前記顔部抽出手段により抽出された顔部の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な動きを認識するための画像認識手段と、前記画像認識手段により得られた前記顔部の3次元的な動きの情報に基づいて、話者の顔の方向を識別するための方向識別手段と、入力された音声を認識するための音声認識手段と、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別の結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする。
【0063】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
【0064】
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【0065】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0066】
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
【0067】
図1は、本発明の第1の実施形態に係る画像認識装置の全体構成図である。
【0068】
本実施形態の画像認識装置は、距離画像ストリームを取得するための画像取得部1と、画像取得部1で取得された顔の全部または一部の距離画像ストリームから、口腔部分のみを抽出する口腔部抽出部2と、抽出された口腔部の距離画像ストリームから、口唇の形状および/または口唇の動きを認識する画像認識部3とから構成される。
【0069】
画像取得部1は、画像認識対象物体となる人間の顔の全部または一部を、その3次元形状を反映した奥行き値を持つ画像(以下、距離画像と呼ぶ)として所定時間毎(例えば1/60秒毎など)に取得するものである(例えば特願平9−299648の画像取得方法を用いて実現することができる)。画像取得部1は概略的には、例えば、対象物体に光を照射し、対象物体からの反射光の空間的な強度分布を抽出し、その各画素の強度値を奥行きあるいは距離を示す値に変換することにより、距離画像を生成する。この画像取得部1を用いて顔を撮像することで、顔の全部または一部分の、距離画像による動画像(以下、距離画像ストリームと呼ぶ)を得ることができる。なお、画像取得部1の詳細については後述する。
【0070】
図2に、画像取得部1により取得された顔の距離画像(距離画像ストリーム中の1フレーム分)の例を示す。距離画像は、奥行き情報を有する3次元画像で、例えば、x軸(横)方向64画素、y軸(縦)方向64画素、z軸(奥行き)方向256階調の画像になっている。図2は、距離画像の距離値すなわちz軸方向の階調をグレースケールで表現したものである。距離画像においては、色が白に近いほど距離が近く、黒に近くなるほど距離が遠い。また、色が完全に黒のところは、画像がない、あるいはあっても遠方でないのと同じであることを示している。例えば、図2は、口唇部が白く、その内側の口腔部が黒くなっている様子を示すものである。
【0071】
なお、画像取得部1における受光面もしくはこれを収容した筐体は、本画像認識装置の目的等に応じて適宜設置するばよい。例えば本画像認識装置が表示装置を持つものである場合、この表示装置に対して対象物体となる人間の顔が正面を向いたときに、当該受光面に対しても正面を向いた形になるように当該画像認識装置の筐体に設ける。
【0072】
次に、口腔部抽出部2について説明する。
【0073】
口腔部抽出部2は、画像取得部1によって取得された顔の全部または一部の距離画像ストリームから、口腔部のみを抽出するものである。
【0074】
人間の口唇の周辺部分を3次元的に見た場合、その局所的な形状は人によって様々であるし、同じ人でも状況によって様々な形状をしている。しかし、大局的には、「口唇部が少し凸形状をしており、その内側の口腔部が大きく凹形状をしている」という、人や状況に依らず一意に定まる特徴がある。
【0075】
図3は口唇を閉じている場合の顔の距離画像を、図4は口唇を開いている場合の顔の距離画像を、それぞれ、立体的に示したものである。図3および図4を見ると、上述したような口腔部の3次元的特徴がはっきりと見て取れることが分かる。
【0076】
この口腔部の3次元形状の特徴を積極的に利用すれば、顔の距離画像ストリームから、口腔部のみを抽出した距離画像ストリームを構成することは容易である。
【0077】
以下では、口腔部抽出部2でどのように口腔部を抽出するのかを具体的に説明する。
【0078】
画像取得部1によって取得された距離画像(以下、原画像とも呼ぶ)は、顔の3次元的形状を表している。この距離画像の2階微分画像を求めることで、原画像における傾き変化の様子を知ることができる。これを用いれば、原画像のエッジ部分を抽出することができる。なお、ここでエッジと言うのは、顔と背景との境界や、口唇と肌との境界のように、傾きの変化がある部分のことである。
【0079】
図5にエッジ抽出の具体的な処理の流れの一例を示す。
【0080】
まず、Marr−Hildrethが提案したガウスラプラシアンフィルタを原画像に施す(ステップS100)。
【0081】
次に、そのゼロクロス点を求める(ステップS101)。このとき、例えば、注目画素の4近傍の画素値が正である点をゼロクロス点とすればよい。
【0082】
そして、ゼロクロス点ならば、図6に示すようなSobelオペレータ(図中(a)がX方向に対応し、(b)がY方向に対応する)を施し、その画素の強度を求める(ステップS102)。
【0083】
この強度がある閾値以上ならば、エッジの構成点であるとみなす(ステップS103)。
【0084】
以上の処理により、原画像から、エッジ部分のみを抽出することができる。
【0085】
なお、ここでは、エッジ抽出の一手法として、ガウスラプラシアンフィルタ、Sobelオペレータを用いる方法について説明したが、これに限定されるものではなく、ハフ変換を用いる方法など、別の手法を用いて実現しても良い。
【0086】
以上で説明した処理を距離画像に施すことで、顔の距離画像から、エッジ部分のみを抽出することができる。さらに、このエッジ情報と、口唇の形状(ループ状(穴)のエッジを持つもののなかで、一番大きなものなど)の情報を用いることで、口唇部のエッジのみを抽出することができる。
【0087】
この方法では、実際の顔の3次元形状をもとに、エッジの抽出を行っているため、従来の2次元画像から色相の変化などを利用してエッジを抽出する方法と比べて、エッジの誤認識(余分なエッジの抽出)をすることがなく、確実に口腔部のみを切り出すことが可能である。これは、3次元形状は実際のエッジに深く関係しているのに対し、色相変化を用いる方法は色相が異なる部分をエッジと見なして判断する一手段ではあるが、決定的なものではないからである。
【0088】
以上の処理で、顔の距離画像ストリームから、口唇部のみの距離画像ストリームを取得することができる。
【0089】
なお、ここでは、顔の距離画像から、口腔部を抽出する方法として、傾きの変化を利用する方法について説明したが、これに限定されるものではない。例えば、口腔部の「窪み」という幾何学的な形状(奥行きZ値が一定値以下)を利用して、閾値を設けることで「窪み」部分を抽出してもよいし、幾何学的推論を行うことによって抽出しても良い。また、口腔部の「窪み」状のテンプレートをあらかじめ用意しておいて、それとのパターンマッチングを取ることで求めてもよい。また、距離情報を用いてバンドパスフィルタによるフィルタリング処理を行うことでもエッジを取ることができる。他の3次元形状を利用して抽出する方法でも構わない。
【0090】
次に、画像認識部3について説明する。
【0091】
画像認識部3は、口腔部抽出部2によって抽出された口腔部の距離画像ストリームをもとに、口唇の形状および/または動きを認識するものである。
【0092】
まず、口唇の形状の認識について説明する。
【0093】
画像認識部3では、「あ」、「い」、…、といった様々なテンプレートを予め用意しておき、それらと口腔部抽出部2で得られた口唇の形状とを比較して、類似度を計算し、類似度の最も高いものを認識結果として採用するという、テンプレートマッチングなどを用いて、認識を行う。
【0094】
図7に画像認識部3におけるテンプレートマッチングの処理の流れの一例を示す。
【0095】
まず、抽出された口腔部の距離画像(原画像)を、テンプレートの方向、サイズに合わせて正規化する(ステップS200)。
【0096】
次に、用意した様々なテンプレートの中から、原画像と比較すべきテンプレートkを選択する(ステップS201)。
【0097】
次に、原画像とテンプレートとのハミング距離を計算する(ステップS202)。ハミング距離(H)は、例えば、H=Σi Σj |d(i,j)−tk (i,j)|により計算する。ここで、i、jはそれぞれ各画素のx、y座標、d(i,j)は原画像の座標(i,j)での距離値、tk (i,j)はテンプレートkの座標(i,j)での距離値である。
【0098】
なお、ここでは、ハミング距離の導出の一方法を説明したが、ハミング距離の導出は、これに限定されるものではなく、他の計算式を用いても良い。
【0099】
これらの処理を全てのテンプレートについて行うため、全てのテンプレートについて、上述のハミング距離の計算が終了しているか判定する(ステップS203)。
【0100】
未だハミング距離の計算が終わっていないテンプレートがあれば、ステップS201に戻る。
【0101】
全てのテンプレートについて、原画像とのハミング距離の計算が終了したら、それらを比較し、最も値の小さなテンプレートを見つける。そして、このテンプレートの表現している内容を認識結果とする(ステップS204)。例えば、この選ばれたテンプレートが、「た」を発音している際の口唇形状であったならば、原画像の距離画像の発音(口唇形状)は「た」であったと認識する。
【0102】
以上の処理を距離画像ストリームに含まれる、全ての距離画像に対して、順次行うことによって、話者の発話内容の認識が行われる。
【0103】
なお、以下では、音声認識と区別するために、口唇形状から話者の発話内容を認識すること(認識対象となった者が現実には音声を出さず、実際に話すときと同じように口唇を動した場合に得られた距離画像に基づく認識を含む)を口唇認識と呼ぶ。
【0104】
次に、口唇の動きの認識について説明する。
【0105】
口唇の動きの認識を行う場合、例えば、「口を開け閉めしている」、「あくびをしている」といったような、動きを表すテンプレートの列(動きを各フレームに分割し、それぞれを1つのテンプレートとして、一連の動きのテンプレートをまとめたもの)を用意しておき、上述したものと同様に、距離画像ストリームに含まれる全ての距離画像に対して、前記テンプレートの列と順次テンプレートマッチングを行うことで、動きに対する口唇認識を行うこともできる。
【0106】
以上のような方法で得られた口唇認識の結果は、従来の画像認識と異なり、実際の口唇の3次元形状を利用することによって、認識を行った結果である。従来は、通常のビデオカメラの画像などから抽出した2次元的な口唇形状を用いて認識していたため、口唇の平面的な動きのみから認識を行うしかなかったが、この方法では、上述の通り、3次元の情報を用いることが可能であるため、従来よりも、より多くの情報を用いて認識することが可能である。そこで、正面から見たときの口唇形状がほぼ同じで、口唇の奥行き方向の形状が異なっているというような、従来なら認識が不可能であった場合も、本実施形態の画像認識装置を用いることで認識することが可能となっている。また、識別する手掛かりが増えているため、従来よりも、認識率も高くなり、誤認識し難いという利点もある。
【0107】
なお、ここでは、原画像とテンプレートとのハミング距離を求めることで、原画像とテンプレートの類似度を計算する方法について説明したが、類似度の計算は、これに限定されるものではない。DPマッチング法、KL変換法などを用いて求める方法、原画像をフーリエ変換し、フーリエ変換後の画像について相関関係を求めることで、類似度を計算する方法など、あらゆる方法を用いることができる。
【0108】
また、ここでは、口腔部の距離画像ストリームから、口唇の形状、動きを認識する方法として、テンプレートマッチングを行う方法について説明したが、これに限定されるものではなく、例えば、口唇の形状から、筋肉の動きを求めて、その形状変化を手掛かりとして、筋肉モデルから発音内容を類推する、などのように他の方法で認識を行ってもよい。
【0109】
以上のように本実施形態によれば、口唇の距離画像を用いることで、あまり計算コストをかけずに、容易に、口唇部を抽出することが可能となる。さらに、口唇認識に関しても、抽出した口唇部の3次元形状の情報を用いることにより、従来方法では、判別に難しかった(誤認識が多かった)ような形状に関する認識や、従来では不可能であったような形状に関する認識が可能になる。
【0110】
以上のようにして得た口唇の形状の認識結果、口唇の動きの認識結果、あるいは口唇の形状の認識結果と口唇の動きの認識結果を組み合わせたものは、その後の種々の処理に供することができる。なお、画像認識部3に、口唇の形状と動きの認識の両方の機能を設けるか、いずれか一方を設けるかは、システムの目的等に応じて適宜設計することが可能である。
【0111】
本実施形態は、上記した構成に限定されず、種々変形して実施することができる。以下では、本実施形態のいくつかの変形例を示す。
【0112】
(第1の実施形態の変形例1)
口唇部抽出部2の代わりに、画像取得部1で所得された距離画像ストリームから顔部分のみを抽出するための顔部抽出部を具備してもよい。
【0113】
そして、画像認識部3で、予めA氏、B氏、というように人物の顔形状のテンプレートを用意しておき、それらを用いて顔部抽出部5で抽出された顔部の距離画像とのマッチングを行うことで、本実施形態の画像認識装置で撮像された人物が誰であるのかを認識することができる。
【0114】
これにより、例えば、本実施形態の画像認識装置(または少なくとも画像取得部1の発光素子と受光素子の部分)を、自動ドアの近くなどに置き、そこを通る人物の顔を認識することで、特定の人物と認識したときのみドアを開ける、といったような、簡単なセキュリティチェックに使うことが可能である。
【0115】
(第1の実施形態の変形例2)
本実施形態は、医療面でも重病者の看護に有効である。従来、病室や在宅看護者の家庭などにいる患者が何か異常をきたした場合には、枕元にある押しボタン式のブザーで、看護婦や医者に知らせていた。しかし、押しボタン式のブザーでは、患者が弱っていた場合に、ボタンを押す余裕が無いことが多く、危険であった。このような場所に第1の実施形態の画像認識装置を置くことで、病気で弱っていて、あまり声を出せないような場合でも、病人のわずかな声と、微妙な口唇の動きから、病人が何か伝えたいということを判別することが可能である。
【0116】
これを押し進めて、普段口唇を動かすことがない病人が口唇を動かしたら、病状が急変した可能性がある。このような場合には、口唇の動きを何らかの音に変換して、警報音代わりに用いることができ、それにより医者や看護婦が病室や在宅看護者の家庭に駆け付けるような方策をとることができる。
【0117】
このような場合、図8に例示するように、口唇認識の結果をそのまま音声に変換し呈示する、または、結果に応じて何らかの音を呈示するを音呈示部4を設ける。
【0118】
(第1の実施形態の変形例3)
図9に例示するように、上記の第1の実施形態の変形例2の構成(図8)に、さらに顔部のみの距離画像ストリームを抽出するための顔部抽出部5を付加して、顔の3次元形状情報を用いることで、例えば、顔を上下に振っているなどというように、顔のゼスチャーの認識を行ったり、笑っている、怒っている、困っているなどというように、表情の認識を行うことが可能である。
【0119】
その際、画像認識部3では、例えば、頷く:顔を上下に数回振る、拒む:顔を左右に数回振る、喜ぶ:大きく口があく、目が細くなる、驚く:目を見開く、などというようにゼスチャーや表情などを得るためのテンプレートを用意しておき、それらを用いてテンプレートマッチングを行うことで、顔のゼスチャーや表情の認識を行う。
【0120】
そして、この認識した表情に応じて、口唇の動きを音声変換する際に、変換する音声の種類やピッチなどを変えることも可能である。
【0121】
また、例えば、同じ口唇の動きでも、肯定の場合は犬のなき声、否定の場合はニワトリの鳴き声、喜んでいる場合は猫のなき声というように変化させることもできる。このようにすることで、例えば、子供に、英語の単語発生などを楽しく飽きないように勉強できるようにすることが可能となる。
【0122】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。本実施形態では、第1の実施形態と相違する部分を中心に説明する。
【0123】
図10は、本発明の第2の実施形態に係る画像認識装置の全体構成図である。
【0124】
図10に示されるように、本実施形態の画像認識装置は、第1の実施形態の画像認識装置の構成に対して、画像認識部3で得られた口唇の形状もしくは動きの認識結果をもとに、話者の顔の向いている方向を識別するための方向識別部6が追加された構成になっている。
【0125】
これにより話者の発言内容だけでなく、同時に、話者がどちらの方向を向いて話しているかを認識することができる。
【0126】
次に、方向識別部6について説明する。
【0127】
方向識別部6では、画像認識部3で得られた口唇の形状もしくは動きの認識結果をもとに、話者の顔の向いている方向を識別する。その際、口唇の3次元形状を利用することで、話者の顔の向きを計算する。
【0128】
以下では、話者の顔の向いている方向を求める具体的な方法の一例について、図11に示す処理の流れ図を用いて説明する。
【0129】
まず、口唇の距離画像中のある画素X(例えば座標値(i、j))を選択する(ステップS300)。
【0130】
次に、画素Xと隣接している画素Y(例えば座標値(i−1、j))を選択する(ステップS301)。
【0131】
次に、図12((a)は隣接8画素を示す図、(b)は傾きベクトルgとこれに直交する法線ベクトルpを説明するための図)のように、選択した画素Y(例えば座標値(i−1、j))との距離値の差d(i、j)−d(i−1、j)をもとに、この2画素間の傾きベクトルgを求める(ステップ302)。
【0132】
この2画素X、Yと同一平面上にあり、ステップS302で得られた傾きベクトルgと直行する法線ベクトルpを求める(ステップS303)。
【0133】
画素Xと隣接する全ての画素Yについて法線ベクトルの計算が終了したか判別する(ステップS304)。
【0134】
全ての隣接画素について終了していなかったら、ステップS301に戻る。全てについて終了していたら、この法線ベクトルの平均P=Σpを計算し、画素Xの法線ベクトルPとする(ステップS305)。
【0135】
以上の処理を距離画像中の全ての画素について行ったかどうか判定する(ステップS306)。行っていなかったら、ステップS300に戻る。
【0136】
全ての画素について、法線ベクトルPの計算が終了したら、各画素の法線ベクトルの平均Plip =Σpを計算し、これを口唇の法線ベクトルとする(ステップS307)。
【0137】
口唇は、顔のほぼ中央にあり、ほぼ左右上下対称形状であるため、口唇の法線ベクトルと顔の法線ベクトルの方向は、おおむね一致する。そのため、ステップS307で得られたPlip が顔の法線ベクトルとなる。つまり、法線ベクトルPlip を顔の向きとして話者の向いている方向を識別することができる。
【0138】
なお、ここでは、口唇の向いている方向を得る一手段として、距離画像から口唇の法線ベクトルを計算する方法について説明したが、これに限定されるものではなく、口唇の大きさの比率や形状の変化から口唇の向いている方向を類推するなど、他の方法を用いても構わない。
【0139】
以上のように本実施形態によれば、話者がどちらの方向を向いて、どのような話をしているのかもしくはどのような口唇の動きをしているのかなどを、同時に認識することが可能である。
【0140】
本実施形態は、上記した構成に限定されず、種々変形して実施することができる。以下では、本実施形態のいくつかの変形例を示す。
【0141】
(第2の実施形態の変形例1)
図13のように、口腔部抽出部2の代わりに、画像取得部1で取得された顔の全部または一部の距離画像ストリームから顔部のみを抽出するための顔部抽出部5を置いても良い。この場合、画像認識部3には、顔部抽出部5で抽出された顔部の距離画像ストリームが入力される。
【0142】
そして、画像認識部3では、例えば、頷く:顔を上下に数回振る、拒む:顔を左右に数回振る、喜ぶ:大きく口があく、目が細くなる、驚く:目を見開く、などというようにゼスチャーや表情などを得るためのテンプレートを用意しておき、それらを用いて、入力された顔部の距離画像ストリームとのテンプレートマッチングを行うことで、頷いているなどのゼスチャーや、喜んでいる、驚いている、困っているなどの表情変化などを認識することが可能である。
【0143】
方向識別部6では、画像認識部3で得られた顔部の形状、動きの認識結果をもとに、話者の顔の向いている方向を識別する。
【0144】
このように変形することにより、対象人物が、どちらの方向を向いて、どのような顔の動作(ゼスチャー、表情変化など)をしているのかを認識することができる。
【0145】
(第2の実施形態の変形例2)
なお、第2の実施形態では、画像認識部3の認識結果をもとに、前記方向識別部6で話者の向いている方向を識別したが、図14のように、画像取得部1で取得された顔の距離画像ストリーム(これには、背景などが含まれる)から顔の部分のみを抽出するための顔部抽出部5を新たに追加し、顔部抽出部5で抽出された顔の距離画像ストリームをもとに、方向識別部6で話者の向いている方向を識別するようにしても良い。この場合、方向識別部6では、顔部抽出部5で抽出された顔の距離画像ストリームから、顔の法線方向(例えば、顔を構成する画素の法線方向の平均)を計算することにより、話者の向いている方向を得る。
【0146】
このようにすることで、第2の実施形態では、口唇の向いている方向から、顔の向いている方向を得ていたが、直接、顔の向いている方向を得ることができるため、より細かく、微妙な顔の向きを得ることが可能である。
【0147】
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。本実施形態では、第2の実施形態と相違する部分を中心に説明する。
【0148】
図15は、本発明の第3の実施形態に係る画像認識装置の全体構成図である。
【0149】
図15に示されるように、本実施形態の画像認識装置は、第2の実施形態の画像認識装置の構成もしくはその変形例の構成に対して、話者の発言内容を認識する音声認識部7と、方向識別部6で得られた話者の顔の向いている方向をもとに、音声認識部7に、音声認識の開始を指示するための音声認識開始部8が追加された構成になっている。
【0150】
これにより話者の顔の向いている方向に応じて、音声認識を行うことができる。
【0151】
次に、音声認識部7について説明する。
【0152】
音声認識部7は、マイクなどの音声の入力装置を用いて入力された音声の内容を認識するものである。音声認識部7では、種々の認識手法を用いることが可能である。例えば、隠れマルコフモデルなどを用いて実現してもよい。音声認識を行うことで、話者の会話の内容を認識することができる。
【0153】
次に、音声認識開始部8について説明する。
【0154】
音声認識開始部8は、方向識別部6で得られた結果をもとに、音声認識部7に、音声認識を開始するように指示を出すものである。ここでは、例えば、話者が(本実施形態の画像認識装置に対して(すなわち画像取得部1の受光素子の部分に対して;以下、同様))正面を向いたとき、話者の行為が開始されたとみなし、この時点で、音声認識の開始の指示を音声認識部7に送る。
【0155】
以上のように本実施形態によれば、話者の動作に応じて、音声認識を開始することが可能である。例えば、話者が(本実施形態の画像認識装置に対して)正面を向いたときに音声認識を開始することができる。
【0156】
また、本実施形態によれば、画像認識部3による口唇認識(読唇)の結果も得られるため、音声認識と口唇認識(読唇)を同時に行うことが可能となり、これら2つの認識の結果を総合的に用いることにより、話者の会話内容について、より高い認識率を持つ認識結果を得ることができる。
【0157】
これは、以下の様な状況において大変有効である。例えば、工事現場などの雑音が多く声を聞き取りにくいような場所では、音声認識だけの場合、認識率が低下するし、場合によっては全然認識できなくなったりするが、第3の実施形態のように、口唇認識も同時に行えば、口唇認識は雑音に影響されないので、認識率は低下することはなく、全体的に高い認識率を維持することができる。また、図書館のような静寂で大きな声を出せない場所でも、音声認識だけでは、微少の音声で認識を行なわねばならないため、認識率の低下が考えられるが、同様の理由で、口唇認識も同時に行えば、全体的に高い認識率を維持することができる。
【0158】
また、2人が話をしているような場合、従来の音声認識では、複数の音声が同時に入力されてしまい、認識対象を判別することが困難だったが、本実施形態の場合、2人のうち、例えば、本実施形態の画像認識装置に対して正面を向いている人の方のみを認識するというように、認識対象を判別することも容易であるし、口唇認識も同時に行っているので、その情報を用いて認識対象を判別することもできる。
【0159】
本実施形態は、上記した構成に限定されず、種々変形して実施することができる。以下では、本実施形態のいくつかの変形例を示す。
【0160】
(第3の実施形態の変形例1)
第3の実施形態では、音声認識部7、音声認識開始部8を置き、方向識別部6で得られた結果をもとに、音声認識を開始する例について説明したが、これに限定されるものではなく、音声認識に限らず、他のどのような認識手段でも良い。
【0161】
(第3の実施形態の変形例2)
第3の実施形態では、話者の顔の向いている向きに応じて、音声認識の開始の指示に用いる例を示したが、図16に示すように、音声認識開始部8の代わりに、音声認識部7に音声認識の終了を指示するための音声認識終了部9を置き、音声認識の終了の指示に用いても良い。
【0162】
こうした場合、話者の動作に応じて、音声認識を終了することが可能である。例えば、話者が(本実施形態の画像認識装置に対して)顔を背けたときに音声認識を終了することができる。
【0163】
もちろん、図15にさらに音声認識終了部9を設け、音声認識の開始と終了の両方の指示に用いてもよい。
【0164】
(第3の実施形態の変形例3)
方向識別部6で話者の顔の向いている方向を得て、それを音声認識の開始の指示に用いるのではなく、図17に示すように、画像認識部3で得られた認識結果から、会話の始まりにおける口唇の動き出しを検出し、それをもとに音声認識部7に音声認識の開始を指示するための新たな音声認識開始部8を置いても良い。
【0165】
この場合、音声認識開始部8は、画像認識部3で得られた口唇認識の結果から、口唇の動作が始まる点(言葉を話し始める際、口唇が微妙に動き始める点で、この時点では、まだ発音は始まっていない)を求め、その時点で、音声認識部7に音声認識の開始を指示する。
【0166】
また、同様に、本変形例3の音声認識開始部8の代わりに、口唇の動作が終了する点を検出する音声認識終了部9を置き、音声認識の終了の指示に用いても良い。
【0167】
もちろん、同様に、本変形例3の音声認識開始部8に加えて、口唇の動作が終了する点を検出する音声認識終了部9を置き、音声認識の開始と終了の両方の指示に用いても良い。
【0168】
なお、従来方法では、口唇の動きだしの検出をおこなうための計算に時間がかかるため、このようなリアルタイム処理に口唇の動きだしの検出を用いることは困難であったが、本実施形態の画像認識装置では、第1の実施形態で説明したように、あまり計算コストを必要とせずに口唇部の抽出が可能であるため、このような口唇の動きだしの検出を十分にリアルタイムに行うことができる。
【0169】
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。本実施形態では、第1の実施形態と相違する部分を中心に説明する。
【0170】
図18は、本発明の第4の実施形態に係る画像認識装置の全体構成図である。
【0171】
図18に示されるように、本実施形態の画像認識装置は、第2の実施形態の画像認識装置の構成に対して、各種の情報の提示を行う情報呈示部10と、方向識別部6で得られた話者の顔の向いている方向をもとに情報呈示の開始を情報呈示部10に指示するための情報呈示開始部11が追加された構成になっている。
【0172】
これにより話者の顔の向いている方向に応じて、各種の情報呈示を行うことができる。
【0173】
次に、情報呈示部10について説明する。
【0174】
情報呈示部10は、対象者(話者)に何らかの情報を提示するものである。情報呈示部10は、ディスプレー(画像、文字などを呈示)、スピーカー(音を呈示)、フォースフィードバック装置(感触を呈示)などの少なくとも1つの情報呈示装置を具備しており、それを通して対象者に情報を提示することができる。
【0175】
次に、情報呈示開始部11について説明する。
【0176】
情報呈示開始部11は、前述した第3の実施形態における音声認識開始部8と同様の役割をするもので、方向識別部6で得られた結果をもとに、情報呈示部10に、情報呈示の開始の指示を出すものである。
【0177】
本実施形態によれば、話者の動作に応じて、情報呈示を開始することが可能である。例えば、話者が(本実施形態の画像認識装置に対して)正面を向いたときに、それを話者の行為開始とみなし、情報呈示を開始することができる。
【0178】
また、画像認識部3による口唇認識(読唇)の結果も得られているため、話者の会話の内容に応じて、情報呈示を開始することも可能である。
【0179】
本実施形態は、上記した構成に限定されず、種々変形して実施することができる。以下では、本実施形態のいくつかの変形例を示す。
【0180】
(第4の実施形態の変形例1)
第3の実施形態の変形例2の場合と同様に、情報呈示開始部11に代えてあるいは情報呈示開始部11に加えて、情報呈示終了部を置き、呈示終了の指示をしても良い。
【0181】
(第4の実施形態の変形例2)
第3の実施形態の変形例3の場合と同様に、画像認識部3で得られた認識結果から、会話の始まりにおける口唇の動き出しを検出し、それをもとに情報呈示部10に情報呈示の開始を指示するための新たな情報呈示開始部11を置いても良い。
【0182】
このようにすることにより、例えば、情報呈示の方法として音声合成を用いて、口唇の形状、動きの認識結果をもとに、その認識内容を音声合成で提供することで、喉の病気などで言葉が話せない場合でも、口パク(音声は出さずに、実際話しているように口唇を動かす)をするだけで、音声合成により、本実施形態の画像認識装置に代わりに話させるなどというような、いわゆる、音声同期(リップシンク)が可能である。
【0183】
もちろん、第3の実施形態の変形例3の場合と同様に、本変形例の情報呈示開始部11に代えてあるいは情報呈示開始部11に加えて、情報呈示終了部を置き、呈示終了の指示をしても良い。
【0184】
(第4の実施形態の変形例3)
図19に示すように、情報呈示開始部11の代わりに、呈示する情報の種類を切り替えるための情報呈示切り替え部12を置き、話者の向いている方向によって、情報呈示の形態を切り替えるようにしても良い。
【0185】
この情報呈示の形態の切り替えとしては、(1)異なる情報呈示の形態を追加する、(2)複数の情報呈示の形態を提供している場合に、少なくとも1つの情報呈示の形態を中止する、(3)1または複数の情報呈示の形態を提供している場合に、一部または全てを異なる情報呈示の形態に変更する(情報呈示の形態数が変化する場合を含む)、などが考えられる。
【0186】
こうすることで、話者の顔が(本実施形態の画像認識装置の方を)向いていないときには、音声のみの情報呈示を行っていて、話者の顔が向いたときには、情報呈示切り替え部12を用いて、音声のみの呈示から、音声に加えて、画像などの複合メディアを用いた情報呈示に切り替える、などということが可能である。
【0187】
これは、例えば、博物館、美術館などの展示物の説明を行うのに、通常は音声で説明文を読み上げておいて、見学者が展示物の方を見て(あるいは、さらに何か話すと)、展示物の横に置いておいたディスプレーで説明ビデオの上映が始まる、といったように用いることができる。
【0188】
(第4の実施形態の変形例4)
第4の実施形態に、第3の実施形態で説明した音声認識部、音声認識開始部、音声認識終了部などを組み合わせることにより、話者の生の音声と情報呈示部10で生成した画像情報を組み合わせて呈示することが可能となる。
【0189】
例えば、口腔部抽出部2で抽出した口腔部の距離画像ストリームを用いて、情報呈示部10でその形状を3次元CG合成を行い、それに、音声認識部で取得した話者の生の音声を組み合わせることで、話者の生の声と音声同期(リップシンク)して口唇が動く3次元CGを提供することができる。
【0190】
(第5の実施形態)
次に、本発明の第5の実施形態について説明する。
【0191】
第5の実施形態の画像認識装置は、第1、第2、第3、あるいは第4の実施形態の画像認識装置やそれらの種々の変形例の構成それぞれにおいて、外部との通信を行う通信部(図示せず)を追加したものである。
【0192】
これにより第1、第2、第3、あるいは第4の実施形態やその変形例で得られた所望の情報を外部に通信することができる。
【0193】
通信部は、入力されたデータを、電話回線などの通信路を用いて外部に通信するもので、これが加えられることで、例えば、第1の実施形態では、口唇認識の結果を、第2の実施形態では、口唇認識の結果および話者の向いている方向を、第3の実施形態では、口唇認識および音声認識の結果を、第4の実施形態では、口唇認識の結果および呈示された情報を、それぞれ通信することが可能である。
【0194】
以上のように本実施形態によれば、当該画像認識装置で得られた結果(第1の実施形態を基にしたものでは、口唇認識結果、第2の実施形態を基にしたものでは、話者方向と口唇認識結果、第3の実施形態を基にしたものでは、口唇および音声認識結果、第4の実施形態を基にしたものでは、口唇認識結果および呈示情報)を、インターネットなどを通して通信することが可能である。
【0195】
例えば、第4の実施形態の変形例4の場合、話者の生の声と音声同期(リップシンク)して口唇が動く3次元CGが得られるが、先に顔の口唇部以外の部分を通信先の相手に送っておき、話者の発言とともに、上記3次元CGの口唇部だけを通信部を用いてリアルタイムに送り、通信先で、あらかじめ送っておいた顔と合成することで、通信路に負荷をかけずに(つまり通信路をボトルネックとせずに)、3次元CGの音声同期(リップシンク)を行うことができる。これは、通信路に速度のボトルネックが生じやすいインターネットなどで、音声とCGといった比較的大きなデータを用いてリアルタイム処理する際に大変有効である。
【0196】
以下では、以上の各実施形態における画像取得部1の構成について詳しく説明する。
【0197】
図20に、画像取得部1の一構成例を示す。この画像取得部1は、対象物体に光を照射するための発光部101、対象物体からの反射光を画像として抽出するための反射光抽出部102、画像化された反射光の情報をもとに距離画像を生成するための距離画像生成部103、これらの各部の動作タイミングを制御するタイミング制御部104を用いて構成される。
【0198】
発光部101は、発光素子を持ち、タイミング制御部104によって生成されるタイミング信号に従って時間的に強度変動する光を発光する。発光部101が発した光は、発光部101の発光素子の前方にある対象物体により反射された後に、反射光抽出部102の受光面に入射する。
【0199】
物体からの反射光は、物体の距離が大きくなるにつれ大幅に減少する。物体の表面が一様に光を散乱する場合、反射光画像1画素あたりの受光量は物体までの距離の2乗に反比例して小さくなる。従って、当該受光面の前に物体が存在する場合、背景からの反射光はほぼ無視できるくらいに小さくなり、物体のみからの反射光画像を得ることができる。
【0200】
例えば、当該受光面の前に人間の顔の部分が存在する場合、その顔からの反射光画像が得られる。このとき、反射光画像の各画素値は、その画素に対応する単位受光部で受光した反射光の量を表す。反射光量は、物体の性質(光を鏡面反射する、散乱する、吸収する、など)、物体の向き、物体の距離、などに影響されるが、物体全体が一様に光を散乱する物体である場合、その反射光量は物体までの距離と密接な関係を持つ。顔などはこのような性質を持つため、顔を対象物体とした場合の反射光画像は、顔の3次元形状、顔の距離、顔の傾き(部分的に距離が異なる)、などを反映する。
【0201】
反射光抽出部102は、マトリクス状に配列した、光の量を検出する受光素子を持ち、発光部101が発した光の対象物体による反射光の空間的な強度分布を抽出する。この反射光の空間的な強度分布は、画像として捉えることができるので、以下では反射光画像と呼ぶ。
【0202】
ここで、反射光抽出部102の受光素子においては、一般的に、発光部101の光の対象物体による反射光だけでなく、照明光や太陽光などの外光も同時に受光することが想定される。そこで、本構成例の反射光抽出部102では、発光部101が発光しているときに受光した光の量と、発光部101が発光していないときに受光した光の量の差を取ることによって、発光部101からの光の対象物体による反射光の成分だけを取り出すようにしている。この受光のタイミングも、タイミング制御部104によって制御される。
【0203】
そして、反射光抽出部102により得られた外光補正後の反射光画像の各画素に対応する反射光量(アナログ信号)が必要に応じて増幅された後にA/D変換され、これによってデジタル化された反射光画像が得られる。
【0204】
距離画像生成部103は、反射光抽出部102によって得られた反射光画像の各画素の受光量の値(デジタルデータ)を距離の値に変換することによって、距離画像(例えば、64画素×64画素、256階調の画像)を生成する。
【0205】
次に、図21に、画像取得部1のより詳しい一構成例を示す。
【0206】
発光部101より発光された光は、対象物体106に反射して、レンズ等の受光光学系107により、反射光抽出部102の受光面上に結像する。
【0207】
反射光抽出部102は、この反射光の強度分布、すなわち反射光画像を検出する。反射光抽出部102は、各画素(単位受光部)ごとに設けられた第1の受光部121および第2の受光部122、ならびに全画素について1つ(または一纏まりの複数画素ごとにまたは各画素ごとに)設けられた差分演算部123を用いて構成される。
【0208】
第1の受光部121と第2の受光部122は、異なるタイミングで受光を行う。そして、第1の受光部121が受光しているときに発光部101が発光し、第2の受光部122が受光しているときには発光部101は発光しないように、タイミング制御部104がこれらの動作タイミングを制御する。これにより、第1の受光部121が発光部101からの光の物体による反射光とそれ以外の太陽光、照明光などの外光を受光する。一方、第2の受光部122は外光のみを受光する。両者が受光するタイミングは異なっているが近いので、この間における外光の変動や対象物体の変位は無視できる。
【0209】
従って、差分演算部123により第1の受光部121で受光した像と第2の受光部122で受光した像の差分をとれば、対象物体による反射光の成分だけが抽出される。1つの差分演算部123が複数の画素で共用される場合には、シーケンシャルに差分が演算される。
【0210】
なお、単位受光部の第1の受光部121および第2の受光部122の実際の構成については種々のものが考えられる。例えば、第1の受光部121および第2の受光部122のそれぞれに受光素子を設けるのではなく、単位受光部ごとに、光電変換素子(例えばフォトダイオード)を1つ設けて第1の受光部121と第2の受光部122で兼用するとともに、受光量に対応する電荷量を蓄積する電荷蓄積素子(例えばコンデンサ)を第1の受光部121および第2の受光部122のそれぞれのために2つ設ける方法が考えられる。
【0211】
さて、上記のようにして、反射光抽出部102は、反射光画像の各画素の反射光量を外光補正を行った後に出力する。なお、ここでは、各画素の反射光量をシーケンシャルに出力するものとする。
【0212】
反射抽出部102からの出力はアンプ131によって増幅され、A/D変換器132によってデジタルデータに変換された後、メモリ133に画像データとして蓄えられる。そして、しかるべきタイミングでこのメモリより蓄積されたデータが読み出され、距離画像生成部103に与えられる。
【0213】
距離画像生成部103では、反射光抽出部102により得られた反射光画像をもとに距離画像を生成する。例えば、反射光画像の各画素の反射光量を、それぞれ、所定の階調(例えば、256階調)のデジタルデータに変換する。なお、この変換にあたっては、例えば、(1)受光素子における受光量が対象物体までの距離に対して非線形性を持つ(対象物体までの距離の2乗に反比例する)という非線形要因に対する補正を行う処理、あるいは(2)各画素に対応する受光素子の特性のばらつきや非線形性を補正する処理、あるいは(3)背景やノイズを除去する処理(例えば、基準値以下の受光量を持つ画素の階調を0にする)、などといった処理を適宜行ってもよい。
【0214】
なお、顔の3次元形状を抽出する場合、距離情報を高い分解能で求められることが望ましい。この場合、アンプ131として対数アンプを用いると望ましい。受光面での受光量は対象物体までの距離の2乗に反比例するが、対数アンプを用いると、その出力は距離に反比例するようになる。このようにすることで、ダイナミックレンジを有効に使うことができる。
【0215】
さて、上記のような構成において、1回の発光によって全画素について反射光が得られるものとすると、タイミング制御部104の制御によって、発光→第1の受光部による受光→発光なしに第2の受光部による受光→差分演算→デジタル化→距離画像の生成(もしくは発光なしに第2の受光部による受光→発光→第1の受光部による受光→差分演算→デジタル化→距離画像の生成)といった一連の処理が進められ、これによって1枚の距離画像が得られる。また、この一連の処理を繰り返し行う(例えば、1/60秒ごとに行う)ことによって、距離画像ストリームを得ることができる。
【0216】
なお、発光部101は、人間の目に見えない、近赤外光を発光するようにするのが好ましい。このようにすれば、光が照射されても人間には光が見えないため、眩しさを感じさせないようにすることができる。また、この場合に、受光光学系には、近赤外光通過フィルタを設けると好ましい。このフィルタは、発光波長である近赤外光を通過し、可視光、遠赤外光を遮断するので、外光の多くをカットすることができる。ただし、人間の目に眩しくない条件であれば(例えば、発光量がそれほど大きくない、人間の目には直接入射しないような光学系となっている、など)、可視光を用いても構わない。また、電磁波や超音波などを用いる方法も考えられる。
【0217】
また、上記では外光補正として発光部101の発光の有無の相違による2種類の受光量の差分をアナログ信号の状態で取ったが、2種類の受光量をそれぞれデジタル化した後に差分を取るようにする方法もある。
【0218】
なお、上記した受光面もしくはこれを収容した筐体は、本画像認識装置の目的等に応じて適宜設置するばよい。例えば本画像認識装置が表示装置を持つものである場合、この表示装置に対して対象物体となる人間の顔が正面を向いたときに、当該受光面に対しても正面を向いた形になるように当該画像認識装置の筐体に設ける。
【0219】
なお、以上の各実施形態やその変形例は、適宜組み合わせて実施することが可能である。
【0220】
また、以上の各実施形態やその変形例あるいはそれらを適宜組み合わせたものでは、距離画像ストリームから形状および/または動きを認識し、あるいはさらにその認識結果をもとに種々の処理を行うものであったが、距離画像から形状を認識し、あるいはさらにその認識結果をもとに種々の処理を行うように構成した実施形態も可能である。
【0221】
また、以上の各実施形態やその変形例あるいはそれらを適宜組み合わせたものは、画像取得部1もしくはそのうちの反射光画像を抽出する部分を省き、与えられた距離画像もしくはそのストリームに基づいて、もしくは与えられた反射光画像もしくはそのストリームから距離画像もしくはそのストリームを生成し、生成した距離画像もしくはそのストリームに基づいて、形状および/または動きを認識し、あるいはさらにその認識結果をもとに種々の処理を行うような装置として構成することも可能である。
【0222】
以上の各機能は、素子部分を除いて、ソフトウェアとしても実現可能である。また、上記した各手順あるいは手段をコンピュータに実行させるためのプログラムを記録した機械読取り可能な媒体として実施することもできる。
【0223】
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【0224】
【発明の効果】
本発明によれば、対象物体に対する距離画像から必要とする部分を抽出し、抽出した部分の距離画像に基づいて認識処理を行うので、人間の口唇の形状や動きを高速かつ高精度に認識することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る画像認識装置の構成例を概略的に示す図
【図2】距離画像について説明するための図
【図3】距離画像について説明するための図
【図4】距離画像について説明するための図
【図5】エッジ抽出の処理の流れを示すフローチャート
【図6】Sobelオペレータを説明するための図
【図7】テンプレートマッチングの処理の流れを示すフローチャート
【図8】本発明の第1の実施形態の変形例2に係る画像認識装置の構成例を概略的に示す図
【図9】本発明の第1の実施形態の変形例3に係る画像認識装置の構成例を概略的に示す図
【図10】本発明の第2の実施形態に係る画像認識装置の構成例を概略的に示す図
【図11】話者の顔の向いている方向を求める処理の流れを示すフローチャート
【図12】画素の法線方向を説明するための図
【図13】本発明の第2の実施形態の変形例1に係る画像認識装置の構成例を概略的に示す図
【図14】本発明の第2の実施形態の変形例2に係る画像認識装置の構成例を概略的に示す図
【図15】本発明の第3の実施形態に係る画像認識装置の構成例を概略的に示す図
【図16】本発明の第3の実施形態の変形例2に係る画像認識装置の構成例を概略的に示す図
【図17】本発明の第3の実施形態の変形例3に係る画像認識装置の構成例を概略的に示す図
【図18】本発明の第4の実施形態に係る画像認識装置の構成例を概略的に示す図
【図19】本発明の第4の実施形態の変形例3に係る画像認識装置の構成例を概略的に示す図
【図20】画像取得部の構成例を示す図
【図21】画像取得部のより詳しい構成例を示す図
【符号の説明】
1…画像取得部
2…口腔部抽出部
3…画像認識部
4…音呈示部
5…顔部抽出部
6…方向識別部
7…音声認識部
8…音声認識開始部
9…音声認識終了部
10…情報呈示部
11…情報呈示開始部
12…情報呈示切り替え部
101…発光部
102…反射光抽出部
103…距離画像生成部
104…タイミング信号生成部
107…受光光学系
121…第1の受光部
122…第2の受光部
123…差分演算部
131…アンプ131
132…A/D変換器
133…メモリ

Claims (14)

  1. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得手段と、
    前記画像取得手段により取得された距離画像から口腔部分を抽出する口腔部抽出手段と、
    前記口腔部抽出手段により抽出された口腔部分の距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な形状を認識するための画像認識手段と、
    前記画像認識手段により得られた前記口唇の3次元的な形状の情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別手段と、
    入力された音声を認識するための音声認識手段と、
    前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする画像認識装置。
  2. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得手段と、
    前記画像取得手段により取得された距離画像ストリームの各距離画像から口腔部分を抽出する口腔部抽出手段と、
    前記口腔部抽出手段により抽出された口腔部分の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な動きを認識するための画像認識手段と、
    前記画像認識手段により得られた前記口唇の3次元的な動きの情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別手段と、
    入力された音声を認識するための音声認識手段と、
    前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする画像認識装置。
  3. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得手段と、
    前記画像取得手段により取得された距離画像から顔部分を抽出する顔部抽出手段と、
    前記顔部抽出手段により抽出された顔部分の距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な形状を認識するための画像認識手段と、
    前記画像認識手段により得られた前記顔部の3次元的な形状の情報に基づいて、話者の顔の方向を識別するための方向識別手段と、
    入力された音声を認識するための音声認識手段と、
    前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする画像認識装置。
  4. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得手段と、
    前記画像取得手段により取得された距離画像ストリームの各距離画像から顔部分を抽出する顔部抽出手段と、
    前記顔部抽出手段により抽出された顔部の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な動きを認識するための画像認識手段と、
    前記画像認識手段により得られた前記顔部の3次元的な動きの情報に基づいて、話者の顔の方向を識別するための方向識別手段と、
    入力された音声を認識するための音声認識手段と、
    前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識手段による音声認識を開始させ、その後、前記方向識別手段による前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識手段による音声認識を終了させる制御を行う制御手段とを具備したことを特徴とする画像認識装置。
  5. ユーザに呈示すべき情報を、音声による出力形態及び画像による出力形態を含む複数の出力形態の全部又は一部を用いて呈示するための情報呈示手段と、
    前記方向識別手段による識別結果に係る方向と正面方向との関係に応じて、前記情報呈示手段による情報呈示を開始させる制御と前記情報呈示手段による情報呈示を終了させる制御と前記情報呈示手段により行われる情報呈示に用いられる出力形態の追加、中止又は変更に関する制御のうち少なくとも1つの制御を行う制御手段とをさらに具備したことを特徴とする請求項1ないしのいずれか1項に記載の画像認識装置。
  6. 得られた所定の情報を通信するための通信手段をさらに具備したことを特徴とする請求項1ないしのいずれか1項に記載の画像認識装置。
  7. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像から口腔部分を抽出する口腔部抽出ステップと、
    前記口腔部抽出ステップにより抽出された口腔部分の距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な形状を認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記口唇の3次元的な形状の情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとを有することを特徴とする画像認識方法。
  8. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値 に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像ストリームから口腔部分を抽出する口腔部抽出ステップと、
    前記口腔部抽出ステップにより抽出された口腔部分の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な動きを認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記口唇の3次元的な動きの情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとを有することを特徴とする画像認識方法。
  9. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像から顔部分を抽出する顔部抽出ステップと、
    前記顔部抽出ステップにより抽出された顔部分の距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な形状を認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記顔部の3次元的な形状の情報に基づいて、話者の顔の方向を識別するための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとを有することを特徴とする画像認識方法。
  10. 光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像ストリームの各距離画像から顔部分を抽出する顔部抽出ステップと、
    前記顔部抽出ステップにより抽出された顔部の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な動きを認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記顔部の3次元的な動きの情報に基づいて、話者の顔の方向を識別するための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとを有することを特徴とする画像認識方法。
  11. 画像認識装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取り可能な記録媒体であって、
    光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像から口腔部分の各画素の奥行きを示す値を抽出する口腔部抽出ステップと、
    前記口腔部抽出ステップにより抽出された口腔部分の距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な形状を認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記口唇の3次元的な形状の情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
  12. 画像認識装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取り可能な記録媒体であって、
    光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像ストリームの各距離画像から口腔部分を抽出する口腔部抽出ステップと、
    前記口腔部抽出ステップにより抽出された口腔部分の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、口唇の3次元的な動きを認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記口唇の3次元的な動きの情報に基づいて、話者の口唇方向を識別し、これを話者の顔の方向とするための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
  13. 画像認識装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取り可能な記録媒体であって、
    光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することによって、該対象物体の3次元的な形状を反映した距離画像を取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像から顔部分を抽出する顔部抽出ステップと、
    前記顔部抽出ステップにより抽出された顔部分の距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な形状を認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記顔部の3次元的な形状の情報に基づいて、話者の顔の方向を識別するための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
  14. 画像認識装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読取り可能な記録媒体であって、
    光を照射された対象物体からの反射光の空間的な強度分布を、マトリクス状の画素に対応して配列された受光素子で抽出し、抽出された各々の画素の強度値を、奥行きを示す値に変換することを、繰り返し行うことによって、該対象物体の3次元的な形状を反映した距離画像ストリームを取得するための画像取得ステップと、
    前記画像取得ステップにより取得された距離画像ストリームの各距離画像から顔部分を抽出する顔部抽出ステップと、
    前記顔部抽出ステップにより抽出された顔部の距離画像ストリームの各距離画像の各画素の奥行きを示す値に基づいて、顔部の3次元的な動きを認識するための画像認識ステップと、
    前記画像認識ステップにより得られた前記顔部の3次元的な動きの情報に基づいて、話者の顔の方向を識別するための方向識別ステップと、
    入力された音声を音声認識手段により認識するための音声認識ステップと、
    前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面になったと判断される場合に前記音声認識ステップによる音声認識を開始させ、その後、前記方向識別ステップによる前記識別結果から、前記話者の顔の方向が正面でなくなったと判断される場合に前記音声認識ステップによる音声認識を終了させる制御を行う制御ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な記録媒体。
JP01987198A 1998-01-30 1998-01-30 画像認識装置、画像認識方法及びその記録媒体 Expired - Fee Related JP3688879B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP01987198A JP3688879B2 (ja) 1998-01-30 1998-01-30 画像認識装置、画像認識方法及びその記録媒体
US09/241,078 US6504944B2 (en) 1998-01-30 1999-02-01 Image recognition apparatus and method
US10/282,143 US6690815B2 (en) 1998-01-30 2002-10-29 Image recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01987198A JP3688879B2 (ja) 1998-01-30 1998-01-30 画像認識装置、画像認識方法及びその記録媒体

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2004360240A Division JP4160554B2 (ja) 2004-12-13 2004-12-13 画像認識装置及び画像認識装置方法
JP2005120390A Division JP2005276230A (ja) 2005-04-18 2005-04-18 画像認識装置

Publications (2)

Publication Number Publication Date
JPH11219421A JPH11219421A (ja) 1999-08-10
JP3688879B2 true JP3688879B2 (ja) 2005-08-31

Family

ID=12011286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01987198A Expired - Fee Related JP3688879B2 (ja) 1998-01-30 1998-01-30 画像認識装置、画像認識方法及びその記録媒体

Country Status (2)

Country Link
US (2) US6504944B2 (ja)
JP (1) JP3688879B2 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6765608B1 (en) * 1999-03-09 2004-07-20 Minolta Co., Ltd. Image processing apparatus and system executing predetermined image processing on image data shot by camera, and image recording medium recorded with image processing program
JP2000350123A (ja) 1999-06-04 2000-12-15 Fuji Photo Film Co Ltd 画像選択装置、カメラ、画像選択方法及び記録媒体
RU2160467C1 (ru) * 1999-07-08 2000-12-10 Яхно Владимир Григорьевич Способ адаптивного распознавания информационных образов и система для его осуществления
US6941323B1 (en) * 1999-08-09 2005-09-06 Almen Laboratories, Inc. System and method for image comparison and retrieval by enhancing, defining, and parameterizing objects in images
SG91841A1 (en) * 1999-11-03 2002-10-15 Kent Ridge Digital Labs Face direction estimation using a single gray-level image
EP1968012A3 (en) * 1999-11-16 2008-12-03 FUJIFILM Corporation Image processing apparatus, image processing method and recording medium
US7106887B2 (en) * 2000-04-13 2006-09-12 Fuji Photo Film Co., Ltd. Image processing method using conditions corresponding to an identified person
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
TWI222029B (en) * 2001-12-04 2004-10-11 Desun Technology Co Ltd Two-in-one image display/image capture apparatus and the method thereof and identification system using the same
WO2003054683A2 (en) * 2001-12-07 2003-07-03 Canesta Inc. User interface for electronic devices
US10242255B2 (en) 2002-02-15 2019-03-26 Microsoft Technology Licensing, Llc Gesture recognition system using depth perceptive sensors
AU2003217587A1 (en) * 2002-02-15 2003-09-09 Canesta, Inc. Gesture recognition system using depth perceptive sensors
US7003139B2 (en) * 2002-02-19 2006-02-21 Eastman Kodak Company Method for using facial expression to determine affective information in an imaging system
WO2003073359A2 (en) * 2002-02-26 2003-09-04 Canesta, Inc. Method and apparatus for recognizing objects
US20030171930A1 (en) * 2002-03-07 2003-09-11 Junqua Jean-Claude Computer telephony system to access secure resources
JP4242676B2 (ja) * 2002-03-12 2009-03-25 パナソニック株式会社 口形状ライブラリを作成するための分解方法
US7151530B2 (en) 2002-08-20 2006-12-19 Canesta, Inc. System and method for determining an input selected by a user through a virtual interface
US7526120B2 (en) * 2002-09-11 2009-04-28 Canesta, Inc. System and method for providing intelligent airbag deployment
US20040066500A1 (en) * 2002-10-02 2004-04-08 Gokturk Salih Burak Occupancy detection and measurement system and method
EP1573653B1 (en) * 2002-11-15 2013-07-10 Warner Bros. Entertainment Inc. Method for digitally rendering skin or like materials
JP4193519B2 (ja) * 2003-02-27 2008-12-10 セイコーエプソン株式会社 物体識別方法および物体識別装置
JP4201644B2 (ja) * 2003-05-22 2008-12-24 日立情報通信エンジニアリング株式会社 端末装置及び端末装置の制御プログラム
US7421097B2 (en) * 2003-05-27 2008-09-02 Honeywell International Inc. Face identification verification using 3 dimensional modeling
US7068815B2 (en) * 2003-06-13 2006-06-27 Sarnoff Corporation Method and apparatus for ground detection and removal in vision systems
JP2005100176A (ja) * 2003-09-25 2005-04-14 Sony Corp 画像処理装置およびその方法
US7439074B2 (en) * 2003-09-30 2008-10-21 Hoa Duc Nguyen Method of analysis of alcohol by mass spectrometry
JP4420201B2 (ja) 2004-02-27 2010-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーション ハードウェアトークンを用いた認証方法、ハードウェアトークン、コンピュータ装置、およびプログラム
GB2414589A (en) * 2004-04-29 2005-11-30 Brian Vincent Conway Ultrasonic recognition system
JP4286860B2 (ja) 2004-05-21 2009-07-01 旭化成株式会社 動作内容判定装置
JP2006065683A (ja) * 2004-08-27 2006-03-09 Kyocera Communication Systems Co Ltd アバタ通信システム
ES2369021T3 (es) * 2004-10-22 2011-11-24 Shiseido Company, Limited Procedimiento para categorizar labios.
US8009871B2 (en) 2005-02-08 2011-08-30 Microsoft Corporation Method and system to segment depth images and to detect shapes in three-dimensionally acquired data
JP2006259900A (ja) * 2005-03-15 2006-09-28 Omron Corp 画像処理システム、画像処理装置および方法、記録媒体、並びにプログラム
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
US7733224B2 (en) 2006-06-30 2010-06-08 Bao Tran Mesh network personal emergency response appliance
US7420472B2 (en) * 2005-10-16 2008-09-02 Bao Tran Patient monitoring apparatus
JP4845183B2 (ja) * 2005-11-21 2011-12-28 独立行政法人情報通信研究機構 遠隔対話方法及び装置
US20080317264A1 (en) * 2005-12-21 2008-12-25 Jordan Wynnychuk Device and Method for Capturing Vocal Sound and Mouth Region Images
KR100680278B1 (ko) 2005-12-28 2007-02-07 고려대학교 산학협력단 입술모양 추출방법 및 그 장치
JP2007233871A (ja) * 2006-03-02 2007-09-13 Fuji Xerox Co Ltd 画像処理装置、コンピュータの制御方法及びプログラム
WO2007142227A1 (ja) * 2006-06-07 2007-12-13 Nec Corporation 画像方向判定装置、画像方向判定方法、および画像方向判定用プログラム
JP4849630B2 (ja) * 2007-05-15 2012-01-11 学校法人東海大学 発話内容識別装置及び個人識別装置
US20090124863A1 (en) * 2007-11-08 2009-05-14 General Electric Company Method and system for recording patient-status
JP4972005B2 (ja) * 2008-02-05 2012-07-11 パナソニック株式会社 撮像装置
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
US8452599B2 (en) * 2009-06-10 2013-05-28 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for extracting messages
US8269616B2 (en) * 2009-07-16 2012-09-18 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for detecting gaps between objects
US8337160B2 (en) * 2009-10-19 2012-12-25 Toyota Motor Engineering & Manufacturing North America, Inc. High efficiency turbine system
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8237792B2 (en) * 2009-12-18 2012-08-07 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for describing and organizing image data
CA2792336C (en) * 2010-03-19 2018-07-24 Digimarc Corporation Intuitive computing methods and systems
US8424621B2 (en) 2010-07-23 2013-04-23 Toyota Motor Engineering & Manufacturing North America, Inc. Omni traction wheel system and methods of operating the same
KR101760345B1 (ko) * 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
US8869115B2 (en) 2011-11-23 2014-10-21 General Electric Company Systems and methods for emotive software usability
US9159321B2 (en) * 2012-02-27 2015-10-13 Hong Kong Baptist University Lip-password based speaker verification system
CN104428832B (zh) * 2012-07-09 2018-06-26 Lg电子株式会社 语音识别装置及其方法
KR101992676B1 (ko) 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
WO2014147495A2 (en) * 2013-03-21 2014-09-25 Koninklijke Philips N.V. A method and x-ray system for computer aided detection of structures in x-ray images
JP6064737B2 (ja) * 2013-03-27 2017-01-25 ブラザー工業株式会社 音声認識装置及び音声認識プログラム
KR20150003573A (ko) * 2013-07-01 2015-01-09 한국전자통신연구원 영상 패턴 검출 방법 및 그 장치
TW201504839A (zh) * 2013-07-19 2015-02-01 Quanta Comp Inc 可攜式電子裝置及互動式人臉登入方法
JP2015089059A (ja) * 2013-11-01 2015-05-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
JP6455761B2 (ja) * 2015-03-31 2019-01-23 株式会社エクォス・リサーチ 脈波検出装置、及び脈波検出プログラム
US9875352B2 (en) 2015-10-02 2018-01-23 International Business Machines Corporation Oral authentication management
US10764643B2 (en) 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind
JP7021488B2 (ja) * 2017-09-25 2022-02-17 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びプログラム
CN108322608B (zh) * 2018-01-30 2019-11-19 维沃移动通信有限公司 一种屏幕亮灭控制方法、移动终端
CN112840397A (zh) * 2018-10-18 2021-05-25 索尼公司 信息处理装置及信息处理方法
US11151993B2 (en) 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
JP7414262B2 (ja) * 2020-01-23 2024-01-16 国立大学法人電気通信大学 口腔認識装置
CN114842846B (zh) * 2022-04-21 2024-10-11 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
ZA837252B (en) * 1982-10-25 1984-05-30 Fujisawa Pharmaceutical Co New aminoglycoside derivatives
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPS6338993A (ja) * 1986-08-04 1988-02-19 松下電器産業株式会社 音声区間検出装置
JP2787612B2 (ja) * 1990-07-19 1998-08-20 株式会社エイ・ティ・アール通信システム研究所 顔画像モデル生成装置
JPH04242106A (ja) * 1991-01-16 1992-08-28 Nippondenso Co Ltd 顔の認識装置
JPH05215531A (ja) * 1992-02-07 1993-08-24 Nippon Telegr & Teleph Corp <Ntt> 3次元物体の識別処理方法
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US5835616A (en) * 1994-02-18 1998-11-10 University Of Central Florida Face detection using templates
JP2919284B2 (ja) * 1994-02-23 1999-07-12 松下電工株式会社 物体認識方法
JP3544739B2 (ja) * 1994-04-13 2004-07-21 株式会社東芝 情報入力装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JP3301031B2 (ja) * 1994-09-02 2002-07-15 日本電信電話株式会社 物体の自動認識方法および自動認識装置
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
US5715325A (en) * 1995-08-30 1998-02-03 Siemens Corporate Research, Inc. Apparatus and method for detecting a face in a video image
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
JPH09277184A (ja) * 1996-04-15 1997-10-28 Ricoh Co Ltd 画像処理方法
JPH09325019A (ja) * 1996-06-05 1997-12-16 Minolta Co Ltd 3次元計測装置
US6028960A (en) * 1996-09-20 2000-02-22 Lucent Technologies Inc. Face feature analysis for automatic lipreading and character animation
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP3512992B2 (ja) 1997-01-07 2004-03-31 株式会社東芝 画像処理装置および画像処理方法

Also Published As

Publication number Publication date
US6504944B2 (en) 2003-01-07
US20020126879A1 (en) 2002-09-12
US20030048930A1 (en) 2003-03-13
US6690815B2 (en) 2004-02-10
JPH11219421A (ja) 1999-08-10

Similar Documents

Publication Publication Date Title
JP3688879B2 (ja) 画像認識装置、画像認識方法及びその記録媒体
US6185529B1 (en) Speech recognition aided by lateral profile image
US6272466B1 (en) Speech detection apparatus using specularly reflected light
KR101937323B1 (ko) 위장 얼굴 판별 장치 및 방법
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
US7257538B2 (en) Generating animation from visual and audio input
CN111414785A (zh) 身分辨识系统及身分辨识方法
JP2005276230A (ja) 画像認識装置
KR101480816B1 (ko) 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템
JP4160554B2 (ja) 画像認識装置及び画像認識装置方法
Kumar et al. A novel approach for Morse code detection from eye blinks and decoding using OpenCV
KR102012719B1 (ko) 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법
CN112567455A (zh) 使用深度信息净化声音的方法和系统以及计算机可读介质
JP2011210118A (ja) 顔画像合成装置
JP5276454B2 (ja) 表情測定方法、表情測定プログラムならびに表情測定装置
Talea et al. Automatic combined lip segmentation in color images
JP2787612B2 (ja) 顔画像モデル生成装置
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
JP2004252511A (ja) 顔向き推定方法
KR101074817B1 (ko) 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템
JPH10149447A (ja) ジェスチャー認識方法および装置
US20240062548A1 (en) Converting spatial information to haptic and auditory feedback
KR102577759B1 (ko) 생체 신호 측정 시스템 및 그것의 생체 신호 측정 방법
KR102532535B1 (ko) 3차원 스캐너의 스캔 이미지 처리에 있어서의 노이즈 필터링을 위한 방법 및 장치
Davis et al. The stability of mouth movements for multiple talkers over multiple sessions

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050418

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050609

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130617

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees