JP6332937B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP6332937B2
JP6332937B2 JP2013220439A JP2013220439A JP6332937B2 JP 6332937 B2 JP6332937 B2 JP 6332937B2 JP 2013220439 A JP2013220439 A JP 2013220439A JP 2013220439 A JP2013220439 A JP 2013220439A JP 6332937 B2 JP6332937 B2 JP 6332937B2
Authority
JP
Japan
Prior art keywords
information
image
class
existence probability
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013220439A
Other languages
English (en)
Other versions
JP2015082245A5 (ja
JP2015082245A (ja
Inventor
貴之 猿田
貴之 猿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013220439A priority Critical patent/JP6332937B2/ja
Priority to US14/520,841 priority patent/US9378422B2/en
Publication of JP2015082245A publication Critical patent/JP2015082245A/ja
Publication of JP2015082245A5 publication Critical patent/JP2015082245A5/ja
Application granted granted Critical
Publication of JP6332937B2 publication Critical patent/JP6332937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。
画像認識手法のひとつとして、撮影して得られた画像を複数の領域に分割して、分割した領域毎に被写体の分類に関するクラスを識別する手法がある。この手法は、各領域から抽出される特徴量に基づいて、各領域のクラスを識別する。適切に画像を領域分割することは、被写体の認識やシーンの認識、被写体に応じた画質の補正等の多くの画像処理を容易にする。
非特許文献1に開示されている技術は、色情報、テクスチャ情報に基づいて入力画像をスーパーピクセルと呼ばれる小領域に分割する。そして、この技術は、分割した各小領域のクラスをRecursive−Neural−Networks(RNNs)と呼ばれる識別器を用いて識別する。
非特許文献2に開示されている技術は、条件付き確率場CRF(Conditional−Random−Field)を用いて、領域分割及びクラス識別を同時に行う。この技術は、各画素から抽出される特徴に基づくだけでなく、隣接する画素間のクラス共起まで考慮した上で各画素のクラスを識別する。この技術は、特徴が曖昧なため単体では認識の難しい画素に対して、周辺の画素との関係を考慮して識別する。より具体的にいうと、この技術は、各画素をノードとして、ノードのエネルギー(UnaryPotential)及びノード間のエネルギー(PairwisePotential)を定義して、それらの画像全体の総和を最小化する。そして、この技術は、エネルギーを最小化する各画素のクラスを識別する。
上記の2つの技術では、領域分割及びクラス分類に使用する情報を画像(特徴量)から得ているが、画像から得ることができる情報だけではなく、撮影した際に得ることができる画像以外の情報を用いて領域分割を行う技術もある。
特許文献1に開示されている技術は、GPSによる場所情報を用い、地域に応じて画像中の領域(SP)の被写体のクラスの推定スコアを変える。例えば、赤道直下なら「"SNOW"はない」等である。また、この技術は、撮影時期、撮影した方角等も情報として使用したり、被写体のクラス間の空間的配置関係の共起のテーブルを場所情報によって変えたりしている。
特許文献2に開示されている技術は、画像を撮影する際に被写体距離情報も取得し、被写体距離情報に基づいて画像を領域分割する。そして、この技術は、分割領域毎にシーン判定を行い、その判定結果に基づいて分割領域毎に画像処理を実行する。
特許文献3に開示されている技術は、画像セグメンテーション等による任意のオブジェクト抽出結果と、撮影の際に得ることができる距離情報とに基づいて前景領域、背景領域を分割する。例えば、この技術は、所定のオブジェクトの距離よりも近い距離の画素を前景領域とし、それ以外を背景領域として分割する。
米国特許第7860320号明細書 特開2012−4716号公報 特開2011−253354号公報
R.Socher,"Parsing Natural Scenes and Natural Language with Recursive Neural Networks",International Conference on Machine Learning 2011. P.Krahenbuhl,"Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials",Neural Information Processing Systems 2011. P.Felzenszwalb,"Efficient Graph−Based Image Segmentation",International Journal of Computer Vision 2004. P.Felzenszwalb, "A Discriminatively Trained,Multiscale, Deformable Part Model",Computer Vision and Pattern Recognition 2008.
上述した従来の技術は、各領域中から抽出された特徴量を入力とし、予め学習された識別器を用いて画像中の各領域のクラスを識別する。しかしながら、これらの技術では、各領域のクラスを精度よく識別することができなかった。
本発明は、画像の領域毎に被写体の分類に関するクラスを精度よく識別することを目的とする。
そこで、本発明の画像処理装置は、被写体の撮影画像が撮影された際の撮影情報を、前記撮影画像に含まれる複数の領域それぞれで取得する取得手段と、前記取得手段で取得された前記撮影情報に基づいて、前記被写体の撮影画像の所定の領域毎に、被写体の分類を示す複数のクラスのうち少なくとも1つのクラスについて、存在確率を推定する推定手段と、前記推定手段で推定された前記存在確率と、前記撮影画像に係る画像情報とに基づいて、前記所定の領域毎に前記クラスを識別する識別手段と、を有することを特徴とする。
本発明によれば、画像の領域毎に被写体の分類に関するクラスを精度よく識別することができる。
システム構成の一例を示す図である。 識別対象画像の一例を示す図(その1)である。 識別対象画像の一例を示す図(その2)である。 画像認識装置のハードウェア構成の一例を示す図である。 実施形態1の画像認識装置の機能構成等の一例を示す図である。 実施形態1の処理の一例を示すフローチャート(その1)である。 識別対象画像の一例を示す図(その3)である。 実施形態1における学習装置の機能構成等の一例を示す図である。 実施形態1の処理の一例を示すフローチャート(その2)である。 識別対象画像の一例を示す図(その4)である。 識別対象画像の一例を示す図(その5)である。 実施形態2の画像認識装置の機能構成等の一例を示す図である。 実施形態2の処理の一例を示すフローチャートである。 実施形態3の画像認識装置の機能構成等の一例を示す図(その1)である。 実施形態3の処理の一例を示すフローチャート(その1)である。 ノード間の結合の一例を示す図である。 実施形態3の画像認識装置の機能構成等の一例を示す図(その2)である。 実施形態3の処理の一例を示すフローチャート(その2)である。 実施形態4の画像認識装置の機能構成等の一例を示す図である。 実施形態4の処理の一例を示すフローチャートである。 識別対象画像の一例を示す図(その6)である。 実施形態5の画像認識装置の機能構成等の一例を示す図(その1)である。 実施形態5の処理の一例を示すフローチャート(その1)である。 実施形態5の画像認識装置の機能構成等の一例を示す図(その2)である。 実施形態5の処理の一例を示すフローチャート(その2)である。 物体検出の一例を示す図である。
以下、本発明を実施するための最良の形態について図面を用いて説明する。
<実施形態1>
図1は、システム構成等の一例を示す図である。
図1のシステムでは、カメラ10と、画像認識装置20(画像処理装置)とが、ネットワークを介して接続されている。なお、画像認識装置20と、カメラ10とは、一体となっていてもよい。
カメラ10は、画像認識装置20による画像処理の対象となるシーン30を撮影する。
画像認識装置20は、カメラ10で撮像(撮影)されたシーン30の各領域におけるクラスを識別する。より具体的にいうと、画像認識装置20は、カメラ10で撮像された識別対象画像(撮影画像)と、カメラ10(撮影部)で前記識別対象画像が撮影された際に取得された撮影情報とに基づいて、前記識別対象画像の領域分割及びクラス識別を行う。ここでいうクラスとは、被写体の分類に関するクラスカテゴリー名である。クラスの詳細については、図2等を用いて後述する。また、撮影情報とは、カメラ10で撮影した際に取得される画像以外の情報のことであり、画像を出力するまでにカメラ10で取得される全ての情報を意味する。例えば、撮影情報は、フォーカスを合わせる際等に取得される距離情報や、シャッタースピード等の撮影におけるカメラパラメータを決定するための色温度及び測光値に関する情報、それらによって決定されたカメラパラメータ等の情報である。その他にも、撮影情報には、撮影日時情報、GPS情報、カメラ内の姿勢センサーによる天地判定に関する情報等がある。
図2は、識別対象画像の一例を示す図である。
本実施形態では、図2の(a)に示されるように撮影された識別対象画像100の各画素のクラスを識別する例について説明する。
ここでいうクラスとは、図2の(b)に示されるような各画素に対応して振られるsky、tree、car等といった被写体の分類に関するクラスカテゴリー名である。
図3は、識別対象画像における各画素の識別に関する概念の一例を示す図である。
各画素103にクラスが割り当てられることで、領域分割が実現される。図3の(b)は、図3の(a)の左上部分を拡大して示しており、各画素103がskyカテゴリーに割り当てられている様子を示している。
図4は、画像認識装置20のハードウェア構成の一例を示す図である。
CPU401は、画像認識装置20全体を制御する。CPU401がROM403やHD404等に格納されたプログラムを実行することにより、後述する画像認識装置20の機能構成及び画像認識装置20に係るフローチャートの処理が実現される。
RAM402は、CPU401がプログラムを展開して実行するワークエリアとして機能する記憶領域である。
ROM403は、CPU401が実行するプログラム等を格納する記憶領域である。
HD404は、CPU401が処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域である。
操作部405は、ユーザによる入力操作を受け付ける。
表示部406は、画像認識装置20の情報を表示する。
ネットワークI/F407は、画像認識装置20と、外部の機器とを接続する。
図5は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
撮影部500は、カメラ10に相当し、識別対象画像を取得する。
本実施形態の画像認識装置20は、入力部501、存在確率分布推定部502、識別部504を有する。更に、画像認識装置20は、記憶部として存在確率分布推定用辞書保持部503、認識用辞書保持部505を有している。なお、存在確率分布推定用辞書保持部503及び認識用辞書保持部505は、不揮発性の記憶装置として計算機20と接続された構成としてもよい。画像認識装置20が有するこれらの各機能の詳細については、図6等を用いて後述する。
図6は、本実施形態における処理の一例を示すフローチャートである。
S110で、入力部501は、撮影部500によって撮影された識別対象画像及びその際に得られた撮影情報を入力データとして受信する。
S120で、存在確率分布推定部502は、S110において入力された撮影情報に基づいて、存在確率分布推定用辞書保持部503に保持されている辞書(学習情報)を用いて識別対象画像の所定の位置毎に各クラスの存在確率分布を推定する。なお、存在確率分布は、各クラスの存在度合の分布に係る分布情報の一例である。存在確率分布推定部502は、推定した存在確率分布に関する情報(以下、単に存在確率分布という)を識別部504に送信する。辞書の詳細については、図8等を用いて後述する。
S130で、識別部504は、S110で入力された識別対象画像の各画素のクラスを識別する。識別部504は、前記識別の際に、認識用辞書保持部505に保持されている識別器と、S120で推定された存在確率分布とを用いて識別を行う。
次に、図6に示したフローチャートに従って、各処理のより具体的な処理について述べる。
S110で、入力部501は、図1で示したような対象のシーン30を捉えた識別対象画像及びその際に得られた撮影情報を撮影部500から取得する。この識別対象画像及び撮影情報は、予め取得されて外部装置に記憶されていてもよい。この場合、入力部501は、前記識別対象画像及び前記撮影情報を前記外部装置から取得する。
ここで、撮影情報の詳細について説明する。本実施形態では、撮影情報をPhkとおく。kは撮影情報を表すインデックスである。撮影情報の一例として、撮影部500がフォーカスを合わせる際に得ることができる距離情報について説明する。
図7は、識別対象画像40に対して被写体距離を得る測距点42の一例を示す図である。
測距点42は、測距枠41の各分割領域の中心点となる。同一分割領域内の中心点以外の領域では距離情報を得ることができないので、前記中心点以外の領域における距離は、中心点の距離と同じ値であるものとする。また、前記中心点以外の領域における距離は、線形補間等の補間方法で補間した値としてもよい。このようにして、識別対象画像40の各画素の位置に対応した被写体距離を得ることができる。ここでは、各画素の位置に対応した被写体距離をPh1(x,y)とおく。撮影部500は、その他の撮影情報Phk(x,y)も同様に計算しておく。なお、撮影部500は、色温度、測光値等のシーンに対応して一意に決定される情報に関して、全ての画素の位置で同じ値となるように設定しておく。本実施形態では撮影部500がフォーカスを合わせる際に得ることができる距離情報について説明したが、撮像センサーの他に、測距用のセンサーを取り付けて画像撮影の際に距離情報を得るようにしてもよい。
図6の説明に戻る。
S120で、存在確率分布推定部502は、S110において入力された撮影情報Phk(x,y)に基づいて、識別対象画像の所定の位置毎に各クラスの存在確率分布を推定する。本実施形態では、各画素の位置に対応した各クラスの存在確率分布をPc(x、y)とおく。ここで、cはクラスカテゴリーを表すインデックスである。
本実施形態では、式1のように撮影情報を入力として、出力を各クラスの存在確率とする設定関数gcをクラス毎に予め学習しておき、記憶領域に記憶しておく。設定関数gcの学習方法に関しては後述する。なお、本実施形態では撮影情報を入力とする設定関数を一つ用いる例について説明するが、GPSや撮影日時等の撮影情報毎に設定関数を記憶領域に記憶しておいてもよい。そして、存在確率分布推定部502は、それらの撮影情報に対応する設定関数を選択して存在確率分布を推定するようにしてもよい。
各画素の位置に対応した各クラスの存在確率Pc(x、y)は以下の式1によって推定される。
Figure 0006332937
また、識別対象画像から各画素において得ることができる輝度値や特徴量等の情報をI(x、y)とおき、式2として識別対象画像から得ることができる情報を追加するようにしてもよい。
Figure 0006332937
また、本実施形態で用いる撮影情報は式3のようにある撮影情報の差分等であってもよい。
Figure 0006332937
式3において、α、βは予め定められた定数である。これにより、α、βで定義された距離離れた画素との撮影情報の類似性を見ることができる。例えば、式4のようにある定数Yを定義するようにしてもよい。
Figure 0006332937
例えば、撮影情報を距離情報とし、Y=0とすれば、Y=0の位置と、画像の上部との距離の差分となる。そのため、画像上部の画素のクラスカテゴリーがskyカテゴリーである場合、skyカテゴリーでない場合と比べて、画像認識装置20が参照している画素がskyカテゴリーであれば距離の差分値が小さくなる確率が高くなる。一方、画像上部の画素のクラスカテゴリーがskyカテゴリーでない場合、skyカテゴリーである場合と比べて、距離の差分値が大きくなる確率が高くなる。即ち、画像認識装置20は、クラスカテゴリーによっては距離値の差分によって同一カテゴリーか否かを推定することができるようになる。
画像認識装置20は、この設定関数gcを用いて存在確率を計算することによって、複数の撮影情報を反映したカテゴリーの存在確率を推定することができる。例えば、色温度、測光値が他の画素より高く、被写体距離が他の画素より遠い画素のskyカテゴリーの存在確率は高くなる。その他、他の領域に比べて著しく暗い領域は、逆光領域である可能性が高くなるため、skyカテゴリーではなく人体等の主被写体である確率が高くなる。
S130で、識別部504は、S110において入力された識別対象画像の各画素のクラスを識別する。識別部504は、S120で推定された存在確率分布と、認識用辞書保持部505に保持されている識別器とを用いて各画素のクラスを識別する。識別器は画像情報を用いて学習されている。より具体的な学習方法、画像情報については後述する。
本実施形態では、式5のように画像情報を入力として、出力を各クラスの事後確率とする識別器を用いる。ここで、各画素の位置に対応する画像情報、即ち、特徴量をF(I、x、y)、事後確率をPc|F=F(I,x,y)とおく。Iは識別対象画像である。また、画像情報を入力とし、出力を尤度とする関数(識別器)をLc(F(I、x、y))とおけば、式5のようになる。
Figure 0006332937
識別部504は、識別器によって求められた尤度と、存在確率とから各画素の事後確率を計算し、式6にあるように各画素で最も高い事後確率のクラスを割り当てることで、領域分割及びクラス識別を実現する。
Figure 0006332937
式6において、Scはクラスの集合を示していて、クラス数をNとする。識別部504は、識別対象画像の全画素に対して同様の処理を行う。
次に、本実施形態で使用する辞書を学習するフローについて説明する。
図8は、本実施形態における学習装置300の機能構成の一例を示す図である。なお、学習装置300のハードウェア構成は、図4と同様とする。ここでは、図5の画像認識装置20とは別に学習装置300が構成されているものとするが、画像認識装置20内に学習装置300が構成されていてもよい。即ち、CPU401がROM403やHD404等に格納されたプログラムを実行することにより、学習装置300の機能構成及び学習装置300に係るフローチャートの処理が実現されるようにしてもよい。
学習装置300は、学習データ設定部301、存在確率分布推定部302、認識用辞書学習部303を有する。更に、学習装置300は、記憶部として学習用データ保持部304、存在確率分布推定用辞書保持部503、認識用辞書保持部505を有している。学習装置300が有するこれらの各機能の詳細については、図9等を用いて後述する。
図9は、本実施形態における学習に関する処理の一例を示すフローチャートである。
S910で、学習データ設定部301は、学習に用いる学習データを設定する。本実施形態では学習データとして、図10に示されるような画像50と、その各画素のクラス名が定義されているグランドトゥルース51とがあればよい。また、学習データの各画素のカメラ情報が必要となる。S910で、学習データ設定部301は、学習用データ保持部304に保持されている学習用データの中で学習に使用するデータを設定する。
S920で、存在確率分布推定部302は、S910において設定された学習データを用いて存在確率分布を推定する設定関数gcを学習する。存在確率分布推定部302は、設定関数gcを回帰学習によって得ることができる。回帰学習の手法としては、SVR(Support Vector Regression)や回帰木(Regression Tree)等、様々な手法があるが、何れの手法を用いてもよい。また、存在確率分布推定部302は、設定関数gcをテーブルとして設定してもよい。
回帰学習で学習する設定関数gcでは、式1に示すように、入力情報はカメラ情報となり、出力情報は入力されたクラスに対する存在確率となる。本実施形態における学習は学習データの各画素の撮影情報Phk(x,y)に対して各クラスカテゴリーである確率Pc(x、y)を推定すればよく、学習装置300は、各画素の撮影情報と、その画素のクラスカテゴリーとを学習データから抽出する。
図7の画像を例により具体的に説明する。図7のように各測距点の距離値が得られている場合、距離値が無限遠の場合は距離値が無限遠でない場合と比べてskyカテゴリーの存在確率が高くなる。また、距離値が他の測距点に比べて近い場合は、遠い場合と比べてbodyカテゴリーの存在確率が高くなる。それ以外の値の場合、skyカテゴリー以外のカテゴリーの存在確率が同程度となる。学習装置300は、以上のような存在確率を撮影情報から推定する設定関数を学習する。
S930で、認識用辞書学習部303は、入力情報を画像情報(特徴量)として、識別対象画像の各画素のクラス尤度を出力する識別器を学習する。学習データとしては、S920と同様に、図10に示されるような各画素に対して一意にクラス名を与えたデータが使用される。
識別器の学習手法としては、SVM(Support Vector Machine)やRandomized Trees等の手法を用いればよい。識別器に用いる画像情報(特徴量)としては、各画素の色特徴やテクスチャ特徴等を用いればよい。例えば、RGB、HSV、Lab、YCbCr色空間の各成分、Gabor filter、LoGのフィルタ応答を用いるとする。色特徴は、4(色空間)×3(成分)の12次元となる。また、フィルタ応答に関してはGabor filter、LoGフィルタの数に対応した次元数となる。識別器の学習の際、学習装置300は、クラス毎に学習データの中から正事例と、負事例とを選択して、その正事例、負事例を識別する識別器を学習する。
以上、本実施形態によれば、画像認識装置20は、撮影情報に基づいて各クラスの存在確率分布を推定することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、画像認識装置20による領域分割精度が向上する。
<実施形態2>
本実施形態における画像認識装置20は、実施形態1とは異なり、上述したクラスの識別を画素毎に行うのではなく、識別対象画像を予め小領域に分割しておき、前記分割した小領域毎にクラスの識別を行う。画像認識装置20は、予め小領域に分割してから識別を行うことで、局所的なクラスカテゴリーの誤認識を防ぐことができる。そのために、画像認識装置20は、撮影情報又はその撮影情報を用いて推定する各クラスの存在確率分布を小領域毎に推定する。例えば、画像認識装置20は、撮影情報により距離情報が得られている場合、小領域毎の距離の変化を見ることができるため、大きな変化を捉えることができる。より具体的にいうと、画像認識装置20は、図11に示すように、撮影された識別対象画像100の小領域101のクラスを識別する。図11は、識別対象画像の一例を示す図である。ここで、小領域とは、画像中における1画素以上であって所定値以下の画素で構成される領域を意味する。小領域の作成方法(分割方法)については、図13等を用いて後述する。
図12は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
本実施形態における画像認識装置20は、図5に示した機能構成に加えて領域分割部506を有している。領域分割部506の詳細な説明については、図13等を用いて後述する。その他の構成については、図5と同様であるため説明を省略する。
図13は、本実施形態における画像認識装置20が領域分割をして各領域のクラスを識別する処理の一例を示すフローチャートである。
S210の処理は、S110の処理と同様であるため説明を省略する。
S220で、領域分割部506は、S110において入力された識別対象画像を小領域に分割する。例えば、領域分割部506は、非特許文献3に記載されているようなSP(スーパーピクセル)と呼ばれる小領域に分割する。そして、領域分割部506は、領域分割の結果を識別部504に送信する。
S230で、存在確率分布推定部502は、S120の処理とほぼ同様の処理を行うが、S220で分割された小領域毎にクラスを推定する。より具体的にいうと、存在確率分布推定部502は、領域内の各画素に対して、式7のように存在確率を算出して領域内の画素数で平均化すればよい。式7のPc(x、y)は、実施形態1と同様に式1又は式2から算出される。Rは小領域を示しており、iはある1つの小領域を表すインデックスである。また、Eは平均を示す。
Figure 0006332937
また、存在確率分布推定部502は、存在確率ではなく撮影情報を小領域毎に平均してもよい。その場合、存在確率分布推定部502は、式8のように各撮影情報を平均化する。
Figure 0006332937
そして、各クラスの存在確率は式9のように推定される。
Figure 0006332937
これにより、存在確率分布推定部502は、実施形態1と異なり撮影情報を小領域内で平均化するため、ノイズロバストとなり大きな変化を捉えることができる。
S230で、識別部504は、各小領域のクラスを識別する。実施形態1と同様に、識別器として、SVMやRandomized Trees等を用いればよい。また、識別器に用いる特徴量は各領域から抽出される。例えば、実施形態1と同様に、RGB、HSV、Lab、YCbCr色空間の各成分、Gabor filter、LoGのフィルタ応答を用いるとする。また、学習装置300は、領域毎に特徴づけを行うため、各小領域内の画素毎に得ることができる特徴量から統計量を求める。用いる統計量は、平均、標準偏差、歪度、尖度の4つとする。歪度は分布の非対称性の度合いを示す統計量であり、尖度は分布が平均の近くに密集している度合いを示す統計量である。したがって、色特徴は4(色空間)×3(成分)×4(統計量)の48次元となり、テクスチャ特徴の次元数は(フィルタ応答数)×4(統計量)となる。また、この他に小領域の重心座標や小領域の面積等を特徴量としてもよい。
識別部504は、識別器によって求められた尤度と、各小領域の存在確率とから、式10にあるように各小領域で最も高い事後確率のクラスを割り当てることで、各小領域のクラス識別を実現する。
Figure 0006332937
識別部504は、識別対象画像の全小領域に対して同様の処理を行う。また、ここでは、識別部504が領域毎にクラス識別を行うようにしたが、実施形態1と同様に画素毎に識別を行って、小領域内で平均するようにしてもよい。その場合はまず、識別部504は、式11のように小領域内でクラス毎に事後確率の和を計算する。
Figure 0006332937
次に、識別部504は、式12のように各領域において最大の事後確率をもつクラスを割り当てる。
Figure 0006332937
以上、本実施形態によれば、画像認識装置20は、識別対象画像を予め小領域に分割してから撮影情報に基づいた存在確率分布を推定する。そして、画像認識装置20は、前記推定した存在確率分布を利用してクラス識別を行うことで、より精度よくクラス識別を行うことができる。これにより、画像認識装置20による領域分割精度が向上する。
<実施形態3>
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、画像情報及び撮影情報の少なくとも1つを用いて各画素間の特徴量の類似度を求め、クラスの識別の際に前記類似度を示す類似度情報を利用する。これにより、画像認識装置20は、更に領域分割及びクラス識別精度を向上させることができる。
画像認識装置20は、類似度を利用することにより、対象とする画素に対して予め定められた近傍の画素の情報も考慮して識別を行うことができるため、領域分割及びクラス識別精度が向上する。本実施形態では実施形態1と同様に画素単位で識別を行う手法に関して説明を行うが、実施形態2と同様に予め領域分割された小領域毎に識別するようにしてもよい。
図14は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
本実施形態における画像認識装置20は、図5に示した機能構成に加えて類似度推定部507を有している。類似度推定部507の詳細については、図15等を用いて後述する。その他の構成については、図5と同様であるため説明は省略する。
図15は、本実施形態における画像認識装置20が、各画素間の類似度を利用して領域分割及び各領域のクラス識別をする際の処理の一例を示すフローチャートである。
S310の処理は、S110の処理と同様であるため説明を省略する。
S320の処理は、S120の処理と同様であるため説明を省略する。
S330で、類似度推定部507は、画像情報及び撮影情報の少なくとも1つを用いて各画素間の類似度を算出する。類似度推定部507は、推定した類似度に関する情報(以下、単に類似度という)を識別部504に送信する。S330の処理の詳細については後述する。S330で、類似度推定部507が画像情報のみを利用する場合には、入力部501から画像情報のみが入力され、撮影情報のみを利用する場合には撮影情報のみが入力され、両方を利用する場合には両方の情報が入力される。
S340で、識別部504は、S310で入力された識別対象画像を認識用辞書保持部505に保持されている識別器を用いて各画素のクラスを識別する。その際に、識別部504は、S320で推定された存在確率分布、入力画像から得ることができる画像情報及びS330で推定された画素間の類似度に基づいて、各画素のクラスを識別する。S340の処理の詳細については後述する。
次に、図15に示したフローチャートに従って、S330の処理及びS340の処理についてより具体的に説明する。
S330で、類似度推定部507は、画像情報及び撮影情報の少なくとも1つを用いて各画素間の類似度を算出するが、本実施形態では類似度をGaussianカーネルで表現する。類似度推定部507が類似度を計算する画素の位置をxi、xjとおき、それぞれの画素の位置で得ることができる画像情報又は撮影情報(特徴量)をfi、fjとおき、画素間の類似度をS(fi、fj)とおけば、式13のように定義される。
Figure 0006332937
ここでは類似度を定義する画像情報(特徴量)として、画素の位置p、色成分ベクトルColorを用いたが、撮影情報を用いることもできる。その場合は、S310で入力された撮影情報Phk(xi)、Phk(xj)を利用する。その場合、式14のように定義することができる。
Figure 0006332937
また、画像情報及び撮影情報を合わせて式15のように表すこともできる。
Figure 0006332937
なお、θα、θβ、θγは、ハイパーパラメータで後述する識別器の学習の際にクロスバリデーションによって求めてもいいし、ユーザが決定してもよい。ここでは撮影情報の中から、1つを選択して類似度を推定する例について説明したが、更に他の撮影情報を利用する場合はハイパーパラメータを設定して追加すればよい。
S340で、識別部504は、識別器を用いて各画素のクラスを識別する。本実施形態では非特許文献2に開示されているような条件付き確率場(CRF)を用いて説明する。
条件付き確率場とは、構造化データのラベリング及びセグメンテーションを扱うことのできる確率的なフレームワークである。条件付き確率場は、要素(ノード)自体のポテンシャル(Unaryポテンシャル)と、要素(ノード)間の関係の度合を表すポテンシャル(Pairwiseポテンシャル)との和の最適化を行う。ここで、観測データをX={x1、x2、・・・、xM}とする。Mは全観測データ数であり、本実施形態の場合、画素数に対応する。関連するクラスラベルをY={y1、y2、・・・、yM}とする。Yiの取り得る値をC={c1、c2、・・・、cN}とする。Nはクラスカテゴリー数を表している。条件付き確率場(X,Y)は式16のようにギブス分布で表される。
Figure 0006332937
ここで、Z(X)は分布を正規化するための分配関数を表し、E(Y)は以下の式17で表されるGibbsエネルギーである。
Figure 0006332937
式17で、Ψu(yi)は、各ノードのポテンシャル(Unaryポテンシャル)を表し、Ψp(yi,yj)は、ノード間の関係度のポテンシャル(Pairwiseポテンシャル)を表す。Unaryポテンシャルは各ノードに割り当てられ、本実施形態においては各画素に割り当てられる。Unaryポテンシャルは以下の式18で定義する。
Figure 0006332937
prob(yi)はi番目の画素がクラスカテゴリーyiである確率を表す。確率値は実施形態1と同様にSVMを用いて識別した際の尤度に存在確率を乗算した値を、シグモイド関数を用いて変換することで近似的に求められる値である。
次に、Pairwiseポテンシャルについて説明する。条件付き確率場では図16に示すようにノード間の結合を定義する必要がある。図16は、ノード間の結合の一例を示す図である。図16では、各ノード60と、ノード間の結合61とが示されている。図16の(b)では隣接ノードのみが結合しており、図16の(c)では全ノードが結合している。本実施形態では図16の(c)に示されるような全結合条件付き確率場を利用する。Pairwiseポテンシャルは以下の式19のように表される。
Figure 0006332937
ここで、μ(yi,yj)はラベル間の適合性を表す関数で、例えば式20のPottsモデルを用いる。
Figure 0006332937
この場合は、類似度の高いノードに異なるラベルを与えると、ペナルティが与えられる。本実施形態においては、μ(yi,yj)としてクラス共起行列を学習する。これは、あるクラスカテゴリー同士が一緒に存在しやすい又は存在しにくいという画像中の物体の共起という情報を利用する方法である。例えば、人と車、車と自転車、人と馬等は一緒に存在しやすいが、馬とバス、羊とバイクは一緒に存在しにくい等である。学習に際しては、例えば(クラス数)×(クラス数)の行列を用意して、学習画像において同画像中に共起するクラスカテゴリーのセルに投票していけばよい。クラス共起行列μのクラスカテゴリーCiと、クラスカテゴリーCjの共起確率μ(Ci,Cj)とは、式21のようになる。
Figure 0006332937
ここでγ、δは共起確率を正規化するための正の定数であり、学習の際に予め決定しておく。
次に、k(fi、fj)は特徴量で定義される関数であり、式13から式15までで定義した類似度を用いて、式22のように表される。
Figure 0006332937
式22の第2項はSmoothness kernelである。式22では画素の位置のみを考慮したが、撮影情報を考慮してもよい。
撮影情報を考慮する場合のk(fi、fj)は式23のように表せる。
Figure 0006332937
ω1、ω2は各カーネルの重みであり、θγ、θγはハイパーパラメータである。これらは、先のθと同様に学習の際にクロスバリデーションによって求めればよい。これらの式によって定義された条件付き確率場に対して式24で表されるMAP推定が行われ、各ノードのクラスが決定される。
Figure 0006332937
上式において、P(Y|X)について厳密解を求めるためには、全てのクラスカテゴリーの組み合わせをLN通り計算する必要がある。しかし、非特許文献2に開示されている平均場近似と、高次元フィルタリングとを組み合わせた手法を用いれば、画素数Mに対して線形のオーダーまで計算コストをおさえることができる。
以上の処理により、識別部504は、各画素をノードとした条件付き確率場を定義してMAP推定を行うことで識別対象画像の全画素のクラスを識別し、領域分割することができる。
本実施形態の処理に関して条件付き確率場を用いて説明したが、非特許文献1にあるようなRecursive−Neural−Networks(RNNs)等の別の識別器を用いてもよい。その場合は推定された類似度を識別器の特徴量の1つとして利用すればよい。このように、本実施形態における画像認識装置20は、撮影情報に基づいて各クラスの存在確率分布を推定し、更に各画素間の類似度を利用することでより精度よく識別対象画像の各画素のクラスを識別することができ、領域分割精度を向上させることができる。
また、本実施形態ではノードを画素単位に設定して説明を行ったが、予め領域分割を行い、各領域をノードとして条件付き確率場を用いて各領域のクラスを識別するようにしてもよい。その場合、図17に示されているような機能構成を有する画像認識装置20を用いる。図17は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。図17に示される画像認識装置20の機能構成は、図14に示される機能構成に加えて、更に領域分割部506を有している。
図18は、図17の機能構成を有する画像認識装置20が実行する処理の一例を示すフローチャートである。
図18における各処理については上述したため詳細な説明は省略するが、S440で、類似度推定部507は、画素間の類似度を求めるのではなく、領域間の類似度を求める。ここでは、各領域の撮影情報から得ることができる特徴量のヒストグラムの類似度を基に類似度推定部507が領域間の類似度を求める手法について説明する。
それぞれの領域をRi、Rj、領域間の類似度をS(Ri、Rj)とおく。そして、領域Riの撮影情報Phk(x、y)(ここでのx、yは領域Riに含まれる画素を示している)のヒストグラムをhist(Ri、l)とおき、ビン数をL、あるビンを表すインデックスをl(l=1、2、・・・L)とおく。その場合、領域間の類似度S(Ri、Rj)は以下の式25のように表される。
Figure 0006332937
また、類似度を算出する上述以外の方法として、類似度推定部507は、ヒストグラム間の距離を求めて類似度を算出する方法を用いてもよい。また、その他にも、類似度推定部507は、複数の撮影情報を用いてもよいし、画像から得られる特徴量を用いてもよい。
以上、本実施形態によれば、画像認識装置20は、各画素間又は予め分割された領域間における特徴量の類似度を利用してクラスを識別することができる。これにより、画像認識装置20は、より精度よくクラスを識別することができ、領域分割制度を向上させることができる。
<実施形態4>
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、画像情報及び撮影情報の少なくとも1つを用いて各領域間の類似度を求め、類似度を利用して分割された小領域同士を統合する。そして、画像認識装置20は、統合した統合領域のクラスを、識別器を用いて識別する。
図19は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
図19に示される画像認識装置20の機能構成は、図5に示される機能構成に加えて、更に、領域分割部506、類似度推定部507、領域統合部508を有している。これらの機能の詳細な説明については、図20等を用いて後述する。画像認識装置20は、類似度を利用して小領域を統合してからクラス識別を行うことで、小領域のみで識別する場合に比べて、ロバスト性を向上させることができる。
図20は、画像認識装置20が識別対象画像を領域分割し、領域間の類似度を基に分割領域を統合し、その各統合領域のクラスを識別する処理の一例を示すフローチャートである。
S510の処理は、S210の処理と同様であるため説明を省略する。
S520の処理は、S220の処理と同様であるため説明を省略する。
S530で、類似度推定部507は、式21で定義されるような領域間の類似度を求める。類似度推定部507は、推定した類似度を領域統合部508に送信する。
S540で、領域統合部508は、S530で推定された領域間の類似度に基づいて、S520で生成(分割)された隣接する小領域を統合する。領域統合部508による領域統合の一例を図21に示す。図21は、領域分割及び領域統合の一例を示す図である。
領域統合部508は、識別対象画像100の小領域101のうち隣接していて、かつ、類似度が予め定められた閾値よりも高い小領域同士を統合する。図21の(c)には、統合された統合領域102が示されている。より具体的にいうと、領域統合部508は、壁や空の領域が小領域に分割されてしまった場合に、小領域中の距離値の平均や分散を利用して統合することができる。領域統合部508は、小領域のうち隣接している領域同士の類似度を算出して、その類似度の値が予め定められた閾値より大きい場合に統合する。領域統合部508は、統合した統合領域の情報(以下、単に統合領域という)を識別部A230に送信する。
S550で、存在確率分布推定部502は、S540で統合された統合領域の存在確率を推定する。推定方法は実施形態2と同様であるため、説明を省略する。
S560で、識別部504は、S550で推定された存在確率分布を利用して、各統合領域のクラスを識別する。推定方法は実施形態2と同様であるため、説明を省略する。
以上、本実施形態によれば、画像認識装置20は、撮影情報によって推定される存在確率分布の他に、類似度を利用して小領域を統合することで、領域分割精度をより向上させることができる。
<実施形態5>
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、シーン推定を行いそのシーン推定結果(シーン情報)も用いて各クラスの存在確率を推定する。ここで、シーンとは、屋外、夜景、風景、ポートレートといった撮影シーンでもよいし、オフィス、雪山、海といった撮影されている場面を表すシーンでもよい。
図22は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
図22に示される画像認識装置20の機能構成は、図5に示される機能構成に加えて、更に、シーン推定部509、記憶部としてシーン推定用辞書保持部510を有している。これらの機能の詳細な説明については、図23等を用いて後述する。また、画像認識装置20は、物体検出結果も用いて各クラスの存在確率を推定することもできる。画像認識装置20が物体検出、特に顔検出、人体検出の結果を用いて各クラスの存在確率を推定する方法についても後述する。
図23は、本実施形態における画像認識装置20がシーン推定結果を利用して、領域分割及び各領域のクラス識別をする際の処理の一例を示すフローチャートである。
S610の処理は、S110の処理と同様であるため説明を省略する。
S620で、シーン推定部509は、画像情報及び撮影情報の少なくとも1つを用いて識別対象画像のシーンを推定する。ここで、識別器を用いたシーン推定方法について説明する。より具体的には、Bag−of−words手法を用いたSVMを利用した手法について説明する。Bag−of−words手法とは、特徴量をVisualWord化して、その各VisualWordが画像中にどれくらい表れるかという頻度ヒストグラムを識別器で学習して特徴量とする手法である。
VisualWord化は、例えば、kmeans等によって行われる。VisualWord化する特徴量には、画像情報又は撮影情報を用いればよい。例えば、画像情報なら画像からグリッド状に抽出したSIFT特徴量や、撮影情報なら各測距点で得られた距離値等を利用する。両方の情報を利用する場合には、各情報から得ることができる特徴量を頻度ヒストグラム化して、そのヒストグラムを連結して特徴量として識別器で学習すればよい。また、シーン推定部509は、GPSや撮影日時等の撮影情報を用いる場合はまず、それらの撮影情報によって識別器を選択して、選択した識別器によってシーンを識別してもよい。それによって、シーン推定部509は、GPSや撮影日時に対応したシーンを識別することができる。
識別器の学習データは画像に対して、定義したシーンのうち1つのシーン名が付与されているデータを用意すればよい。シーン推定部509は、認識の際、シーン推定の際に1つのシーンに決定してもよいが、1つのシーンに決定する必要はなく、本実施形態では定義した各シーンの尤度を推定する。シーン数をNSceneとすると、シーン推定部509は、各シーンの尤度を要素とする1×NSceneの行列になるシーン尤度行列を出力する。シーン推定部509は、推定結果であるシーン尤度行列の情報(以下、単にシーン尤度行列という)を存在確率分布推定部502に送信する。
S630で、存在確率分布推定部502は、S620で推定されたシーン推定結果及び撮影情報を利用して各クラスの存在確率分布を推定する。本実施形態では、撮影情報をPhkとおく。kは撮影情報を表すインデックスである。存在確率分布推定部502は、S610で入力された撮影情報Phk(x,y)に基づいて識別対象画像の所定の位置毎に各クラスの存在確率を推定する。本実施形態において、各画素の位置に対応した各クラスの存在確率をPc(x、y)とおく。ここで、cはクラスカテゴリーを表すインデックスである。
本実施形態では、実施形態1と同様に撮影情報を入力として、出力を各クラスの存在確率とする設定関数gcを予め学習しておく。そのため、各画素の位置に対応した各クラスの存在確率Pc(x、y)は、以下の式26によって推定される。
Figure 0006332937
ここで、Pc(Sc)とは、S620で推定されたシーン尤度行列から求められるクラスcの存在確率である。例えば、シーン推定結果において"屋外"の尤度が他に比べて高いとする。その場合、skyカテゴリーの存在確率が他の存在確率よりも高くなる。そのため、予め学習の際に各シーンの学習画像を構成している各クラスカテゴリーの頻度を集計しておく必要がある。より具体的にいうと、各シーンの学習画像群の各クラスカテゴリーの画素数を集計して頻度を求めておけばよい。各クラスの存在確率Pc(x、y)は、以下の式27のように定義してもよい。
Figure 0006332937
本実施形態においてPc(Sc)は、学習された各シーンのクラスカテゴリーcの尤度と、各シーン確率との積和により求められる。学習データとしては実施形態1と同様に図7のような各画素のクラスカテゴリーが定義されているデータを用意すればよいが、加えて対象画像50のシーン名を定義しておく必要がある。
以上により、存在確率分布推定部502は、識別対象画像の所定の位置毎に各クラスの存在確率分布を推定することができる。
S640の処理は、S130の処理と同様であるため説明を省略する。
以上の処理により、画像認識装置20は、シーン推定結果も考慮して推定した各クラスの存在確率を利用することで領域分割精度を向上させることができる。
また、シーン推定部509の他に物体検出器を利用して各クラスの存在確率を推定してもよい。
その場合における画像認識装置20の機能構成は、図24のようになる。図24は、物体検出器を利用して各クラスの存在確率を推定する画像認識装置20の機能構成等の一例を示す図である。図24に示される画像認識装置20の機能構成は、図22に示される機能構成に加えて、更に、物体検出部511、記憶部として物体検出用辞書保持部512を有している。
図25は、図24に示される機能構成を有する画像認識装置20の処理の一例を示すフローチャートである。
S710及びS720の処理は、S610及びS620の処理と同様であるため説明を省略する。また、S750の処理は、S640の処理と同様であるため説明を省略する。
S730で、物体検出部511は、識別対象画像中の物体検出を行う。本実施形態では、図26の(b)、図26の(c)に示すような人体検出及び顔検出を利用する例について説明するが、対象物を予め設定して識別器を学習することができるものであれば他のものであってもよい。図26は、物体検出の一例を示す図である。
各物体検出器の学習方法については説明を省略するが、例えば、非特許文献4に開示されているようなDeformablePartsModelというモデルを定義した物体検出器を用いればよい。
S740で、存在確率分布推定部502は、S720及びS730において推定されたシーン推定結果、物体検出結果(検出情報)及び撮影情報を利用して各クラスの存在確率分布を推定する。存在確率分布推定部502は、設定関数gcを利用すれば、各画素の位置に対応した各クラスの存在確率Pc(x、y)を、以下の式28又は式29によって推定することができる。
Figure 0006332937
Figure 0006332937
式28又は式29において、Pc(O1)、Pc(O2)は、S730において推定された物体検出結果から求められるクラスカテゴリーの存在確率である。
本実施形態のように人体検出結果、顔検出結果を利用する場合、例えば、人物クラスカテゴリーの存在確率が他のクラスカテゴリーの存在確率に比べて高くなる。人体検出結果による人物クラスカテゴリーの存在確率をPc=body(Obody)とおく。また、人物クラスカテゴリー以外のクラスの存在確率をPcbody(Obody)とおく。例えば、図26の(b)のように人体検出結果が矩形領域で抽出される場合は、矩形領域43内のPc=body(Obody)及びPcbody(Obody)は、式30、式31のように表される。
Figure 0006332937
Figure 0006332937
ここで、Pr(body)には、人体検出器によるスコアを用いる。また、矩形領域43以外のPc=body(Obody)及びPcbody(Obody)は、式32のように表される。
Figure 0006332937
また、顔検出結果による人物クラスカテゴリーの存在確率をPc=body(Oface)とおく。また、人物クラスカテゴリー以外のクラスの存在確率をPcbody(Oface)とおく。例えば、図26の(c)のように人体検出結果が矩形領域で抽出される場合は、矩形領域44内のPc=body(Oface)及びPcbody(Oface)は、式33、式34のように表される。
Figure 0006332937
Figure 0006332937
ここで、Pr(face)には、顔検出器によるスコアが用いられる。また、矩形領域44以外のPc=body(Oface)及びPcbody(Oface)は、式35のように表される。
Figure 0006332937
他の物体検出器の結果も同様に計算される。
以上、本実施形態によれば、画像認識装置20は、撮影情報によって推定される存在確率分布の他に、シーン推定結果及び物体検出結果も考慮して推定した各クラスの存在確率を利用することで領域分割精度を向上させることができる。
なお、実施形態2と同様に、画像認識装置20は、先に領域分割を行ってから、各小領域におけるクラス識別を行うようにしてもよい。また、実施形態3、実施形態4と同様に、画像認識装置20は、類似度推定部を有していてもよく、類似度推定部によって推定された類似度を用いて小領域を統合したり、各領域におけるクラスを識別したりしてもよい。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、画像認識装置20は、画像の領域毎に被写体の分類に関するクラスを精度よく識別することができる。
以上、本発明の好ましい形態について詳述したが、本実施形態は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

Claims (15)

  1. 被写体の撮影画像が撮影された際の撮影情報を、前記撮影画像に含まれる複数の領域それぞれで取得する取得手段と、
    前記取得手段で取得された前記撮影情報に基づいて、前記被写体の撮影画像の所定の領域毎に、被写体の分類を示す複数のクラスのうち少なくとも1つのクラスについて、存在確率を推定する推定手段と、
    前記推定手段で推定された前記存在確率と、前記撮影画像に係る画像情報とに基づいて、前記所定の領域毎に前記クラスを識別する識別手段と、
    を有することを特徴とする画像処理装置。
  2. 前記取得手段は、前記撮影情報と共に前記撮影画像を取得し、
    前記推定手段は、前記取得手段で取得された前記撮影情報に基づいて、前記取得手段で取得された前記撮影画像の所定の領域毎に、前記存在確率を推定することを特徴とする請求項1に記載の画像処理装置。
  3. 前記推定手段は、前記所定の領域を前記撮影画像の画素として、前記撮影情報に基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記撮影画像を、少なくとも1つ以上の画素で構成される領域毎に分割する分割手段を更に有し、
    前記推定手段は、前記所定の領域を前記分割手段で分割された領域として、前記撮影情報に基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から3までのいずれか1項に記載の画像処理装置。
  5. 前記推定手段は、前記撮影情報と、前記存在確率との関係に関して予め記憶されている学習情報に基づいて、前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から4までのいずれか1項に記載の画像処理装置。
  6. 前記所定の領域の間の特徴の類似度を推定する類似度推定手段を更に有し、
    前記識別手段は、前記存在確率と、前記画像情報と、前記類似度推定手段で推定された前記類似度を示す類似度情報とに基づいて、前記所定の領域毎に前記クラスを識別することを特徴とする請求項1から5までのいずれか1項に記載の画像処理装置。
  7. 前記所定の領域の間の特徴の類似度を推定する類似度推定手段と、
    前記類似度推定手段で推定された類似度を示す類似度情報に基づいて、前記撮影画像における複数の前記所定の領域を統合する統合手段と、を更に有し、
    前記推定手段は、前記撮影情報に基づいて、前記統合手段で統合された領域毎に前記存在確率を推定することを特徴とする請求項1から6までのいずれか1項に記載の画像処理装置。
  8. 前記類似度推定手段は、前記撮影情報と、前記画像情報とのうち少なくとも何れか1つに基づいて、前記所定の領域の間の特徴の類似度を推定することを特徴とする請求項7に記載の画像処理装置。
  9. 撮影に係るシーンを推定するシーン推定手段を更に有し、
    前記推定手段は、前記撮影情報と、前記シーン推定手段で推定された前記シーンに係るシーン情報とに基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から8までのいずれか1項に記載の画像処理装置。
  10. 前記シーン推定手段は、前記撮影情報と、前記画像情報とのうち少なくとも何れか1つに基づいて、前記シーンを推定することを特徴とする請求項9に記載の画像処理装置。
  11. 前記撮影画像から予め設定された対象物を検出する検出手段を更に有し、
    前記推定手段は、前記撮影情報と、前記検出手段で検出された前記対象物に係る検出情報とに基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から8までのいずれか1項に記載の画像処理装置。
  12. 前記検出手段は、前記撮影画像から人物の人体及び顔を前記対象物として検出することを特徴とする請求項11に記載の画像処理装置。
  13. 前記取得手段は、撮影部で撮影された前記撮影画像と、前記撮影部が前記被写体を撮影した際に取得した前記撮影情報とを取得することを特徴とする請求項1から12までのいずれか1項に記載の画像処理装置。
  14. 被写体の撮影画像が撮影された際の撮影情報を、前記撮影画像に含まれる複数の領域それぞれで取得するステップと、
    前記取得された前記撮影情報に基づいて、前記被写体の撮影画像の所定の領域毎に、被写体の分類を示す複数のクラスのうち少なくとも1つのクラスについて、存在確率を推定するステップと、
    前記推定された前記存在確率と、前記撮影画像に係る画像情報とに基づいて、前記所定の領域毎に前記クラスを識別するステップと、
    を有することを特徴とする画像処理方法。
  15. コンピュータを、請求項1から13までのいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
JP2013220439A 2013-10-23 2013-10-23 画像処理装置、画像処理方法及びプログラム Active JP6332937B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013220439A JP6332937B2 (ja) 2013-10-23 2013-10-23 画像処理装置、画像処理方法及びプログラム
US14/520,841 US9378422B2 (en) 2013-10-23 2014-10-22 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013220439A JP6332937B2 (ja) 2013-10-23 2013-10-23 画像処理装置、画像処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2015082245A JP2015082245A (ja) 2015-04-27
JP2015082245A5 JP2015082245A5 (ja) 2016-11-17
JP6332937B2 true JP6332937B2 (ja) 2018-05-30

Family

ID=52825862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013220439A Active JP6332937B2 (ja) 2013-10-23 2013-10-23 画像処理装置、画像処理方法及びプログラム

Country Status (2)

Country Link
US (1) US9378422B2 (ja)
JP (1) JP6332937B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6126437B2 (ja) * 2013-03-29 2017-05-10 キヤノン株式会社 画像処理装置および画像処理方法
CN104346801B (zh) * 2013-08-02 2018-07-20 佳能株式会社 图像构图评估装置、信息处理装置及其方法
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
JP2016142658A (ja) * 2015-02-03 2016-08-08 オリンパス株式会社 状況把握装置、状況把握方法、及び状況把握のためのプログラム
JP6639113B2 (ja) * 2015-06-05 2020-02-05 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
CN105354307B (zh) * 2015-11-06 2021-01-15 腾讯科技(深圳)有限公司 一种图像内容识别方法及装置
JP6866095B2 (ja) * 2016-09-26 2021-04-28 キヤノン株式会社 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム
JP6855207B2 (ja) * 2016-10-07 2021-04-07 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP6830656B2 (ja) * 2017-03-30 2021-02-17 株式会社エクォス・リサーチ 対象物判定装置および対象物判定プログラム
JP7026456B2 (ja) 2017-07-05 2022-02-28 キヤノン株式会社 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム
CN112292671B (zh) * 2018-06-08 2023-08-25 日本电信电话株式会社 器件识别装置及器件识别方法
WO2020184006A1 (ja) * 2019-03-11 2020-09-17 Necソリューションイノベータ株式会社 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体
CN109949286A (zh) * 2019-03-12 2019-06-28 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111105418B (zh) * 2019-03-27 2023-07-11 上海洪朴信息科技有限公司 一种针对图像中矩形目标的高精度图像分割方法
US11417087B2 (en) * 2019-07-17 2022-08-16 Harris Geospatial Solutions, Inc. Image processing system including iteratively biased training model probability distribution function and related methods
CN110929737A (zh) * 2019-11-12 2020-03-27 东软睿驰汽车技术(沈阳)有限公司 一种标签生成方法及装置
WO2022255418A1 (ja) * 2021-06-02 2022-12-08 LeapMind株式会社 画像処理装置、画像処理システム、画像処理方法及びプログラム
CN115272737B (zh) * 2022-09-30 2023-10-20 佛山顺德和煦胶业科技有限公司 一种橡胶圈流痕识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002298138A (ja) * 2001-03-29 2002-10-11 Minolta Co Ltd 人物検出装置及びこの装置を備えた撮影装置
WO2004095374A1 (ja) * 2003-04-21 2004-11-04 Nec Corporation 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム
US7860320B2 (en) 2006-06-26 2010-12-28 Eastman Kodak Company Classifying image regions based on picture location
WO2010026170A1 (en) * 2008-09-02 2010-03-11 Ecole Polytechnique Federale De Lausanne (Epfl) Image annotation on portable devices
JP2011253354A (ja) 2010-06-02 2011-12-15 Sony Corp 画像処理装置および方法、並びにプログラム
JP2012004716A (ja) 2010-06-15 2012-01-05 Sanyo Electric Co Ltd 撮像装置及び電子機器
JP5615088B2 (ja) * 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
JPWO2012046426A1 (ja) * 2010-10-06 2014-02-24 日本電気株式会社 物体検出装置、物体検出方法および物体検出プログラム

Also Published As

Publication number Publication date
US20150109474A1 (en) 2015-04-23
JP2015082245A (ja) 2015-04-27
US9378422B2 (en) 2016-06-28

Similar Documents

Publication Publication Date Title
JP6332937B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6664163B2 (ja) 画像識別方法、画像識別装置及びプログラム
US9824294B2 (en) Saliency information acquisition device and saliency information acquisition method
US10523894B2 (en) Automated selection of keeper images from a burst photo captured set
JP6448325B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4772839B2 (ja) 画像識別方法および撮像装置
US9171230B2 (en) Object detection method, object detection apparatus and image pickup apparatus
US9652694B2 (en) Object detection method, object detection device, and image pickup device
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
US8737740B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US8819015B2 (en) Object identification apparatus and method for identifying object
JP6639113B2 (ja) 画像認識装置、画像認識方法及びプログラム
JP6351240B2 (ja) 画像処理装置、画像処理方法及びプログラム
US9367762B2 (en) Image processing device and method, and computer readable medium
KR101747216B1 (ko) 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체
US11176679B2 (en) Person segmentations for background replacements
JP2011053953A (ja) 画像処理装置及びプログラム
JP2009230751A (ja) 年令推定装置
JP2014041477A (ja) 画像認識装置及び画像認識方法
JP2005190400A (ja) 顔画像検出方法及び顔画像検出システム並びに顔画像検出プログラム
JP2018055195A (ja) 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム
US20160140748A1 (en) Automated animation for presentation of images
US20230177699A1 (en) Image processing method, image processing apparatus, and image processing system
JP2017084006A (ja) 画像処理装置およびその方法
JP6893812B2 (ja) 物体検出装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180424

R151 Written notification of patent or utility model registration

Ref document number: 6332937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151