JP6332937B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents
画像処理装置、画像処理方法及びプログラム Download PDFInfo
- Publication number
- JP6332937B2 JP6332937B2 JP2013220439A JP2013220439A JP6332937B2 JP 6332937 B2 JP6332937 B2 JP 6332937B2 JP 2013220439 A JP2013220439 A JP 2013220439A JP 2013220439 A JP2013220439 A JP 2013220439A JP 6332937 B2 JP6332937 B2 JP 6332937B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- class
- existence probability
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Description
非特許文献1に開示されている技術は、色情報、テクスチャ情報に基づいて入力画像をスーパーピクセルと呼ばれる小領域に分割する。そして、この技術は、分割した各小領域のクラスをRecursive−Neural−Networks(RNNs)と呼ばれる識別器を用いて識別する。
非特許文献2に開示されている技術は、条件付き確率場CRF(Conditional−Random−Field)を用いて、領域分割及びクラス識別を同時に行う。この技術は、各画素から抽出される特徴に基づくだけでなく、隣接する画素間のクラス共起まで考慮した上で各画素のクラスを識別する。この技術は、特徴が曖昧なため単体では認識の難しい画素に対して、周辺の画素との関係を考慮して識別する。より具体的にいうと、この技術は、各画素をノードとして、ノードのエネルギー(UnaryPotential)及びノード間のエネルギー(PairwisePotential)を定義して、それらの画像全体の総和を最小化する。そして、この技術は、エネルギーを最小化する各画素のクラスを識別する。
特許文献1に開示されている技術は、GPSによる場所情報を用い、地域に応じて画像中の領域(SP)の被写体のクラスの推定スコアを変える。例えば、赤道直下なら「"SNOW"はない」等である。また、この技術は、撮影時期、撮影した方角等も情報として使用したり、被写体のクラス間の空間的配置関係の共起のテーブルを場所情報によって変えたりしている。
特許文献2に開示されている技術は、画像を撮影する際に被写体距離情報も取得し、被写体距離情報に基づいて画像を領域分割する。そして、この技術は、分割領域毎にシーン判定を行い、その判定結果に基づいて分割領域毎に画像処理を実行する。
特許文献3に開示されている技術は、画像セグメンテーション等による任意のオブジェクト抽出結果と、撮影の際に得ることができる距離情報とに基づいて前景領域、背景領域を分割する。例えば、この技術は、所定のオブジェクトの距離よりも近い距離の画素を前景領域とし、それ以外を背景領域として分割する。
本発明は、画像の領域毎に被写体の分類に関するクラスを精度よく識別することを目的とする。
<実施形態1>
図1は、システム構成等の一例を示す図である。
図1のシステムでは、カメラ10と、画像認識装置20(画像処理装置)とが、ネットワークを介して接続されている。なお、画像認識装置20と、カメラ10とは、一体となっていてもよい。
カメラ10は、画像認識装置20による画像処理の対象となるシーン30を撮影する。
画像認識装置20は、カメラ10で撮像(撮影)されたシーン30の各領域におけるクラスを識別する。より具体的にいうと、画像認識装置20は、カメラ10で撮像された識別対象画像(撮影画像)と、カメラ10(撮影部)で前記識別対象画像が撮影された際に取得された撮影情報とに基づいて、前記識別対象画像の領域分割及びクラス識別を行う。ここでいうクラスとは、被写体の分類に関するクラスカテゴリー名である。クラスの詳細については、図2等を用いて後述する。また、撮影情報とは、カメラ10で撮影した際に取得される画像以外の情報のことであり、画像を出力するまでにカメラ10で取得される全ての情報を意味する。例えば、撮影情報は、フォーカスを合わせる際等に取得される距離情報や、シャッタースピード等の撮影におけるカメラパラメータを決定するための色温度及び測光値に関する情報、それらによって決定されたカメラパラメータ等の情報である。その他にも、撮影情報には、撮影日時情報、GPS情報、カメラ内の姿勢センサーによる天地判定に関する情報等がある。
本実施形態では、図2の(a)に示されるように撮影された識別対象画像100の各画素のクラスを識別する例について説明する。
ここでいうクラスとは、図2の(b)に示されるような各画素に対応して振られるsky、tree、car等といった被写体の分類に関するクラスカテゴリー名である。
図3は、識別対象画像における各画素の識別に関する概念の一例を示す図である。
各画素103にクラスが割り当てられることで、領域分割が実現される。図3の(b)は、図3の(a)の左上部分を拡大して示しており、各画素103がskyカテゴリーに割り当てられている様子を示している。
CPU401は、画像認識装置20全体を制御する。CPU401がROM403やHD404等に格納されたプログラムを実行することにより、後述する画像認識装置20の機能構成及び画像認識装置20に係るフローチャートの処理が実現される。
RAM402は、CPU401がプログラムを展開して実行するワークエリアとして機能する記憶領域である。
ROM403は、CPU401が実行するプログラム等を格納する記憶領域である。
HD404は、CPU401が処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域である。
操作部405は、ユーザによる入力操作を受け付ける。
表示部406は、画像認識装置20の情報を表示する。
ネットワークI/F407は、画像認識装置20と、外部の機器とを接続する。
撮影部500は、カメラ10に相当し、識別対象画像を取得する。
本実施形態の画像認識装置20は、入力部501、存在確率分布推定部502、識別部504を有する。更に、画像認識装置20は、記憶部として存在確率分布推定用辞書保持部503、認識用辞書保持部505を有している。なお、存在確率分布推定用辞書保持部503及び認識用辞書保持部505は、不揮発性の記憶装置として計算機20と接続された構成としてもよい。画像認識装置20が有するこれらの各機能の詳細については、図6等を用いて後述する。
S110で、入力部501は、撮影部500によって撮影された識別対象画像及びその際に得られた撮影情報を入力データとして受信する。
S120で、存在確率分布推定部502は、S110において入力された撮影情報に基づいて、存在確率分布推定用辞書保持部503に保持されている辞書(学習情報)を用いて識別対象画像の所定の位置毎に各クラスの存在確率分布を推定する。なお、存在確率分布は、各クラスの存在度合の分布に係る分布情報の一例である。存在確率分布推定部502は、推定した存在確率分布に関する情報(以下、単に存在確率分布という)を識別部504に送信する。辞書の詳細については、図8等を用いて後述する。
S130で、識別部504は、S110で入力された識別対象画像の各画素のクラスを識別する。識別部504は、前記識別の際に、認識用辞書保持部505に保持されている識別器と、S120で推定された存在確率分布とを用いて識別を行う。
S110で、入力部501は、図1で示したような対象のシーン30を捉えた識別対象画像及びその際に得られた撮影情報を撮影部500から取得する。この識別対象画像及び撮影情報は、予め取得されて外部装置に記憶されていてもよい。この場合、入力部501は、前記識別対象画像及び前記撮影情報を前記外部装置から取得する。
ここで、撮影情報の詳細について説明する。本実施形態では、撮影情報をPhkとおく。kは撮影情報を表すインデックスである。撮影情報の一例として、撮影部500がフォーカスを合わせる際に得ることができる距離情報について説明する。
図7は、識別対象画像40に対して被写体距離を得る測距点42の一例を示す図である。
測距点42は、測距枠41の各分割領域の中心点となる。同一分割領域内の中心点以外の領域では距離情報を得ることができないので、前記中心点以外の領域における距離は、中心点の距離と同じ値であるものとする。また、前記中心点以外の領域における距離は、線形補間等の補間方法で補間した値としてもよい。このようにして、識別対象画像40の各画素の位置に対応した被写体距離を得ることができる。ここでは、各画素の位置に対応した被写体距離をPh1(x,y)とおく。撮影部500は、その他の撮影情報Phk(x,y)も同様に計算しておく。なお、撮影部500は、色温度、測光値等のシーンに対応して一意に決定される情報に関して、全ての画素の位置で同じ値となるように設定しておく。本実施形態では撮影部500がフォーカスを合わせる際に得ることができる距離情報について説明したが、撮像センサーの他に、測距用のセンサーを取り付けて画像撮影の際に距離情報を得るようにしてもよい。
S120で、存在確率分布推定部502は、S110において入力された撮影情報Phk(x,y)に基づいて、識別対象画像の所定の位置毎に各クラスの存在確率分布を推定する。本実施形態では、各画素の位置に対応した各クラスの存在確率分布をPc(x、y)とおく。ここで、cはクラスカテゴリーを表すインデックスである。
本実施形態では、式1のように撮影情報を入力として、出力を各クラスの存在確率とする設定関数gcをクラス毎に予め学習しておき、記憶領域に記憶しておく。設定関数gcの学習方法に関しては後述する。なお、本実施形態では撮影情報を入力とする設定関数を一つ用いる例について説明するが、GPSや撮影日時等の撮影情報毎に設定関数を記憶領域に記憶しておいてもよい。そして、存在確率分布推定部502は、それらの撮影情報に対応する設定関数を選択して存在確率分布を推定するようにしてもよい。
各画素の位置に対応した各クラスの存在確率Pc(x、y)は以下の式1によって推定される。
画像認識装置20は、この設定関数gcを用いて存在確率を計算することによって、複数の撮影情報を反映したカテゴリーの存在確率を推定することができる。例えば、色温度、測光値が他の画素より高く、被写体距離が他の画素より遠い画素のskyカテゴリーの存在確率は高くなる。その他、他の領域に比べて著しく暗い領域は、逆光領域である可能性が高くなるため、skyカテゴリーではなく人体等の主被写体である確率が高くなる。
本実施形態では、式5のように画像情報を入力として、出力を各クラスの事後確率とする識別器を用いる。ここで、各画素の位置に対応する画像情報、即ち、特徴量をF(I、x、y)、事後確率をPc|F=F(I,x,y)とおく。Iは識別対象画像である。また、画像情報を入力とし、出力を尤度とする関数(識別器)をLc(F(I、x、y))とおけば、式5のようになる。
図8は、本実施形態における学習装置300の機能構成の一例を示す図である。なお、学習装置300のハードウェア構成は、図4と同様とする。ここでは、図5の画像認識装置20とは別に学習装置300が構成されているものとするが、画像認識装置20内に学習装置300が構成されていてもよい。即ち、CPU401がROM403やHD404等に格納されたプログラムを実行することにより、学習装置300の機能構成及び学習装置300に係るフローチャートの処理が実現されるようにしてもよい。
学習装置300は、学習データ設定部301、存在確率分布推定部302、認識用辞書学習部303を有する。更に、学習装置300は、記憶部として学習用データ保持部304、存在確率分布推定用辞書保持部503、認識用辞書保持部505を有している。学習装置300が有するこれらの各機能の詳細については、図9等を用いて後述する。
S910で、学習データ設定部301は、学習に用いる学習データを設定する。本実施形態では学習データとして、図10に示されるような画像50と、その各画素のクラス名が定義されているグランドトゥルース51とがあればよい。また、学習データの各画素のカメラ情報が必要となる。S910で、学習データ設定部301は、学習用データ保持部304に保持されている学習用データの中で学習に使用するデータを設定する。
S920で、存在確率分布推定部302は、S910において設定された学習データを用いて存在確率分布を推定する設定関数gcを学習する。存在確率分布推定部302は、設定関数gcを回帰学習によって得ることができる。回帰学習の手法としては、SVR(Support Vector Regression)や回帰木(Regression Tree)等、様々な手法があるが、何れの手法を用いてもよい。また、存在確率分布推定部302は、設定関数gcをテーブルとして設定してもよい。
図7の画像を例により具体的に説明する。図7のように各測距点の距離値が得られている場合、距離値が無限遠の場合は距離値が無限遠でない場合と比べてskyカテゴリーの存在確率が高くなる。また、距離値が他の測距点に比べて近い場合は、遠い場合と比べてbodyカテゴリーの存在確率が高くなる。それ以外の値の場合、skyカテゴリー以外のカテゴリーの存在確率が同程度となる。学習装置300は、以上のような存在確率を撮影情報から推定する設定関数を学習する。
識別器の学習手法としては、SVM(Support Vector Machine)やRandomized Trees等の手法を用いればよい。識別器に用いる画像情報(特徴量)としては、各画素の色特徴やテクスチャ特徴等を用いればよい。例えば、RGB、HSV、Lab、YCbCr色空間の各成分、Gabor filter、LoGのフィルタ応答を用いるとする。色特徴は、4(色空間)×3(成分)の12次元となる。また、フィルタ応答に関してはGabor filter、LoGフィルタの数に対応した次元数となる。識別器の学習の際、学習装置300は、クラス毎に学習データの中から正事例と、負事例とを選択して、その正事例、負事例を識別する識別器を学習する。
本実施形態における画像認識装置20は、実施形態1とは異なり、上述したクラスの識別を画素毎に行うのではなく、識別対象画像を予め小領域に分割しておき、前記分割した小領域毎にクラスの識別を行う。画像認識装置20は、予め小領域に分割してから識別を行うことで、局所的なクラスカテゴリーの誤認識を防ぐことができる。そのために、画像認識装置20は、撮影情報又はその撮影情報を用いて推定する各クラスの存在確率分布を小領域毎に推定する。例えば、画像認識装置20は、撮影情報により距離情報が得られている場合、小領域毎の距離の変化を見ることができるため、大きな変化を捉えることができる。より具体的にいうと、画像認識装置20は、図11に示すように、撮影された識別対象画像100の小領域101のクラスを識別する。図11は、識別対象画像の一例を示す図である。ここで、小領域とは、画像中における1画素以上であって所定値以下の画素で構成される領域を意味する。小領域の作成方法(分割方法)については、図13等を用いて後述する。
図12は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
本実施形態における画像認識装置20は、図5に示した機能構成に加えて領域分割部506を有している。領域分割部506の詳細な説明については、図13等を用いて後述する。その他の構成については、図5と同様であるため説明を省略する。
S210の処理は、S110の処理と同様であるため説明を省略する。
S220で、領域分割部506は、S110において入力された識別対象画像を小領域に分割する。例えば、領域分割部506は、非特許文献3に記載されているようなSP(スーパーピクセル)と呼ばれる小領域に分割する。そして、領域分割部506は、領域分割の結果を識別部504に送信する。
S230で、存在確率分布推定部502は、S120の処理とほぼ同様の処理を行うが、S220で分割された小領域毎にクラスを推定する。より具体的にいうと、存在確率分布推定部502は、領域内の各画素に対して、式7のように存在確率を算出して領域内の画素数で平均化すればよい。式7のPc(x、y)は、実施形態1と同様に式1又は式2から算出される。Rは小領域を示しており、iはある1つの小領域を表すインデックスである。また、Eは平均を示す。
識別部504は、識別器によって求められた尤度と、各小領域の存在確率とから、式10にあるように各小領域で最も高い事後確率のクラスを割り当てることで、各小領域のクラス識別を実現する。
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、画像情報及び撮影情報の少なくとも1つを用いて各画素間の特徴量の類似度を求め、クラスの識別の際に前記類似度を示す類似度情報を利用する。これにより、画像認識装置20は、更に領域分割及びクラス識別精度を向上させることができる。
画像認識装置20は、類似度を利用することにより、対象とする画素に対して予め定められた近傍の画素の情報も考慮して識別を行うことができるため、領域分割及びクラス識別精度が向上する。本実施形態では実施形態1と同様に画素単位で識別を行う手法に関して説明を行うが、実施形態2と同様に予め領域分割された小領域毎に識別するようにしてもよい。
図14は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
本実施形態における画像認識装置20は、図5に示した機能構成に加えて類似度推定部507を有している。類似度推定部507の詳細については、図15等を用いて後述する。その他の構成については、図5と同様であるため説明は省略する。
S310の処理は、S110の処理と同様であるため説明を省略する。
S320の処理は、S120の処理と同様であるため説明を省略する。
S330で、類似度推定部507は、画像情報及び撮影情報の少なくとも1つを用いて各画素間の類似度を算出する。類似度推定部507は、推定した類似度に関する情報(以下、単に類似度という)を識別部504に送信する。S330の処理の詳細については後述する。S330で、類似度推定部507が画像情報のみを利用する場合には、入力部501から画像情報のみが入力され、撮影情報のみを利用する場合には撮影情報のみが入力され、両方を利用する場合には両方の情報が入力される。
次に、図15に示したフローチャートに従って、S330の処理及びS340の処理についてより具体的に説明する。
S330で、類似度推定部507は、画像情報及び撮影情報の少なくとも1つを用いて各画素間の類似度を算出するが、本実施形態では類似度をGaussianカーネルで表現する。類似度推定部507が類似度を計算する画素の位置をxi、xjとおき、それぞれの画素の位置で得ることができる画像情報又は撮影情報(特徴量)をfi、fjとおき、画素間の類似度をS(fi、fj)とおけば、式13のように定義される。
条件付き確率場とは、構造化データのラベリング及びセグメンテーションを扱うことのできる確率的なフレームワークである。条件付き確率場は、要素(ノード)自体のポテンシャル(Unaryポテンシャル)と、要素(ノード)間の関係の度合を表すポテンシャル(Pairwiseポテンシャル)との和の最適化を行う。ここで、観測データをX={x1、x2、・・・、xM}とする。Mは全観測データ数であり、本実施形態の場合、画素数に対応する。関連するクラスラベルをY={y1、y2、・・・、yM}とする。Yiの取り得る値をC={c1、c2、・・・、cN}とする。Nはクラスカテゴリー数を表している。条件付き確率場(X,Y)は式16のようにギブス分布で表される。
次に、k(fi、fj)は特徴量で定義される関数であり、式13から式15までで定義した類似度を用いて、式22のように表される。
撮影情報を考慮する場合のk(fi、fj)は式23のように表せる。
以上の処理により、識別部504は、各画素をノードとした条件付き確率場を定義してMAP推定を行うことで識別対象画像の全画素のクラスを識別し、領域分割することができる。
また、本実施形態ではノードを画素単位に設定して説明を行ったが、予め領域分割を行い、各領域をノードとして条件付き確率場を用いて各領域のクラスを識別するようにしてもよい。その場合、図17に示されているような機能構成を有する画像認識装置20を用いる。図17は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。図17に示される画像認識装置20の機能構成は、図14に示される機能構成に加えて、更に領域分割部506を有している。
図18における各処理については上述したため詳細な説明は省略するが、S440で、類似度推定部507は、画素間の類似度を求めるのではなく、領域間の類似度を求める。ここでは、各領域の撮影情報から得ることができる特徴量のヒストグラムの類似度を基に類似度推定部507が領域間の類似度を求める手法について説明する。
それぞれの領域をRi、Rj、領域間の類似度をS(Ri、Rj)とおく。そして、領域Riの撮影情報Phk(x、y)(ここでのx、yは領域Riに含まれる画素を示している)のヒストグラムをhist(Ri、l)とおき、ビン数をL、あるビンを表すインデックスをl(l=1、2、・・・L)とおく。その場合、領域間の類似度S(Ri、Rj)は以下の式25のように表される。
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、画像情報及び撮影情報の少なくとも1つを用いて各領域間の類似度を求め、類似度を利用して分割された小領域同士を統合する。そして、画像認識装置20は、統合した統合領域のクラスを、識別器を用いて識別する。
図19は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
図19に示される画像認識装置20の機能構成は、図5に示される機能構成に加えて、更に、領域分割部506、類似度推定部507、領域統合部508を有している。これらの機能の詳細な説明については、図20等を用いて後述する。画像認識装置20は、類似度を利用して小領域を統合してからクラス識別を行うことで、小領域のみで識別する場合に比べて、ロバスト性を向上させることができる。
図20は、画像認識装置20が識別対象画像を領域分割し、領域間の類似度を基に分割領域を統合し、その各統合領域のクラスを識別する処理の一例を示すフローチャートである。
S510の処理は、S210の処理と同様であるため説明を省略する。
S520の処理は、S220の処理と同様であるため説明を省略する。
S530で、類似度推定部507は、式21で定義されるような領域間の類似度を求める。類似度推定部507は、推定した類似度を領域統合部508に送信する。
領域統合部508は、識別対象画像100の小領域101のうち隣接していて、かつ、類似度が予め定められた閾値よりも高い小領域同士を統合する。図21の(c)には、統合された統合領域102が示されている。より具体的にいうと、領域統合部508は、壁や空の領域が小領域に分割されてしまった場合に、小領域中の距離値の平均や分散を利用して統合することができる。領域統合部508は、小領域のうち隣接している領域同士の類似度を算出して、その類似度の値が予め定められた閾値より大きい場合に統合する。領域統合部508は、統合した統合領域の情報(以下、単に統合領域という)を識別部A230に送信する。
S550で、存在確率分布推定部502は、S540で統合された統合領域の存在確率を推定する。推定方法は実施形態2と同様であるため、説明を省略する。
S560で、識別部504は、S550で推定された存在確率分布を利用して、各統合領域のクラスを識別する。推定方法は実施形態2と同様であるため、説明を省略する。
本実施形態における画像認識装置20は、撮影情報を用いて各クラスの存在確率分布を推定するだけではなく、シーン推定を行いそのシーン推定結果(シーン情報)も用いて各クラスの存在確率を推定する。ここで、シーンとは、屋外、夜景、風景、ポートレートといった撮影シーンでもよいし、オフィス、雪山、海といった撮影されている場面を表すシーンでもよい。
図22は、本実施形態における画像認識装置20の機能構成等の一例を示す図である。
図22に示される画像認識装置20の機能構成は、図5に示される機能構成に加えて、更に、シーン推定部509、記憶部としてシーン推定用辞書保持部510を有している。これらの機能の詳細な説明については、図23等を用いて後述する。また、画像認識装置20は、物体検出結果も用いて各クラスの存在確率を推定することもできる。画像認識装置20が物体検出、特に顔検出、人体検出の結果を用いて各クラスの存在確率を推定する方法についても後述する。
S610の処理は、S110の処理と同様であるため説明を省略する。
S620で、シーン推定部509は、画像情報及び撮影情報の少なくとも1つを用いて識別対象画像のシーンを推定する。ここで、識別器を用いたシーン推定方法について説明する。より具体的には、Bag−of−words手法を用いたSVMを利用した手法について説明する。Bag−of−words手法とは、特徴量をVisualWord化して、その各VisualWordが画像中にどれくらい表れるかという頻度ヒストグラムを識別器で学習して特徴量とする手法である。
識別器の学習データは画像に対して、定義したシーンのうち1つのシーン名が付与されているデータを用意すればよい。シーン推定部509は、認識の際、シーン推定の際に1つのシーンに決定してもよいが、1つのシーンに決定する必要はなく、本実施形態では定義した各シーンの尤度を推定する。シーン数をNSceneとすると、シーン推定部509は、各シーンの尤度を要素とする1×NSceneの行列になるシーン尤度行列を出力する。シーン推定部509は、推定結果であるシーン尤度行列の情報(以下、単にシーン尤度行列という)を存在確率分布推定部502に送信する。
本実施形態では、実施形態1と同様に撮影情報を入力として、出力を各クラスの存在確率とする設定関数gcを予め学習しておく。そのため、各画素の位置に対応した各クラスの存在確率Pc(x、y)は、以下の式26によって推定される。
以上により、存在確率分布推定部502は、識別対象画像の所定の位置毎に各クラスの存在確率分布を推定することができる。
S640の処理は、S130の処理と同様であるため説明を省略する。
以上の処理により、画像認識装置20は、シーン推定結果も考慮して推定した各クラスの存在確率を利用することで領域分割精度を向上させることができる。
その場合における画像認識装置20の機能構成は、図24のようになる。図24は、物体検出器を利用して各クラスの存在確率を推定する画像認識装置20の機能構成等の一例を示す図である。図24に示される画像認識装置20の機能構成は、図22に示される機能構成に加えて、更に、物体検出部511、記憶部として物体検出用辞書保持部512を有している。
図25は、図24に示される機能構成を有する画像認識装置20の処理の一例を示すフローチャートである。
S710及びS720の処理は、S610及びS620の処理と同様であるため説明を省略する。また、S750の処理は、S640の処理と同様であるため説明を省略する。
S730で、物体検出部511は、識別対象画像中の物体検出を行う。本実施形態では、図26の(b)、図26の(c)に示すような人体検出及び顔検出を利用する例について説明するが、対象物を予め設定して識別器を学習することができるものであれば他のものであってもよい。図26は、物体検出の一例を示す図である。
各物体検出器の学習方法については説明を省略するが、例えば、非特許文献4に開示されているようなDeformablePartsModelというモデルを定義した物体検出器を用いればよい。
なお、実施形態2と同様に、画像認識装置20は、先に領域分割を行ってから、各小領域におけるクラス識別を行うようにしてもよい。また、実施形態3、実施形態4と同様に、画像認識装置20は、類似度推定部を有していてもよく、類似度推定部によって推定された類似度を用いて小領域を統合したり、各領域におけるクラスを識別したりしてもよい。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (15)
- 被写体の撮影画像が撮影された際の撮影情報を、前記撮影画像に含まれる複数の領域それぞれで取得する取得手段と、
前記取得手段で取得された前記撮影情報に基づいて、前記被写体の撮影画像の所定の領域毎に、被写体の分類を示す複数のクラスのうち少なくとも1つのクラスについて、存在確率を推定する推定手段と、
前記推定手段で推定された前記存在確率と、前記撮影画像に係る画像情報とに基づいて、前記所定の領域毎に前記クラスを識別する識別手段と、
を有することを特徴とする画像処理装置。 - 前記取得手段は、前記撮影情報と共に前記撮影画像を取得し、
前記推定手段は、前記取得手段で取得された前記撮影情報に基づいて、前記取得手段で取得された前記撮影画像の所定の領域毎に、前記存在確率を推定することを特徴とする請求項1に記載の画像処理装置。 - 前記推定手段は、前記所定の領域を前記撮影画像の画素として、前記撮影情報に基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1又は2に記載の画像処理装置。
- 前記撮影画像を、少なくとも1つ以上の画素で構成される領域毎に分割する分割手段を更に有し、
前記推定手段は、前記所定の領域を前記分割手段で分割された領域として、前記撮影情報に基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から3までのいずれか1項に記載の画像処理装置。 - 前記推定手段は、前記撮影情報と、前記存在確率との関係に関して予め記憶されている学習情報に基づいて、前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から4までのいずれか1項に記載の画像処理装置。
- 前記所定の領域の間の特徴の類似度を推定する類似度推定手段を更に有し、
前記識別手段は、前記存在確率と、前記画像情報と、前記類似度推定手段で推定された前記類似度を示す類似度情報とに基づいて、前記所定の領域毎に前記クラスを識別することを特徴とする請求項1から5までのいずれか1項に記載の画像処理装置。 - 前記所定の領域の間の特徴の類似度を推定する類似度推定手段と、
前記類似度推定手段で推定された類似度を示す類似度情報に基づいて、前記撮影画像における複数の前記所定の領域を統合する統合手段と、を更に有し、
前記推定手段は、前記撮影情報に基づいて、前記統合手段で統合された領域毎に前記存在確率を推定することを特徴とする請求項1から6までのいずれか1項に記載の画像処理装置。 - 前記類似度推定手段は、前記撮影情報と、前記画像情報とのうち少なくとも何れか1つに基づいて、前記所定の領域の間の特徴の類似度を推定することを特徴とする請求項7に記載の画像処理装置。
- 撮影に係るシーンを推定するシーン推定手段を更に有し、
前記推定手段は、前記撮影情報と、前記シーン推定手段で推定された前記シーンに係るシーン情報とに基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から8までのいずれか1項に記載の画像処理装置。 - 前記シーン推定手段は、前記撮影情報と、前記画像情報とのうち少なくとも何れか1つに基づいて、前記シーンを推定することを特徴とする請求項9に記載の画像処理装置。
- 前記撮影画像から予め設定された対象物を検出する検出手段を更に有し、
前記推定手段は、前記撮影情報と、前記検出手段で検出された前記対象物に係る検出情報とに基づいて前記所定の領域毎に前記存在確率を推定することを特徴とする請求項1から8までのいずれか1項に記載の画像処理装置。 - 前記検出手段は、前記撮影画像から人物の人体及び顔を前記対象物として検出することを特徴とする請求項11に記載の画像処理装置。
- 前記取得手段は、撮影部で撮影された前記撮影画像と、前記撮影部が前記被写体を撮影した際に取得した前記撮影情報とを取得することを特徴とする請求項1から12までのいずれか1項に記載の画像処理装置。
- 被写体の撮影画像が撮影された際の撮影情報を、前記撮影画像に含まれる複数の領域それぞれで取得するステップと、
前記取得された前記撮影情報に基づいて、前記被写体の撮影画像の所定の領域毎に、被写体の分類を示す複数のクラスのうち少なくとも1つのクラスについて、存在確率を推定するステップと、
前記推定された前記存在確率と、前記撮影画像に係る画像情報とに基づいて、前記所定の領域毎に前記クラスを識別するステップと、
を有することを特徴とする画像処理方法。 - コンピュータを、請求項1から13までのいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013220439A JP6332937B2 (ja) | 2013-10-23 | 2013-10-23 | 画像処理装置、画像処理方法及びプログラム |
US14/520,841 US9378422B2 (en) | 2013-10-23 | 2014-10-22 | Image processing apparatus, image processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013220439A JP6332937B2 (ja) | 2013-10-23 | 2013-10-23 | 画像処理装置、画像処理方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015082245A JP2015082245A (ja) | 2015-04-27 |
JP2015082245A5 JP2015082245A5 (ja) | 2016-11-17 |
JP6332937B2 true JP6332937B2 (ja) | 2018-05-30 |
Family
ID=52825862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013220439A Active JP6332937B2 (ja) | 2013-10-23 | 2013-10-23 | 画像処理装置、画像処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9378422B2 (ja) |
JP (1) | JP6332937B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6126437B2 (ja) * | 2013-03-29 | 2017-05-10 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
CN104346801B (zh) * | 2013-08-02 | 2018-07-20 | 佳能株式会社 | 图像构图评估装置、信息处理装置及其方法 |
DE102014113817A1 (de) * | 2013-10-15 | 2015-04-16 | Electronics And Telecommunications Research Institute | Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild |
JP2016142658A (ja) * | 2015-02-03 | 2016-08-08 | オリンパス株式会社 | 状況把握装置、状況把握方法、及び状況把握のためのプログラム |
JP6639113B2 (ja) * | 2015-06-05 | 2020-02-05 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
CN105354307B (zh) * | 2015-11-06 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
JP6866095B2 (ja) * | 2016-09-26 | 2021-04-28 | キヤノン株式会社 | 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム |
JP6855207B2 (ja) * | 2016-10-07 | 2021-04-07 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP6830656B2 (ja) * | 2017-03-30 | 2021-02-17 | 株式会社エクォス・リサーチ | 対象物判定装置および対象物判定プログラム |
JP7026456B2 (ja) | 2017-07-05 | 2022-02-28 | キヤノン株式会社 | 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム |
CN112292671B (zh) * | 2018-06-08 | 2023-08-25 | 日本电信电话株式会社 | 器件识别装置及器件识别方法 |
WO2020184006A1 (ja) * | 2019-03-11 | 2020-09-17 | Necソリューションイノベータ株式会社 | 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体 |
CN109949286A (zh) * | 2019-03-12 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111105418B (zh) * | 2019-03-27 | 2023-07-11 | 上海洪朴信息科技有限公司 | 一种针对图像中矩形目标的高精度图像分割方法 |
US11417087B2 (en) * | 2019-07-17 | 2022-08-16 | Harris Geospatial Solutions, Inc. | Image processing system including iteratively biased training model probability distribution function and related methods |
CN110929737A (zh) * | 2019-11-12 | 2020-03-27 | 东软睿驰汽车技术(沈阳)有限公司 | 一种标签生成方法及装置 |
WO2022255418A1 (ja) * | 2021-06-02 | 2022-12-08 | LeapMind株式会社 | 画像処理装置、画像処理システム、画像処理方法及びプログラム |
CN115272737B (zh) * | 2022-09-30 | 2023-10-20 | 佛山顺德和煦胶业科技有限公司 | 一种橡胶圈流痕识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002298138A (ja) * | 2001-03-29 | 2002-10-11 | Minolta Co Ltd | 人物検出装置及びこの装置を備えた撮影装置 |
WO2004095374A1 (ja) * | 2003-04-21 | 2004-11-04 | Nec Corporation | 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム |
US7860320B2 (en) | 2006-06-26 | 2010-12-28 | Eastman Kodak Company | Classifying image regions based on picture location |
WO2010026170A1 (en) * | 2008-09-02 | 2010-03-11 | Ecole Polytechnique Federale De Lausanne (Epfl) | Image annotation on portable devices |
JP2011253354A (ja) | 2010-06-02 | 2011-12-15 | Sony Corp | 画像処理装置および方法、並びにプログラム |
JP2012004716A (ja) | 2010-06-15 | 2012-01-05 | Sanyo Electric Co Ltd | 撮像装置及び電子機器 |
JP5615088B2 (ja) * | 2010-08-18 | 2014-10-29 | キヤノン株式会社 | 画像処理装置及びその方法、プログラム、並びに撮像装置 |
JPWO2012046426A1 (ja) * | 2010-10-06 | 2014-02-24 | 日本電気株式会社 | 物体検出装置、物体検出方法および物体検出プログラム |
-
2013
- 2013-10-23 JP JP2013220439A patent/JP6332937B2/ja active Active
-
2014
- 2014-10-22 US US14/520,841 patent/US9378422B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150109474A1 (en) | 2015-04-23 |
JP2015082245A (ja) | 2015-04-27 |
US9378422B2 (en) | 2016-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6332937B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6664163B2 (ja) | 画像識別方法、画像識別装置及びプログラム | |
US9824294B2 (en) | Saliency information acquisition device and saliency information acquisition method | |
US10523894B2 (en) | Automated selection of keeper images from a burst photo captured set | |
JP6448325B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4772839B2 (ja) | 画像識別方法および撮像装置 | |
US9171230B2 (en) | Object detection method, object detection apparatus and image pickup apparatus | |
US9652694B2 (en) | Object detection method, object detection device, and image pickup device | |
US10216979B2 (en) | Image processing apparatus, image processing method, and storage medium to detect parts of an object | |
US8737740B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
US8819015B2 (en) | Object identification apparatus and method for identifying object | |
JP6639113B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
JP6351240B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
US9367762B2 (en) | Image processing device and method, and computer readable medium | |
KR101747216B1 (ko) | 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체 | |
US11176679B2 (en) | Person segmentations for background replacements | |
JP2011053953A (ja) | 画像処理装置及びプログラム | |
JP2009230751A (ja) | 年令推定装置 | |
JP2014041477A (ja) | 画像認識装置及び画像認識方法 | |
JP2005190400A (ja) | 顔画像検出方法及び顔画像検出システム並びに顔画像検出プログラム | |
JP2018055195A (ja) | 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム | |
US20160140748A1 (en) | Automated animation for presentation of images | |
US20230177699A1 (en) | Image processing method, image processing apparatus, and image processing system | |
JP2017084006A (ja) | 画像処理装置およびその方法 | |
JP6893812B2 (ja) | 物体検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180424 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6332937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |