JP2022019339A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2022019339A JP2022019339A JP2020123119A JP2020123119A JP2022019339A JP 2022019339 A JP2022019339 A JP 2022019339A JP 2020123119 A JP2020123119 A JP 2020123119A JP 2020123119 A JP2020123119 A JP 2020123119A JP 2022019339 A JP2022019339 A JP 2022019339A
- Authority
- JP
- Japan
- Prior art keywords
- image
- detected
- shielding
- shielded
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 51
- 238000003672 processing method Methods 0.000 title claims 3
- 238000000034 method Methods 0.000 claims description 71
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000013459 approach Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 9
- 230000036544 posture Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、被写体を追尾する技術に関する。 The present invention relates to a technique for tracking a subject.
画像内の特定の被写体を追尾するための技術としては、輝度や色情報を利用するものやテンプレートマッチングなどが存在する。近年、Deep Neural Network(以下DNNと省略)を利用した技術が、高精度な追尾技術として注目を集めている。 As a technique for tracking a specific subject in an image, there are techniques that utilize luminance and color information, template matching, and the like. In recent years, a technology using Deep Neural Network (hereinafter abbreviated as DNN) has been attracting attention as a highly accurate tracking technology.
非特許文献1は、画像内の特定の被写体を追尾するための方法の1つである。追尾対象が映った画像と、探索範囲となる画像を、重みが同一のConvolutional Neural Network(以下CNNと省略)にそれぞれ入力する。CNNから得られたそれぞれの特徴量同士の相互相関を算出することによって、探索範囲の画像中で追尾対象が存在する位置を特定するものである。このような追尾手法は追尾対象の位置を正確に同定できる一方、追尾対象に類似した物体が画面の上で重なるような場合に、誤った対象を追尾する失敗が発生し易い。
Non-Patent
これを回避するために特許文献1の手法に代表されるように、検出物体の領域の色特徴や奥行き情報からヒストグラムを作成し、その変化等を調べて物体が遮蔽されているか否かを判定する手法がある。
In order to avoid this, as typified by the method of
しかしながら、特許文献1に示される方法では、同じような姿勢の物体や外見的な特徴の類似した物体が画面上で重なると、色やテクスチャといった特徴量のヒストグラムに差異が出にくいため判定できないという課題がある。例えば、スポーツの集団競技等においては、狭い範囲に存在する複数の人物の服装や姿勢が同一になることも多く、異なる人物を同じ人物と見なして追尾する失敗が起こりうる。本発明は、このような課題に鑑みなされたものであり、外見的特徴や姿勢が類似した物体が近接する場合においても安定して追尾を継続することを目的とする。
However, in the method shown in
上記課題を解決する本発明にかかる情報処理装置は、画像から少なくとも1つ以上の物体を検出する情報処理装置であって、遮蔽する物体と遮蔽された物体との遮蔽関係を示す画像特徴を学習した学習済みモデルに基づいて、前記画像から検出された各物体について、前記画像から検出された他の物体との遮蔽関係を推定する推定手段と、前記推定手段によって推定された遮蔽関係に基づいて、前記画像から検出された各物体について、前記画像と異なる時刻に撮像された画像において検出された物体との対応関係を特定する特定手段と、を有する。 The information processing device according to the present invention that solves the above problems is an information processing device that detects at least one or more objects from an image, and learns image features showing a shielding relationship between a shielded object and a shielded object. Based on the learned model, the estimation means for estimating the shielding relationship of each object detected from the image with other objects detected from the image, and the shielding relationship estimated by the estimation means. For each object detected from the image, there is a specific means for specifying a correspondence relationship with the object detected in the image captured at a time different from the image.
本発明によれば、外見的特徴や姿勢が類似した物体が近接する場合においても安定して追尾を継続できる。 According to the present invention, tracking can be stably continued even when objects having similar appearance characteristics and postures are close to each other.
<実施形態1>
実施形態に係る情報処理装置を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするとして重ねての説明を省く。また、この実施の形態に掲載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
<
The information processing apparatus according to the embodiment will be described with reference to the drawings. It should be noted that the same operation is performed between the drawings with the same reference numeral, and the description thereof will be omitted. In addition, the components described in this embodiment are merely examples, and the scope of the present invention is not limited to them.
本実施形態では、動画もしくは連続撮影した静止画フレームから人物を検出し、追尾する機能について説明する。適用範囲は検出・追尾対象の物体のカテゴリを限定しないが、本実施形態1は対象を人物に限定する。本実施形態では、時間的に連続する画像毎に人物を検出し、連続する画像間でそれぞれどの人物がどの人物と同一人物であるかを対応付けることで、人物の追尾を実現する。本実施形態では特に、スポーツイベントなどの撮影を想定し、人物の服装や移動方向等が類似しており、高頻度で近接・交差するとする。このような場合、各画像における人物の位置または服装の色といった外見的な特徴が近い人物同士を対応付けるだけでは、誤った対応付けが発生しやすい。このような失敗をここでは誤マッチングと呼ぶ。 In this embodiment, a function of detecting and tracking a person from a moving image or a still image frame continuously shot will be described. The scope of application does not limit the category of the object to be detected / tracked, but the first embodiment limits the target to a person. In the present embodiment, a person is detected for each image that is continuous in time, and the tracking of the person is realized by associating which person is the same person as which person among the continuous images. In this embodiment, in particular, assuming shooting of a sporting event or the like, it is assumed that the clothes, movement directions, etc. of the person are similar, and the person approaches and intersects frequently. In such a case, erroneous correspondence is likely to occur only by associating people with similar external features such as the position of the person or the color of clothes in each image. Such a failure is called mismatching here.
本実施形態では撮影者から見て物体が重なっている時の、遮蔽関係のパターンを学習した学習済みモデルが出力する遮蔽に関する情報に着目する。学習済みモデルによって出力された遮蔽関係を、物体の対応関係の特定に併せて用いることで、手前にいる人物と奥にいる人物同士を対応付ける失敗を抑制し、追尾の精度を向上する。 In this embodiment, attention is paid to the information on the occlusion output by the trained model that has learned the occlusion-related patterns when the objects are overlapped from the viewpoint of the photographer. By using the shielding relationship output by the trained model together with the identification of the correspondence relationship of the objects, it is possible to suppress the failure of associating the person in the foreground with the person in the back and improve the tracking accuracy.
これを模式的に示した図が図1である。図1(A)の画像2100,22120,2140は同一の絵柄の2枚のトランプカードがテーブル上で交差していく様子を上から写した動画の3フレーム分の静止画を示している(時系列順に左から右に並んでいる)。画像2100,2120,2140を観察しだけでは各画像におけるカードがそれぞれどのように移動したかを確定することができない。一方で図1(B)は(A)よりも高フレームレートで同じ様子を撮影した例である。つまり、より短い時間間隔で撮像された画像群である。図1(B)の画像を時系列順に観察していけば、どちらのカードが次の画像でどこに移動したかを対応付けることができる。全体としては左側のカード2201が右側のカード2202の上を通過し、右側に移動したということを比較的容易に推定することができる。画像2210や画像2230に示すように、物体同士の交差の瞬間に過渡的に生じる見えを観察することで、画像2220においてどちらのカードが手前側を通過し、どちらが奥側にあるのかが判定可能となる。この判定に際しては、2.5次元の奥行画像といった特別なセンサーやオプティカルフロー等の生成のコストの高い情報は必ずしも必要でない。物体同士が手前と奥で重なったときに、どのような見えが生じ易いかという、遮蔽関係と見えの特徴(appearance feature)とのパターン認識の問題として解くことができる。これは図1(C)および図1(D)に示す人物の交差のようなシーンでも同様である。本図1(C)(D)では人物の服装や姿勢等の見え、移動方向は同一であるとする。このような場合も、物体が交差する前後の見えの状態に着目して観察すれば、図1(D)の画像2420では人物2401が手前側に、人物2402が奥側にいると判定する。以降の画像において、この遮蔽関係を維持したままであれば、人物2401が人物2402を一度遮蔽した場合に、手前側の人物2401を追尾し、奥側の人物2401の遮蔽関係と画像特徴を保持する。そして、遮蔽が解消したときには、人物2401の追尾を継続しつつ、奥側にいた人物2402を再び検出することが可能である。以上が本実施形態の原理の概要を示す説明である。詳細な処理については後述する。
FIG. 1 is a diagram schematically showing this.
図2は、本実施形態における、画像認識によって追尾対象を追尾する情報処理装置1のハードウェア構成図である。CPU H101は、ROM H102に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。RAM H103は、各構成要素からの各種データを一時記憶する。また、プログラムを展開し、CPU H101が実行可能な状態にする。記憶部H104は、本実施形態の処理対象となるデータを格納するものであり、追尾対象となるデータを記憶する。記憶部H104の媒体としては、HDD,フラッシュメモリ、各種光学メディアなどを用いることができる。入力部H105は、キーボード・タッチパネル、ダイヤル等で構成され、ユーザからの入力を受け付けるものであり、追尾対象を設定する際になどに用いられる。表示部H106は、液晶ディスプレイ等で構成され、被写体や追尾結果をユーザに対して表示する。また、本装置は通信部H107を介して、撮影装置等の他の装置と通信することができる。
FIG. 2 is a hardware configuration diagram of the
図3は、情報処理装置の機能構成例を示すブロック図である。図3ではCPU H101において実行される処理を、それぞれ機能ブロックとして示している。情報処理装置1は、画像取得部201、物体検出部202、遮蔽情報生成部203、抽出部204、対応付け部205を有し、外部の記憶部206に接続されている。記憶部206は情報処理装置1の内部にあってもよい。それぞれの機能を簡単に説明する。画像取得部201は、撮像装置によって特定の物体(本実施形態では人物)を撮像した動画や連続静止画の画像を取得する。物体検出部202は、画像取得部201によって取得された画像から予め設定された所定の物体を示す画像特徴を検出する。例えば、さまざまな姿勢の人物の画像を用いて人体(頭や動体)を示す画像特徴を予め学習した学習済みモデルに基づいて、画像における人物の領域を検出する。遮蔽情報生成部203は、遮蔽する物体と遮蔽された物体との遮蔽関係を示す画像特徴を学習した学習済みモデルに基づいて、画像から検出された各物体について、画像から検出された他の物体との遮蔽関係を示す遮蔽情報を推定する。遮蔽情報とは、注目物体が他の物体によって遮蔽されている可能性を表す尤度(被遮蔽/遮蔽スコア)である。例えば、ある物体について、他の物体によって遮蔽されている可能性が高ければ、被遮蔽/遮蔽スコアを1に近づける。ある物体について、他の物体を遮蔽している可能性が高ければ、被遮蔽/遮蔽スコアを0に近づける。このような遮蔽関係を示す被遮蔽/遮蔽スコアを、学習済みモデルを用いて推定する。抽出部204は、ある画像について検出された物体ごとに遮蔽情報を記憶部206に記憶する。対応付け部205は、複数の画像間で検出された物体の対応付けを行う。すなわち、遮蔽情報に基づいて、ある画像から検出された各物体について、ある画像と異なる時刻に撮像された画像において検出された物体との対応関係を特定する。異なる時間で撮像された画像のそれぞれから検出された物体同士を正しく対応付けることによって物体を追尾できる。また、物体同士の遮蔽関係はある一定の期間において維持されることを仮定することによって、遮蔽関係を使って物体同士を対応付けることができる。記憶部206は、各検出物体の被遮蔽スコアを記憶する。各機能部の処理の詳細は図4のフローチャートを用いて説明する。
FIG. 3 is a block diagram showing a functional configuration example of the information processing apparatus. In FIG. 3, the processes executed by the CPU H101 are shown as functional blocks. The
図4は本実施形態の処理の流れを示したフローチャートである。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。ただし、情報処理装置はこのフローチャートで説明するすべての工程を必ずしも行わなくても良い。図4のフローチャートに示した処理は、コンピュータである図2のCPU H101により記憶部H104に格納されているコンピュータプログラムに従って実行される。 FIG. 4 is a flowchart showing the flow of processing of the present embodiment. In the following description, the notation of the process (step) is omitted by adding S at the beginning of each process (step). However, the information processing apparatus does not necessarily have to perform all the steps described in this flowchart. The process shown in the flowchart of FIG. 4 is executed by the CPU H101 of FIG. 2, which is a computer, according to a computer program stored in the storage unit H104.
S301では、情報処理装置1が、各動画フレームについて繰り返すループ処理を開始する。S302では、画像取得部201が人物を撮像した動画や連続静止画の画像フレームを順次取得する。以降の処理はS301~S311まで各画像について順次処理がなされる。なお、画像取得部201は、情報処理装置に接続された撮像装置によって撮像された画像を取得してもよいし、記憶部H104に記憶された画像を取得してもよい。図5(A)中の動画フレーム3100,3110,3120,3130,3140が取得した画像フレームの例である。
In S301, the
次にS303では、物体検出部20が、所定の物体(ここでは人物)の画像特徴に基づいて、前記取得された画像から少なくとも1つ以上の所定の物体を検出する。画像内から物体を検出する公知技術としては、Liuによる手法等が挙げられる(Liu,SSD:Single Shot Multibox Detector. In: ECCV2016)。画像内から候補物体を検出した結果を図5(A)に示す。図5(A)中の矩形枠3101,3102,3103,3111,3112,3113,3121,3122,3131,3132,3141,3142が検出された物体領域を示すBounding Box(以下BB)である。
Next, in S303, the object detection unit 20 detects at least one or more predetermined objects from the acquired image based on the image characteristics of the predetermined object (here, a person). Known techniques for detecting an object in an image include a method using Liu (Liu, SSD: Single Shot Multibox Detector. In: ECCV2016). The result of detecting the candidate object in the image is shown in FIG. 5 (A). FIG. 5 (A) is a Bounding Box (hereinafter referred to as BB) showing an object region in which
S304では、遮蔽マップ生成部203が、各画像について、領域毎に遮蔽されているか否か(遮蔽関係)についての遮蔽情報を示した遮蔽マップを生成する。遮蔽マップ生成部203が、各画像について、遮蔽されている物体のうちの見えている領域(被遮蔽物体領域)を推定する。ここでは各人物が他の人物と重なっているか、重なっている場合に奥側にいるか、手前側にいるかを判定し、その結果を遮蔽状態のスコア(尤度)として領域ごとに出力する。これは意味的領域分割の認識タスクの一種であり、Chenらの手法等の公知の手法を使って実現することができる。(Chen,DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs,2016)。
In S304, the occlusion
図6(A)に遮蔽マップの生成処理を説明する模式図と結果の一例を示す。ニューラルネットワーク402は入力された画像から、入力画像の各画素について遮蔽状態を判定するニューラルネットワークである。RGB画像401が入力されると、ニューラルネットワーク402は画像中に人物がいるか否か、さらにその人物が遮蔽されているか否かを推定した結果を遮蔽マップ404として出力する。同マップは遮蔽されていない人物および人物以外の領域と推定された場合は0、遮蔽されている人物の領域には1、の被遮蔽スコアが出力される。遮蔽マップ404中の黒い領域ほど高い被遮蔽スコアであることを示す。すなわち、黒い領域は遮蔽された人物の領域であると推定されたことを示している。ニューラルネットワーク402は入力画像に対してこのような出力ができるように事前に学習を行っている(学習については後述する)。なお、図に示した遮蔽マップ404は推定結果として理想的な出力状態の一例を示したものである。
FIG. 6A shows a schematic diagram illustrating the process of generating the shielding map and an example of the result. The
なお、RGB画像401のほかに、専用センサー等を使って2.5次元奥行画像405を別途取得するような派生的な形態も考えられる。前記奥行画像405を3チャンネルのRGB画像401と連結した4チャンネルの情報をRGB画像の代わりに画像入力として学習・認識する。これにより遮蔽領域の情報をより高精度にすることも可能である。
In addition to the
次に、S305では、情報処理装置1が、S303で検出された各物体について、S306からS307のループ処理を実行する。S305~S308では、抽出部204が、生成された遮蔽マップから検出物体ごとに遮蔽関係を示す情報を抽出し、記憶部206に記憶する。S306では、抽出部204が、遮蔽マップから検出物体毎に遮蔽関係を示す情報を抽出する。具体的には、図6(A)の人物検出枠407の中の遮蔽マップ404の被遮蔽スコアを平均する。この被遮蔽スコアが1に近いほどその物体は遮蔽されている可能性が高く、被遮蔽スコアが0に近いほどその物体は遮蔽されていない可能性が高いことを示す。なお、検出枠の位置のずれや、遮蔽マップ404にノイズが含まれることを想定して、図6(B)に示すように枠の中央付近を重視した重み付き平均で取得する。図中の演算412は各画像の部分領域毎ごとの要素積(アダマール積)を意味する。マップ413は中央にピークがあり、画像ブロックの総和が1となる2次元ガウス関数である(縦横サイズを人物検出枠に合わせて変形してある)。取得結果の例を図6(A)に記号occを付して被遮蔽スコア値409と410として示す。左側の検出枠は奥側にいる人物のため被遮蔽スコアが高く、右側の検出枠は手前側のため被遮蔽スコアが低いと判定されている。以上のような処理を先ほどの図5の入力画像に対して処理した結果例を図5(B)(遮蔽マップ)および図5(C)(各枠の被遮蔽スコア推定結果)として示す。交差開始~終了の間、奥側に位置する人物3101に対応する被遮蔽スコアは人物3102のそれよりも相対的に高いことを示している。
Next, in S305, the
S307では、記憶部206が、抽出部204によって取得された各検出物体の被遮蔽スコアを記憶する。同時に、各検出物体の位置・サイズの情報、および色やテクスチャのヒストグラムといった物体の見えに関する特徴量、も記憶する。ここではこれら複数種類の数量を一括して検出物体の特徴量と呼ぶ。なお、見えに関する特徴量としてはこの他にニューラルネットワークの中間層情報等を利用してもよい。(例えば”Hariharan, et.al, Hypercolumns for Object Segmentation and Fine-grained Localization, in CVPR2015”)。
In S307, the
S308では、情報処理装置1が、各画像について繰り返すループと、各画像において検出された人物について繰り返すループを終了する。このループは画像毎に、その画像から検出された人物すべてについて遮蔽情報を取得したときに終了する。次に、S309~S310では、対応付け部205が、前後の画像間の物体の対応付けを行う(ただし一つ目の動画フレームの場合は過去のフレームがないためこれを行わない)。まず、S309で、対応付け部205が記憶部206に記憶された過去の物体の特徴量である、被遮蔽スコア、位置サイズおよび見えの特徴量を取得する。次にS310で、対応付け部205が過去の動画フレーム中に検出された物体と、現在処理しているフレーム中に検出された物体の対応付けを行う。
In S308, the
S310における対応付け部205の詳細な処理フローを図7に示す。S501で、対応付け部205は、まず現フレームの検出物体と一つ前のフレームで検出された物体の間で全組み合わせのペアを作る。前後のフレームでそれぞれn人とm人の人物が検出されていれば、全部でn×m個のペアが生成される。次に、S502で、対応付け部205は全ての物体ペアについて類似度を算出する。類似度としては検出物体同士の特徴量の差分に基づいた指標を用いることができる。一例として過去の検出物体c1と現在の検出物体c2の類似度を下式のように算出する。
(数式1)
L(c1,c2)= -W1||BB1-BB2||
-W2||f1 -f2 || -W3||occ1-occ2||
ここで、BBとは各物体の(中心座標値x、中心座標値y、幅、高さ)の4変数をまとめたベクトルであり、fは各物体の特徴を示したものである。||x||はxのLpノルムである。occは各物体の被遮蔽スコアである。W1,W2,W3はそれぞれ経験的あるいは機械学習的に調整して設定される0以上のバランス係数である。ここで各特徴量のばらつきを事前に統計的に求めておいて各特徴量を正規化する等してもよい。物同士が交差する場合であっても、他の物体を遮蔽する側の人物を追尾することによって、被遮蔽側の人物が再び画像で確認されたときに、直前で他の物体を遮蔽する側の人物と対応付けようとすると数式1の3つめの項の値が小さくなり、類似度が低く算出される。つまり、この処理によって、遮蔽関係が異なる人物同士はマッチングされる可能性が低くなり、追尾の誤マッチングが抑制できる。
FIG. 7 shows a detailed processing flow of the
(Formula 1)
L (c 1 , c 2 ) = -W 1 || BB 1 -BB 2 ||
-W 2 || f 1 -f 2 ||-W 3 || occ 1 -occ 2 ||
Here, BB is a vector that summarizes four variables (center coordinate value x, center coordinate value y, width, height) of each object, and f indicates the characteristics of each object. || x || is the L p norm of x. occ is the obscured score of each object. W1, W2, and W3 are balance coefficients of 0 or more set by adjusting empirically or machine learning, respectively. Here, the variation of each feature amount may be statistically obtained in advance and each feature amount may be normalized. Even when objects intersect with each other, by tracking the person on the side that shields the other object, the side that shields the other object immediately before the person on the shielded side is confirmed in the image again. When trying to associate with the person of, the value of the third term of the
次に、S503において、対応付け部205が、過去の物体と現在の物体との類似度に基づいて物体間の対応関係を特定するための対応付け(マッチング)を行う。マッチングの方法にはいくつか存在する。例えば、類似度が高い候補同士から優先的にマッチングする方法や、ハンガリアンアルゴリズムを用いる方法等がある。ここでは前者を用いる。
Next, in S503, the
S503では、対応付け部205が、現フレームの全物体について対応付けが終了していなければS506で類似度最大のペアから同一人物として対応付けていく。対応付けの終わったペアの物体は対応付けの候補から省いていく。上記の処理の際に、その時点で残っているペアの中の最大の類似度の大きさが所定の閾値を下回った場合は、もはや類似した物体ペアが残っていないことを意味する。その場合はそれ以上無理に対応付けることなく(S505)、対応付けを終了する。
In S503, if the mapping is not completed for all the objects in the current frame, the
以上の処理S301~S311を動画フレームごとに行う。その結果、図5(D)に結果例を示すように、動画中から人物を検出し、それぞれの物体がどこに移動したかの一連の追尾結果が得られる(フレーム間の同一の人物に記号A,B,Cで付して追尾の結果を示している)。 The above processes S301 to S311 are performed for each moving image frame. As a result, as shown in the result example in FIG. 5 (D), a person is detected in the moving image, and a series of tracking results of where each object has moved can be obtained (symbol A for the same person between frames). , B, C are attached to indicate the tracking result).
<変形例>
本実施形態では物体ペア同士のマッチングの類似度として差分に基づき、被遮蔽スコアや見えといった各指標の距離を重み付け和した。ここで例えばKLダイバージェンスを使うことも考えられる。またメトリック学習を行ってより精度の高い距離指標を求めることも考えられる。また単一の類似度を一度だけ用いるのでなく、まず見えの特徴で類似度を判定し、条件を満たしたものは次に遮蔽状態のスコアの類似度に基づいて判定する、等のルールベースによる方法や段階的な判定方法も考えられる。またさらにニューラルネットやサポートベクトルマシンといった公知の識別器の手法を用い、説明変数を特徴量、目的変数を同一物体か否かの結果、として学習・識別し、この値によってマッチングを判定することも可能である。以上のようにフレーム間の物体間の対応付けは特定の形態に限定されない。
<Modification example>
In this embodiment, the distances of each index such as the shielded score and the appearance are weighted and summed based on the difference as the degree of similarity of matching between the object pairs. Here, for example, it is conceivable to use KL divergence. It is also conceivable to perform metric learning to obtain a more accurate distance index. Also, instead of using a single similarity only once, the similarity is first judged based on the appearance characteristics, and those that meet the conditions are then judged based on the similarity of the score in the shielded state, etc. A method or a stepwise judgment method can be considered. Furthermore, using the method of a known classifier such as a neural network or a support vector machine, it is also possible to learn and discriminate the explanatory variable as a feature quantity and the objective variable as a result of whether or not they are the same object, and judge matching based on this value. It is possible. As described above, the correspondence between objects between frames is not limited to a specific form.
またさらに別の派生形態として、被遮蔽スコアの推定値を安定させるために、下式のように過去のスコアを移動平均した値を用いる工夫も考えられる。
(数式2)
occEMA
(t)= (1-α)×occEMA
(t-1) + α×occ(t)
上式は指数移動平均値と呼ばれる値であり、occEMA
(t)は時刻tの被遮蔽スコアの指数移動平均値、occ(t)は時刻tの被遮蔽スコア、αは0<α≦1の係数である。過去の複数フレームで追尾ができている物体については上式で指数移動平均値を算出しておき、類似度を比較する際には元の被遮蔽スコアではなく、指数移動平均被遮蔽スコアを用いる。これにより、交差時に複数のフレームにまたがって徐々に重畳状態が起こるような場合に、複数フレームの被遮蔽スコアの平均値に基づいてマッチングできるので、より物体間の対応付けが安定する。
As yet another derivative form, in order to stabilize the estimated value of the shielded score, it is conceivable to use the value obtained by moving average the past scores as shown in the following equation.
(Formula 2)
occ EMA (t) = (1-α) × occ EMA (t-1) + α × occ (t)
The above equation is a value called an exponential moving average value, occ EMA (t) is the exponential moving average value of the obscured score at time t, occ (t) is the obscured score at time t, and α is 0 <α≤1. It is a coefficient of. For objects that have been tracked in multiple frames in the past, calculate the exponential moving average value using the above formula, and use the exponential moving average obscured score instead of the original obscured score when comparing similarities. .. As a result, when the overlapping state gradually occurs over a plurality of frames at the time of intersection, matching can be performed based on the average value of the shielded scores of the plurality of frames, so that the correspondence between the objects is more stable.
またさらに別の派生形態として、マッチングの際に前後フレーム間の類似度だけでなく、nステップ前の過去の複数のフレームの特徴量・位置を用いてマッチングを行うような形態も考えられる。この方法を用いることで、一度物体が遮蔽されて追尾できないフレームが発生しても、その後のフレームで遮蔽が解消されれば再び追尾が可能になる。この形態では例えば、nフレームまでさかのぼって物体の特徴量の平均値を求め、これに基づいて現フレームから検出された物体との類似度の算出を行う。もしくは、過去のnフレームの物体と現フレームの物体間でそれぞれ類似度を求め、得られたn個の類似度の平均値が最も高い物体に対応付ける。また、過去だけでなく、nステップの未来のフレームの結果も使って双方向で判定を行うことも考えられる。この形態は未来のフレームを処理するまで結果が判明しないため処理のリアルタイム性には劣るが、過去のみを見る方法よりも高精度である。 As yet another derivative form, a form in which matching is performed using not only the degree of similarity between the preceding and following frames but also the features and positions of a plurality of past frames n steps before is conceivable. By using this method, even if an object is shielded once and a frame that cannot be tracked occurs, it can be tracked again if the shielding is removed in the subsequent frames. In this form, for example, the average value of the feature amount of the object is obtained by going back to n frames, and the similarity with the object detected from the current frame is calculated based on this. Alternatively, the similarity between the past n-frame object and the current frame object is obtained, and the object having the highest average value of the obtained n similarity is associated with the object. It is also conceivable to make a bidirectional judgment using the results of not only the past but also the future frame of n steps. This form is inferior in real-time processing because the result is not known until the future frame is processed, but it is more accurate than the method of looking only at the past.
またさらに別の派生形態として、検出の失敗に対応するための形態が考えられる。物体検出・追尾においては物体の姿勢が特殊な形状に変化した、等の理由で物体検出の段階で一時的に失敗するようなことも起こり得る。このような未検出が起こると、フレーム間の対応付けの際に、前のフレームに存在した物体が、現フレームでは対応なしと判定される。すると追尾はそこで途切れることになる。このような失敗を防ぐために、以下のような工夫もありえる。すなわち、マッチングで未対応の人物が発生したら、その情報をリストに記憶しておき、次のフレームのマッチングのときに対応付けの候補に加える(一定時間が経過してもまだ未対応であれば物体自体がもう存在しないと判断し、リストから除去する。ここではこれをタイムアウト処理と呼ぶ)。 As yet another derivative form, a form for dealing with a detection failure can be considered. In object detection / tracking, it is possible that the posture of an object has changed to a special shape, and so on, causing a temporary failure at the stage of object detection. When such undetection occurs, it is determined that the object existing in the previous frame does not correspond in the current frame at the time of associating between the frames. Then the tracking will be interrupted there. In order to prevent such a failure, the following measures can be taken. That is, if a person who does not support matching occurs, that information is stored in a list and added to the matching candidates when matching the next frame (if it is not yet supported even after a certain period of time has passed). It determines that the object itself no longer exists and removes it from the list. This is called timeout processing here).
このように動画フレームをまたがる物体の対応付けについては種々のやり方が考えられ、特定の形態に限定されない。 As described above, various methods can be considered for associating objects across moving image frames, and the association is not limited to a specific form.
<遮蔽情報の形態のバリエーションおよび学習方法>
本実施形態では、遮蔽マップとして、遮蔽されている物体のうちの見えている領域(被遮蔽物体領域)を推定した。この形態についても様々な派生形態が考えられる。一例を図8に示す。ここでは図8(B)に示すように、画像801のように奥側の物体の見えている領域を推定する以外でもよい。例えば、画像802のように奥側の物体の全領域を推定する。また、画像803のように、手前側の遮蔽物体の領域を推定する(図の領域440のように他物体と重なっていない物体も手前側領域として含めて推定している。ただし別の形態としてこのような単独の物体は手前側の領域に含めないことも考えられる)。また、画像801~803のように前景領域を推定するのではなく、画像804のように物体の中心や重心の位置を推定することも考えられる。画像804の場合においては被遮蔽物体の中心付近の領域に大きな正の値を、遮蔽物体の中心付近に小さな負の値を推定するようにする(ここでいう物体の中心領域は図示するようにガウス関数状の領域を推定させるような形態が考えられる)。
<Variations of the form of shielding information and learning methods>
In the present embodiment, the visible area (shielded object area) of the shielded object is estimated as the shield map. Various derivative forms can be considered for this form as well. An example is shown in FIG. Here, as shown in FIG. 8 (B), it is not necessary to estimate the visible region of the object on the back side as shown in the
ここで遮蔽状態の情報の学習方法について図6(D)を用いて説明する。前述のChenらの手法等で示されるニューラルネット402は、入力画像であるRGB画像401に対して遮蔽物体の被遮蔽スコアマップ403を出力する。403の結果例を430に示す。CHENらの手法等は特定カテゴリ物体の前景領域を推定する手法であるが、ここでは遮蔽情報の教師値431を与えて、教師値431と同じようなマップが推定によって得られるようニューラルネット402の学習を行う。具体的には出力結果のマップ403と教師値431を比較し、交差エントロピーや二乗誤差などの公知の方法で損失値算出432を行う。損失値が漸減するように誤差逆伝搬法等でニューラルネット402の重みパラメーターを調整する(この処理についてはChenらの手法と同一のため詳細は略す)。入力画像と教師値は十分な量を与える必要がある。重なった物体の領域の教師値を作成するのはコストがかかるため、CGを用いることや、物体画像を切り出して重畳する画像合成の方法を用いて学習データを作成するようなことも考えられる。以上が学習方法になる。
Here, a method of learning information on the shielded state will be described with reference to FIG. 6D. The
またさらに、本実施形態では上記で求めた物体の枠の中で取得して被遮蔽スコアと呼ぶ指標を求めた。遮蔽情報の取得の形態の様々な例を図8(C)に示す。図8(C1)は本実施形態の形態である。この他に、(C2)奥側の被遮蔽スコアと手前側の被遮蔽スコアの差分値を物体枠内で取得する、(C3)物体の中心のスコアを1点だけ参照する、等様々に考えられる。また、枠内で取得する際に、物体の枠内で取得する際に、他の物体枠と重なっている領域についてはどちらの物体の領域か判然としないために取得から省くような方法も考えられる。 Furthermore, in the present embodiment, an index called an obscured score obtained within the frame of the object obtained above is obtained. FIG. 8C shows various examples of acquisition of shielding information. FIG. 8 (C1) is an embodiment of the present embodiment. In addition to this, (C2) the difference value between the obscured score on the back side and the obscured score on the front side is acquired in the object frame, (C3) the score at the center of the object is referred to only one point, and so on. Be done. Also, when acquiring within the frame, when acquiring within the frame of the object, the area that overlaps with other object frames may be omitted from the acquisition because it is not clear which object the area is. Be done.
またさらに、上述の<遮蔽状態の推定>と<各物体の被遮蔽スコアの取得>を同時に行う方法も考えられる。例として、Liuの手法等で使われている公知な方法であるアンカーと呼ばれる手法があげられる。この手法では物体の候補枠の集合が求められるので、これを利用して各候補枠が遮蔽物体か被遮蔽物体かの被遮蔽スコアを推定し対応付けることが考えられる(この形態の詳細については実施形態3で示すのでここでは説明を略す)。 Further, a method of simultaneously performing the above-mentioned <estimation of the shielding state> and <acquisition of the shielding score of each object> can be considered. An example is a method called an anchor, which is a known method used in Liu's method and the like. Since a set of candidate frames for objects is obtained in this method, it is conceivable to use this to estimate and associate the shielded score of whether each candidate frame is a shielded object or a shielded object (details of this form are implemented). Since it is shown in the third form, the description is omitted here).
またさらに、上で示したような複数の形態の遮蔽情報をそれぞれ取得し、これを遮蔽に関する多次元の特徴として後段の物体の対応付けに用いてもよい。もしくは前記の遮蔽に関する多次元の特徴から機械学習によって物体の遮蔽されている面積の割合を推定して用いてもよい。この場合は前記の遮蔽に関する多次元の特徴を説明変数とし、物体が遮蔽されている面積の割合を目標変数とし、ロジスティック回帰等の公知技術で回帰推定を行う等すればよい。 Further, it is also possible to acquire each of a plurality of forms of shielding information as shown above and use this as a multidimensional feature related to shielding for associating objects in the subsequent stage. Alternatively, the ratio of the shielded area of the object may be estimated and used by machine learning from the above-mentioned multidimensional characteristics related to shielding. In this case, the multidimensional feature related to the shielding may be used as an explanatory variable, the ratio of the area where the object is shielded as the target variable, and regression estimation may be performed by a known technique such as logistic regression.
<実施形態2>
本実施形態では実施形態1と同様に人物の検出と追尾を行う。ハードウェア構成は実施形態1の図2と同様である。本実施形態における機能構成例を示すブロック図は図9(A)になる。実施形態1の構成に新たに遮蔽状態判定部301が追加されている。実施形態1では追尾中に人物の枠は人物同士の重なりによって、人物の検出ができないことがある。例えば図10(A)中の動画フレーム4120に示すように、人物間で重なった面積が大きいときには、奥側の人物が検出できないことは多い。このような時に遮蔽状態判定部301が、人物は存在しているが被遮蔽状態にある、と判定する。
<
In the present embodiment, a person is detected and tracked in the same manner as in the first embodiment. The hardware configuration is the same as that of FIG. 2 of the first embodiment. The block diagram showing the functional configuration example in this embodiment is shown in FIG. 9A. A new shielding
実施形態1で説明したような物体検出部の一時的な検出の失敗による未検出と異なり、人物の集団が同じ方向に同じ速度で移動しているような場合、長時間未検出の状態が続く。さらに被遮蔽状態から脱した画面上の位置が、被遮蔽状態が開始した位置から離れることがある。このため被遮蔽状態であると積極的に判定し、推定した前記状態に応じた処理を行うことで追尾の成功率を高めることが望ましい。 Unlike undetected due to temporary detection failure of the object detection unit as described in the first embodiment, when a group of people is moving in the same direction at the same speed, the undetected state continues for a long time. .. Further, the position on the screen that has been removed from the shielded state may be separated from the position where the shielded state has started. For this reason, it is desirable to positively determine that the state is shielded and to increase the success rate of tracking by performing processing according to the estimated state.
本実施形態も全体の処理フローは実施形態1の図4と同じであるが、S310の処理の詳細が下記のように異なる。ここでは、実施形態1と異なるS310の処理についてのみ説明する。図11を用いて遮蔽状態判定部301が行うS310処理の詳細なフローについて説明する。まずこれまでと同じようにS601で現フレームと前フレームで物体の対応付けを行う。S602で対応付けられなかった前フレームの物体がある場合、被遮蔽状態に入った可能性がある。そこでS603で当該物体のそれまでの被遮蔽スコアの高さが閾値以上かを調べる。これは動画フレームのフレームレートが十分に高ければ、遮蔽により未検出になる前後で被遮蔽スコアが高くなることが多いためである。さらにS604で当該物体の周辺領域で現フレームの物体の検出数の数が減っていないかを調べ、上記の二つの結果が真であれば当該物体は被遮蔽状態に入ったと推定し被遮蔽状態のリストに記憶する(S605)。被遮蔽状態のリストに記憶された物体については前回検出されたときの特徴量と位置も合わせて記憶する。これによって、遮蔽が解消されて再び検出されたときに追尾できる可能性が向上する。
The overall processing flow of this embodiment is the same as that of FIG. 4 of the first embodiment, but the details of the processing of S310 are different as follows. Here, only the processing of S310, which is different from the first embodiment, will be described. A detailed flow of the S310 process performed by the shielding
S606~S610は被遮蔽状態の物体が再出現したかどうかを判定する処理である。S603で対応付けられなかった現フレームの物体がある場合、被遮蔽状態を脱して再度検出できるようになった可能性がある。そこでS607で当該物体の被遮蔽スコアの高さが閾値以上かを調べる。さらにS608で当該物体の周辺領域で現フレームの物体の検出数の数が増えていいないかを調べる。両方の結果が真で、且つ被遮蔽状態のリストに記憶されている物体のいずれかと当該物体が所定閾値以上に類似度が高い場合(S608)、当該物体は被遮蔽状態から脱して再度出現したと推定する。そのとき、対応付けた物体を被遮蔽状態のリストから除去する(S609)被遮蔽状態のリストから除去された物体については、現在の入力画像から検出された特徴量と位置を取得する。 S606 to S610 are processes for determining whether or not the object in the shielded state has reappeared. If there is an object in the current frame that was not associated with S603, it is possible that the object can be detected again after leaving the shielded state. Therefore, in S607, it is checked whether the height of the obstruction score of the object is equal to or higher than the threshold value. Further, in S608, it is examined whether or not the number of detected objects in the current frame has increased in the peripheral region of the object. When both results are true and the object has a high similarity to any of the objects stored in the list of shielded states (S608), the object has escaped from the shielded state and reappeared. I presume. At that time, the associated object is removed from the list of shielded states (S609). For the object removed from the list of shielded states, the feature amount and the position detected from the current input image are acquired.
ここで、対応付けの処理の工夫として、例えば、フレーム間の物体のマッチングの際に、被遮蔽状態にある人物とのマッチングは距離による類似度のペナルティを減ずる。再出現を待つタイムアウトの時間を長く取る。遮蔽状態の物体との対応付けの閾値は、通常の物体間のマッチングよりも閾値を低く設定する、等が考えられる。 Here, as a device of the matching process, for example, when matching an object between frames, matching with a person in a shielded state reduces the penalty of the degree of similarity depending on the distance. Take a long time-out to wait for reappearance. It is conceivable that the threshold value for associating with an object in a shielded state is set lower than the threshold value for matching between ordinary objects.
またさらに、ここでは二人の人物の重なりを想定して説明を行ったが、3人以上の人物の間で重なりが生じることもある。この場合は、遮蔽状態に入ったと判定されれば被遮蔽状態のリストに加えておき、再出現したら前フレームとの対応付けを行い、被遮蔽状態のリストから都度除去する。これにより3人以上についてもある程度の対応が可能である。 Furthermore, although the explanation is made assuming the overlap of two people, the overlap may occur between three or more people. In this case, if it is determined that the shielded state has been entered, it is added to the list of shielded states, and when it reappears, it is associated with the previous frame and removed from the list of shielded states each time. As a result, it is possible to deal with three or more people to some extent.
<実施形態3>
本実施形態では、ユーザが指定した単一の物体を追尾する形態について説明する。ここでは追尾対象は人体等の特定カテゴリに限らず、ユーザが指定した不特定の物体を追尾する形態を扱う。例えば、犬などの動物や、車などの乗り物であってもよい。
<
In this embodiment, a mode for tracking a single object specified by the user will be described. Here, the tracking target is not limited to a specific category such as a human body, and a form of tracking an unspecified object specified by the user is dealt with. For example, it may be an animal such as a dog or a vehicle such as a car.
機能ブロックの図は図9(B)になる。これまでの構成に新たに追尾物体指定部302が追加されている。ここで追尾物体指定部302と物体検出部202の機能は非特許文献1の方法を用いることで容易に実現することができる。追尾物体指定部302はユーザが動画フレーム中で追尾対象物体の枠位置を指定する機能部である。これにより追尾すべき物体の特徴が初期化される。物体検出部202は各動画中で最も対象物体と一致度の高い画像領域を同定する。同定した結果例を図12(A)に示す。図12(A)の動画フレーム5110上の枠5111がユーザによって指示された追尾物体の枠である。動画フレーム5120ではこの物体が画面中で右側に移動しており、物体検出部202によって枠5121として検出されている。非特許文献1の方法は物体の追尾手法として優れるが、類似物体間で容易に誤スイッチが生じる。そこで本実施形態ではこれまでの実施形態と同様に、追尾物体に対して遮蔽状態に関する情報を推定し、誤スイッチが生じていないかを判定する。
The figure of the functional block is shown in FIG. 9B. The tracking
このために遮蔽情報生成部203として図13(B)に示すようなニューラルネット6300を用いる。これは検出された追尾物体の画像6301(ここでは処理の簡単のために正方形の画像に縦横比率を正規化している)を入力すると、画像パターンを見て、遮蔽されている(Yes)かされていない(No)かの分類結果6302を出力する分類器である。遮蔽の有無の定義としては、物体の面積が何%以上遮蔽されているか否かとして定義する。この2クラスの値を教師値として与えてニューラルネット6300を学習させる。この技術は通常の画像分類タスクと同様の広く公知な方法のため詳細を略す。また、教師値(目標変数)を遮蔽の有無の2値ではなく遮蔽面積の割合として与えて回帰学習を行えば、推定結果6303のように遮蔽の割合を推定することができる。この回帰学習には学習時に与える損失値として二乗誤差等を用いる。
For this purpose, a
遮蔽情報生成部203で追尾物体候補の遮蔽度を推定した結果が図14(A)(B)である。図14(A)に示す物体の検出結果に対して、物体検出部202が図14(B)に符号occを付して示したのが被遮蔽面積の推定値である。同図では被遮蔽スコアの変動幅は所定値(例えば0.3等の値)より小さく、追尾に失敗していないと判定できる(ここで、被遮蔽スコアだけでなく実施形態1で用いたような位置や見えの特徴量の類似度も併用して追尾の成功・失敗を判定してもよい)。
14 (A) and 14 (B) show the results of estimating the degree of shielding of the tracking object candidate by the shielding
一方で図14(C)では、動画フレーム7220から7230にかけて物体7201が物体7202の向こう側を通過しており、その結果、物体検出部202が動画フレーム7230における物体の位置を枠7231として誤って推定している。この場合の遮蔽スコアは図14(D)に示すように0.4から0.0へと大きく変動しているため、交差によって誤追尾が発生したと判定することができる。誤追尾が発生したことが分かれば、そこで検出を止めたり、後段で修正する等の工夫を行うことができる。
On the other hand, in FIG. 14C, the
以上が本実施形態の説明となる。 The above is the description of this embodiment.
なお、遮蔽情報生成部203の学習は図12(A)5110~5150に示すように、不特定の物体について遮蔽状態が判定できるように様々な物体の遮蔽状態を推定できるように学習しておくことが望ましい。
As shown in FIGS. 5110 to 5150, the learning of the shielding
なお他の派生の形態としては、図13(B)では、物体枠で切られた画像6301を入力画像として示している。しかし、被遮蔽状態にあるか否かの判定には当該物体だけでなくその周辺を観察することが重要なため、入力画像としてはより広い範囲を入力することも考えられる(その場合、推定時にも同様の範囲を切り取って入力する)。
As another derivative form, in FIG. 13B, an
なお他の派生の形態としては、図13(C)に示すように、上述のLiuの手法のようなアンカーと言われる候補枠を使って物体の検出と遮蔽度の推定を同時に行う形態も考えられる。アンカー枠は図13(D)に示すような複数のサイズ・縦横比率の候補枠の集合である(ここでは3種類のアンカー枠を図示している)。アンカー枠は図13(C)の結果画像6450に示すように、画像中の各ブロック領域に配置されている。ニューラルネット6400は画像が入力されたら、各ブロック領域の各アンカーに当該物体があるか否かの被遮蔽スコアマップ6430を生成する。被遮蔽スコアマップ6430はアンカー枠の種類の3個に対応した3枚のマップである。推定結果の例を図13(C)6450に示す(以上の手法は広く公知のため詳細は上述のLiuの方法を参照されたい)。
As another form of derivation, as shown in FIG. 13C, a form in which an object is detected and the degree of shielding is estimated at the same time using a candidate frame called an anchor as in the above-mentioned Liu method is also considered. Be done. The anchor frame is a set of candidate frames having a plurality of sizes and aspect ratios as shown in FIG. 13 (D) (here, three types of anchor frames are shown). As shown in the
ここで本実施形態の派生の形態として、物体が存在するか否かの推定と同時に、物体の被遮蔽スコアマップ6440を生成する。これは各アンカー枠に、もしそこに物体がある場合、その被遮蔽割合がいくつになるかを推定したマップである。同マップもアンカーの種類の数に対応した3枚からなる(学習時には画像の各ブロックにおいて、各アンカー枠に被遮蔽スコアの教師値を与えてニューラルネット6400を学習すればよい)。結果例を図13(C)6460に示す。二つの推定マップを最終的に統合した例を統合結果例6470として図示する。
Here, as a derivative form of the present embodiment, the shielded
上記の説明は物体検出の例になるが、非特許文献1の方法もアンカー候補枠ベースの手法であるため、物体を追尾しながら同時にその被遮蔽スコアを推定する派生形態を構成することが可能である。
Although the above description is an example of object detection, since the method of
<実施形態4>
本実施形態では、ユーザが指定した単一の物体を追尾する形態について説明する。機能ブロックの図は実施形態3と同じで図9(B)である。これまでの実施形態では類似度を比較する際に、直前と直後のフレームで特徴量を比較することや、前後のnフレームを用いて比較すること等、ルールベースでフレーム間の物体の対応付けを行った。本実施形態では、この部分を機械学習に置き換えることでより精度の高い対応付けを行う。
<
In this embodiment, a mode for tracking a single object specified by the user will be described. The figure of the functional block is the same as the
リカレントニューラルネットは時系列データを処理して識別・分類等を行うことができる技術であり、Byeonらの方法などで公知なLong short term memoryネットワーク(以下LSTM)が代表的手法である。(Byeon et al.,Scene labeling with LSTM recurrent neural networks, CVPR 2015)。当該手法で物体の特徴の経時的な変化を判別して物体間の対応付けを行うことができる。本実施形態の構成と結果例の模式図を図15に示す。ここでは1つの物体9102が追尾対象として指定され、Bertinettoら等の手法で追尾されている(t=2の動画フレームで誤スイッチが起こっている)。図15(C)のLSTMユニット9501~9504は、各時刻で追尾している物体の特徴9401~9404を受け取って、追尾が成功しているか、失敗しているかを判定して出力9701~9704として出力する。ここでは図示上LSTMユニットを複数書いているが、ここでは複数のユニットが存在するのではなく同一のユニットの各時刻の状態を示している。各時刻のLSTMユニットは次の時刻のLSTMユニットにリカレント入力9802を送る。LSTMユニットはその時点の物体の特徴とそれまでの過去の情報を含むリカレント入力9802を元に内部状態を必要に応じて変更する。これにより物体のパターンが経時的にどのように変化しているかを踏まえた上で現時点の追尾が成功しているか否かを判断することができる。
The recurrent neural network is a technique capable of processing time-series data to perform identification, classification, and the like, and a long short term memory network (hereinafter referred to as LSTM) known by the method of Byeon et al. Is a typical method. (Byeon et al., Scene labeling with LSTM recurrent neural networks, CVPR 2015). With this method, it is possible to discriminate changes in the characteristics of objects over time and associate them with each other. FIG. 15 shows a schematic diagram of the configuration of this embodiment and an example of the results. Here, one
LSTMユニットへの入力の特徴量は実施形態3で説明したニューラルネットの特徴量などを用いることができる。例えば図13(B)の物体の被遮蔽スコアを判定するニューラルネット6310の最終層6320への入力値を用いる。ここでは前記層の出力値(1値のスカラー)でなく入力値(多次元ベクトル)を用いている。これは遮蔽状態を判断するのに用いたのと同じ多次元特徴を用いることで、遮蔽に関する多種の情報をLSTMに取り込むためである。これにより様々な遮蔽のパターンを判定できることが期待できる。
As the feature amount of the input to the LSTM unit, the feature amount of the neural network described in the third embodiment can be used. For example, the input value to the
LSTMユニットの学習時には、教師値として各瞬間の追尾が成功しているか失敗しているかを与え、LSTMの各重みパラメーターを調整する。また別の形態として図16(D)に示すように、追尾の成功・失敗ではなく、教師値として遮蔽状態にあるか否かを与えて学習すれば、被遮蔽状態にあるか否かを判定させることも可能である。 When learning the LSTM unit, the teacher value is given as to whether the tracking at each moment is successful or unsuccessful, and each weight parameter of the LSTM is adjusted. As another form, as shown in FIG. 16D, if learning is performed by giving whether or not the teacher is in the shielded state as a teacher value instead of success or failure in tracking, it is determined whether or not the teacher is in the shielded state. It is also possible to let them.
また別の形態として、実施形態3で説明した派生の形態と同様に、追尾物体をアンカー枠ベースで検出し、9401として図13(C)の物体の位置および被遮蔽スコアを同時に判定するニューラルネット6400の特徴量6420を使ってもよい。この形態であれば、物体の追尾や検出と当該物体の被遮蔽スコアを同時・高速に判定することができる。
As another embodiment, as in the derived embodiment described in the third embodiment, the neural network detects the tracking object based on the anchor frame and simultaneously determines the position and the shielded score of the object in FIG. 13 (C) as 9401. The
<実施形態5>
本実施形態では、ユーザが指定した単一の物体を追尾する形態について説明する。基本機能構成は実施形態1と同様である。本実施形態では物体の遮蔽情報として、相対的な物体間の遠近情報を用いる。
<Embodiment 5>
In this embodiment, a mode for tracking a single object specified by the user will be described. The basic functional configuration is the same as that of the first embodiment. In this embodiment, perspective information between relative objects is used as the shielding information of the objects.
図16(A1)にその例を示す。ここでは学習画像としてRGB画像801を用意する。さらにレーザーレンジファインダー装置やステレオ計測等によりRGB画像801に対応した距離画像833が得られている。距離画像833はカメラからの距離の絶対値をグレースケールで表したものであり、白い色ほど近い距離の物体を意味する。本実施形態ではRGB画像801を入力画像とし、距離画像を教師値831として、ニューラルネット402の重みを学習する。ただし絶対値としての距離画像831と全く同じ出力結果830を得ることはパターン認識としては比較的難しい問題であり、本実施形態に用いる遮蔽情報としてはそこまで高精度であることを必要としない。そこで本実施形態では近傍の物体間の相対的な遠近関係を推定するような学習を行う。
An example is shown in FIG. 16 (A1). Here, an
例えば同図の出力結果830に示すように、人物8011と8012の距離の推定結果8301と8302は絶対値としては正しくない。人物8011と離れた人物8013に対応する推定結果8301と8303も正しくない遠近関係になっている。しかし近傍の二人の人物8011と8012の、遠近の順序関係だけに限定すれば、正しい結果である。このように<局所の物体間>の<遠近順序の関係>は正しく推定できるように学習し、これらを物体の遮蔽情報として集計して用いる。
For example, as shown in the
以上は、学習時の損失値計算に以下の工夫を施すことで実現される。図16(A2)に図16(A1)の教師値831上の記号*の付近の領域を拡大した教師値領域831aを示す。対応する出力結果の領域830aも示す。ここで領域831a上の各画素iと画素jに注目し、その遠近関係が正しいか否かで当該画素ペアの損失を求める。ここでは領域830a上の画素iと画素jの遠近関係は教師値と一致するので損失は発生しない。対してもし領域830bのような推定結果であった場合は、遠近関係が正しくないので損失を計上する。このような判断を、所定距離内にある全画素ペアで行う。最終的に遠近関係を誤ったペア数を全ペア数で割った値を損失値の総計とする。このようにして学習したニューラルネット802が学習終了し、推定した距離の出力結果834を図16(B)に示す。
The above is realized by applying the following measures to the loss value calculation during learning. FIG. 16 (A2) shows a
次に、相対的な距離の出力結果834を集計して物体の被遮蔽尤度を求める。ここでは別途検出しておいた人物検出枠8351と8352を用いて検出枠ごとに集計する。各枠内でそれぞれの距離の値を平均し、dave
1とdave
2とする。次にこの距離の値を隣接した物体枠間で比較して正規化して被遮蔽尤度のスコア値occへと変換する。例えば下式で変換する。
(数式3)
occi =Sigmoid(Log(dave
i/dave
j))
=1/(1+dave
j/dave
i),
occj =1/(1+dave
i/dave
j),
ただし
Sigmoid(x)=1/(1+exp(-x)).
ここでiとjは重なり部分のある二つの隣接した検出物体枠である。3つ以上の物体が重なっている場合は、それぞれ上記の式で被遮蔽スコアocciを求め、そのうちの最大値をその物体の被遮蔽スコアとしてもよい。
Next, the output results 834 of the relative distance are aggregated to obtain the shielding likelihood of the object. Here, the person detection frames 8351 and 8352 that have been separately detected are used for totaling for each detection frame. The values of the respective distances in each frame are averaged to be dave 1 and dave 2 . Next, the value of this distance is compared and normalized between adjacent object frames, and converted into a score value occ of the shielded likelihood. For example, convert with the following formula.
(Formula 3)
occ i = Sigmoid (Log (dave i / dave j ))
= 1 / (1 + d ave j / d ave i ),
occ j = 1 / (1 + dave i / dave j ),
However, Sigmoid (x) = 1 / (1 + exp (-x)).
Here, i and j are two adjacent detection object frames having an overlapping portion. When three or more objects overlap, the obstruction score occ i may be obtained by the above formula, and the maximum value among them may be used as the obstruction score of the object.
以上が相対的な距離推定を行い、被遮蔽スコアを集計するまでの処理内容となる。被遮蔽スコアを用いた追尾処理は実施形態1と同様になるためここでは割愛する。 The above is the processing content until the relative distance estimation is performed and the shielded score is totaled. Since the tracking process using the shielded score is the same as that in the first embodiment, it is omitted here.
なお派生的な学習の工夫として下記のようなものが考えられる。(1)距離の教師値の差分が所定閾値Θ以上のペアのみに限定して損失を集計する。これにより距離画像の観測時のノイズに対しロバストに学習できる。(2)(1)を行い、且つマージン領域を設定する。例えばペアの遠近関係が正しいか正しくないかのみならず、遠近関係が正しく、且つ所定閾値Θ以上値が相対的に離れていない場合に損失を発生させる。(3)距離の教師値の差分が閾値Θ未満の画素ペアに対する出力値が、閾値Θ以上に大きなケースも誤りとして損失を与える。これによりノイズ的な出力を抑制する。 The following can be considered as derivative learning ideas. (1) The loss is totaled only for the pair in which the difference between the teacher values of the distance is equal to or more than the predetermined threshold value Θ. This makes it possible to learn robustly against noise when observing a distance image. (2) Perform (1) and set the margin area. For example, not only whether the perspective relationship of the pair is correct or incorrect, but also when the perspective relationship is correct and the values are not relatively separated by a predetermined threshold value Θ or more, a loss is generated. (3) A case where the output value for a pixel pair in which the difference between the teacher values of the distance is less than the threshold value Θ is larger than the threshold value Θ also causes a loss as an error. This suppresses noise-like output.
以上、さまざまな形態があり得るが、相対的・局所的に距離を学習できるような形態であればいずれでもよく、一つの形態に限定されない。本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい As described above, there may be various forms, but any form can be used as long as the distance can be learned relative to and locally, and the form is not limited to one. The present invention is also realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiment is supplied to the system or device via a network for data communication or various storage media. Then, the computer (or CPU, MPU, etc.) of the system or device reads and executes the program. Further, the program may be recorded and provided on a computer-readable recording medium.
1 情報処理装置
201 画像取得部
202 物体検出部
203 遮蔽情報生成部
204 特徴量取得部
205 対応付け部
206 記憶部
1
Claims (16)
遮蔽する物体と遮蔽された物体との遮蔽関係を示す画像特徴を学習した学習済みモデルに基づいて、前記画像から検出された各物体について、前記画像から検出された他の物体との前記遮蔽関係を示す遮蔽情報を推定する推定手段と、
少なくとも前記遮蔽情報に基づいて、前記画像から検出された各物体について、前記画像と異なる時刻に撮像された画像において検出された物体との対応関係を特定する特定手段と、を有することを特徴とする情報処理装置。 An information processing device that detects at least one or more objects from an image.
For each object detected from the image, the shielding relationship with other objects detected from the image is based on a trained model that has learned the image features showing the shielding relationship between the object to be shielded and the shielded object. An estimation means for estimating the occlusion information indicating
It is characterized by having, for each object detected from the image, at least based on the shielding information, a specific means for specifying the correspondence relationship with the object detected in the image captured at a time different from the image. Information processing device.
前記尤度を該物体の画像特徴に対応付けて保持する保持手段を更に有することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。 The estimation means estimates the shielding information, which is a likelihood indicating that each object detected from the image is shielded by another object.
The information processing apparatus according to any one of claims 1 to 3, further comprising a holding means for holding the likelihood in association with an image feature of the object.
前記推定手段は、前記取得手段によって取得された前記物体毎の領域について、遮蔽されている物体の有無を示す前記遮蔽情報を推定することを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。 Further having an acquisition means for acquiring an area for each object from the image,
The estimation means according to any one of claims 1 to 6, wherein the estimation means estimates the shielding information indicating the presence or absence of a shielded object in the area of each object acquired by the acquisition means. The information processing device described.
前記遮蔽されている物体を記憶する記憶手段と、をさらに有することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。 Is there an object that is shielded based on the correspondence between each object detected from the image identified by the specific means and the object detected in the image captured at a time different from the image? Judgment means to determine whether or not,
The information processing apparatus according to any one of claims 1 to 7, further comprising a storage means for storing the shielded object.
前記記憶手段は、前記画像が撮像された時点において、前記第1の物体が遮蔽されたことを記憶することを特徴とする請求項8に記載の情報処理装置。 The determination means determines as the first object an object that does not correspond to each object detected from the image among the objects detected in the image captured before the image.
The information processing apparatus according to claim 8, wherein the storage means stores that the first object is shielded at the time when the image is captured.
前記記憶手段は、前記画像から検出された前記第2の物体について、前記記憶手段によって前記画像より前に撮像された画像において遮蔽されていると判定された前記第1の物体との類似度が所定の閾値より大きい場合に、前記画像が撮像された時点において前記第1の物体は遮蔽されていないことを記憶することを特徴とする請求項9に記載の情報処理装置。 The determination means determines, among the objects detected from the image, an object that does not correspond to the object detected in the image captured before the image as the second object.
The storage means has a similarity with the first object determined to be shielded in the image captured before the image by the storage means with respect to the second object detected from the image. The information processing apparatus according to claim 9, wherein when the value is larger than a predetermined threshold value, it is stored that the first object is not shielded at the time when the image is captured.
前記推定手段は、前記第2の画像において検出された物体について他の物体を遮蔽していることを示す前記遮蔽情報を推定し、
前記特定手段は、前記推定手段によって推定された前記遮蔽情報に基づいて、前記第1の画像において検出された物体のうち他の物体を遮蔽している物体について、前記第2の画像において検出された物体と同一の物体であることを特定することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。 When two objects are detected in the first image and one object is detected in the second image captured after the first image.
The estimation means estimates the shielding information indicating that the object detected in the second image is shielding another object.
The specific means is detected in the second image with respect to an object that is shielding another object among the objects detected in the first image based on the shielding information estimated by the estimation means. The information processing apparatus according to any one of claims 1 to 10, wherein it is specified that the object is the same as the object.
前記推定手段は、前記第3の画像から検出された2つの物体のうち、前記第2の画像から検出された物体の画像特徴と対応付けられた物体について、他の物体を遮蔽していることを示す前記遮蔽情報を推定し、
前記特定手段は、前記第1の画像から検出された物体のうち他の物体によって遮蔽された物体について、前記第3の画像から検出された物体のうち前記第2の画像から検出された物体の画像特徴と対応付けられた物体とは異なる物体を、前記第2の画像において遮蔽された物体と同一の物体であることを特定することを特徴とする請求項11に記載の情報処理装置。 When two objects are detected from the third image captured after the second image,
The estimation means shields the other object from the two objects detected from the third image with respect to the object associated with the image feature of the object detected from the second image. Estimate the shielding information indicating
The specific means refers to an object shielded by another object among the objects detected from the first image, and an object detected from the second image among the objects detected from the third image. The information processing apparatus according to claim 11, wherein an object different from the object associated with the image feature is specified to be the same object as the shielded object in the second image.
遮蔽する物体と遮蔽された物体との遮蔽関係を示す画像特徴を学習した学習済みモデルに基づいて、前記画像から検出された各物体について、前記画像から検出された他の物体との遮蔽関係を示す遮蔽情報を推定する推定工程と、
少なくとも前記遮蔽情報に基づいて、前記画像から検出された各物体について、前記画像と異なる時刻に撮像された画像において検出された物体との対応関係を特定する特定工程と、を有することを特徴とする情報処理方法。 An information processing method that detects at least one or more objects from an image.
Based on the trained model that learned the image features showing the shielding relationship between the shielded object and the shielded object, for each object detected from the image, the shielding relationship with other objects detected from the image is determined. An estimation process for estimating the shielding information to be shown, and
It is characterized by having a specific step of specifying a correspondence relationship between each object detected from the image based on at least the shielding information and the object detected in the image captured at a time different from the image. Information processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123119A JP2022019339A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123119A JP2022019339A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022019339A true JP2022019339A (en) | 2022-01-27 |
Family
ID=80203662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020123119A Pending JP2022019339A (en) | 2020-07-17 | 2020-07-17 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022019339A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7391150B1 (en) | 2022-08-02 | 2023-12-04 | 三菱電機株式会社 | Identification device, identification method and identification program |
-
2020
- 2020-07-17 JP JP2020123119A patent/JP2022019339A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7391150B1 (en) | 2022-08-02 | 2023-12-04 | 三菱電機株式会社 | Identification device, identification method and identification program |
JP2024020678A (en) * | 2022-08-02 | 2024-02-15 | 三菱電機株式会社 | Identification apparatus, identification method, and identification program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12067173B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
US10885372B2 (en) | Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium | |
US9092662B2 (en) | Pattern recognition method and pattern recognition apparatus | |
JP5766564B2 (en) | Face authentication apparatus and face authentication method | |
JP4597391B2 (en) | Facial region detection apparatus and method, and computer-readable recording medium | |
JP2013210968A (en) | Object detecting device and method, and program | |
CN111160291B (en) | Human eye detection method based on depth information and CNN | |
CN110264493A (en) | A kind of multiple target object tracking method and device under motion state | |
JP2008501172A (en) | Image comparison method | |
US11544926B2 (en) | Image processing apparatus, method of processing image, and storage medium | |
Bouachir et al. | Structure-aware keypoint tracking for partial occlusion handling | |
JP6448212B2 (en) | Recognition device and recognition method | |
CN112257617B (en) | Multi-modal target recognition method and system | |
CN115841602A (en) | Construction method and device of three-dimensional attitude estimation data set based on multiple visual angles | |
Evans et al. | Multicamera object detection and tracking with object size estimation | |
CN106529441A (en) | Fuzzy boundary fragmentation-based depth motion map human body action recognition method | |
Hayashi et al. | Head and upper body pose estimation in team sport videos | |
Zhang et al. | A novel efficient method for abnormal face detection in ATM | |
CN109949344A (en) | It is a kind of to suggest that the nuclear phase of window closes filter tracking method based on color probability target | |
JP2022019339A (en) | Information processing apparatus, information processing method, and program | |
JP7488674B2 (en) | OBJECT RECOGNITION DEVICE, OBJECT RECOGNITION METHOD, AND OBJECT RECOGNITION PROGRAM | |
García-Martín et al. | Robust real time moving people detection in surveillance scenarios | |
Makris et al. | Robust 3d human pose estimation guided by filtered subsets of body keypoints | |
WO2012153868A1 (en) | Information processing device, information processing method and information processing program | |
CN112508998A (en) | Visual target alignment method based on global motion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200731 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230607 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241024 |