JP2011253528A - 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法 - Google Patents

識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法 Download PDF

Info

Publication number
JP2011253528A
JP2011253528A JP2011108179A JP2011108179A JP2011253528A JP 2011253528 A JP2011253528 A JP 2011253528A JP 2011108179 A JP2011108179 A JP 2011108179A JP 2011108179 A JP2011108179 A JP 2011108179A JP 2011253528 A JP2011253528 A JP 2011253528A
Authority
JP
Japan
Prior art keywords
classifier
particular scene
adapting
scene
detect objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011108179A
Other languages
English (en)
Other versions
JP5558412B2 (ja
Inventor
M Porikli Faith
ファティー・エム・ポリクリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2011253528A publication Critical patent/JP2011253528A/ja
Application granted granted Critical
Publication of JP5558412B2 publication Critical patent/JP5558412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】汎用識別器を、特定のシーン、この識別器がトレーニングされたときには未知であるか又は利用可能でなかった特定のシーンに適応させることができるトレーニング方法を提供する。
【解決手段】汎用識別器が、特定のシーン内のオブジェクトを検出するように適応される。特定のシーンは識別器が汎用トレーニングデータを用いてトレーニングされたときに未知であった。カメラが、特定のシーンのフレームのビデオを取得する。ビデオ内のフレームを用いて特定のシーンモデルのモデルが構築される。識別器はモデルに適用され、負の例が選択される。そして、新たな負の例がトレーニングデータに付加される一方で、不確実性基準に基づいて、トレーニングデータから既存の負の例の別のセットが除去される。選択された正の例もトレーニングデータに付加され、識別器はシーン固有の識別器を得るための所望の精度レベルに達するまで再トレーニングされる。
【選択図】図2

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細には、移動しているオブジェクト、特に人を検出するように一般的なオブジェクト識別器を特定のシーンに適応させることに関する。
ビデオフレーム内のオブジェクトを検出又は分類するためのほとんどのトレーニング方法は、ビデオのラベル付けされたフレーム例を提供することによってトレーニングされる。識別器がトレーニングされた後、既知のテストフレームを処理して識別器の性能精度を求めることができる。
そのような方法は、トレーニング及びテストが、同じシーン等の類似した条件において行われるときに良好に実行される。しかしながら、トレーニング及び配備は、幅広く変動する照明、カメラ位置、オブジェクトの見かけの大きさ、及びオブジェクトの姿勢を有する様々なシーン内であり得るので、条件は多くの場合に変化する。すなわち、多くの場合に、識別器が適用されるシーンのタイプを事前に求めることができない。
本発明の目的は、汎用識別器を、特定のシーン、この識別器がトレーニングされたときには未知であるか又は利用可能でなかった特定のシーンに適応させることである。
多くのコンピュータービジョンタスクにおいて、シーン変化によって、汎用的にトレーニングされた識別器の能力が妨げられる。たとえば、1つのフレームセットを用いて人検出器用にトレーニングされた識別器は、異なるシーン条件において良好に機能する可能性が低い。
したがって、本発明の実施の形態は、汎用トレーニングデータを取り、識別器を異なる特定のシーンに適応させることができる(人)オブジェクト検出のためのインクリメンタルトレーニング方法及びシステムを提供する。
自律的モードにおいて、特定のシーン内に人が存在しない間の、ビデオの最初のいくつかのフレームが適応のために用いられる。すなわち、特定のシーンは概ね静止している。ほとんどの場合、背景シーンの単一のフレームがあれば十分である。ユーザーの助けにより、最初のいくつかのフレームが静止していないときにアクティブトレーニングモードを用いることができる。
本方法は、汎用トレーニング例を適応させてシーン固有のオブジェクト検出器を提供するのに用いることができる。これによって、シーンにおいてデータ収集のコストのかかる動作を伴うことなく、特定のシーンにおける迅速な配備が可能になる。インクリメンタルトレーニングを用いて、識別器は、利用可能な汎用トレーニング例の利点を、シーン固有の例と同様に結合することができる。
本発明の実施の形態による、オブジェクトを検出するための識別器が適応される特定のシーンのビデオフレームである。 適応されていない識別器が人オブジェクトを含むと識別した窓を含むビデオフレームである。 本発明の実施の形態による、識別器を特定のシーンに適応させるための方法の流れ図である。 本発明の実施の形態による、適応された識別器が人オブジェクトを含むと識別した窓を含むビデオフレームである。
図1Aは、本発明の実施の形態に従って人が検出されることになる特定のシーンを示している。本発明の目的は、汎用的にトレーニングされた識別子を、汎用識別器が汎用トレーニングデータを用いてトレーニングされたときには未知であった特定のシーン内のオブジェクトを検出するように適応させることである。
図1Bに示すように、テストビデオのフレーム102毎に、それぞれ水平方向及び垂直方向の50×30ピクセルの重複を有する70×50ピクセルのスライド窓101を用いる。窓は、ラスター走査順でフレームを横切る。勾配ヒストグラム(HOG:Histogram Of Gradient)特徴が窓毎に抽出され、特徴ベクトルが構築される。特徴ベクトルは、トレーニングされた識別器、たとえば汎用サポートベクターマシン(SVM:Support Vector Machine)に渡され、特定のシーン内の人が検出される。マルチクラス識別器等の他の識別器も用いることができることに留意されたい。
図1Bに示される各窓が、正の識別器出力を示す。図1Bは、主にフレームの左上部分における紛らわしいテクスチャに起因する過度に多数の誤検出を示している。このため、汎用的にトレーニングされたオブジェクト識別器は、良好に一般化されず、トレーニング例の詳細に大きく依存する。
通常、特定のシーン内の背景は、トレーニング中未知であるか又は利用可能でない。したがって、背景の部分は多くの場合に、特定のシーンから取得されたフレームにおいて人であると誤って分類される。
他方で、人100を含む窓が、図1Bのフレーム内で正しく検出されていることも見て取ることができる。したがって、識別器は、検出問題のいくつかの局面、特に人の外観を正しく捉えている。
トレーニングされた識別器の部分的な正確性に動機付けされ、本発明者らの目的は、識別器を特定のシーンに効率的かつ迅速に、すなわちユーザー入力をほとんど又は全く伴うことなく適応させることである。
目標は、以前のトレーニング例の情報性のある局面を保持する一方で、特定のシーンのための分類タスクに関するより多くの情報も集め、それによって、汎用識別器からシーン固有の識別器を構築することである。
人検出の用途に焦点を置く。これは、ほとんどの監視用途において重要である。しかしながら、本発明者らの方法は、他の検出及びオブジェクト追跡タスクにも適用することができる。概して、本発明者らの方法は、トレーニングのための新たな例を選択し、古い情報性のない例を除去することにより、インクリメンタル更新を実行することによって機能する。情報性のない例を除去することによって、固定サイズのトレーニングデータセットを維持することが可能になるので、トレーニングが効率的であり、固定メモリ及びリアルタイム処理要件と共に機能することができる。
方法
図2は、本方法のステップをより詳細に示している。本方法のステップは、当該技術分野において既知のメモリ及び入力/出力インターフェースを備えるプロセッサにおいて実行することができる。
特定のシーン201のビデオ221が、カメラ220によって取得される。シーンモデルのモデル210が、ビデオを用いて構築される(222)。識別器230がモデルに適用され、負の例が選択される(231)。
最初に、識別器230は、汎用の、たとえばサポートベクターマシン(SVM)、カスケード識別器、又はマルチクラス識別器である。識別器は、シーンに固有の識別器となるように適応され、この識別器を用いて、特定のシーン内の人等のオブジェクトを検出することができる。このオブジェクトは、国立情報学自動制御研究所(INRIA:Institut National de Recherche en Informatique et en Automatique)人物データ、又はマサチューセッツ工科大学(MIT:Massachusetts Institute of Technology)の生物学及びコンピューター学習センター(CBCL:Center for Biological & Computational Learning)の歩行者データセット等の既知の汎用データセットからの汎用トレーニングフレーム例の大きなセットを用いて最初にトレーニングされたときは未知であった。双方のデータセットが、人オブジェクト検出及び同様の用途のために識別器をトレーニングするのにコンピュータービジョンコミュニティにおいて広く用いられる、ラベル付けされたトレーニングフレーム及びラベル付けされていないテストフレームの大きなセットを含む。しかしながら、オブジェクトが存在する特定のシーンは、汎用識別器がトレーニングされたときに未知である。
新たな負の例のサブセットがトレーニングデータに加えられる一方、不確実性基準に基づいて、トレーニングデータから既存の負の例の別のセットが除去され、新たなトレーニングデータ240が生成される。同様に、正の例をトレーニングデータに付加する。これによってデータセットが固定サイズに維持される。
次に、識別器は新たなトレーニングデータ240を用いて再トレーニングされる(250)。選択するステップ、付加するステップ、及びトレーニングするステップは、所望の精度レベルに達するまで反復される。
代替的な実施の形態では、動きセンサー260を用いて特定のシーン内の動きを検出する(270)ことができ、この検出は正の例の選択251をトリガーする。動きが検出されると、フレームは、動きフレームとしてマーキングされる。フレーム差分は、動きの検出前、検出中、及び検出後にフレームに適用される。最も大きな差分値を有するフレーム内の領域が求められ、オブジェクトサイズ窓がグループ化されたピクセルに適合される。ここで、窓は新たな正の例である。
半教師付きモードにおいて、ユーザーがトレーニング中に参加し、オプションのユーザー入力データを提供する。次に、本方法は、フレーム窓を示してこの窓がオブジェクトを含むか否かをクエリする等の、ユーザーに対して行われるいくつかのクエリに基づいて特定のシーンに適応する。このモードは、人の外観が大幅に異なる場合があるか、又は空の(動きのない)フレームが自律的適応に利用可能でない、より困難な環境に用いることができる。
自律モードは、汎用データセット内の汎用データ、及び動きを一切含まない特定のシーン(単なる背景)のビデオからの最初のいくつかのフレームを用いて、本発明者らのシーン固有の識別器230をトレーニングする。このモードでは、最初のいくつかの空のフレーム、たとえば1つ又は2つを、自動背景除去に用いることができる。
ループ内のユーザーを用いた適応
アクティブトレーニング
アクティブトレーニング、その後に続く本発明者らのアクティブ選択方法の短い概観を与える。アクティブトレーニングにおける基本的な着想は、ユーザーに「情報性のある例」をクエリし、それによって受動方法、すなわちより少ないトレーニング例を用いるよりも高速にトレーニングを行うことである。アクティブトレーニングは、複数のコンピュータービジョンアプリケーションにおいて利用されてきた。たとえば、米国特許第7,593,934号及び同第7,587,064号を参照されたい。
アクティブ選択プロセスは通例反復的であり、プロシージャはユーザーに、選択されたラベル付けされていない例に対するラベルをクエリし、ユーザーフィードバックを取得し、ここでラベル付けされた例をトレーニングセットに付加する。識別器は各反復中に再トレーニングされ(250)、所望の精度レベルに達するか、トレーニングデータがこれ以上利用可能でなくなるまでプロセスが反復される。
インテリジェントなクエリ選択を通じて、アクティブトレーニングは、汎用識別器を非常に少ないトレーニング例を用いてトレーニングすることができる。アクティブトレーニングの最も重大な局面は、クエリ選択メカニズムである。未来の分類率に関してラベル付けされていない例の潜在的な情報性を基準することは、クエリ選択の場合と同様に困難である。
ほとんどの方法は、不確実性サンプリング、すなわち現在の識別器が最も不確実である例又は換言すれば最も不確実な例を選択すること等の代用物を用いる。たとえば、SVM識別器230について、分類境界に最も近い例は不確実であり、ラベル付けされている場合、潜在的に情報性のあるものとなり得る。不確実性サンプリングに焦点を置く。
インクリメンタルトレーニング及び忘却
このセクションでは、インクリメンタルトレーニングのためのアクティブトレーニング及び忘却を利用する。主な着想は、汎用ラベル付けされたトレーニングフレームを所与とすると、トレーニングセットに付加するために、配備中のシーンから新たな情報性のあるフレームをユーザーにクエリすることができる一方、古い情報性のないフレームを除去することができるということである。選択(付加)及び削除(忘却)プロセスは、共にアクティブ選択を通じて機能する。削除の場合、アクティブ選択基準は逆にされる。すなわち、最も情報性のない例が選択される。
本発明者らの知る限り、これは、アクティブ忘却を用いると共にアクティブ忘却をインクリメンタル識別器トレーニングのためのアクティブトレーニングと組み合わせる最初の研究である。
図2に示されるように、配備用の特定のシーン201が汎用ラベル付けされたトレーニングデータと共に与えられると、本方法は、ユーザーにクエリし、新たなフレームからいくつかのトレーニング例フレームを選択及び付加する。トレーニングデータを用いて識別器を特定のシーンに適応させる。
同時に、古い情報性のないデータがトレーニングセットから除去され、このため固定サイズであることが要求されるメモリが維持され、リアルタイム処理が可能になる。除去される例がアクティブに選択されるので、それらは比較的情報性がなく、除去によって精度が大幅に減少することはない。
このプロセスは、反復して実行され、その結果、汎用トレーニングデータを少量のユーザー入力を用いて適応させることによって達成された、シーン固有のトレーニングされた識別器となる。通常、特定のシーンにおいて、ビデオの最初のいくつかのフレーム、たとえば1つ又は2つは、更新を実行するのに用いることができ、そして結果としての識別器を特定のシーンに配備することができる。
不確実性ベースの選択基準
本発明者らが利用する選択基準は、SVM識別器の超平面への距離に基づく。特に、SVMがトレーニングされた後、SVMを用いて、ラベル付けされていないフレームのクラスメンバーシップ確率値を推定する。以下で確率推定技法の短い概観を与える。
マージンに基づく確率推定
マージンからクラスメンバーシップ確率の推定値を得るために、プラットの逐次最小最適化(SMO:Sequential Minimal Optimization)手順の変更版を用いて(米国特許第7,117,185号を参照されたい)、SVMから確率出力を抽出する。基本的な着想は、シグモイド関数を用いてクラス確率を概算することである。
本発明者らの特徴ベクトルはxであり、y∈2{−1,1}はベクトルの対応するラベルであり、f(x)がSVMの決定関数である。クラスメンバーシップの条件付き確率P(y=1|x)は、次式(1)を用いて概算することができる。
Figure 2011253528
ここで、A及びBは、最大尤度技法を用いて推定されたパラメーターである。
ラベル付けされたトレーニングデータのセットは、任意の時点においてLである。xを、そのアクティブ選択基準(不確実性スコア)が対象とするラベル付けされていない例の特徴ベクトルとする。yを、選択中未知である、xの真のラベルとする。
選択基準を、2つのクラスに関して推定された確率間の差|P(y=1|L)−P(y=0|L)|として定義する。このため、大きなプールAからのアクティブな例選択は、次式(2)のように定式化することができる。
Figure 2011253528
上記のスコアは、ラベル付けされていない例の場合の識別器の不確実性を表している。スコアが低いほど不確実性が高く(マージンがより小さい)、例は現在の識別器を更新する可能性がより高い。上記と同じ不確実性スコアを用いて、識別器境界から最も離れていることを示す最も高いスコアを有する例を除去することができる。
SVM識別器の場合、これらの例は、ベクトルをサポートしない。このため、例を除去しても識別器の精度が変化しない。新たな例を付加することによって、除去される例が潜在的なサポートベクトルとなる場合があることに留意されたい。しかしながら、実際は、これは極度に稀にしか発生しないことを観測している。したがって、この基準を用いた例の除去は識別器の精度を減少させない。
二値分類の場合、マージンへの距離で十分である。しかしながら、推定確率値を用いて、上記の方法をマルチクラス識別器にも拡張することができる。kクラス問題の場合の選択基準は、次式(3)のとおりである。
Figure 2011253528
本発明者らの方法は、他の検出技法に取って代わることを意図しているのではなく、インクリメンタルアクティブトレーニングを追加することによって、他の検出技法を補うことを意図している。したがって、本発明者らの方法は、人検出アプリケーションにおいて良好な性能を与えることで知られている、識別器カスケード等の、特定のドメインにおいて良好に機能する他の既知の技法と共に用いることができる。
上記の半教師付き適応方法は、トレーニング条件とテスト条件が概ね異なり、他の情報が利用可能でない場合であっても、多くのインクリメンタルトレーニングタスクに適用することができる。
多くの人検出アプリケーションにおいて、より多くの情報が利用可能である。たとえば、特定のシーンにおいて、特定のシーン内に人が一切いないビデオのいくつかのフレーム(すなわち、この特定のシーンは、本質的に静止背景である)にアクセスすることができる場合がある。
代替的に、動きセンサーは、監視環境において多くの場合に利用可能である。動きセンサーは、人のいないフレーム(すなわち特定のシーンが概ね静止している)の存在を示すプライマリセンサーとして用いることができる。動きセンサーが動きを検出すると、正のサンプルを選択することができる。この実施の形態では、汎用識別器を、以下のように完全に自律的に特定のシーンに適応させることができる。
自律的適応
図1Bの例において、多数の誤検出が存在する。誤ったサンプルを根絶する一方、正しい検出をそのままにしておくことを目的とする。特定のシーン内に人が存在しないビデオフレームにアクセスすることができる場合、そのフレームからのフレーム窓を用いて、より多くの負のトレーニング例を集めることができる。
負の例の選択
フレームあたりのスライディング窓の数は、小さな窓サイズ及び大幅な重複に起因して非常に大きくなり得る。したがって、トレーニングセットのサイズ及び再トレーニング時間の双方の視点から、全ての窓を負のトレーニング例として用いることは実際的でない。
このセクションでは、例の選択、付加、及び除去の本発明者らの方法を説明する。汎用識別器230は、空のフレーム、すなわち人のいないフレームに適用され、識別器が正の応答を与える全ての窓がトレーニング用に選択される。
フレームは空であることが分かっているので、正の検出は、本質的に識別器による誤分類である。したがって、正の検出をトレーニングデータに付加することによって汎用識別器がシーン固有の識別器に変化すると共に、誤検出の数を低減する可能性が高い。
本発明の実施の形態は、ベイズ背景更新メカニズムを用いて特定のシーンの背景を推定すること、及び混合モデルのセットを各ピクセルに適合させて、最も有望なピクセルモデルを選択することによって、特定のシーンのモデルを構築する。この背景から、オブジェクトサイズにされた窓が選択される。
代替的に、ビデオからのフレームのセットに関して、差分が小さいピクセルをグループ化することによって(すなわち、グループ化されたピクセルが概ね静止した特定のシーンの部分を表す)、フレーム内のピクセル間の差分が求められる。次に、オブジェクトサイズ窓がグループ化されたピクセルに適合される。双方の場合に、窓は動きを表現しないので、そのような窓は新たな負の例に対応し、この窓は、動いているオブジェクトを一切含まない可能性が非常に高い。
新たな正の例を得るために、動きセンサーを用いて動きを有する動きフレームを検出することができる。このとき、フレーム差分は、動きの検出前、検出中、及び検出後のフレームにしか適用されない。そのようなフレーム差分マップにおいて、最大の差分値を有する領域が動いているオブジェクトを示し、このため新たな正の例を示す。
トレーニングセットサイズの維持
他方で、新たなトレーニング例を付加することによって、トレーニングデータセットのサイズが増加する。これは、メモリが制約された用途、及び処理レートがたとえばリアルタイムの人検出のために重要である場合において望ましくない。したがって、等しい数の古い負の例の、汎用トレーニング例からの除去も行う。これは、前のセクションの方法を用いることによって、すなわち境界から最も遠い例を除去することによって達成される。
(人)オブジェクト検出器のための汎用識別器を特定のシーンに適応させるための完全に自律的なモードを提供する。また、ユーザーが識別器を再トレーニングするための正の例及び負の例をクエリされる半自律的モードを提供する。図3は、本発明者らの識別器が、歩行者301を含む窓を正確に識別するように適用されるビデオフレームを示している。
本方法は、汎用トレーニング例を適応させてシーン固有のオブジェクト検出器を提供するのに用いることができる。これによって、シーンにおいてデータ収集のコストのかかる動作を伴うことなく、特定のシーンにおける迅速な配備が可能になる。インクリメンタルトレーニングを用いて、識別器は、利用可能な汎用トレーニング例の利点を、シーン固有の例と同様に結合することができる。

Claims (18)

  1. 識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法であって、前記特定のシーンは、前記識別器がトレーニングデータを用いてトレーニングされたときに未知であり、前記方法は、
    前記特定のシーンのフレームのビデオを、カメラを用いて取得するステップと、
    前記ビデオ内の前記フレームを用いて、前記特定のシーンモデルのモデルを構築するステップと、
    前記識別器を前記モデルに適用するステップであって、負の例を選択する、適用するステップと、
    新たな前記負の例のサブセットを前記トレーニングデータに付加する一方で、不確実性基準に基づいて、前記トレーニングデータから既存の負の例の別のセットを除去するステップと、
    選択された正の例を前記トレーニングデータに付加するステップと、
    前記識別器を再トレーニングするステップと、
    シーン固有の識別器を得るための所望の精度レベルに達するまで、前記付加するステップ及び前記再トレーニングするステップを反復するステップと、
    を含む識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  2. 前記構築するステップは、
    混合モデルのセットを前記フレーム内の各ピクセルに適合させることによって、ベイズ背景更新メカニズムを用いて前記特定のシーンの背景を推定するステップであって、ピクセルモデルを生成する、推定するステップと、
    最も可能性の高いピクセルモデルを選択するステップと、
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  3. 前記モデルは、フレーム差分を求めると共に、小さい差分値を有するピクセルをグループ化すること、及びオブジェクトサイズ窓を前記グループ化されたピクセルに適合させることによって構築され、ここで、前記窓は新たな負の例である請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  4. 動きセンサーを用いて前記特定のシーン内の動きを検出するステップと、
    前記フレーム差分を、前記動きの検出前、検出中、及び検出後に適用するステップであって、差分値を求める、適用するステップと、
    最も大きな差分値を有する前記フレーム内の領域を求めるステップと、
    前記オブジェクトサイズ窓を前記グループ化されたピクセルに適合させるステップであって、ここで、前記窓は新たな正の例である、適合させるステップと、
    をさらに含む請求項3に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  5. メモリ要件及びリアルタイム処理要件に従って前記トレーニングデータを固定サイズに設定及び維持するステップ
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  6. 現在のモデルと現在のフレームとの間の差分が大きい場合、前記再トレーニングを反復することによって、前記特定のシーン内の変化に適応させるステップ
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  7. 前記新たな負の例を用いてマルチクラス識別器を適応させるステップ
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  8. 前記新たな負の例及び前記正の例を用いて前記識別器を再トレーニングするステップと、
    前記識別器を前記識別器内のカスケード層として付加するステップと、
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  9. 前記トレーニングデータは、最初汎用である請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  10. 前記窓のサイズは、75×50ピクセルであり、50×30ピクセルの水平方向及び垂直方向の重複を有する請求項3に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  11. 各前記フレームから特徴を抽出するステップであって、特徴ベクトルにする、抽出するステップと、
    前記特徴ベクトルを分類するステップと、
    をさらに含む請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  12. 前記特徴は、勾配ヒストグラムである請求項11に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  13. 前記識別器は、サポートベクターマシンである請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  14. 前記識別器は、マルチクラス識別器である請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  15. 前記識別器は、最初汎用である請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  16. 前記オブジェクトは、人である請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  17. ユーザーが、アクティブトレーニング中に選択されたラベル付けされていない例を選択する請求項1に記載の識別器を特定のシーン内のオブジェクトを検出するように適応させるための方法。
  18. 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステムであって、前記特定のシーンは、前記識別器がトレーニングデータを用いてトレーニングされたときに未知であり、前記システムは、
    前記特定のシーンのフレームのビデオを、取得するように構成されるカメラと、
    前記ビデオ内の前記フレームを用いて、前記特定のシーンモデルのモデルを構築する手段と、
    前記識別器を前記モデルに適用して負の例を選択する手段と、
    新たな前記負の例のサブセットを前記トレーニングデータに付加する一方で、不確実性基準に基づいて、前記トレーニングデータから既存の負の例の別のセットを除去する手段と、
    選択された正の例を前記トレーニングデータに付加する手段と、
    前記識別器を再トレーニングする手段と、
    を備える識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム。
JP2011108179A 2010-06-01 2011-05-13 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法 Active JP5558412B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/791,786 US8385632B2 (en) 2010-06-01 2010-06-01 System and method for adapting generic classifiers for object detection in particular scenes using incremental training
US12/791,786 2010-06-01

Publications (2)

Publication Number Publication Date
JP2011253528A true JP2011253528A (ja) 2011-12-15
JP5558412B2 JP5558412B2 (ja) 2014-07-23

Family

ID=45022167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011108179A Active JP5558412B2 (ja) 2010-06-01 2011-05-13 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法

Country Status (2)

Country Link
US (1) US8385632B2 (ja)
JP (1) JP5558412B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153906A (ja) * 2013-02-08 2014-08-25 Honda Motor Co Ltd 検査装置、検査方法及びプログラム
KR101733288B1 (ko) * 2015-06-16 2017-05-08 중앙대학교 산학협력단 방향정보를 이용한 객체 검출기 생성 방법, 이를 이용한 객체 검출 장치 및 방법
JP2017536635A (ja) * 2015-07-31 2017-12-07 小米科技有限責任公司Xiaomi Inc. ピクチャーのシーンの判定方法、装置及びサーバ
JP2018005357A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183447B1 (en) * 2011-06-09 2015-11-10 Mobileye Vision Technologies Ltd. Object detection using candidate object alignment
CN103324937B (zh) * 2012-03-21 2016-08-03 日电(中国)有限公司 标注目标的方法和装置
US9141196B2 (en) * 2012-04-16 2015-09-22 Qualcomm Incorporated Robust and efficient learning object tracker
US10009579B2 (en) 2012-11-21 2018-06-26 Pelco, Inc. Method and system for counting people using depth sensor
US9367733B2 (en) 2012-11-21 2016-06-14 Pelco, Inc. Method and apparatus for detecting people by a surveillance system
US9639747B2 (en) * 2013-03-15 2017-05-02 Pelco, Inc. Online learning method for people detection and counting for retail stores
CN103177248B (zh) * 2013-04-16 2016-03-23 浙江大学 一种基于视觉的快速行人检测方法
CN104424466B (zh) 2013-08-21 2018-05-15 佳能株式会社 对象检测方法、对象检测设备及图像拾取设备
US9514364B2 (en) 2014-05-29 2016-12-06 Qualcomm Incorporated Efficient forest sensing based eye tracking
US9563855B2 (en) * 2014-06-27 2017-02-07 Intel Corporation Using a generic classifier to train a personalized classifier for wearable devices
US9489598B2 (en) 2014-08-26 2016-11-08 Qualcomm Incorporated Systems and methods for object classification, object detection and memory management
US9530082B2 (en) * 2015-04-24 2016-12-27 Facebook, Inc. Objectionable content detector
CN106295666B (zh) * 2015-05-14 2020-03-03 佳能株式会社 获取分类器、检测对象的方法和装置及图像处理设备
CN105095911B (zh) 2015-07-31 2019-02-12 小米科技有限责任公司 敏感图片识别方法、装置以及服务器
US9760807B2 (en) * 2016-01-08 2017-09-12 Siemens Healthcare Gmbh Deep image-to-image network learning for medical image analysis
US10867216B2 (en) 2016-03-15 2020-12-15 Canon Kabushiki Kaisha Devices, systems, and methods for detecting unknown objects
KR102462572B1 (ko) * 2016-03-17 2022-11-04 모토로라 솔루션즈, 인크. 기계 학습에 의해 객체 분류기를 훈련시키는 시스템 및 방법
US10671852B1 (en) 2017-03-01 2020-06-02 Matroid, Inc. Machine learning in video classification
US11063836B2 (en) * 2017-03-21 2021-07-13 Cisco Technology, Inc. Mixing rule-based and machine learning-based indicators in network assurance systems
US10417501B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
CN108960046A (zh) 2018-05-23 2018-12-07 北京图森未来科技有限公司 一种训练数据采样方法及其装置、计算机服务器
US10997469B2 (en) * 2019-09-24 2021-05-04 Motorola Solutions, Inc. Method and system for facilitating improved training of a supervised machine learning process
US20230071046A1 (en) * 2021-08-18 2023-03-09 International Business Machines Corporation Active learning of data models for scaled optimization
US12111886B2 (en) 2021-11-01 2024-10-08 Western Digital Technologies, Inc. Data collection and retraining in edge video devices
US12125317B2 (en) * 2021-12-01 2024-10-22 Adobe Inc. Automatic recognition of visual and audio-visual cues
US12001701B2 (en) 2022-01-26 2024-06-04 Western Digital Technologies, Inc. Storage biasing for solid state drive accelerators
US11797224B2 (en) 2022-02-15 2023-10-24 Western Digital Technologies, Inc. Resource management for solid state drive accelerators

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341959A (ja) * 2003-05-16 2004-12-02 Just Syst Corp データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP2010067102A (ja) * 2008-09-12 2010-03-25 Sony Corp 物体検出装置、撮像装置、物体検出方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006950B1 (en) * 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
US7117185B1 (en) 2002-05-15 2006-10-03 Vanderbilt University Method, system, and apparatus for casual discovery and variable selection for classification
US7587064B2 (en) 2004-02-03 2009-09-08 Hrl Laboratories, Llc Active learning system for object fingerprinting
US7359555B2 (en) * 2004-10-08 2008-04-15 Mitsubishi Electric Research Laboratories, Inc. Detecting roads in aerial images using feature-based classifiers
US7593934B2 (en) 2006-07-28 2009-09-22 Microsoft Corporation Learning a document ranking using a loss function with a rank pair or a query parameter
FR2909205B1 (fr) * 2006-11-28 2009-01-23 Commissariat Energie Atomique Procede de designation d'un objet dans une image.
GB0818561D0 (en) * 2008-10-09 2008-11-19 Isis Innovation Visual tracking of objects in images, and segmentation of images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341959A (ja) * 2003-05-16 2004-12-02 Just Syst Corp データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP2010067102A (ja) * 2008-09-12 2010-03-25 Sony Corp 物体検出装置、撮像装置、物体検出方法およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153906A (ja) * 2013-02-08 2014-08-25 Honda Motor Co Ltd 検査装置、検査方法及びプログラム
KR101733288B1 (ko) * 2015-06-16 2017-05-08 중앙대학교 산학협력단 방향정보를 이용한 객체 검출기 생성 방법, 이를 이용한 객체 검출 장치 및 방법
JP2017536635A (ja) * 2015-07-31 2017-12-07 小米科技有限責任公司Xiaomi Inc. ピクチャーのシーンの判定方法、装置及びサーバ
JP2018005357A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
US10896343B2 (en) 2016-06-29 2021-01-19 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method

Also Published As

Publication number Publication date
JP5558412B2 (ja) 2014-07-23
US8385632B2 (en) 2013-02-26
US20110293136A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
JP5558412B2 (ja) 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
US6502082B1 (en) Modality fusion for object tracking with training system and method
Yang et al. Multi-object tracking with discriminant correlation filter based deep learning tracker
JP4767595B2 (ja) 対象物検出装置及びその学習装置
Sebe et al. Skin detection: A bayesian network approach
US9798923B2 (en) System and method for tracking and recognizing people
JP2019521443A (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
JP2017111660A (ja) 映像パターン学習装置、方法、及びプログラム
CN111008643B (zh) 基于半监督学习的图片分类方法、装置和计算机设备
Freytag et al. Labeling examples that matter: Relevance-based active learning with gaussian processes
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN109003291A (zh) 目标跟踪方法及装置
Siva et al. Weakly Supervised Action Detection.
Avola et al. Machine learning for video event recognition
CN109492702A (zh) 基于排序度量函数的行人重识别方法、系统、装置
Nikpour et al. Deep reinforcement learning in human activity recognition: A survey
JP2014203133A (ja) 画像処理装置、画像処理方法
EP4399689A1 (en) Object detection systems and methods including an object detection model using a tailored training dataset
Katircioglu et al. Self-supervised training of proposal-based segmentation via background prediction
Sandhu et al. Dengue larvae detection and tracking using CNN and kalman filtering
Singh et al. Unusual activity detection for video surveillance
Joshi et al. Scene-adaptive human detection with incremental active learning
Rani et al. Recognition and Detection of Multiple Objects from Images: A Review
Chen et al. Active inference for retrieval in camera networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140313

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140313

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140604

R150 Certificate of patent or registration of utility model

Ref document number: 5558412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250