JP2011507461A - 適応型グループオブピクチャ(agop)構造の決定 - Google Patents
適応型グループオブピクチャ(agop)構造の決定 Download PDFInfo
- Publication number
- JP2011507461A JP2011507461A JP2010539756A JP2010539756A JP2011507461A JP 2011507461 A JP2011507461 A JP 2011507461A JP 2010539756 A JP2010539756 A JP 2010539756A JP 2010539756 A JP2010539756 A JP 2010539756A JP 2011507461 A JP2011507461 A JP 2011507461A
- Authority
- JP
- Japan
- Prior art keywords
- correlation
- video
- cross
- frames
- picture type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/114—Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/142—Detection of scene cut or scene change
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Television Systems (AREA)
Abstract
この開示は、映像シーケンスに含まれる複数のフレームの各々に関するピクチャタイプを前記フレーム間における相互相関に基づいて決定するための技法を対象とする。前記相互相関は、前記映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関と、前記1次相互相関の対間における2次相互相関と、を含む。前記1次相互相関は、解析して前記フレーム間における映像遷移効果を検出することができる。前記1次及び2次相互相関は、比較解析して前記フレーム間における時間的類似性を決定することができる。従って、前記相関に基づく決定技法は、前記映像遷移効果及び前記時間的類似性に基づいて前記フレームに関するピクチャタイプを決定する。前記相関に基づく決定技法は、フレームの対内の画像間における、又はフレームの対内の部分画像の組間における前記1次相互相関を計算し、次に、フレームの前記対の各々に関して前記部分画像における平均が求められる。
【選択図】図7
【選択図】図7
Description
本発明は、映像データのコーディングに関するものである。本発明は、より具体的には、映像データのグループオブピクチャ(GOP)構造を好適に決定することに関するものである。
デジタル映像シーケンスをコーディングするための幾つかの異なる映像コーディング規格が確立されている。例えば、ムービング・ピクチャ・エキスパーツ・グループ(MPEG)では、MPEG−1(Part1)と、MPEG−2(Part2)と、MPEG−4(Part2)と、を含む幾つかの規格を確立している。その他の例は、国際電気通信連合(ITU−T)H.261及びH.263規格と、ITU−T H.264規格と、を含み、ITU−T H.264規格は、MPEG−4、Part10においても、“アドバンストビデオコーディング、AVC”として設定されている。これらの映像コーディング規格は、概して、データを圧縮された形でコーディングすることによって映像シーケンスの向上された送信効率及び格納効率をサポートする。圧縮は、映像フレームの有効な送信又は格納のために送信又は格納する必要がある全体的なデータ量を低減させる。映像コーディングは、有線及び無線の両方の送信媒体における及び磁気記憶媒体及び光学記憶媒体の両方における、映像ストリーミングと、ビデオカムコーダと、パーソナルビデオレコーダ(PVR)と、デジタルビデオレコーダ(DVR)と、ビデオテレフォニ(VT)と、テレビ会議と、ビデオCD(VCD)及びデジタルバーサタイル/ビデオディスク(DVD)におけるデジタルビデオ配信と、映像ブロードキャスト用途と、を含む数多くの状況において用いられる。
MPEG−1、MPEG−2、MPEG−4、ITU−T H.261、ITU−T H.263、及びITU−T H.264の各規格は、時間相関又はフレーム間相関と呼ばれる連続する映像フレーム間における類似性を利用してフレーム間圧縮を提供する映像コーディング技法をサポートする。これらの規格は、空間相関又はフレーム内相関と呼ばれる個々の映像フレーム内における類似性を利用してフレーム内圧縮を提供する映像コーディング技法もサポートする。フレーム間圧縮技法は、映像フレームのピクセルに基づく表現をピクセルブロックに基づく並進動きの表現に変換することによって隣接するか又は密接する映像フレーム間でのデータ冗長性を利用する。フレーム間技法を用いてコーディングされた映像フレームは、P(“予測”)フレーム又はB(“双方向予測”)フレームとしばしば呼ばれる。幾つかのフレームは、I(“イントラ”)フレームと共通して呼ばれ、空間圧縮を用いてコーディングされ、非予測的(すなわち、H.264以前の規格におけるように変換コーディングのみに基づく)又は予測的(すなわち、H.264におけるように空間予測及び変換コーディングの両方に基づく)であることができる。さらに、幾つかのフレームは、フレーム内コーディングされたブロックとフレーム間コーディングされたブロックの両方の組み合わせを含むことができる。これらの符号化規格は、無線映像ブロードキャスティング用途に非常に適する高効率のコーディングを提供する。
上述される効率的な符号化規格のうちのいずれかを用いて符号化を実行する前に、コーディングデバイスは、受信された映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割することができる。これで、コーディングデバイスは、映像データを送信又は格納のために符号化する前にGOP構造内に含まれるフレームの各々に関するピクチャコーディングタイプを決定することができる。ピクチャコーディングタイプを有するGOP構造の決定は、コーディング効率のために重要である。従って、GOP構造の決定は、以前に圧縮されていない生の映像データを対象とする符号化方式のみにとって有益であるわけではない。以前に圧縮された映像データを対象とするトランスコーディング方式にとっても有益であることができる。例えば、無線映像ブロードキャスティングのために望まれる幾つかの映像データ、例えばデジタルテレビ信号、は、原形の状態で、現在において最も効率的な圧縮を提供しないMPEG2(Part2)等の映像符号化規格を用いてコーディングされる。この場合は、トランスコーダは、映像データを、無線映像ブロードキャスティングのためにより効率的な圧縮を提供する符号化規格、例えばITU−T H.264、に変換することができる。映像データを変換するために、トランスコーダは、最初に、第1の符号化規格からの映像データを復号することができ、次に、無線映像ブロードキャスティングにとってより望ましい第2の符号化規格を用いて映像データを再符号化する前に映像シーケンスをGOP構造に分割してGOP構造決定を行うことができる。
映像信号は、その統計上の性質を経時で変化させるため、コーディングデバイスは、最も効率的圧縮を目的として利用可能な時間的冗長性を最大限に利用するようにGOP構造を好適化すべきである。概して、コーディングデバイスは、周囲のフレームの内容及び映像遷移効果(video transitional effect)、例えば、カットシーンの変化、フラッシュフレーム、クロスフェード、及びカメラのパンとスクロール、等の識別に基づいてGOP構造内の候補フレームに関するピクチャコーディングタイプを好適に決定する。既存の適応型GOP(AGOP)構造決定方法は、ヒストグラム又は分散評価基準、エッジ決定に基づくアルゴリズム、及び動きベクトルフィールド展開(evolution)又は時間的予測効率メトリックに基づくアルゴリズムを用いたルミナンス信号及びクロミナンス信号の両方の信号の統計的特徴の解析を含む。しかしながら、既存のAGOP構造決定方法は、ますます複雑化する無線映像ブロードキャストティング用途のために要求される効率的圧縮を達成させる上で十分に正確でないことがある。
概して、この開示は、映像シーケンスに含まれる複数のフレームの各々に関するピクチャコーディングタイプを前記フレーム間における相互相関に基づいて決定するための技法を対象とする。より具体的には、前記技法は、グループオブピクチャ(GOP)構造内に含まれるフレームに関するピクチャタイプを前記フレーム間における相互相関に基づいて好適に決定することができる。前記相互相関は、前記映像シーケンスに含まれるフレームの対内の画像情報間における1次(first order)相互相関と、前記1次相互相関の対間における2次(second order)相互相関と、を含む。前記1次相互相関は、解析して前記フレーム間における映像遷移効果を検出することができる。前記1次相互相関及び2次相互相関は、比較解析して隣接フレーム間における時間的類似性を決定することができる。従って、前記相関に基づく決定技法は、前記映像遷移効果及び前記時間的類似性に基づいて前記フレームに関するピクチャタイプをP(“予測”)ピクチャ、B(“双方向予測”)ピクチャ、又はI(“イントラ”)ピクチャのいずれかとして決定する。
一態様において、画像相関に基づく決定技法は、前記映像シーケンスに含まれるフレームの対内の画像間における前記1次相互相関を計算する。前記画像相関に基づく決定技法は、フルフレームに関するピクチャタイプを決定することができる。他の態様においては、部分画像相関に基づく決定技法は、前記映像シーケンスに含まれるフレームの対内の部分画像(subimage)、例えばマクロブロック、の組間における前記1次相互相関を計算し、フレームの前記対の各々に関する前記部分画像全部又はその一部における前記相互相関の平均を求める。さらに、前記映像シーケンスに含まれる前記フレームの各々は、複数のスライスに分割することができ、このため、前記部分画像相関に基づく決定技法は、前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定することができる。
ここにおいて説明される技法は、リアルタイム又は非リアルタイムのコーディングデバイスによって利用される相関に基づく適応型グループオブピクチャ(AGOP)構造決定モジュール内において実行することができる。幾つかの態様において、前記相関に基づくAGOP構造決定モジュールは、リアルタイムコーディングデバイスに実装されたその他のAGOP構造決定方法を比較することができる基準となるオフラインのベンチマークとして用いることができる。その他の態様においては、前記相関に基づくAGOP構造決定モジュールは、リアルタイム又は非リアルタイムのコーディングデバイスに実装することができる。リアルタイムコーディングデバイスの場合は、前記相関に基づくAGOP構造決定モジュールは、リアルタイムでのピクチャタイプの決定を可能にするための該当する複雑さ低減を伴って実装することができる。
一例として、前記相関に基づくAGOP構造決定モジュールは、以前に圧縮された映像データを再符号化するためにリアルタイム又は非リアルタイムのトランスコーダによって利用することができる。前記トランスコーダは、効率的なフレーム間圧縮及びフレーム内圧縮を提供する符号化規格、例えばITU−T H.264、を用いて前記映像データを再符号化することができる。これらの技法は、高効率のデータ圧縮を要求する無線映像ブロードキャスティング用途に特に有用であることができる。他の例として、前記相関に基づくAGOP構造決定モジュールは、以前に圧縮されていない生の映像データを対象とするリアルタイム又は非リアルタイムの、単パス又は複数パスの映像符号器によって利用することができる。
一態様において、この開示は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算することと、前記1次相互相関の対間における2次相互相関を計算すること、とを備える方法を提供する。前記方法は、前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定することをさらに備える。
他の態様においては、この開示は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、及び前記1次相互相関の対間における2次相互相関を計算する相関器を備えるデバイスを提供する。前記デバイスは、前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するピクチャタイプ決定モジュールも含む。
他の態様においては、この開示は、命令を備えるコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品を提供する。前記命令は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、前記1次相互相関の対間における2次相互相関を計算し、及び前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定することをコンピュータに行わせる。
さらなる態様においては、この開示は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関及び前記1次相互相関の対間における2次相互相関を計算するための手段を備えるデバイスを提供する。前記デバイスは、前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するための手段も備える。
他の態様においては、この開示は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、及び前記1次相互相関の対間における2次相互相関を計算する相関器を備える無線通信デバイスハンドセットを提供する。前記ハンドセットは、前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するピクチャタイプ決定モジュールをさらに備える。
さらなる態様においては、この開示は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、前記1次相互相関の対間における2次相互相関を計算し、及び前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するように構成される少なくとも1つのプロセッサを備えるデジタル画像データを処理するための集積回路デバイスを提供する。
追加の態様においては、この開示は、映像データを複数のフレームを含むGOP構造に分割するGOP分割器を含むコーディングデバイスと、前記GOP構造に含まれる前記フレームに関するピクチャタイプをリアルタイムで決定するAGOP構造決定モジュールと、を備えるシステムを提供する。前記システムは、フレームの対内の画像情報間における1次相互相関及び1次相互相関の対間における2次相互相関に基づいて前記GOP構造に含まれる前記フレームに関するベンチマークピクチャタイプを決定する前記トランスコーダの外部に配置された相関に基づくAGOP構造決定モジュールも含む。前記システムは、前記ピクチャタイプを前記ベンチマークピクチャタイプと比較して前記コーディングデバイス内に組み入れられた前記AGOP構造決定モジュールの精度を決定するベンチマーク比較器をさらに備える。
他の態様においては、この開示は、映像データを複数のフレームを含むGOP構造に分割するGOP分割器を備えるコーディングデバイスを提供する。前記コーディングデバイスは、フレームの対内の画像情報間における1次相互相関及び1次相互相関の対間における2次相互相関に基づいて前記GOP構造に含まれる前記フレームに関するピクチャタイプをリアルタイムで決定する相関に基づくAGOP構造決定モジュールをさらに備える。1つの場合においては、前記コーディングデバイスは、以前に圧縮された映像データを対象とするリアルタイム又は非リアルタイムのトランスコーダを備えることができる。他の場合においては、前記コーディングデバイスは、以前に圧縮されていない生の映像データを対象とするリアルタイム又は非リアルタイムの符号器を備えることができる。
この開示おいて説明される技法は、ハードウェア、ソフトウェア、ファームウェア、又はそのいずれかの組み合わせにおいて実装することができる。ソフトウェア内に実装される場合は、前記ソフトウェアは、コンピュータにおいて実行することができる。前記ソフトウェアは、最初は、命令、プログラムコード、等として格納することができる。従って、この開示は、コンピュータによって読み取り可能な媒体であって、この開示に従って技法及び機能を実行することをコンピュータに行わせるための命令を備えるコンピュータによって読み取り可能な媒体、を備える、映像データを処理するためのコンピュータプログラム製品も企図する。代替として、ハードウェアにおいて実装される場合は、該ハードウェア実装は、デジタル、アナログ、又は両方であることができる。この開示の態様は、前記コンピュータによって読み取り可能な媒体において又は前記コンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品において具現化することができる。前記コンピュータプログラム製品は、パッケージング材料を含むことができる。
添付される図面及び以下の説明には様々な例の追加の詳細が示される。以下の説明と図面から、及び請求項からその他の特徴、目的、利点及び例が明確になるであろう。
この開示は、映像シーケンスに含まれる複数のフレームの各々に関するピクチャタイプを前記フレーム間における相互相関に基づいて決定するための技法について記述する。相互相関は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関と、1次相互相関の対間における2次相互相関と、を含む。1次相互相関は、解析してフレーム間における映像遷移効果、例えばカットシーンの変化、フラッシュフレーム、クロスフェード、カメラのパンとスクロール、を検出することができる。1次相互相関及び2次相関は、比較解析してフレーム間における時間的類似性を決定することができる。従って、相関に基づく決定技法は、映像遷移効果及び時間的類似性に基づいて前記フレームに関するピクチャタイプを決定する。相関に基づく決定技法は、フレームの対内の画像間における、又はフレームの対内の部分画像、例えばマクロブロック、の組間における1次相互相関を計算することができ、フレームの対の各々に関して部分画像全部又はその一部における平均が求められる。
より具体的には、これらの技法は、グループオブピクチャ(GOP)構造に含まれるフレームに関するピクチャタイプをこれらのフレーム間における相互相関に基づいて好適に決定することができる。GOP構造は、フレーム内コーディング技法及びフレーム間コーディング技法に基づいて映像データの長いシーケンスを管理可能なデータセットに分割する。例えば、GOP構造は、典型的には、最初にI(“イントラ”)フレームが存在し、その後に、先行するIフレーム及びPフレームを参照するP(“予測”)フレームが続くか又は先行及び後続するIフレーム及びPフレームを参照するB(“双方向予測”)フレームが続く。幾つかの場合においては、GOP構造は、GOP構造に含まれるフレームがGOP構造外のフレームを参照せずに完全に復号することができる自蔵ユニットを形成するように閉じることができる。その他の場合においては、GOP構造は、GOP構造に含まれるフレームがGOP構造外のフレームを参照することができるように開いた状態にすることができる。
ここにおいて説明される技法は、GOP構造に含まれる複数のフレームの各々に関するピクチャタイプを決定し及び前記GOP構造を更新してそれらのフレームの各々に関する決定されたピクチャタイプを指定することが可能な相関に基づく適応型グループオブピクチャ(AGOP)構造決定モジュール内において実行することができる。ここにおいて説明される相関に基づくAGOP構造決定技法は、コーディング効率の観点から、GOP構造に含まれるフレームに関するピクチャタイプを決定するときに高いレベルの精度を達成することができ及びAGOP構造決定技法にとっての“ゴールド基準”であるとみなすことができる。相関に基づくAGOP決定モジュールの出力は、時間的類似性メトリックの直観的挙動を実証し、高い感度を有する相関動力学に関する情報を提供する。さらに、相関に基づくAGOP決定モジュールの性能は、フレーム内容、レート−歪み最適化特性、及び符号化帯域幅レジーム(regime)特性に大きく依存する。
図1は、リアルタイムトランスコーダ10に実装されたAGOP構造決定モジュール18を比較することができる基準となるオフラインのベンチマークとしての相関に基づくAGOP構造決定モジュール22の典型的実装を示したブロック図である。トランスコーダ10は、少なくとも部分的には、総称して集積回路デバイスと呼ぶことができる1つ以上の集積回路デバイスとして形成することができる。幾つかの態様においては、トランスコーダ10は、無線通信デバイスハンドセット、例えば携帯電話、の一部を成すことができる。図1に示されるように、トランスコーダ10は、復号器11と、プリプロセッサ12と、符号器14と、を含む。プリプロセッサ12は、GOP分割器16を含み、符号器14は、AGOP構造決定モジュール18を含む。その他の実装においては、AGOP構造決定モジュール18の機能は、プリプロセッサ12と符号器14との間で分割することができる。
トランスコーダ10は、コーディングされた映像データを含む映像シーケンスを映像データプロバイダから受信する。映像シーケンスは、連続するフレーム間における又は単一フレーム内における類似性を最も効果的に利用するアルゴリズムをサポートしない映像符号化規格を用いてコーディングされた映像データを備えることができる。例えば、映像シーケンスは、現在最も効率的なフレーム間圧縮及びフレーム内圧縮を提供しないMPEG−2(Part2)を用いて符号化されたデジタルテレビデータを備えることができる。しかしながら、多くの映像用途、特に無線映像ブロードキャストティング用途、は、より精巧なアルゴリズムによってフレーム間及びフレーム内におけるデータ冗長性を利用するより高度な符号化規格、例えばITU−T H.264、によって提供される高効率のデータ圧縮を要求する。従って、トランスコーダ10は、映像シーケンスを他のより高度な符号化規格に変換することができる。例えば、トランスコーダ10は、無線映像ブロードキャスティング、効率的な格納、又は高効率のデータ圧縮を希望するその他の用途又はサービスのために映像フレームを準備するために映像シーケンスを再符号化することができる。
映像シーケンスを変換するために、復号器11は、効率がより低い原コーディング規格からの映像シーケンスを復号する。プリプロセッサ12内のGOP分割器16は、復号された映像シーケンスを複数のフレームを含むGOP構造に分割する。GOP分割器16は、映像シーケンスのためのランダムアクセスを可能にする均一なIフレームの間隔に基づいて予め決められたGOP構造サイズに従って、又は映像シーケンス内におけるランダムアクセスを可能にするIフレームのランダムな配置に従って、復号された映像シーケンスをフレームのグループに分割することができる。例えば、GOP分割器16は、復号された映像シーケンスを、各々のグループがIフレームで始まる約30フレームから成るグループに分割することができる。
符号器14内のAGOP構造決定モジュール18は、GOP分割器16によって生成されたGOP構造に含まれるフレームの各々に関するピクチャタイプを決定する。AGOP構造決定モジュール18は、相関に基づかないAGOP構造決定技法も実行することができる。例えば、AGOP構造決定モジュール18は、ヒストグラム又は分散評価基準、エッジ決定に基づくアルゴリズム、又は動きベクトルフィールド展開又は時間的予測効率メトリックに基づくアルゴリズムを用いてルミナンス信号及びクロミナンス信号の両方の信号の統計上の特徴の解析を行い、GOP構造に含まれるフレームに関するピクチャタイプを決定することができる。次に、符号器14は、希望される符号化規格を用いてフレームを再符号化し、再符号化されたフレームを無線映像ブロードキャスティングのために送信機に送信し、格納のために格納デバイスに送信し、又は高効率のデータ圧縮を希望する用途又はサービスのためにその他の装置に送信する。
この開示の一態様により、相関に基づくAGOP構造決定モジュール22は、トランスコーダ10に実装されたAGOP構造決定モジュール18を比較することができる基準となるオフラインのベンチマークとしてトランスコーダ10の外部に配置することができる。相関に基づくAGOP構造決定モジュール22は、GOP分割器16によって生成されたGOP構造に含まれるフレームの各々に関するベンチマークピクチャタイプをこれらのフレーム間における相互相関に基づいて決定する。
相関に基づくAGOP構造決定モジュール22によって行われる相互相関計算は、GOP構造に含まれるフレームの対内の画像情報間における1次相互相関と、1次相互相関の対間における2次相互相関とを含むことができる。1次相互相関計算は、ピクセル領域において計算することができる。1次相互相関は、解析してフレーム間における映像遷移効果を検出することができる。1次相互相関及び2次相互相関は、比較解析して隣接フレーム間における時間的類似性を決定することができる。このようにして、相関に基づくAGOP構造決定モジュール22は、映像遷移及び時間的類似性に基づいてフレームに関するピクチャタイプを決定する。
映像遷移効果は、映像シーケンスの現在のシーンから同じ映像シーケンスの他のシーン又は他の映像シーケンスの他のシーンに遷移するために用いられる視覚上の映像効果を意味する。概して、映像遷移効果は、3つのカテゴリ、すなわち、コンパクトサポート効果(compact support effect)、例えば、カットシーンの変化、ショット境界、及びフラッシュフレーム、拡張サポート効果(extended support effect)、例えば、クロスフェード及びディゾルブ、及びグローバルな動きの効果(global motion effect)、例えば、カメラのパン及びカメラのスクロール、に分割することができる。時間的類似性は、現在のフレームと隣接フレームとの間における画像内容又はディテールの繰り返しのレベルを意味する。時間的類似性を測定することは、現在のフレームがPピクチャ、Bピクチャ、又はIピクチャのいずれのピクチャとして符号化するのに適する内容を含むかどうかを決定するのに役立つことができる。例えば、現在のフレームがいずれの隣接フレームとも類似していない場合は、現在のフレームは、Iピクチャとして符号化すべきである。現在のフレームが先行する隣接フレームに類似するが後続する隣接フレームには類似しない場合は、現在のフレームはPピクチャとして符号化すべきである。現在のフレームが先行する隣接フレーム及び後続する隣接フレームの両方に類似する場合は、それは、Pピクチャ又はBピクチャとして符号化すべきである。
一態様において、相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームの対内の画像間における1次相互相関を計算する。1次画像相互相関は、フレームの対間におけるグローバルな、すなわち全体的な、類似性及びグローバルな動きの量を識別するが、部分画像のより小さいスケールでフレーム内において生じた動きは識別しない。この場合は、相関に基づくAGOP構造決定モジュール22は、フルフレームに関するピクチャタイプを決定することができる。
他の態様においては、相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームの対内の部分画像、例えばマクロブロック、の組間における1次相互相関を計算し、フレームの対の各々に関して部分画像全部又はその一部における相互相関の平均を求める。1次部分画像相互相関は、フレームの対間における部分画像の類似性及び動き量を識別し及びその動きがフレーム内のどこで生じたかを識別する。この場合は、相関に基づくAGOP構造決定モジュール22は、パディングピクセル(padding pixel)を加えることによって部分画像の組内の各部分画像にパディングして共通の画像サイズにする。このようにして、相関に基づくAGOP構造決定モジュール22は、第1のフレーム内のパディングされた部分画像の各々を第2のフレーム内の潜在的に異なる原サイズのパディングされた部分画像と相互相関させることができる。例えば、部分画像は、64×64画像にパディングすることができる16×16マクロブロックを備えることができる。他の例においては、部分画像は、16×8、8×16、8×8又はそれよりも小さいピクセルブロックを備えることができる。さらに、映像シーケンスに含まれるフレームの各々は、複数のスライスに分割し、相関に基づくGOP構造決定モジュール22がこれらのフレームの各々のフレームの個々のスライスに関するピクチャタイプを決定できるようにすることができる。
相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームに関するピクチャタイプを決定するときに、コーディング効率の観点からの高いレベルの精度を達成させ、このため、それは、その他のAGOP決定技法の評価用の“ゴールド基準”とみなすことができる。ベンチマーク比較器20は、AGOP構造決定モジュール18によってリアルタイムで決定されたピクチャタイプを、相関に基づくAGOP構造決定モジュール22によって決定されたベンチマークピクチャタイプと比較し、リアルタイムトランスコーダ10に組み入れられたAGOP構造決定モジュール18の精度を決定する。このようにして、AGOP構造決定モジュール18の変更は、トランスコーダ10内への実装前に相関に基づくAGOP構造決定モジュール22の“ゴールド基準”と照合して試験することができる。
GOP構造に含まれるフレームに関するピクチャタイプを正確に決定することは、要求される符号化ビットレートを低下させ、フレームの効率的な圧縮を可能にする。例えば、Iフレーム、Pフレーム、及びBフレームのGOP構造を正確に決定することは、符号器14が、フレームの異なる冗長性のタイプ及び従属性構造を利用し、フレームの異なる複雑さに対して適切な組の圧縮ツールを利用し、ブロードキャスト用途のためのチャネル切り換え等の特定用途ごとの要求をサポートすることによってフレームを効率的に符号化するのを可能にする。このようにして、符号器14は、トランスコーダ10内でのレートと歪みの間における妥協(tradeoff)を向上させることができる。さらに、内容に依存するピクチャタイプの決定は、符号器14が向上されたコーディング効率及び映像遷移のより良い処理のために信号相関をより良く利用するのを可能にする。
符号器14は、映像圧縮規格、例えば、MPEG−2(Part2)、MPEG−4(Part2)、ITU−T H.263、又はITU−T H.264/MPEG−4(Part10)アドバンストビデオコーディング(AVC)、に従って動作することができる。図1には示されていないが、幾つかの態様においては、符号器14は、音声復号器及び符号器と統合することができ、及び音声及び映像の両方の符号化を共通のデータストリームにおいて又は別個のデータストリームとして取り扱うための該当するMUX/DEMUXユニット、又はその他のハードウェア及びソフトウェアを含むことができる。該当する場合は、MUX−DEMUXユニットは、ITU−T H.223マルチプレクサプロトコル、又はその他のプロトコル、例えばユーザデータグラムプロトコル(UDP)、に準拠することができる。
H.264/MPEG−4 Part10(AVC)規格は、ITU−Tビデオコーディングエキスパーツグループ(VCEG)が、ISO/IECムービングピクチャエキスパーツグループ(MPEG)と共同で、ジョイントビデオチーム(JTV)と呼ばれる共同パートナー関係の産物として作成したものである。H.264規格は、ITU−Tスタディグループによる2005年3月付ITU−T勧告H.264、一般的オーディオビジュアルサービスのための高度映像コーディングにおいて説明されており、ここでは、H.264規格又はH.264仕様、又はH.264/AVC規格又は仕様と呼ぶことができる。
ジョイントビデオチーム(JVT)は、H.264/MPEG−4 AVCへのスケーラブルビデオコーディング(SVC)の拡張作業を継続中である。進展中のSVC拡張の仕様は、ジョイントドラフト(JD)の形になっている。JVTによって構築されたジョイントスケーラブルビデオモデル(JSVM)は、スケーラブルビデオコーディングにおいて用いるためのツールを実装しており、それらは、この開示において説明される様々なコーディングタスクのためにトランスコーダ10内において用いることができる。ジョイントドラフト文書、例えば、ジョイントドラフト6(SVC JD6)、トーマス・ウィーガント(Thomas Wiegand)、ゲーリー・サリバン(Gary Sullivan)、ジュリアン・レイシェル(Julien Reichel)、ハイコ・シュワルツ(Heiko Schwarz)、及びマチアス・ウィーン(Mathias Wien)“Joint Draft 6: Scalable Video Coding”(ジョイントドラフト6:スケーラブルビデオコーディング)、JVT-S 201, April 2006, Genevaにおいて、及びジョイントドラフト9(SVC JD9)、トーマス・ウィーガント、ゲーリー・サリバン、ジュリアン・レイシェル、ハイコ・シュワルツ、及びマチアス・ウィーン“Joint Draft 9 of SVC Amendment”(SVC修正ジョイントドラフト9)JVT-V 201, January 2007, Marrakech, Moroccoにおいて、微細粒度スケーラビリティ(Fine Granular Scalability)(FGS)コーディングに関する詳細情報を見つけることができる。
幾つかの態様においては、映像ブロードキャスティングに関して、この開示において説明される技法は、技術規格TIA−1099(“FLO仕様”)として発行予定の順方向リンク専用(FLO)エアインタフェース仕様“Forward Link Only Air Interface Specification for Terrestrial Mobile Multimedia Multicast”(地上移動マルチメディアマルチキャストに関する順方向リンク専用エアインタフェース仕様)を用いて地上移動マルチメディアマルチキャスト(TM3)システムにおいてリアルタイム映像サービスを配信するための拡張H.264映像コーディングに対して適用することができる。FLO仕様は、FLOエアインタフェースに適するビットストリーム構文及び意味論及び復号プロセスを定義する例を含む。代替として、映像は、その他の規格、例えばDVB−H(デジタルビデオブロードキャスティング−ハンドヘルド)、ISDB−T(総合デジタル放送サービス−地上)、又はDMB(デジタルメディア放送)、等に従ってブロードキャストすることができる。従って、コーディングされた映像データの映像シーケンスは、モバイル無線端末、映像ストリーミングサーバ、又は映像ブロードキャストサーバから送信することができる。しかしながら、この開示において説明される技法は、特定のタイプのブロードキャスト、マルチキャスト、ユニキャスト又はその他のポイント・ツー・ポイントシステムに限定されない。ブロードキャストの場合は、映像データプロバイダは、コーディングされた映像データの幾つかのチャネルを複数の受信デバイスにブロードキャストすることができる。
図2は、リアルタイムトランスコーダ24に実装された相関に基づくAGOP構造決定モジュール22の典型的実装を示したブロック図である。図2の例において、相関に基づくAGOP構造決定モジュール22は、図1に示されるように異なるGOP構造決定モジュールを評価するためのベンチマークとして用いられる代わりに、トランスコーディングのために用いられる。トランスコーダ24は、少なくとも部分的には、総称して集積回路デバイスと呼ぶことができる1つ以上の集積回路デバイスとして形成することができる。幾つかの態様においては、トランスコーダ24は、無線通信デバイスハンドセット、例えば携帯電話、の一部を成すことができる。
図2に示されるように、トランスコーダ24は、復号器25と、プリプロセッサ26と、符号器28と、を含む。プリプロセッサ26は、GOP分割器30と、複雑さ低減モジュール32と、を含む。符号器28は、相関に基づくAGOP構造決定モジュール22を含む。図2に示される実装においては、相関に基づくAGOP構造決定モジュール22の全体が符号器28に含まれる。その他の実装においては、相関に基づくAGOP構造決定モジュール22の機能は、プリプロセッサ26と符号器28との間で分割することができる。例えば、相関に基づくAGOP構造決定モジュール22は、プリプロセッサ26内における相互相関を計算することができ及び符号器28内における相関解析及びピクチャタイプの決定を行うことができる。
トランスコーダ24は、コーディングされた映像データを含む映像シーケンスを映像データプロバイダから受信する。図1を参照して上述されるように、映像シーケンスは、連続するフレーム間における又は単一フレーム内における類似性を最も効果的に利用するアルゴリズムをサポートしない映像符号化規格を用いてコーディングされた映像データ、例えば、MPEG−2(Part2)を用いて符号化されたデジタルテレビデータ、を備えることができる。トランスコーダ24は、映像シーケンスを、他のより高度な符号化規格、例えばITU−T H.264、に変換することができる。例えば、トランスコーダ24は、無線映像ブロードキャスティング、効率的な格納、又は高効率のデータ圧縮を希望するその他の用途又はサービスのために映像フレームを準備するために映像シーケンスを再符号化することができる。
映像シーケンスを変換するために、復号器25は、効率がより低い原コーディング規格からの映像シーケンスを復号する。プリプロセッサ26内のGOP分割器30は、復号された映像シーケンスを複数のフレームを含むGOP構造に分割する。GOP分割器30は、映像シーケンスのためのランダムアクセスを可能にする均一なIフレームの間隔に基づいて予め決められたGOPサイズに従って、又は映像シーケンス内におけるランダムアクセスを可能にする均一なIフレームのランダムな配置に従って、復号された映像シーケンスをフレームのグループに分割することができる。例えば、GOP分割器30は、復号された映像シーケンスを、各々のグループがIフレームで始まる約30フレームから成るグループに分割することができる。
図1を参照して上述されるように、相関に基づくAGOP構造決定モジュール22は、相互相関計算が非リアルタイムで行われるときのAGOP構造決定技法にとっての“ゴールド基準”であるとみなすことができる。従って、相関に基づくAGOP構造決定モジュール22が非リアルタイムトランスコーダ内に実装される場合は、相関に基づくAGOP構造決定モジュール22は、複雑さ低減なしに非リアルタイムでピクチャタイプを決定することができる。しかしながら、図2に示される態様においては、トランスコーダ24はリアルタイムトランスコーダを備え、トランスコーダ24内に実装された相関に基づくAGOP構造決定モジュール22は、リアルタイムでのピクチャタイプの決定を可能にするために複雑さ低減の対象とすることができる。
図2に示される実装においては、プリプロセッサ26は、相関に基づくAGOP構造決定モジュール22が、精度が可能な限り失われない形でリアルタイムで相互相関を計算するのを可能にするための一定の複雑さ低減を行う複雑さ低減モジュール32を含む。例えば、複雑さ低減モジュール44は、GOP構造に含まれるフレーム内の画像情報の解像度を低下させることができる。複雑さ低減モジュール32は、相関に基づくAGOP構造決定モジュール22が所定のフレームに関するピクチャタイプを決定するときに計算することができる相互相関計算数を制限することも可能である。幾つかの実装においては、複雑さ低減モジュール32は、相関に基づくAGOP構造決定モジュール22の映像データ又はリアルタイム機能に対するその他の複雑さ低減を行うことができる。
複雑さ低減モジュール44が必要な複雑さ低減を実行した時点で、符号器24内の相関に基づくAGOP構造決定モジュール22は、GOP分割器30によって生成されたGOP構造に含まれるフレームの各々に関するピクチャタイプをこれらのフレーム間における相互相関に基づいてリアルタイムで決定する。符号器28は、希望される符号化規格を用いてフレームを再符号化し、再符号化されたフレームを無線映像ブロードキャスティングのために送信機に送信し、格納のために格納デバイスに送信し、又は高効率のデータ圧縮を希望する用途又はサービスのためにその他の装置に送信する。
相関に基づくAGOP構造決定モジュール22は、図1を参照して上述されるように動作する。図2に示される例においては、相関に基づくAGOP構造決定モジュール22の動作は、複雑さ低減の対象とすることができる。しかしながら、図2に示される例は、制限することは意図されない。その他の例においては、トランスコーダ24は、相関に基づくAGOP構造決定モジュール22をリアルタイムで及び複雑さ低減なしで実装するために、サポートされる単位時間当たり計算数の性能の点で十分に強力なソフトウェア、ハードウェア、及び/又はファームウェアプラットフォームを含むことができる。
相互相関は、GOP構造に含まれるフレームの対内の画像情報間における1次相互相関と、1次相互相関の対間における2次相互相関とを含む。1次相互相関は、ピクセル領域において計算することができる。1次相互相関計算は、解析してフレーム間における映像遷移を検出することができる。1次相互相関及び2次相互相関は、比較解析して隣接フレーム間における時間的類似性を決定することができる。このようにして、相関に基づくAGOP構造決定モジュール22は、映像の遷移及び時間的類似性に基づいてフレームに関するピクチャタイプを決定する。
一態様において、相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームの対内の画像間における1次相互相関を計算する。1次画像相互相関は、フレームの対間におけるグローバルな、すなわち全体的な、類似性及びグローバルな動きの量を識別するが、部分画像のより小さいスケールでフレーム内において生じた動きは識別しない。この場合は、相関に基づくAGOP構造決定モジュール22は、フルフレームに関するピクチャタイプを決定することができる。
他の態様においては、相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームの対内の部分画像、例えばマクロブロック、の組間における1次相互相関を計算し、フレームの対の各々に関して部分画像全部又はその一部における相互相関の平均を求める。1次部分画像相互相関は、フレームの対間における部分画像の類似性及び動き量を識別し及びその動きがフレーム内のどこで生じたかを識別する。この場合は、相関に基づくAGOP構造決定モジュール22は、パディングピクセルを加えることによって部分画像の組内の各々の部分画像にパディングして共通の画像サイズにする。このようにして、相関に基づくAGOP構造決定モジュール22は、第1のフレーム内のパディングされた部分画像の各々を第2のフレーム内の潜在的に異なる原サイズのパディングされた部分画像と相互相関させることができる。例えば、部分画像は、64×64画像にパディングすることができる16×16マクロブロックを備えることができる。他の例においては、部分画像は、16×8、8×16、8×8又はそれよりも小さいピクセルブロックを備えることができる。さらに、映像シーケンスに含まれるフレームの各々は、複数のスライスに分割し、相関に基づくAGOP構造決定モジュール22がこれらのフレームの各々のフレームの個々のスライスに関するピクチャタイプを決定できるようにすることができる。
相関に基づくAGOP構造決定モジュール22は、コーディング効率の観点からの、GOP構造に含まれるフレームに関するピクチャタイプの正確なリアルタイムの決定を可能にする。GOP構造に含まれるフレームに関するピクチャタイプを正確に決定することは、符号化ビットレートを低下させ、フレームの効率的な圧縮を可能にする。例えば、Iフレーム、Pフレーム、及びBフレームのGOP構造を正確に決定することは、符号器28が、フレームの異なる冗長性のタイプ及び従属性構造を利用し、フレームの異なる複雑さに対して適切な組の圧縮ツールを利用し、ブロードキャスト用途のためのチャネル切り換え等の特定用途ごとの要求をサポートすることによってフレームを効率的に符号化するのを可能にする。このようにして、符号器28は、トランスコーダ24内でのレートと歪みの間における妥協を向上させることができる。さらに、内容に依存するピクチャタイプの決定は、符号器28が向上されたコーディング効率及び映像遷移のより良い処理のために信号相関をより良く利用するのを可能にする。符号器28は、図1からの符号器14と実質的に同様に動作することができる。従って、コーディングされた映像データの映像シーケンスは、モバイル無線端末、映像ストリーミングサーバ、又は映像ブロードキャストサーバであることができる。ブロードキャストの場合は、映像データプロバイダは、コーディングされた映像データの幾つかのチャネルを複数の受信デバイスにブロードキャストすることができる。
他の態様においては、トランスコーダ24は、相関に基づくAGOP構造決定モジュール22と、図1からのAGOP構造決定モジュール18に類似するAGOP構造決定モジュールと、の両方を含むことができる。このようにして、トランスコーダ24は、相互相関に基づいてリアルタイムでピクチャタイプを決定するための十分な資源を利用可能であるときに相関に基づくAGOP構造決定モジュール22を利用することができる。しかしながら、資源が不足するときには、トランスコーダ24は、リアルタイムでのピクチャタイプの決定のために、より高速であるが正確さが低い可能性がある、相関に基づかないAGOP構造決定モジュールを代わりに利用することができる。
図3は、リアルタイム符号器36に実装されたAGOP構造決定モジュール40を比較することができる基準となるオフラインのベンチマークとしての相関に基づくAGOP構造決定モジュール22の典型的実装を示したブロック図である。符号器36は、少なくとも部分的には、総称して集積回路デバイスと呼ぶことができる1つ以上の集積回路デバイスとして形成することができる。幾つかの態様においては、符号器36は、無線通信デバイスハンドセット、例えば携帯電話、の一部を成すことができる。
図3に示されるように、符号器36は、GOP分割器38と、AGOP構造決定モジュール40と、を含む。符号器36は、単一パス又は複数パスの映像符号器を備えることができる。符号器36は、映像圧縮規格、例えば、MPEG−2(Part2)、MPEG−4(Part2)、ITU−T H.263、又はITU−T H.264/MPEG−4(Part10)アドバンストビデオコーディング(AVC)、に従って動作することができる。
符号器36は、以前に圧縮されていない生の映像データを含む映像シーケンスを映像データプロバイダから受信する。多くの映像用途、特に無線映像ブロードキャスティング用途は、より精巧なアルゴリズムによってフレーム間及びフレーム内におけるデータ冗長性を利用するより高度な符号化規格、例えばITU−T H.264、によって提供される高効率のデータ圧縮を要求する。例えば、符号器36は、無線映像ブロードキャスティング、効率的な格納、又は高効率のデータ圧縮を希望するその他の用途又はサービスのために映像フレームを準備するために映像シーケンスを符号化することができる。
映像シーケンスを符号化するために、GOP分割器38は、映像シーケンスを複数のフレームを含むGOP構造に分割する。GOP分割器38は、復号された映像シーケンスを複数のフレームを含むGOP構造に分割する。GOP分割器30は、映像シーケンスのためのランダムアクセスを可能にする均一なIフレームの間隔に基づいて予め決められたGOPサイズに従って、又は映像シーケンス内におけるランダムアクセスを可能にする均一なIフレームのランダムな配置に従って、映像シーケンスをフレームのグループに分割することができる。例えば、GOP分割器38は、映像シーケンスを、各々のグループがIフレームで始まる約30のフレームから成るグループに分割することができる。その他の場合においては、GOP分割器38は、基本になる送信方式の物理層パケット化及びデータバースト特性に基づく考慮事項に従って映像シーケンスをフレームのグループに分割することができる。統計的多重化方式及びその設計の存在は、GOP分割器38が映像シーケンスをフレームのグループに分割する方法にも影響を与えることができる。
符号器36内のAGOP構造決定モジュール40は、GOP分割器38によって生成されたGOP構造に含まれるフレームの各々に関するピクチャタイプを決定する。AGOP構造決定モジュール40は、相関に基づかないAGOP構造決定技法を実行することができる。符号器36は、希望される符号化規格を用いてフレームを符号化し、符号化されたフレームを無線映像ブロードキャスティングのために送信機に送信し、格納のために格納デバイスに送信し、又は高効率のデータ圧縮を希望する用途又はサービスのためにその他の装置に送信する。
この開示の一態様により、相関に基づくAGOP構造決定モジュール22は、符号器36に実装されたAGOP構造決定モジュール40を比較することができる基準となるオフラインのベンチマークとして符号器36の外部に配置することができる。相関に基づくAGOP構造決定モジュール22は、GOP分割器38によって生成されたGOP構造に含まれるフレームの各々に関するベンチマークピクチャタイプをこれらのフレーム間における相互相関に基づいて決定する。相関に基づくAGOP構造決定モジュール22は、図1を参照して上述されるように動作する。
相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームに関するピクチャタイプを決定するときに、コーディング効率の観点からの高いレベルの精度を達成させ、このため、それは、その他のAGOP決定技法の評価用の“ゴールド基準”とみなすことができる。ベンチマーク比較器42は、相関に基づくAGOP構造決定モジュール40によってリアルタイムで決定されたピクチャタイプを、相関に基づくAGOP構造決定モジュール22によって決定されたベンチマークピクチャタイプと比較し、リアルタイム符号器36に組み入れられたAGOP構造決定モジュール40の精度を決定する。このようにして、AGOP構造決定モジュール40の変更は、符号器36内での実装前に相関に基づくAGOP構造決定モジュール22の“ゴールド基準”と照合して試験することができる。
図4は、リアルタイム符号器44に実装された相関に基づくAGOP構造決定モジュール22の典型的実装を示すブロック図である。図4の例においては、相関に基づくAGOP構造決定モジュール22は、図3に示されるように異なるGOP構造決定モジュールを評価するためのベンチマークとして用いられる代わりに、符号化のために用いられる。符号器44は、少なくとも部分的には、総称して集積回路デバイスと呼ぶことができる1つ以上の集積回路デバイスとして形成することができる。幾つかの態様においては、符号器44は、無線通信デバイスハンドセット、例えば携帯電話、の一部を成すことができる。
図4に示されるように、符号器44は、GOP分割器46と、複雑さ低減モジュール48と、相関に基づくAGOP構造決定モジュール22と、を含む。符号器44は、単一パス又は複数パスの映像符号器を備えることができる。符号器44は、映像圧縮規格、例えば、MPEG−2(Part2)、MPEG−4(Part2)、ITU−T H.263、又はITU−T H.264/MPEG−4(Part10)アドバンストビデオコーディング(AVC)、に従って動作することができる。
符号器44は、以前に圧縮されなかった生の映像データを含む映像シーケンスを映像データプロバイダから受信する。符号器32は、無線映像ブロードキャスティング、効率的な格納、又は高効率のデータ圧縮を希望するその他の用途又はサービスのために映像フレームを準備するために映像シーケンスを符号化することができる。映像シーケンスを符号化するために、GOP分割器46は、映像シーケンスを複数のフレームを含むGOP構造に分割する。上述されるように、相関に基づくAGOP構造決定モジュール22は、相互相関計算が非リアルタイムで行われるときのAGOP決定技法にとっての“ゴールド基準”であるとみなすことができる。従って、相関に基づくAGOP構造決定モジュール22が非リアルタイム符号器内に実装されるときには、相関に基づくAGOP構造決定モジュール22は、複雑さ低減なしで非リアルタイムでピクチャタイプを決定することができる。しかしながら、図4に示される態様においては、符号器44はリアルタイム符号器を備え、符号器44内に実装された相関に基づくAGOP構造決定モジュール22は、リアルタイムでのピクチャタイプの決定を可能にするために複雑さ低減の対象とすることができる。
図4に示される実装において、複雑さ低減モジュール48は、相関に基づくAGOP構造決定モジュール22が、精度が可能な限り失われない形でリアルタイムで相互相関計算を行うことを可能にするための一定の複雑さ低減を行う。複雑さ低減モジュール48は、図2からのトランスコーダ24のプリプロセッサ26内の複雑さ低減モジュール32と実質的に同様に動作する。
相関に基づくAGOP構造決定モジュール22は、図1を参照して上述されるように動作する。図4に示される例においては、相関に基づくAGOP構造決定モジュール22の動作は、複雑さ低減の対象とすることができる。しかしながら、図4に示される例は、制限することは意図されない。その他の例においては、符号器44は、相関に基づくAGOP構造決定モジュール22をリアルタイムで及び複雑さ低減なしで実装するために、サポートされる単位時間当たり計算数の性能の点で十分に強力なソフトウェア、ハードウェア、及び/又はファームウェアプラットフォームを含むことができる。
図5は、リアルタイムトランスコーダ10によって利用されるオフラインのベンチマークとしての相関に基づくAGOP構造決定モジュール22の典型的動作を示すフローチャートである。図5のフローチャートは、図1のリアルタイムトランスコーダ10に関連して説明される。プリプロセッサ12が復号器11から復号された映像データを受信した時点で、GOP分割器16は、映像データを各々が複数のフレームを含むGOP構造に分割する(50)。
リアルタイムトランスコーダ10に実装されたAGOP構造決定モジュール18は、GOP構造に含まれるフレームに関するピクチャタイプをリアルタイムで決定する(52)。リアルタイムトランスコーダ10の外部に配置された相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームに関するベンチマークピクチャタイプを決定する(54)。相関に基づくAGOP構造決定モジュール22の出力は、ピクチャタイプ決定技法の“ゴールド基準”であるとみなすことができる。従って、ベンチマーク比較器20は、AGOP構造決定モジュール18によって決定されたリアルタイムの計算されたピクチャタイプを、相関に基づくAGOP構造決定モジュール22によって決定されたベンチマークピクチャタイプと比較し、AGOP構造決定モジュール18の精度を決定する(55)。
図6は、リアルタイムトランスコーダ24に実装された相関に基づくAGOP構造決定モジュール22の典型的動作を示すフローチャートである。図6のフローチャートは、図2のリアルタイムトランスコーダ24に関連して説明される。プリプロセッサ26が復号器25から復号された映像データを受信した時点で、GOP分割器30は、映像データを各々が複数のフレームを含むGOP構造に分割する(56)。
複雑さ低減モジュール32は、GOP構造に含まれるフレーム内の画像情報の解像度を低下させる(57)。幾つかの場合においては、複雑さ低減モジュール32は、相関に基づくAGOP構造決定モジュール22が所定のフレームに関するピクチャタイプを決定するときに計算することができる相互相関数を制限することも可能である。リアルタイムトランスコーダ24に実装された相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームに関するピクチャタイプをリアルタイムで決定する(58)。
図7は、相関に基づくAGOP構造決定モジュール22をより詳細に示すブロック図である。上述されるように、相関に基づくAGOP構造決定モジュール22は、リアルタイムコーディングデバイスの外部のオフラインベンチマークとして用いることができ(図1及び3)又はリアルタイムコーディングデバイスに実装することができる(図2及び4)。図7に示されるように、相関に基づくAGOP構造決定モジュール22は、解析ウィンドウ配置モジュール60と、相関器62と、相関解析器64と、ピクチャタイプ決定モジュール66と、評価モジュール68と、を含む。
概して、相関に基づくAGOP構造決定モジュール22は、GOP構造に含まれるフレームを受信し、フレームの対内の画像情報間における相互相関に基づいてフレームの各々に関するピクチャタイプを決定する。解析ウィンドウ配置モジュール60は、GOP構造内において、予め決められたフレームカウント幅の解析ウィンドウを、候補フレームが中心に位置するようにして配置する。例えば、解析ウィンドウは、5つのフレームから成る時間的幅を有することができ、このため、解析ウィンドウは、候補フレームが中心に位置するようにして配置されたときには、候補フレームの2つの先行する隣接フレームと、2つの後続する隣接フレームと、も含む。
相関器62は、解析ウィンドウに含まれるフレームの対内の画像間における1次相互相関を計算する。このようにして、解析ウィンドウは、相関器62が候補フレームに関するピクチャタイプを決定するために計算する1次相互相関数に制限を加える。一態様において、相関器62は、フルフレーム画像間における1次相互相関を計算する。1次画像相互相関は、フレームの対間におけるグローバルな、すなわち全体的な、類似性及びグローバルな動きの量を識別するが、部分画像のより小さいスケールでフレーム内において生じた動きは識別しない。次に、相関器62は、1次画像相互相関の対間における2次相互相関を計算する。
他の態様においては、相関器62は、フレームの対内の部分画像の組間における1次相互相関を計算する。これらのフレームの各々のフレーム内の画像は、マクロブロック等の複数の部分画像に分割することができる。例えば、部分画像は、16×16、16×8、8×16、8×8又はそれよりも小さいピクセルブロックを備えることができる。次に、第1のフレームの部分画像の各々が共通の画像サイズにパディングされ、第2のフレームからのパディングされた部分画像と相互相関される。相関器62は、フレームの対の各々に関して部分画像全部又はその一部におけるピーク部分画像相互相関値の平均を求めることによって1次相互相関を生成する。1次部分画像相互相関は、フレームの対間における部分画像の類似性及び動き量を識別し及びその動きがフレーム内のどこで生じたかを識別する。次に、相関器62は、1次部分画像相互相関の対間における2次相互相関を計算する。
相関解析器64は、相関器62から1次相互相関及び2次相互相関を受信する。相関解析器64は、1次相互相関に基づいて解析ウィンドウ内のフレーム間における映像遷移効果を検出する。映像遷移効果は、映像シーケンスの現在のシーンから同じ映像シーケンスの他のシーンに又は他の映像シーケンスの他のシーンに遷移するために用いられる視覚上の映像効果を意味する。例えば、相関解析器64は、カットシーンの変化と、ショット境界と、フラッシュフレームと、部分的なシーンの変化とを含むコンパクトサポート映像効果を検出することができる。カットシーンは、同じ内容チャネルにおける内容の変化に起因して又はチャネル又はカメラの切り換えに起因して映像シーケンスが1つの映像シーンから異なる映像シーンに変化するときに生じることがある。部分的なシーンの変化は、フレーム構成の一部が1つのシーンから異なるシーンに変化し、フレーム構成の残りの部分が静的、例えば、境界、グラフィック及びテキストオーバーレイ、であるときに生じることがある。フラッシュフレームは、映像シーケンスが映像を記録時においてフラッシュ写真撮影法に起因してルミナンス値を瞬間的に変化させるときに生じることがある。
相関解析器64は、クロスフェードとディゾルブとを含む拡張サポート映像効果を検出することもでき、ズームイン及びズームアウトに加えてフェードイン及びフェードアウトを特殊ケースとして含む。クロスフェードは、映像シーケンスが、内容の変化に起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることがあり、例えば、国の地域ごとに変化する天気図である。さらに、相関解析器64は、カメラのパンとカメラのスクロールとを含むグローバルな動きの映像効果を検出することができる。カメラのパンは、映像シーケンスがビデオカメラの水平方向の動きに起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることができる。カメラのスクロールは、映像シーケンスが映像カメラの垂直方向の動きに起因して1つの映像シーンから異なる映像シーンに増分的に変化するときに生じることができる。
異なる映像遷移効果は、解析ウィンドウ内に含まれる候補フレームと隣接フレームとの間における画像データ及び画像ディテール(detail)の繰り返しの異なるレベルを呈示し、従って、候補フレームに関して異なるピクチャタイプであることを意味する。例えば、候補フレーム内においてカットシーンの変化が生じた場合は、映像シーンが完全に変化するために候補フレームはIピクチャとして符号化すべきである。候補フレーム内において部分的なシーンの変化が生じた場合は、候補フレームのうちで静的境界、グラフィック又はテキストオーバーレイを含む部分はPスライスとして符号化することができ、候補フレームのうちで変化したアクティブな映像シーンを含む部分はIスライスとして符号化することができる。候補フレーム内においてフラッシュフレーム、クロスフェード、ズームイン又はズームアウト、又はカメラのパン又はスクロールが生じた場合は、映像シーンは先行フレームそしておそらく後続するフレームに依存してわずかに又は徐々に変化するため、候補フレームはPピクチャ又はBピクチャのいずれかのピクチャとして符号化することができる。
相関解析器64は、1次相互相関と2次相互相関との間における比較解析も行い、その比較解析に基づいて解析ウィンドウ内の隣接フレーム間における時間的類似性を決定する。時間的類似性は、解析ウィンドウ内に含まれる候補フレームと隣接フレームとの間における画像ディテールの繰り返しのレベルを意味する。時間的類似性の量は、候補フレームに関するピクチャタイプを意味する。例えば、候補フレームがいずれの先行する隣接フレームとも類似しないが、後続する隣接フレームと類似する場合は、候補フレームは、Iピクチャとして符号化すべきである。候補フレームが先行する隣接フレームに類似するが後続する隣接フレームに類似しない場合は、候補フレームは、Pピクチャとして符号化すべきである。候補フレームが先行する隣接フレーム及び後続する隣接フレームの両方に類似する場合は、それは、Pピクチャ又はBピクチャとして符号化すべきである。この場合は、解析ウィンドウに含まれる隣接フレーム間における1次相互相関及び2次相互相関は、候補フレームをPピクチャ又はBピクチャのいずれのピクチャとして符号化すべきであるかを決定するのを助けることができる。例えば、先行する隣接フレームが後続する隣接フレームに類似する場合は、候補フレームは、Pピクチャとして符号化すべきである。
ピクチャタイプ決定モジュール66は、映像遷移効果情報及び時間的類似性情報を相関解析器64から受信する。ピクチャタイプ決定モジュール66は、解析ウィンドウ内において検出された映像遷移効果及び解析ウィンドウに含まれるフレーム間における時間的類似性に基づいて候補フレームに関するピクチャタイプを決定する。相関器62が画像相互相関を計算する実装においては、ピクチャタイプ決定モジュール66は、候補フレーム全体に関するピクチャタイプを決定することができる。相関器62が部分画像相互相関を計算する実装においては、候補フレームは、複数のスライスに分割し、ピクチャタイプ決定モジュール66が候補フレームの個々のスライスの各々に関するピクチャタイプを決定できるようにすることができる。
評価モジュール68は、フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいてピクチャタイプ決定モジュール66の性能を測定する。評価モジュール68は、GOP構造内の決定されたPピクチャ、Bピクチャ及びIピクチャの数及び時間的位置に依存してコーディング利得モデル又はPSNR向上モデルを利用することができる。PSNR向上モデルにおいて用いるために、決定されたピクチャタイプは、時間的予測のために利用可能な基準ピクチャの有効カウントの形で要約することができる。評価モジュール68の出力は、相関に基づくAGOP構造決定モジュール22によるピクチャタイプの決定精度をさらに向上させるために用いることができる。評価モジュール68の出力は、数値又はテーブルの形であることができる。評価モジュール68は、相関に基づくAGOP構造決定モジュール22がリアルタイムコーディングデバイス内に実装される実装において特に役立つことができる(図2及び4)。
映像データが基本層及び拡張層において、すなわちスケーラブルビデオコーディング(SVC)のために、符号化される実装においては、相関に基づくAGOP構造決定モジュール22は、拡張層に基づいた基本層内におけるフレームタイプ決定の変更を可能にするための層化モジュール(図7に示されない)を含むことができる。例えば、基本層に含まれる一定のフレームタイプは、基本層と拡張層との間における帯域幅のバランス化を向上させることができる。従って、層化モジュールは、帯域幅のバランス化を向上させるために拡張層内のフレームタイプに基づいて基本層符号化内のフレームタイプを変更することができる。
図8A乃至8Cは、映像シーケンスに含まれるフレーム間における1次相互相関及び2次相互相関を示すグラフである。一態様においては、図7からの相関器62は、解析ウィンドウ70に含まれるフレームの対内の画像間におけるここにおいて説明される1次相互相関を計算する。他の態様においては、相関器62は、解析ウィンドウ70に含まれるフレームの対内における部分画像、例えばマクロブロック、の組間におけるここにおいて説明される1次相互相関を計算し、フレームの対の各々に関して部分画像全部又はその一部における相互相関の平均を求める。
図8Aは、図7からの解析ウィンドウ配置モジュール60によるGOP構造内における解析ウィンドウの配置を示す。図8Aに示されるように、解析ウィンドウ70は、GOP構造内において候補フレーム(fk)72が中心に位置するようにして配置され、予め決められた数の隣接フレームを含む。例えば、解析ウィンドウ70は、5つのフレームから成る予め決められた時間的幅を有し、このため、解析ウィンドウは、候補フレーム(fk)72が中心に位置するようにして配置されたときには、候補フレーム(fk)72の2つ先行する隣接フレーム(fk−1及びfk−2)と2つの後続する隣接フレーム(fk+1及びfk+2)とを同じく含む。このようにして、相関器62は、解析ウィンドウ70に含まれるフレーム間における1次相互相関を計算し、候補フレーム72に関するピクチャタイプを決定する。換言すると、解析ウィンドウ70の使用は、相関器62がGOP構造に含まれる各フレームに関するピクチャタイプを決定するために計算する1次相互相関数に制限を設ける。
図8Bは、解析ウィンドウ70に含まれるフレーム間において相関器62によって行われる1次相互相関計算を示す。相関器62は、第1の先行する隣接フレーム(fk−1)と候補フレーム(fk)72との間における第1の前方相互相関(F1)74を計算する。次に、相関器62は、第2の先行する隣接フレーム(fk−2)と候補フレーム(fk)72との間における第2の前方相互相関(F2)75を計算する。相関器62は、第1の後続する隣接フレーム(fk+1)と候補フレーム(fk)72との間における第1の後方相互相関(B1)76を計算する。次に、相関器62は、第2の後続する隣接フレーム(fk+2)と候補フレーム(fk)72との間における第2の後方相互相関(B2)77を計算する。相関器62は、次に、第1の先行する隣接フレーム(fk−1)と第1の後続する隣接フレーム(fk+1)との間における第1の対称的相互相関計算(S2)78を計算する。次に、相関器62は、第2の先行する隣接フレーム(fk−2)と第2の後続する隣接フレーム(fk+2)との間における第2の対称的相互相関計算(S4)79を計算する。
図8Cは、解析ウィンドウ70内の1次相互相関間における相関器62によって行われる2次相互相関計算を示す。相関器62は、1次の第1の前方相互相関(F1)74と1次の第1の後方相互相関(B1)76との間における2次の第1の隣接相互相関(O1)80を計算する。次に、相関器62は、1次の第2の前方相互相関(F2)75と1次の第2の後方相互相関(B2)77との間における2次の第2の隣接相互相関(O2)81を計算する。
幾つかの態様において、相関器62は、図1及び3に示されるように、リアルタイムコーディングデバイスの外部のオフラインベンチマークとして相関に基づくAGOP構造決定モジュール22内において用いることができる。その場合は、相関器62は、ここにおいて説明される1次相互相関及び2次相互相関を非リアルタイムで計算する。その他の態様においては、相関器62は、図2及び4に示されるように、リアルタイムコーディングデバイスに実装された相関に基づくAGOP構造決定モジュール22内において用いることができる。幾つかの場合においては、複雑さ低減は、相関器62が候補フレーム72に関するピクチャタイプを決定するときに計算することができる相互相関数を制限することがある。例えば、解析ウィンドウ70が5つのフレームに等しい時間的幅を有するときには、相関器62は、3つの1次相互相関及び2つの2次相互相関しか計算することができない。例えば、相関器62は、第1の前方相互相関(F1)74、第1の対称的相互相関(S2)78、第2の対称的相互相関(S4)79、2次の第1の隣接フレーム相互相関(O1)80、及び2次の第2の隣接相互相関(O2)81を計算することができる。
図9は、相関に基づくAGOP構造決定モジュール22に含まれる相関器62の典型的実装を示すブロック図である。図9に示されるように、相関器62Aは、画像相互相関を行うための2次元高速フーリエ変換(2D FFT)に基づく計算を備える。相関器62Aは、映像シーケンスに含まれるフレームの対内の画像間における1次相互相関及び1次画像相互相関の対間における2次相互相関の両方を計算することができる。
相関器62Aが1次画像相互相関を計算中であるときに、プリコンディショニング(preconditioning)モジュール82は、第1のフレーム内の画像を受信し、プリコンディショニングされた画像をフーリエ変換(f)84に提供する。同時に、プリコンディショニングモジュール83は、第2のフレーム内の画像を受信し、プリコンディショニングされた画像を複素共役(F*)フーリエ変換85に提供する。第1のフレーム画像の変換及び第2のフレーム画像の複素共役変換は、乗算されて逆フーリエ変換(F−1)88に提供される。次に、正規化器89は、逆変換出力を正規化し、最大値(max)フィルタ90は、第1のフレーム及び第2のフレーム内の画像間における正規化された1次相互相関の最大値を決定する。正規化された1次相互相関の最大値は、相関解析器64によって用いるための特性値として保持される。
相関器62Aが2次相互相関を計算中であるときに、プリコンディショニングモジュール82は、第1の対のフレームの間における1次画像相互相関を受信し、プリコンディショニングされた1次画像相互相関をフーリエ変換(F)84に提供する。同時に、プリコンディショニングモジュール83は、第2の対のフレームの間における1次画像相互相関を受信し、プリコンディショニングされた1次画像相互相関を複素共役(F*)フーリエ変換(F)85に提供する。第1の対のフレーム間における画像相互相関の変換及び第2の対のフレーム間における画像相互相関の複素共役変換が乗算され、逆フーリエ変換(F−1)88に提供される。次に、正規化器89は、逆変換出力を正規化し、最大値フィルタ90は、フレームの第1の対とフレームの第2対との間における正規化された2次相互相関の最大値を決定する。正規化された2次画像相互相関の最大値は、相関解析器64によって用いるための特性値として保持される。
図10は、相関に基づくAGOP構造決定モジュール22に含まれる相関器62の他の典型的実装を示すブロック図である。図10に示されるように、相関器62Bは、部分画像相互相関を行うための2次元(2D FFT)に基づく計算を備える。相関器62Bは、映像シーケンスに含まれるフレームの対内の部分画像間における1次相互相関及び1次部分画像相互相関の対間における2次相互相関の両方を計算することができる。
相関器62Bが1次部分画像相互相関を計算中であるときに、プリコンディショニングモジュール92は、第1のフレーム内の部分画像、例えば一組のマクロブロック、を受信し、プリコンディショニングされた部分画像をフーリエ変換(F)94に提供する。プリコンディショニングモジュール92は、第1のフレーム内の部分画像にパディングして共通の画像サイズにする。同時に、プリコンディショニングモジュール93は、第2のフレーム内の部分画像、例えば一組のマクロブロック、を受信し、プリコンディショニングされた部分画像を複素共役フーリエ変換(F*)95に提供する。プリコンディショニングモジュール93は、第2のフレーム内の部分画像にパディングして共通の画像サイズにする。第1のフレームのパディングされた部分画像の変換及び第2のフレームのパディングされた部分画像の複素共役変換が乗算され、逆フーリエ変換(F−1)98に提供される。次に、正規化器99は、逆変換出力を正規化し、最大値フィルタ100は、第1のフレーム内の部分画像と第2のフレーム内の部分画像との間における正規化された1次相互相関の最大値を決定する。次に、平均化モジュール102は、第1のフレーム内の部分画像の組内の部分画像全部又はその一部における正規化された相互相関の最大値の平均を求める。正規化された1次相互相関の平均された最大値は、相関解析器64によって用いるための特性値として保持される。
相関器62Bが2次相互相関計算を実行中であるときには、プリコンディショニングモジュール92は、第1の対のフレーム間における1次画像相互相関サブセグメントを受信し、プリコンディショニングされた1次相互相関サブセグメントをフーリエ変換(F)94に提供する。同時に、プリコンディショニングモジュール93は、第2の対のフレーム間における1次相互相関サブセグメントを受信し、プリコンディショニングされた1次相互相関サブセグメントを複素共役(F*)フーリエ変換95に提供する。第1の対のフレーム間における1次相互相関サブセグメントの変換及び第2の対のフレーム間における1次相互相関サブセグメントの複素共役変換が乗算され、逆フーリエ変換(F−1)98に提供される。次に、正規化器99は、逆変換出力を正規化し、最大値フィルタ100は、フレームの第1の対とフレームの第2の対との間における1次相互相関サブセグメント間における正規化された2次相互相関の最大値を決定する。正規化された2次相互相関の最大値は、相関解析器64によって用いるための特性値として保持される。
図11は、相関に基づくAGOP構造決定モジュール22に含まれる相関解析器64の典型的実装を示すブロック図である。図11に示されるように、相関解析器64は、1次相関解析器104と、比較解析器106と、2次相関解析器108と、映像遷移効果検出器110と、を含む。映像遷移効果検出器110は、コンパクトサポートイベント検出器112と、拡張サポートイベント検出器114と、グローバルな動き検出器116と、を含む。
相関解析器64は、1次相互相関及び2次相互相関を相関器62から受信する。1次相関解析器104は、1次相互相関をコンパイルし、1次相互相関を映像遷移効果検出器110及び比較解析器106に提供する。2次相関解析器108は、2次相互相関をコンパイルし、2次相互相関を比較解析器106に適用する。
映像遷移効果検出器110は、1次相互相関に基づいて現在処理されているGOP構造のフレーム間における映像遷移効果を検出する。図12乃至14を参照して説明されるように、映像遷移効果検出器110は、コンパクトサポートイベント検出器112、拡張サポートイベント検出器114、及びグローバルな動き検出器116を介して映像特殊効果の識別に基づいて映像遷移効果を検出する。より具体的には、コンパクトサポートイベント検出器112は、カットシーンの変化のフィンガープリント(fingerprint)、フラッシュフレームのフィンガープリント、及び部分的なシーンの変化のフィンガープリントを1次相互相関から識別する。拡張サポートイベント検出器114は、フェードインとフェードアウトを含むクロスフェードフィンガープリント、及びズームイン及びズームアウトフィンガープリントを1次相互相関から識別する。グローバルな動き検出器116は、カメラのパンのフィンガープリント及びカメラのスクロールのフィンガープリントを1次相互相関から識別する。フィンガープリントは、ここにおいては、一定の映像遷移効果に一意でマッチングされたマッチドフィルタからの特定の応答を意味すると定義され、このためその特定の応答の検出は、関連づけられた映像遷移効果の検出に相当する。
映像遷移効果検出器110は、検出された映像遷移効果をピクチャタイプ決定モジュール66に出力する(図7)。例えば、候補フレーム72においてカットシーンの変化が生じた場合は、映像シーンが完全に変化するため候補フレーム72はIピクチャとして符号化すべきである。候補フレーム72において部分的なシーンの変化が生じた場合は、候補フレーム72のうちで静的な境界、グラフィック又はテキストオーバーレイを含む部分は、Pスライスとして符号化することができ、候補フレーム72のうちで変化したアクティブな映像シーンを含む部分は、Iスライスとして符号化することができる。候補フレームにおいてフラッシュフレーム、クロスフェード、ズームイン、ズームアウト、カメラのパン又はスクロールが生じた場合は、映像シーンは先行フレームそしておそらく後続フレームに依存してわずかに又は徐々に変化するため、候補フレーム72はPピクチャ又はBピクチャとして符号化することができる。
比較解析器106は、1次相互相関と2次相互相関との間における比較解析を行う。次に、比較解析器106は、その比較解析に基づいて解析ウィンドウ70内の隣接フレーム間における時間的類似性を決定する。比較解析を行うときには、比較解析器106は、フレーム間における相関のレベルを比較し、候補フレーム72が先行及び後続する両方の隣接フレームとどの程度類似するか、及び隣接フレームが互いにどの程度類似するかを決定する。次に、比較解析器106は、時間的類似性をピクチャタイプ決定モジュール66に出力する(図7)。例えば、候補フレーム72が後続する隣接フレームとよく相関するが先行する隣接フレームとはよく相関しない、すなわち、第1の前方相関74が低く、第1の後方相互相関76が高い、場合は、候補フレーム72は、先行フレームと関連性がなく及び後続フレームの基準として働くIピクチャとして符号化すべきである。他の例として、候補フレーム72が後続する隣接フレーム及び先行する隣接フレームの両方とよく相関する場合は、候補フレーム72は、Pピクチャ又はBピクチャのいずれかとして符号化すべきである。しかしながら、後続する隣接フレームが先行する隣接フレームとよく相関する、すなわち、第1の対称的相関78が高い、場合は、候補フレーム72は、Pピクチャとして符号化することができる。
図12は、図11からの相関解析器64に含まれる映像遷移効果検出器110の一部としてのコンパクトサポートイベント検出器112を示すブロック図である。コンパクトサポートイベント検出器112は、マッチドフィルタバンクを利用して、1次相互相関解析器104の出力内のコンパクトサポート映像効果と関連づけられたフィンガープリントを検出することができる。コンパクトサポート映像効果は、カットシーンの変化と、部分的なシーンの変化と、フラッシュフレームと、を含む。例えば、カットシーンの変化は、映像シーンの内容が同じチャネル上での内容の変化に起因して又はチャネル切り換えに起因して1つの映像シーンから異なる映像シーンに瞬時に変化するときに生じる可能性がある。部分的なシーンの変化は、映像シーケンス内のフレーム内容の一部が1つの映像シーンから異なる映像シーンに変化し、映像シーケンス内のフレーム内容の残りの部分が静的、すなわち、境界、グラフィック又はテキストオーバーレイ、であるときに生じることがある。フラッシュフレームは、映像シーケンスの内容が映像を記録時においてフラッシュ写真撮影法に起因してルミナンス値を瞬間的に変化させるときに生じることがある。
図12に示される例においては、コンパクトサポートイベント検出器112は、図6からの1次の第1の前方相互相関(F1)74、1次の第1の対称的相互相関(S2)78、及び1次の第2の対称的相互相関(S4)79の出力を利用する。コンパクトサポートイベント検出器112は、1次相互相関出力の各々を、非線形ハイパスフィルタ120A乃至120Cのうちの専用の非線形ハイパスフィルを通過させる。非線形ハイパスフィルタ120A乃至120Cの各々の非線形ハイパスフィルタの出力は、カットシーン変化マッチドフィルタ122及びフラッシュフレームマッチドフィルタ124の両方に入力される。
カットシーン変化マッチドフィルタ122は、カットシーンの変化の予想されるフィンガープリントに類似する1次相互相関の出力に含まれる時系列上の特徴を分離する。例えば、カットシーンの変化のフィンガープリントは、図17において特徴180によって示されるように、映像シーンの完全な変化に起因するフレーム間における低相関の単一のディップ(dip)を備える。コンパクトサポートイベント検出器112は、いずれの特徴がカットシーンの変化のフィンガープリントを備えるかを正確に識別するためにカットシーン変化マッチドフィルタ122の出力をスレショルド比較器123に提供する。スレショルド比較器123は、カットシーン変化マッチドフィルタ122によって分離された特徴を、予め決められた値、例えば0.29、に設定されたスレショルド値(Tcsc)と比較する。コンパクトサポートイベント検出器112は、スレショルド値よりも大きいマッチドフィルタ応答を有する特徴の位置におけるカットシーンの変化を検出する。次に、スレショルド比較器123は、カットシーンの変化が検出された場合はブール出力(Bcsc)を1に設定し、カットシーンの変化が検出されない場合は0に設定する。
コンパクトサポートイベント検出器112は、カットシーン変化マッチドフィルタ122及びスレショルド比較器123を用いることによって部分的なシーンの変化を検出することもできる。図18の特徴184によって示されるように、部分的なシーンの変化のフィンガープリントは、カットシーンの変化のフィンガープリントに実質的に類似する単一のディップを備えるが、映像シーンの静的部分に起因してより高い相関を有する。部分的なシーンの変化のフィンガープリントの相対的に小さいディップは、コンパクトサポートイベント検出器112によって検出されるような十分に大きいカットシーン変化マッチドフィルタ122からの応答をトリガすることができない。スレショルド比較器123に入力されたスレショルド値(Tcsc)は、部分的なシーンの変化の検出を可能にするために引き下げることができるが、これは、コンパクトサポート映像効果を不正確に検出する尤度を上昇させることによってさらなる精度上の問題、すなわち、誤ったアラーム率の増大、を引き起こす可能性がある。代わりに、相関器62は、静的境界の検出を行って静的境界の存在を識別すること、及び映像シーンのアクティブな部分に対応する部分画像間における1次相互相関を計算することができる。このようにして、静的な境界を有するアクティブな映像シーンのみの完全な変化は、カットシーンの変化のフィンガープリントに相当するフィンガープリントを提示することができる。
フラッシュフレームマッチドフィルタ124は、フラッシュフレームの予想されるフィンガープリントに類似する1次相互相関の出力に含まれる時系列の特徴を分離する。例えば、フラッシュフレームのフィンガープリントは、図17において特徴182によって示されるように、映像シーン内でのルミナンス値の変化に起因するフレーム間におけるより低い相関の連続的ディップを備える。コンパクトサポートイベント検出器112は、いずれの特徴がフラッシュフレームのフィンガープリントを備えるかを正確に識別するためにフラッシュフレームマッチドフィルタ124の出力をスレショルド比較器125に提供する。スレショルド比較器125は、フラッシュフレームマッチドフィルタ124によって分離された特徴を、予め決められた値、例えば0.20、に設定されたスレショルド値(TFF)と比較する。コンパクトサポートイベント検出器112は、スレショルド値よりも大きいマッチドフィルタ応答を有する特徴位置におけるフラッシュフレームを検出する。次に、スレショルド比較器125は、フラッシュフレームが検出された場合はブール出力(BFF)を1に設定し、フラッシュフレームが検出されない場合は0に設定する。
図13は、図11からの相関解析器64に含まれる映像遷移効果検出器110の一部としての拡張サポートイベント検出器114を示すブロック図である。拡張サポートイベント検出器114は、多解像度解析を利用し、1次相互相関解析器104の出力内の拡張サポート映像効果と関連づけられたフィンガープリントを検出する。拡張サポート映像効果は、クロスフェードと、フェードインと、フェードアウトと、ズームと、を含む。例えば、クロスフェードは、映像シーケンスが、内容の変化に起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることがあり、例えば、国の地域ごとに変化する天気図である。
図13に示される例において、拡張サポートイベント検出器114は、図6からの1次の第1の前方相互相関(F1)74、1次の第1の対称的相互相関(S2)78、及び1次の第2の対称的相互相関(S4)79の出力を利用する。拡張サポートイベント検出器114は、1次相互相関出力の各々を、非線形ローパスフィルタ126A乃至126Cのうちの専用の非線形ローパスフィルを通過させる。非線形ローパスフィルタ126A乃至126Cの各々の非線形ローパスフィルタの出力は、多解像度解析器128A乃至128Cのうちの専用の多解像度解析器に入力される。多解像度解析器128A乃至128Cは、クロスフェード又はズームの予想されるフィンガープリントに類似する1次相互相関の出力に含まれる特徴を識別する。例えば、クロスフェードフィンガープリントは、図19の特徴186によって示されるように、映像シーンの漸進的な変化に起因するフレーム間における低相関の1つのノッチ(notch)を備える。多解像度解析器128A乃至128Cは、統一された形での、大きく変動する継続時間を有する特徴の検出及びその実際の継続時間の決定を可能にする。
拡張サポートイベント検出器114は、いずれの特徴がクロスフェード又はズームのフィンガープリントを備えるかを正確に識別するために多解像度解析器128A乃至128Cの出力を構造化有意ピーク解析器(structured significant peak analyzer)130に加える。構造化有意ピーク解析器130は、多解像度解析器128A乃至128Cの各々によって識別された特徴を結合し、1次相互相関の出力の各々における低相関のノッチが特定の順序で時間的に整合されるかどうかを決定する。拡張サポートイベント検出器114は、1次相互相関のノッチが互いに時間的に整合される場合にクロスフェードであると決定することができる。さらに、これらのノッチの最低値は、望ましくは、1次の第2の対称的相互相関(S4)79よりも大きい1次の第1の対称的相互相関(S2)78よりも大きい1次の第1の前方相互相関(F1)74として順序を設定すべきである。
図14は、図11からの相互相関解析器64に含まれる映像遷移効果検出器110の一部分としてのグローバルな動き検出器116を示すブロック図である。グローバルな動き検出器116は、1次相互相関解析器104の出力内におけるグローバルな動きと関連づけられたフィンガープリントを検出するためにグローバル変位推定値を利用する。グローバルな動きの映像効果は、カメラのパンと、カメラのスクロールと、映像シーン全体に影響を及ぼすその他の並進的動きと、を含む。例えば、カメラのパンは、映像シーケンスがビデオカメラの水平方向の動きに起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じる可能性がある。カメラのスクロールは、映像シーケンスがビデオカメラの垂直方向の動きに起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じる可能性がある。
図14に示される例において、グローバルな動き検出器116は、図6からの1次の第1の前方相互相関(F1)74、1次の第1の対称的相互相関(S2)78、及び1次の第2の対称的相互相関(S4)79の出力を利用する。グローバルな動き検出器116は、1次相互相関出力の各々を、最大値位置フィルタ(max location filter)132A乃至132Cのうちの専用の最大値位置フィルタを通過させる。最大値位置フィルタ132A乃至132Cは、カメラのパン及びカメラのスクロールの予想されるフィンガープリントに類似する1次相互相関の出力に含まれる特徴を識別する。例えば、カメラのパンのフィンガープリントは、図20Aにおいて特徴188によって示されるように、映像シーンの漸進的な変化に起因する、最大相互相関値位置の、原位置からの常に存在する有意な水平方向のシフト、を備える。カメラのスクロールのフィンガープリントは、図20Bにおいて特徴200によって示されるように、映像シーンの漸進的な変化に起因する、最大相関値位置の、原位置からの常に存在する有意な垂直方向のシフト、を備える。最大値位置フィルタ132A乃至132Cは、各々が、関連づけられた1次相互相関の時間的距離における水平変位推定値(h)及び垂直変位推定値(v)を出力する。
しかしながら、圧縮アーティファクト、例えばリンギング及びブラー、は、1次相互相関からの変位推定値の精度を低下させる。従って、グローバルな動き検出器116は、圧縮アーティファクトの劣化を引き起こす雑音のような影響に対して水平変位推定値及び垂直変位推定値を平滑化するために多チャネル統合(fusion)モジュール134を利用する。さらに、コンパクトサポート映像効果及び拡張サポート映像効果は、グローバルな動きの変位推定を遮断することがあり、それが異常な変位推定値に結び付く可能性がある。多チャネル統合モジュール134は、検出されたコンパクトサポート映像効果及び拡張サポート映像効果全体における変位推定値の非線形の平滑化を行うことによってこの効果を低減又は除去することができる。
図14に示されるように、多チャネル統合モジュール134は、異なる変位推定値と関連づけられた異なる時間的距離を補償するための時間的距離2における変位推定値のための1/2の重みと、時間的距離4における変位推定値のための1/4の重みと、を含む。多チャネル統合モジュール134は、異なる時間的距離における変位推定値のエンファシス(emphasis)を等化するための、変位推定値の各々のための均一の重み(例えば1/3)136A乃至135Cも含む。その他の態様においては、多チャネル統合モジュール134は、選択された時間的距離における変位推定値を強調するための不均一な重みを用いることができる。最後に、多チャネル統合モジュール134は、時間的距離の各々からの重み付きの水平変位推定値を加算することによって単一の平滑化された水平変位推定値を生成する水平加算器142を含む。多チャネル統合モジュール134は、時間的距離の各々からの垂直変位推定値を加算することによって単一の平滑化された垂直変位推定値を生成する垂直加算器144も含む。
図15は、画像相互相関に基づいて映像シーケンスに含まれるフレームに関するピクチャタイプを決定する相関に基づくAGOP構造決定モジュール22の典型的動作を示すフローチャートである。図15のフローチャートは、図7の相関に基づくAGOP構造決定モジュール22、図8A乃至8Cの解析ウィンドウ、及び図11の相関解析器64に関連して説明される。
解析ウィンドウ配置モジュール60は、GOP構造内において、解析ウィンドウ70を、候補フレームfk、72が中心に位置するようにして配置し、先行する隣接フレーム(fk−1及びfk−2)と後続する隣接フレーム(fk+1及びfk+2)とを含む(150)。相関器62は、解析ウィンドウ70に含まれるフレームの対内の画像間における1次相互相関を計算する(152)。1次相互相関は、該画像のピクセル領域データに関して行われる。この態様において、相関器62は、フルフレーム画像間における1次相互相関を計算する。図8Bを参照して上述されるように、1次相互相関は、第1の前方相互相関74と、第2の前方相互相関75と、第1の後方相互相関76と、第2の後方相互相関77と、第1の対称的相互相関78と、第2の対称的相互相関79と、を含むことができる。1次画像相互相関は、フレームの対間におけるグローバルな、すなわち全体的な、類似性及びグローバルな動きの量を識別するが、部分画像のより小さいスケールでフレーム内において生じた動きは識別しない。次に、相関器62は、1次画像相互相関の対間における2次相互相関を計算する(154)。図8Cを参照して上述されるように、2次相互相関は、第1の隣接相互相関80と、第2の隣接相互相関81とを含むことができる。
相関解析器64は、1次相互相関及び2次相互相関を相関器62から受信する。1次相互相関解析器104は、1次相互相関をコンパイルし、1次相互相関を映像遷移効果検出器110及び比較解析器106に提供する。2次相互相関解析器108は、2次相互相関をコンパイルし、2次相互相関を比較解析器106に提供する。
映像遷移効果検出器110は、1次相互相関に基づいて現在処理されているGOP構造内のフレーム間における映像遷移効果を検出する(156)。図10乃至12を参照して説明されるように、映像遷移効果検出器110は、コンパクトサポートイベント検出器112、拡張サポートイベント検出器114、及びグローバルな動き検出器116を介して映像効果の識別に基づいて映像遷移効果を検出する。より具体的には、コンパクトサポートイベント検出器112は、1次相互相関からカットシーンの変化のフィンガープリント、フラッシュフレームのフィンガープリント、及び部分的なシーンの変化のフィンガープリントを識別する。拡張サポートイベント検出器114は、1次相互相関からのフェードインフィンガープリントとフェードアウトフィンガープリントを含むクロスフェードフィンガープリント、及びズームインフィンガープリント及びズームアウトフィンガープリントを識別する。グローバルな動き検出器116は、カメラのパンのフィンガープリント及びカメラのスクロールのフィンガープリントを識別する。
比較解析器106は、1次相互相関と2次相互相関との間における比較解析を行う。次に、比較解析器106は、その比較解析に基づいて解析ウィンドウ70内の隣接フレーム間における時間的類似性、その強度及び性質を決定する(158)。比較解析を行うときには、比較解析器106は、フレーム間における相関のレベルを比較し、候補フレーム72が隣接フレームとどの程度類似するか、及び隣接フレームが互いにどの程度類似するかを決定する。
ピクチャタイプ決定モジュール66は、映像遷移効果検出器110から映像遷移効果情報を及び比較解析器106から時間的類似性情報を受信する。次に、ピクチャタイプ決定モジュール66は、解析ウィンドウ70内において検出された映像遷移効果及び解析ウィンドウ70に含まれるフレーム間における時間的類似性に基づいて候補フレーム72に関するピクチャタイプを決定する(160)。
図16は、部分画像相互相関に基づいて映像シーケンスに含まれるフレームに関するピクチャタイプを決定する相関に基づくAGOP構造決定モジュール22の典型的動作を示すフローチャートである。図16のフローチャートは、図7の相関に基づくAGOP決定モジュール22、図8A乃至8Cの解析ウィンドウ、及び図11の相関解析器64に関連して説明される。
解析ウィンドウ配置モジュール60は、GOP構造内において、解析ウィンドウ70を、候補フレームfk、72が中心に位置するようにして配置し、先行する隣接フレーム(fk−1及びfk−2)と後続する隣接フレーム(fk+1及びfk+2)とを含む(164)。相関器62は、解析ウィンドウ70に含まれるフレームの対内の部分画像の組間における1次相互相関を計算する(166)。部分画像1次相互相関は、該部分画像のピクセル領域データに関して行われる。これらのフレームの各々のフレーム内の画像は、複数の部分画像、例えばマクロブロック、に分割することができる。第1のフレームの部分画像の各々は、共通の画像サイズになるようにパディングされ、第2のフレームの部分画像と相互相関される。例えば、部分画像は、64×64画像になるようにパディングされた16×16マクロブロックを備えることができる。相関器62は、フレームの対の各々に関して部分画像全部又はその一部におけるピークの、すなわち最大の、部分画像相互相関値の平均を求めることによって1次相互相関を生成する(168)。1次部分画像相互相関は、フレームの対間における部分画像の類似性及び動き量を識別し及びその動きがフレーム内のどこで生じたかを識別する。次に、相関器62は、1次部分画像相互相関の対間における2次相互相関を計算する(170)。
相関解析器64は、1次相互相関及び2次相互相関を相関器62から受信する。1次相関解析器104は、1次相互相関をコンパイルし、1次相互相関を映像遷移効果検出器110及び比較解析器106に提供する。2次相関解析器108は、2次相互相関をコンパイルし、2次相互相関を比較解析器106に提供する。映像遷移効果検出器110は、1次相互相関に基づいて現在処理されているGOP構造内のフレーム間における映像遷移効果を検出する(172)。比較解析器106は、1次相互相関と2次相互相関との間における比較解析を行う。次に、比較解析器106は、その比較解析に基づいて解析ウィンドウ70内の隣接フレーム間における時間的類似性、その強度及び性質を決定する(174)。
ピクチャタイプ決定モジュール66は、映像遷移効果検出器110から映像遷移効果情報を及び比較解析器106から時間的類似性情報を受信する。候補フレーム72は、複数のスライスに分割することができ、このため、ピクチャタイプ決定モジュール66は、解析ウィンドウ70内において検出された映像遷移効果及び解析ウィンドウ70に含まれるフレーム間における時間的類似性に基づいて候補フレーム72の個々のスライスの各々に関するピクチャタイプを決定することができる(176)。
図17は、図12からのコンパクトサポートイベント検出器112の出力を示す作図であり、カットシーンの変化のフィンガープリント180とフラッシュフレームのフィンガープリント182とを含む。カットシーンの変化は、映像シーンの内容が、同じチャネル上での内容の変化に起因して、例えば選択されたカメラフィード(feed)の変化に起因して又はチャネル切り換えに起因して、1つの映像シーンから異なる映像シーンに変化するときに生じることがある。従って、カットシーンの変化のフィンガープリント180は、映像シーンの完全な変化に起因するフレーム間における低相関の単一のディップを備える。フラッシュフレームは、映像シーケンスが映像を記録時においてフラッシュ写真撮影法に起因してルミナンス値を瞬間的に変化させるときに生じることがある。従って、フラッシュフレームのフィンガープリント182は、映像シーケンス内におけるルミナンス値の変化に起因するフレーム間におけるより低い相関の連続ディップを備える。これらの連続ディップは、フラッシュによって誘発された増大した輝度が映像シーケンスにおいて現れて消えることによって生成される。フラッシュフレームの場合は、カットシーンの変化の単一の変化と比較して2つの変化が非常に短時間のフレームにおいて実効的に生じる。
図18は、図12からのコンパクトサポートイベント検出器112の出力を示す作図であり、部分的なシーンの変化のフィンガープリント184を含む。部分的なシーンの変化は、映像シーケンスフレームの内容の一部が、1つの映像シーンから異なる映像シーンに変化し、映像シーケンスフレームの内容の残りの部分、例えば、境界及びグラフィック及びテキストのオーバーレイ、が静的であるときに生じることがある。従って、部分的なシーンの変化のフィンガープリント184は、カットシーンの変化のフィンガープリント180に実質的に類似するが映像シーンの静的部分に起因してより高い相関を有する単一ディップを備える。
図19は、図13からの拡張サポートイベント検出器114の出力を示す作図であり、クロスフェードのフィンガープリント186を含む。クロスフェードは、映像シーケンスフレームの内容が、内容の変化に起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることがあり、例えば、国の地域ごとに変化する天気図である。従って、クロスフェードのフィンガープリント186は、フレーム間における低相関のノッチ(notch)を備え、このため、異なる相互相関時系列におけるこれらのノッチは、映像シーンの漸進的な変化に起因して特定の順序で時間的に整合される。
図20A及び20Bは、グローバルな動きの検出器116の出力を示す作図であり、カメラのパンのフィンガープリント188とカメラのスクロールのフィンガープリント200とを含む。カメラのパンは、映像シーケンスフレームの内容が、ビデオカメラの水平方向の動きに起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることがある。図18Aにおいて示されるように、カメラのパンのフィンガープリント188は、映像シーンの漸進的なグローバルな並進的変化に起因する、検出された動きの水平成分の、0値からの常に存在する有意なシフト又は偏差、すなわち、最大相関値位置の、原位置からの常に存在する有意な水平方向のシフト、を備える。該シフトの量は、動き量及び時間的距離、すなわち、特定の1次相互相関時系列、に依存し、これらのシフトは、観測されるか又は推定される。図20Aにおいて、1フレーム間隔、2フレーム間隔及び4フレーム間隔のそれぞれ時間的距離において、約−1.5ピクセル、−3ピクセル、及び−6ピクセルの平均シフトを観測することができる。
カメラのスクロールは、映像シーケンスフレームの内容が、ビデオカメラの垂直方向の動きに起因して1つの映像シーンから異なる映像シーンに徐々に変化するときに生じることがある。図20Bにおいて示されるように、カメラのスクロールのフィンガープリント200は、映像シーンの漸進的なグローバルな並進的変化に起因する、検出された動きの垂直成分の、0値からの常に存在する有意なシフト又は偏差、すなわち、相互相関ピーク位置の、原位置からの常に存在する有意な垂直方向のシフト、を備える。該シフトの量は、動き量及び時間的距離、すなわち、特定の1次相互相関時系列、に依存し、これらのシフトは、観測されるか又は推定される。図20Bにおいて、例えば、フレームインデックス10乃至16の周囲において観測された最も初期のディップ、すなわち、0からのマイナス(negative)の偏差、は、1フレーム間隔、2フレーム間隔及び4フレーム間隔のそれぞれの時間的距離における約−1ピクセル、−2ピクセル、及び−4ピクセルの平均シフトに対応する。この時間間隔中に、ビデオカメラは、おそらく短時間の揺れに起因する突然の短時間の垂直変位を経験している。
この開示の技法は、映像シーケンスに含まれる複数のフレームの各々に関するピクチャタイプを前記フレーム間における相互相関に基づいて決定することを対象とする。より具体的には、これらの技法は、GOP構造に含まれるフレームに関するピクチャタイプを前記フレーム間における相互相関に基づいて好適に決定することを対象とする。相互相関は、映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関と、1次相互相関の対間における2次相互相関と、を含む。1次相互相関は、解析してフレーム間における映像遷移効果を検出することができる。1次相互相関及び2次相互相関は、比較解析して隣接フレーム間における時間的類似性を決定することができる。従って、相関に基づく決定技法は、映像遷移効果及び時間的類似性に基づいてフレームに関するピクチャタイプを決定する。
相関に基づく決定技法は、フレームの対内の画像間における、又は、フレームの対内の部分画像、例えばマクロブロック、の組間における1次相互相関を計算することができ、これらのフレームの対の統計値、例えば最大値、は、フレームの対の各々に関して部分画像全部又はその一部における平均が求められる。ここにおいて説明される技術は、効率的なフレーム間圧縮及びフレーム内圧縮を提供する符号化規格、例えばITU−T H.264、を用いた映像データの再符号化のためにトランスコーダによって利用される相関に基づくAGOP構造決定モジュール内において実行することができる。一態様において、相関に基づくAGOP構造決定モジュールは、リアルタイムトランスコーダに実装されたその他のAGOP構造決定方法を比較することができる基準となるオフラインのベンチマークとして用いることができる。他の態様においては、該当する複雑さ低減を有する相関に基づくAGOP構造決定モジュールは、リアルタイムトランスコーダに実装することができる。他の態様においては、相関に基づくAGOP構造決定モジュールは、効率的なフレーム間圧縮及びフレーム内圧縮を提供する符号化規格、例えばITU−T H.264、を用いた以前に圧縮されなかった生映像データの符号化のために単一パス又は複数パスの、リアルタイム又は非リアルタイムの映像符号器において利用することができる。
ここにおいて説明される技法は、ハードウェア、ソフトウェア、ファームウェア、又はその組み合わせにおいて実装することができる。該技法は、様々なデバイス、例えば、無線通信デバイスハンドセット及びその他のデバイスにおける用途を含む複数の用途を有する汎用コンピュータ、無線通信デバイスハンドセット、又は集積回路デバイス、のうちのいずれかにおいて実装することができる。モジュール又は構成要素として説明される特徴は、統合された論理デバイス内においてまとめて実装すること又は個別のただし相互運用可能な論理デバイスとして別々に実装することができる。ハードウェア内に実装される場合は、これらの技法は、デジタルハードウェア、アナログハードウェア又はその組み合わせを用いて実現させることができる。ソフトウェア内に実装される場合は、これらの技法は、少なくとも部分的には、コンピュータプログラム製品のコンピュータによって読み取り可能な媒体における1つ以上の格納された又は送信された命令又は符号によって実現させることができる。コンピュータによって読み取り可能な媒体は、コンピュータ記憶媒体、通信媒体、又は両方を含むことができ、1つの場所から他の場所へのコンピュータプログラムの転送を容易にするあらゆる媒体を含むことができる。記憶媒体は、コンピュータによってアクセス可能などのような利用可能な媒体であってもよい。コンピュータプログラム製品は、パッケージング材料を含むことができる。
一例として、及び制限することなしに、該コンピュータによって読み取り可能な媒体は、RAM、例えば同期的ダイナミックランダムアクセスメモリ(SDRAM)、読み取り専用メモリ(ROM)、非揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル読み取り専用メモリPROM、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、FLASHメモリ、CD−ROM又はその他の光学ディスクストレージ、磁気ディスクストレージ又はその他の磁気記憶デバイス、又は、命令又はデータ構造の形態で希望されるプログラムコードを搬送又は格納するために用いることができ及びコンピュータによってアクセス可能なその他のあらゆる媒体、を備えることができる。
さらに、いずれの接続も、コンピュータによって読み取り可能な媒体と適切に呼ばれる。例えば、ソフトウェアが、ネットワークケーブル、同軸ケーブル、光ファイバーケーブル、より対線、デジタル加入者ライン(DSL)、又は無線技術、例えば、赤外線、無線、及びマイクロ波、を用いてウェブサイト、サーバ、又はその他の遠隔ソースから送信される場合は、該ネットワークケーブル、同軸ケーブル、光ファイバーケーブル、より対線、DSL、又は無線技術、例えば赤外線、無線、及びマイクロ波、は、媒体の定義の中に含まれる。ここにおいて用いられるときのディスク(disk及びdisc)は、コンパクトディスク(CD)(disc)と、レーザディスク(disc)と、光ディスク(disc)と、デジタルバーサタイルディスク(DVD)(disc)と、フロッピー(登録商標)ディスク(disk)と、ブルーレイディスク(disc)と、を含み、ここで、diskは通常は磁気的にデータを複製し、discは、例えばレーザを用いて光学的にデータを複製する。上記の組合せも、コンピュータによって読み取り可能な媒体の適用範囲に含めるべきである。
コンピュータプログラム製品のコンピュータによって読み取り可能な媒体と関連づけられた符号は、コンピュータによって、例えば1つ以上のプロセッサ、例えば、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA、フィールドプログラマブルロジックアレイ、FPLAとも呼ばれる)、又はその他の同等の集積回路又は個別論理回路、によって実行することができる。幾つかの態様においては、ここにおいて説明される機能は、符号化及び復号のために構成された、又は結合された映像符号器−復号器(CODEC)内に組み込まれた、専用のソフトウェアモジュール又はハードウェアモジュール内において提供することができる。
しかしながら、以下の請求項の適用範囲を逸脱することなしに様々な修正を説明される技法に対して加えることができる。
Claims (100)
- 方法であって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算することと、
前記1次相互相関の対間における2次相互相関を計算することと、
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定すること、とを備える、方法。 - 前記フレームの各々に関するピクチャタイプを決定することは、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定することを備える請求項1に記載の方法。
- 前記フレームの各々に関するピクチャタイプを決定することは、
前記1次相互相関の出力に含まれる特徴を映像効果フィンガープリントとして識別することによって前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出することと、
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定すること、とを備える請求項1に記載の方法。 - 映像遷移効果を検出することは、前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出することを備え、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変化の映像効果と、フラッシュフレームの映像効果と、を含み、前記1つ以上のコンパクトサポート映像遷移効果を検出することは、
前記1次相互相関の出力を、コンパクトサポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタに加えることと、
前記マッチングされたフィルタの出力を、前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器に加えること、とを備える請求項3に記載の方法。 - 映像遷移効果を検出することは、前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出することを備え、前記拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、前記1つ以上の拡張サポート映像遷移効果を検出することは、
前記1次相互相関の出力を、拡張サポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する多解像度解析器に加えることと、
前記多解像度解析器の出力を、前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器に加えること、とを備える請求項3に記載の方法。 - 映像遷移効果を検出することは、前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出することを備え、前記グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記1つ以上のグローバルな動きの映像遷移効果を検出することは、
前記1次相互相関の出力を、グローバルな動きの映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタに加えることと、
前記最大値位置フィルタの出力を、前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールに加えること、とを備える請求項3に記載の方法。 - フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関する前記決定されたピクチャタイプの精度を評価することをさらに備える請求項1に記載の方法。
- 前記映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割することをさらに備え、前記フレームの各々に関するピクチャタイプを決定することは、
前記GOP構造内において、解析ウィンドウの中心に候補フレームが位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置することと、
前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算することと、
前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算することと、
前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定すること、とを備える請求項1に記載の方法。 - 1次相互相関を計算することは、前記映像シーケンスに含まれるフレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行うことを備え、
2次相互相関を計算することは、1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行うことを備える請求項1に記載の方法。 - 1次相互相関を計算することは、
前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算することを備える請求項1に記載の方法。 - 1次相互相関を計算することは、
前記映像シーケンスに含まれるフレームの対内の部分画像の組内の部分画像にパディングして共通の画像サイズにすることと、
部分画像の前記組間における1次部分画像相互相関を計算することと、
フレームの前記対の各々に関して前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めること、とを備える請求項1に記載の方法。 - 前記フレームの各々に関するピクチャタイプを決定することは、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割することと、
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定すること、とを備える請求項11に記載の方法。 - 前記フレームの各々に関するピクチャタイプを決定することは、前記映像シーケンスに含まれる前記フレームの各々に関するベンチマークピクチャタイプを決定することを備え、リアルタイムで決定されたピクチャタイプを前記ベンチマークピクチャタイプと比較してリアルタイムで決定された前記ピクチャタイプの精度を決定することをさらに備える請求項1に記載の方法。
- 前記フレームの各々に関するピクチャタイプを決定することは、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定することを備える請求項1に記載の方法。
- リアルタイムでの前記ピクチャタイプの決定を可能にするための複雑さ低減を行うことをさらに備える請求項14に記載の方法。
- 前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化することをさらに備える請求項1に記載の方法。
- デバイスであって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、及び前記1次相互相関の対間における2次相互相関を計算する相関器と、
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するピクチャタイプ決定モジュールと、を備える、デバイス。 - 前記ピクチャタイプ決定モジュールは、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定する請求項17に記載のデバイス。
- 映像効果フィンガープリントとして識別された前記1次相互相関の出力に含まれる特徴に基づいて前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出する映像遷移効果検出器と、
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定する比較解析器と、を含む相関解析器をさらに備える請求項17に記載のデバイス。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出するコンパクトサポートイベント検出器を含み、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変化の映像効果と、フラッシュフレームの映像効果と、を含み、前記コンパクトサポートイベント検出器は、
コンパクトサポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタと、
前記マッチングされたフィルタの出力内の前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器と、を備える請求項19に記載のデバイス。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出する拡張サポートイベント検出器を含み、前記拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、前記拡張サポートイベント検出器は、
拡張サポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する多解像度解析器と、
前記多解像度解析器の出力内の前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器と、を備える請求項19に記載のデバイス。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出するグローバルな動き検出器を含み、前記グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記グローバルな動き検出器は、
グローバルな動きの映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタと、
前記最大値位置フィルタの出力内の前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールと、を備える請求項19に記載のデバイス。 - フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関して前記ピクチャタイプ決定モジュールによって決定された前記ピクチャタイプの精度を評価する評価モジュールをさらに備える請求項17に記載のデバイス。
- 前記映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割するGOP分割器と、
前記GOP構造内において、解析ウィンドウの中心に候補フレームが位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置する解析ウィンドウ配置モジュールと、をさらに備え、
前記相関器は、前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算し、及び前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算し、
前記ピクチャタイプ決定モジュールは、前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定する請求項17に記載のデバイス。 - 前記相関器は、前記映像シーケンスに含まれるフレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行って前記1次相互相関を生成し、及び1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行って前記2次相互相関を生成する請求項17に記載のデバイス。
- 前記相関器は、前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算する請求項17に記載のデバイス。
- 前記相関器は、
前記映像シーケンスに含まれるフレームの対内の部分画像の組内の部分画像にパディングして共通の画像サイズにし、
部分画像の前記組間における1次部分画像相互相関を計算し、及び
フレームの前記対の各々に関して前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めて前記1次相互相関を生成する請求項17に記載のデバイス。 - 前記ピクチャタイプ決定モジュールは、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割し、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定する請求項27に記載のデバイス。 - 前記ピクチャタイプ決定モジュールは、リアルタイムで決定されたピクチャタイプと比較してリアルタイムで決定された前記ピクチャタイプの精度を決定するために前記映像シーケンスに含まれる前記フレームの各々に関するベンチマークピクチャタイプを決定する請求項17に記載のデバイス。
- 前記ピクチャタイプ決定モジュールは、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定する請求項17に記載のデバイス。
- 前記ピクチャタイプ決定モジュールがリアルタイムでの前記ピクチャタイプの決定を行うことを可能にするための複雑さ低減を行う複雑さ低減モジュールをさらに備える請求項30に記載のデバイス。
- 前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化する符号器をさらに備える請求項17に記載のデバイス。
- コンピュータプログラム製品であって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算すること、
前記1次相互相関の対間における2次相互相関を計算すること、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定することをコンピュータに行わせるための命令を備えるコンピュータによって読み取り可能な媒体を備える、コンピュータプログラム製品。 - 前記命令は、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記命令は、
映像効果フィンガープリントとして識別された前記1次相互相関の出力に含まれる特徴に基づいて前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出すること、及び
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出することを前記コンピュータに行わせ、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変化の映像効果と、フラッシュフレームの映像効果と、を含み、1つ以上のコンパクトサポート映像遷移効果を検出することを前記コンピュータに行わせる前記命令は、
前記1次相互相関の出力を、コンパクトサポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタに加えること、及び
前記マッチングされたフィルタの出力を、前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器に加えることを前記コンピュータに行わせる請求項35に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出することを前記コンピュータに行わせ、前記拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、前記1つ以上の拡張サポート映像遷移効果を検出することを前記コンピュータに行わせる前記命令は、
前記1次相互相関の出力を、拡張サポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する多解像度解析器に加えること、及び
前記多解像度解析器の出力を、前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器に加えることを前記コンピュータに行わせる請求項35に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出することを前記コンピュータに行わせ、前記グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記1つ以上のグローバルな動きの映像遷移効果を検出することを前記コンピュータに行わせる命令は、
前記1次相互相関の出力を、グローバルな動きの映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタに加えること、及び
前記最大値位置フィルタの出力を、前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールに加えることを前記コンピュータに行わせる請求項35に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関する前記決定されたピクチャタイプの精度を評価することを前記コンピュータに行わせる命令をさらに備える請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割すること、
前記GOP構造内において、候補フレームが解析ウィンドウの中心に位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置すること、
前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算すること、
前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算すること、及び
前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定することを前記コンピュータに行わせる命令をさらに備える請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、
前記映像シーケンスに含まれるフレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行って前記1次相互相関を生成すること、及び
1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行って前記2次相互相関を生成することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記命令は、
前記映像シーケンスに含まれるフレームの対内の部分画像の前記組内の部分画像にパディングして共通の画像サイズにすること、
部分画像の前記組間における1次部分画像相互相関を計算すること、及び
フレームの前記対の各々に関する前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めて前記1次相互相関を生成することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割すること、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定することを前記コンピュータに行わせる請求項43に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。 - 前記命令は、前記映像シーケンスに含まれる前記フレームの各々に関するベンチマークピクチャタイプを決定すること、及びリアルタイムで決定されたピクチャタイプを前記ベンチマークピクチャタイプと比較してリアルタイムで決定された前記ピクチャタイプの精度を決定することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記命令は、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定することを前記コンピュータに行わせる請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記命令は、リアルタイムでの前記ピクチャタイプの決定を可能にするための複雑さ低減を前記コンピュータに行わせる請求項46に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- 前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化することを前記コンピュータに行わせる命令をさらに備える請求項33に記載のコンピュータによって読み取り可能な媒体を備えるコンピュータプログラム製品。
- デバイスであって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関及び前記1次相互相関の対間における2次相互相関を計算するための手段と、
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するための手段と、を備える、デバイス。 - ピクチャタイプを決定するための前記手段は、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定する請求項49に記載のデバイス。
- 映像効果フィンガープリントとして識別された前記1次相互相関の出力に含まれる特徴に基づいて前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出するための手段と、
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定するための手段と、さらに備える請求項49に記載のデバイス。 - 映像遷移効果を検出するための前記手段は、前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出するための手段を含み、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変換の映像効果と、フラッシュフレームの映像効果と、を含み、1つ以上のコンパクトサポート映像遷移効果を検出するための前記手段は、
コンパクトサポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタと、
前記マッチングされたフィルタの出力内の前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器と、を備える請求項51に記載のデバイス。 - 映像遷移効果を検出するための前記手段は、前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出するための手段を含み、拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、1つ以上の拡張サポート映像遷移効果を検出するための前記手段は、
拡張サポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する多解像度解析器と、
前記多解像度解析器の出力内の前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器と、を備える請求項51に記載のデバイス。 - 映像遷移効果を検出するための前記手段は、前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出するための手段を含み、グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記1つ以上のグローバルな動きの映像遷移効果を検出するための前記手段は、
グローバルな動きの映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタと、
前記最大値位置フィルタの出力内の前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールと、を備える請求項51に記載のデバイス。 - フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関する前記決定されたピクチャタイプの精度を評価するための手段をさらに備える請求項49に記載のデバイス。
- 前記映像シーケンスを複数のフレームを含むGOP構造に分割するための手段と、
前記GOP構造内において、候補フレームが解析ウィンドウの中心に位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置するための手段をさらに備え、
計算するための前記手段は、前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算し及び前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算し、
ピクチャタイプを決定するための前記手段は、前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定する請求項49に記載のデバイス。 - 計算するための前記手段は、前記映像シーケンスに含まれるフレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行って前記1次相互相関を生成し、及び1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行って前記2次相互相関を生成する請求項49に記載のデバイス。
- 計算するための前記手段は、
前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算する請求項49に記載のデバイス。 - 計算するための前記手段は、
前記映像シーケンスに含まれるフレームの対内の部分画像の組内の部分画像にパディングして共通の画像サイズにし、
部分画像の前記組間における1次部分画像相互相関を計算し、及び
フレームの前記対の各々に関して前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めて前記1次相互相関を生成する請求項49に記載のデバイス。 - ピクチャタイプを決定するための前記手段は、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割し、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定する請求項59に記載のデバイス。 - ピクチャタイプを決定するための前記手段は、リアルタイムで決定されたピクチャタイプと比較してリアルタイムで決定された前記ピクチャタイプの精度を決定するために前記映像シーケンスに含まれる前記フレームの各々に関するベンチマークピクチャタイプを決定する請求項49に記載のデバイス。
- ピクチャタイプを決定するための前記手段は、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定する請求項49に記載のデバイス。
- 前記ピクチャタイプ決定モジュールがリアルタイムでの前記ピクチャタイプの決定を行うことを可能にするための複雑さ低減を行うための手段をさらに備える請求項62に記載のデバイス。
- 前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化するための手段をさらに備える請求項49に記載のデバイス。
- 無線通信デバイスハンドセットであって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、及び前記1次相互相関の対間における2次相互相関を計算する相関器と、
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するピクチャタイプ決定モジュールと、を備える、無線通信デバイスハンドセット。 - 前記ピクチャタイプ決定モジュールは、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定する請求項65に記載のハンドセット。
- 映像効果フィンガープリントとして識別された前記1次相互相関の出力に含まれる特徴に基づいて前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出する映像遷移効果検出器と、
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定する比較解析器と、さらに備える請求項65に記載のハンドセット。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出するコンパクトサポートイベント検出器を含み、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変化の映像効果と、フラッシュフレームの映像効果と、を含み、前記コンパクトサポートイベント検出器は、
コンパクトサポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタと、
前記マッチングされたフィルタの出力内の前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器と、を備える請求項67に記載のハンドセット。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出する拡張サポートイベント検出器を含み、前記拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、前記拡張サポートイベント検出器は、
拡張サポート映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出する多解像度解析器と、
前記多解像度解析器の出力内の前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器と、を備える請求項67に記載のハンドセット。 - 前記映像遷移効果検出器は、
前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出するグローバルな動き検出器を含み、前記グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記グローバルな動き検出器は、
グローバルな動きの映像効果フィンガープリントに実質的に類似する前記1次相互相関の出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタと、
前記最大値位置フィルタの出力内の前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールと、を備える請求項67に記載のハンドセット。 - フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関して前記ピクチャタイプ決定モジュールによって決定された前記ピクチャタイプの精度を評価する評価モジュールをさらに備える請求項65に記載のハンドセット。
- 前記映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割するGOP分割器と、
前記GOP構造内において候補フレームが解析ウィンドウの中心に位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置する解析ウィンドウ配置モジュールと、をさらに備え、
前記相関器は、前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算し及び前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算し、
前記ピクチャタイプ決定モジュールは、前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定する請求項65に記載のハンドセット。 - 前記相関器は、前記映像シーケンスに含まれるフレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行って前記1次相互相関を生成し、及び1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行って前記2次相互相関を生成する請求項65に記載のハンドセット。
- 前記相関器は、前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算する請求項65に記載のハンドセット。
- 前記相関器は、
前記映像シーケンスに含まれるフレームの対内の部分画像の組内の部分画像にパディングして共通の画像サイズにし、
部分画像の前記組間における1次部分画像相互相関を計算し、及び
フレームの前記対の各々に関して前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めて前記1次相互相関を生成する請求項65に記載のハンドセット。 - 前記ピクチャタイプ決定モジュールは、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割し、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定する請求項75に記載のハンドセット。 - 前記ピクチャタイプ決定モジュールは、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定する請求項65に記載のハンドセット。
- 前記ピクチャタイプ決定モジュールがリアルタイムでの前記ピクチャタイプの決定を行うことを可能にするための複雑さ低減を行う複雑さ低減モジュールをさらに備える請求項77に記載のハンドセット。
- 前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化する符号器をさらに備える請求項65に記載のハンドセット。
- デジタル画像データを処理するための集積回路デバイスであって、
映像シーケンスに含まれるフレームの対内の画像情報間における1次相互相関を計算し、
前記1次相互相関の対間における2次相互相関を計算し、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々に関するピクチャタイプを決定するように構成される1つ以上のプロセッサを備える、デジタル画像データを処理するための集積回路デバイス。 - 前記少なくとも1つのプロセッサは、前記映像シーケンスに含まれる前記フレームの各々はイントラピクチャ、予測ピクチャ、又は双方向予測ピクチャのいずれのピクチャとして符号化すべきかを決定するように構成される請求項80に記載の集積回路デバイス。
- 前記少なくとも1つのプロセッサは、
映像効果フィンガープリントとして識別された前記1次相互相関の出力に含まれる特徴に基づいて前記映像シーケンスに含まれる前記フレーム間における映像遷移効果を検出し、及び
前記1次相互相関及び前記2次相互相関の比較解析に基づいて前記映像シーケンスに含まれる前記フレーム間における時間的類似性を決定するように構成される請求項80に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、前記1次相互相関に基づいて1つ以上のコンパクトサポート映像遷移効果を検出するように構成され、前記コンパクトサポート映像遷移効果は、カットシーンの変化の映像効果と、部分的なシーンの変化の映像効果と、フラッシュフレームの映像効果と、を含み、前記少なくとも1つのプロセッサは、
前記1次相互相関の出力を、コンパクトサポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する前記コンパクトサポート映像遷移効果にマッチングされたフィルタに加え、及び
前記マッチングされたフィルタの出力を、前記検出された特徴のうちのいずれがコンパクトサポート映像効果フィンガープリントであるかを識別するスレショルド比較器に加えるように構成される請求項82に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、前記1次相互相関に基づいて1つ以上の拡張サポート映像遷移効果を検出するように構成され、前記拡張サポート映像遷移効果は、クロスフェード映像効果と、フェードイン映像効果と、フェードアウト映像効果と、ズームイン映像効果と、ズームアウト映像効果と、を含み、前記少なくとも1つのプロセッサは、
前記1次相互相関の出力を、拡張サポート映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出する多解像度解析器に加え、及び
前記多解像度解析器の出力を、前記検出された特徴のうちのいずれが拡張サポート映像効果フィンガープリントであるかを識別する構造化有意ピーク解析器に加えるように構成される請求項82に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、前記1次相互相関に基づいて1つ以上のグローバルな動きの映像遷移効果を検出するように構成され、前記グローバルな動きの映像遷移効果は、カメラのパンの映像効果と、カメラのスクロールの映像効果と、を含み、前記少なくとも1つのプロセッサは、
前記1次相互相関の出力を、グローバルな動きの映像効果フィンガープリントに実質的に類似する前記出力内の複数の特徴を検出し及び前記特徴の各々に関する水平変位及び垂直変位の推定値を決定する最大値位置フィルタに加え、及び
前記最大値位置フィルタの出力を、前記検出された特徴の各々に関する前記水平変位及び垂直変位の推定値を平滑化し及び前記検出された特徴のうちのいずれがグローバルな動きの映像効果フィンガープリントであるかを識別する多チャネル統合モジュールに加えるように構成される請求項82に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、フレーム内容、レート−歪み向上特性、及び符号化帯域幅レジーム特性への依存性に基づいて前記映像シーケンスに含まれる前記フレームの各々に関する前記決定されたピクチャタイプの精度を評価するように構成される請求項80に記載の集積回路デバイス。
- 前記少なくとも1つのプロセッサは、
前記映像シーケンスを複数のフレームを含むグループオブピクチャ(GOP)構造に分割し、
前記GOP構造内において、候補フレームが解析ウィンドウの中心に位置し及び予め決められた数の隣接フレームを含むようにして前記解析ウィンドウを配置し、
前記解析ウィンドウに含まれるフレームの画像情報間における1次相互相関を計算し、
前記解析ウィンドウに含まれる前記1次相互相関の対間における2次相互相関を計算し、及び
前記1次相互相関及び2次相互相関に基づいて前記候補フレームに関するピクチャタイプを決定するように構成される請求項80に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、
前記映像シーケンスに含まれる前記フレームの対内の画像情報間における2次元高速フーリエ変換に基づく計算を行って前記1次相互相関を生成し、及び
1次相互相関の対間における2次元高速フーリエ変換に基づく計算を行って前記2次相互相関を生成するように構成される請求項80に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、
前記映像シーケンスに含まれるフレームの対内のフルフレーム画像間における1次相互相関を計算するように構成される請求項80に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、
前記映像シーケンスに含まれるフレームの対内における部分画像の前記組内の部分画像にパディングして共通の画像サイズにし、
部分画像の前記組間における1次部分画像相互相関を計算し、及び
フレームの前記対の各々に関して前記部分画像の少なくとも一部における前記部分画像相互相関の平均を求めて前記1次相互相関を生成するように構成される請求項80に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、
前記映像シーケンスに含まれる前記フレームの各々を複数のスライスに分割し、及び
前記1次相互相関及び2次相互相関に基づいて前記映像シーケンスに含まれる前記フレームの各々のフレームの前記個々のスライスに関するピクチャタイプを決定するように構成される請求項90に記載の集積回路デバイス。 - 前記少なくとも1つのプロセッサは、前記映像シーケンスに含まれる前記フレームの各々に関するベンチマークピクチャタイプを決定し、及びリアルタイムで決定されたピクチャタイプを前記ベンチマークピクチャタイプと比較してリアルタイムで決定された前記ピクチャタイプの精度を決定するように構成される請求項80に記載の集積回路デバイス。
- 前記少なくとも1つのプロセッサは、前記映像シーケンスに含まれる前記フレームの各々に関してリアルタイムでピクチャタイプを決定するように構成される請求項80に記載の集積回路デバイス。
- 前記少なくとも1つのプロセッサは、リアルタイムでの前記ピクチャタイプの決定を可能にするための複雑さ低減を行うように構成される請求項93に記載の集積回路デバイス。
- 前記少なくとも1つのプロセッサは、前記映像シーケンスに含まれる前記フレームの各々に関して決定された前記ピクチャタイプに基づいて前記フレームの各々を符号化するように構成される請求項80に記載の集積回路デバイス。
- システムであって、
映像データを複数のフレームを含むグローバルオブピクチャ(GOP)構造に分割するGOP分割器と、前記GOP構造に含まれる前記フレームに関するピクチャタイプをリアルタイムで決定する適応型グループオブピクチャ(AGOP)構造決定モジュールと、を含むコーディングデバイスと、
フレームの対内の画像情報間における1次相互相関及び1次相互相関の対間における2次相互相関に基づいて前記GOP構造に含まれる前記フレームに関するベンチマークピクチャタイプを決定する前記コーディングデバイスの外部に配置された相関に基づくAGOP構造決定モジュールと、
前記ピクチャタイプを前記ベンチマークピクチャタイプと比較して前記コーディングデバイスに組み入れられた前記AGOP構造決定モジュールの精度を決定するベンチマーク比較器と、を備える、システム。 - 前記コーディングデバイスは、トランスコーダ又は符号器のうちの1つを備える請求項96に記載のシステム。
- コーディングデバイスであって、
映像データを複数のフレームを含むグループオブピクチャ(GOP)構造に分割するGOP分割器と、
フレームの対内の画像情報間における1次相互相関及び1次相互相関の対間における2次相互相関に基づいて前記GOP構造に含まれる前記フレームに関するピクチャタイプをリアルタイムで決定する相関に基づく適応型グループオブピクチャ(AGOP)構造決定モジュールと、を備える、コーディングデバイス。 - 前記GOP構造に含まれる前記フレーム内の画像情報の解像度を低下させ及び前記相関に基づくAGOP構造決定モジュールによって計算される1次相互相関の数を制限する複雑さ低減モジュールをさらに備える請求項98に記載のコーディングデバイス。
- 前記デバイスは、トランスコーダ又は符号器のうちの1つを備える請求項98に記載のコーディングデバイス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/957,582 US9628811B2 (en) | 2007-12-17 | 2007-12-17 | Adaptive group of pictures (AGOP) structure determination |
PCT/US2008/087256 WO2009079595A1 (en) | 2007-12-17 | 2008-12-17 | Adaptive group of pictures (agop) structure determination |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011507461A true JP2011507461A (ja) | 2011-03-03 |
Family
ID=40568323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010539756A Pending JP2011507461A (ja) | 2007-12-17 | 2008-12-17 | 適応型グループオブピクチャ(agop)構造の決定 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9628811B2 (ja) |
EP (1) | EP2073554A3 (ja) |
JP (1) | JP2011507461A (ja) |
KR (1) | KR20100093131A (ja) |
CN (1) | CN101926174A (ja) |
TW (1) | TW200945899A (ja) |
WO (1) | WO2009079595A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0701202D0 (en) * | 2007-01-22 | 2007-02-28 | Wanzke Detlev | Data analysis |
CN101755455A (zh) * | 2007-07-30 | 2010-06-23 | 日本电气株式会社 | 通信终端、分配系统、变换方法以及程序 |
US8212720B2 (en) * | 2008-09-24 | 2012-07-03 | Texas Instruments Incorporated | Detecting lack of movement to aid GNSS receivers |
US8625863B2 (en) * | 2009-06-02 | 2014-01-07 | Sofast Gmbh | Superresolution optical fluctuation imaging (SOFI) |
US9363534B2 (en) | 2009-10-29 | 2016-06-07 | Vestel Elektronik Sanayi Ve Ticaret A.S. | Method and device for processing a video sequence |
US9426477B2 (en) * | 2010-02-25 | 2016-08-23 | International Business Machines Corporation | Method and apparatus for encoding surveillance video |
US8928809B2 (en) * | 2010-09-15 | 2015-01-06 | Verizon Patent And Licensing Inc. | Synchronizing videos |
KR101181732B1 (ko) * | 2010-11-22 | 2012-09-19 | (주)엔써즈 | 동영상 핑거프린트 정보에 기반한 동영상 마크업 데이터 생성 방법 및 이를 이용한 정보 제공 방법 및 시스템 |
EP2458510B1 (en) * | 2010-11-29 | 2014-05-07 | NTT DoCoMo, Inc. | Method and apparatus for performing a cross-correlation |
CA2825929A1 (en) * | 2011-01-28 | 2012-08-02 | Eye IO, LLC | Adaptive bit rate control based on scenes |
US10165274B2 (en) * | 2011-01-28 | 2018-12-25 | Eye IO, LLC | Encoding of video stream based on scene type |
AU2012211249B2 (en) * | 2011-01-28 | 2016-10-20 | Eye IO, LLC | Encoding of video stream based on scene type |
US9159139B2 (en) * | 2011-07-14 | 2015-10-13 | Technische Universitat Berlin | Method and device for processing pixels contained in a video sequence |
WO2013048521A1 (en) * | 2011-10-01 | 2013-04-04 | Intel Corporation | Systems, methods and computer program products for integrated post-processing and pre-processing in video transcoding |
US9071842B2 (en) * | 2012-04-19 | 2015-06-30 | Vixs Systems Inc. | Detection of video feature based on variance metric |
US9460204B2 (en) * | 2012-10-19 | 2016-10-04 | Sony Corporation | Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis |
EP2876890A1 (en) * | 2013-11-21 | 2015-05-27 | Thomson Licensing | Method and apparatus for frame accurate synchronization of video streams |
US10178394B2 (en) * | 2016-06-10 | 2019-01-08 | Apple Inc. | Transcoding techniques for alternate displays |
CN109151469B (zh) * | 2017-06-15 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 视频编码方法、装置及设备 |
US10902825B2 (en) * | 2018-12-21 | 2021-01-26 | Arris Enterprises Llc | System and method for pre-filtering crawling overlay elements for display with reduced real-time processing demands |
US10970555B2 (en) * | 2019-08-27 | 2021-04-06 | At&T Intellectual Property I, L.P. | Data-driven event detection for compressed video |
US20210352341A1 (en) * | 2020-05-06 | 2021-11-11 | At&T Intellectual Property I, L.P. | Scene cut-based time alignment of video streams |
CN116055715B (zh) * | 2022-05-30 | 2023-10-20 | 荣耀终端有限公司 | 编解码器的调度方法及电子设备 |
US20240214582A1 (en) * | 2022-12-22 | 2024-06-27 | Google Llc | Co-optimization of hardware-based encoding and software-based encoding |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6771825B1 (en) * | 2000-03-06 | 2004-08-03 | Sarnoff Corporation | Coding video dissolves using predictive encoders |
JP2004288222A (ja) * | 2004-07-13 | 2004-10-14 | Nec Corp | 画像照合装置及びその画像照合方法並びにその制御プログラムを記録した記録媒体 |
WO2006003808A1 (ja) * | 2004-07-06 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | 符号化または復号化装置、および記録再生端末 |
WO2007047755A1 (en) * | 2005-10-17 | 2007-04-26 | Qualcomm Incorporated | Adaptive gop structure in video streaming |
WO2007072543A1 (ja) * | 2005-12-19 | 2007-06-28 | Monolith Co., Ltd. | 動画符号化方法 |
JP2007520762A (ja) * | 2003-07-08 | 2007-07-26 | キヤノン株式会社 | 画像位置合わせ方法の改良 |
JP2007208989A (ja) * | 2006-02-02 | 2007-08-16 | Samsung Electronics Co Ltd | イントラ予測モード決定方法及び装置 |
JP2007300455A (ja) * | 2006-05-01 | 2007-11-15 | Victor Co Of Japan Ltd | 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5508750A (en) * | 1995-02-03 | 1996-04-16 | Texas Instruments Incorporated | Encoding data converted from film format for progressive display |
JPH0974566A (ja) * | 1995-09-04 | 1997-03-18 | Sony Corp | 圧縮符号化装置及び圧縮符号化データの記録装置 |
JP3530902B2 (ja) * | 1995-10-30 | 2004-05-24 | ミノルタ株式会社 | 画像再生装置 |
JPH09130732A (ja) * | 1995-11-01 | 1997-05-16 | Matsushita Electric Ind Co Ltd | シーンチェンジ検出方法および動画像編集装置 |
US5767922A (en) * | 1996-04-05 | 1998-06-16 | Cornell Research Foundation, Inc. | Apparatus and process for detecting scene breaks in a sequence of video frames |
US6580829B1 (en) * | 1998-09-25 | 2003-06-17 | Sarnoff Corporation | Detecting and coding flash frames in video data |
US20040125877A1 (en) * | 2000-07-17 | 2004-07-01 | Shin-Fu Chang | Method and system for indexing and content-based adaptive streaming of digital video content |
US6959044B1 (en) * | 2001-08-21 | 2005-10-25 | Cisco Systems Canada Co. | Dynamic GOP system and method for digital video encoding |
TWI238650B (en) * | 2002-11-27 | 2005-08-21 | Nat Kaohsiung First University | A MPEG-II video encoder assembly |
EP1690232A2 (en) * | 2003-11-24 | 2006-08-16 | Koninklijke Philips Electronics N.V. | Detection of local visual space-time details in a video signal |
US7664175B1 (en) * | 2004-06-16 | 2010-02-16 | Koplar Interactive Systems International, L.L.C. | Mark-based content modulation and detection |
US7548259B2 (en) * | 2004-08-12 | 2009-06-16 | Microsoft Corporation | System and method for producing a higher resolution still image from video information |
US20060239347A1 (en) * | 2005-04-25 | 2006-10-26 | Ashish Koul | Method and system for scene change detection in a video encoder |
US9467659B2 (en) * | 2005-09-27 | 2016-10-11 | Qualcomm Incorporated | Method and apparatus for progressive channel switching |
JP4730183B2 (ja) * | 2006-04-17 | 2011-07-20 | 株式会社日立製作所 | 映像表示装置 |
US8208556B2 (en) * | 2007-06-26 | 2012-06-26 | Microsoft Corporation | Video coding using spatio-temporal texture synthesis |
US20090109341A1 (en) * | 2007-10-30 | 2009-04-30 | Qualcomm Incorporated | Detecting scene transitions in digital video sequences |
-
2007
- 2007-12-17 US US11/957,582 patent/US9628811B2/en active Active
-
2008
- 2008-03-31 EP EP08006312A patent/EP2073554A3/en not_active Withdrawn
- 2008-12-15 TW TW097148811A patent/TW200945899A/zh unknown
- 2008-12-17 WO PCT/US2008/087256 patent/WO2009079595A1/en active Application Filing
- 2008-12-17 JP JP2010539756A patent/JP2011507461A/ja active Pending
- 2008-12-17 CN CN2008801254756A patent/CN101926174A/zh active Pending
- 2008-12-17 KR KR1020107016072A patent/KR20100093131A/ko not_active Application Discontinuation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6771825B1 (en) * | 2000-03-06 | 2004-08-03 | Sarnoff Corporation | Coding video dissolves using predictive encoders |
JP2007520762A (ja) * | 2003-07-08 | 2007-07-26 | キヤノン株式会社 | 画像位置合わせ方法の改良 |
WO2006003808A1 (ja) * | 2004-07-06 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | 符号化または復号化装置、および記録再生端末 |
JP2004288222A (ja) * | 2004-07-13 | 2004-10-14 | Nec Corp | 画像照合装置及びその画像照合方法並びにその制御プログラムを記録した記録媒体 |
WO2007047755A1 (en) * | 2005-10-17 | 2007-04-26 | Qualcomm Incorporated | Adaptive gop structure in video streaming |
WO2007072543A1 (ja) * | 2005-12-19 | 2007-06-28 | Monolith Co., Ltd. | 動画符号化方法 |
JP2007208989A (ja) * | 2006-02-02 | 2007-08-16 | Samsung Electronics Co Ltd | イントラ予測モード決定方法及び装置 |
JP2007300455A (ja) * | 2006-05-01 | 2007-11-15 | Victor Co Of Japan Ltd | 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法 |
Also Published As
Publication number | Publication date |
---|---|
TW200945899A (en) | 2009-11-01 |
KR20100093131A (ko) | 2010-08-24 |
CN101926174A (zh) | 2010-12-22 |
EP2073554A3 (en) | 2009-08-19 |
EP2073554A2 (en) | 2009-06-24 |
WO2009079595A1 (en) | 2009-06-25 |
US20090154816A1 (en) | 2009-06-18 |
US9628811B2 (en) | 2017-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9628811B2 (en) | Adaptive group of pictures (AGOP) structure determination | |
KR101032587B1 (ko) | 적응형 비디오 프레임 보간법 | |
US9071841B2 (en) | Video transcoding with dynamically modifiable spatial resolution | |
RU2402885C2 (ru) | Классификация контента для обработки мультимедийных данных | |
US8724707B2 (en) | Video decoding using temporally constrained spatial dependency | |
CN101322413B (zh) | 视频流中的自适应图片组结构 | |
JP5508534B2 (ja) | シーン切替検出 | |
Psannis | HEVC in wireless environments | |
US8204127B2 (en) | Method and apparatus for encoding and decoding image by using multiple reference-based motion prediction | |
KR101502611B1 (ko) | 공유된 비디오 코딩 정보에 기반된 다수의 프로파일 및 표준들 그리고 다수의 시간적으로 스케일된 비디오를 갖는 실시간 비디오 코딩 시스템 | |
CA2883133C (en) | A video encoding method and a video encoding apparatus using the same | |
TW201105145A (en) | Adaptive picture type decision for video coding | |
US20150312575A1 (en) | Advanced video coding method, system, apparatus, and storage medium | |
KR20160007564A (ko) | 높은 프레임 레이트 및 가변 프레임 레이트 캡처를 위한 비디오 압축 튜닝 | |
JP4755093B2 (ja) | 画像符号化方法および画像符号化装置 | |
JP2008011117A (ja) | 画像符号化におけるインターレース符号化時の参照ピクチャ決定方法 | |
JP2011250400A (ja) | 動画像符号化装置及び動画像符号化方法 | |
JP2007228560A (ja) | 動画像符号化方法および動画像符号化装置 | |
KR20090046812A (ko) | 비디오 압축 방법 | |
Brandas et al. | Quality assessment and error concealment for svc transmission over unreliable channels | |
US10148954B2 (en) | Method and system for determining intra mode decision in H.264 video coding | |
KR20060132962A (ko) | 비디오 데이터를 위한 동작 판단 및 분할 | |
WO2016193949A1 (en) | Advanced video coding method, system, apparatus and storage medium | |
Kapotas et al. | Bit rate transcoding of H. 264 encoded movies by dropping frames in the compressed domain | |
CN118075475A (zh) | 一种视频编码、解码方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121211 |