CN102576411A - 场景改变检测 - Google Patents

场景改变检测 Download PDF

Info

Publication number
CN102576411A
CN102576411A CN2010800495165A CN201080049516A CN102576411A CN 102576411 A CN102576411 A CN 102576411A CN 2010800495165 A CN2010800495165 A CN 2010800495165A CN 201080049516 A CN201080049516 A CN 201080049516A CN 102576411 A CN102576411 A CN 102576411A
Authority
CN
China
Prior art keywords
section
picture
scene change
window
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800495165A
Other languages
English (en)
Other versions
CN102576411B (zh
Inventor
H-J.李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN102576411A publication Critical patent/CN102576411A/zh
Application granted granted Critical
Publication of CN102576411B publication Critical patent/CN102576411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了在编码数字图片中的场景改变检测。为当前图片中的给定段计算统计量μM。在先前图片中的共同定位的段周围定义一个或多个段的窗口。在该窗口中的段上计算统计和E。计算统计和E与统计量μM之差。使用E和μM之差来确定该给定段是否是场景改变段。可从该场景改变段的数量确定当前图片是否是场景改变图片。可存储或传输指示该当前图片是否是场景改变图片的信息。

Description

场景改变检测
技术领域
本发明的实施例涉及数字地编码视频图像,以及更特别地涉及视频图像的编码中的场景改变检测。
有关申请的交叉引用
本申请要求编号12/553,069、标题为“场景改变检测”、2009年9月2日提交的美国申请的优先权的权益,其整体公开通过引用结合于此。
本申请涉及编号12/533,070、2009年9月2日提交并且标题为“用于视频编码的图片级速率控制”的共同转让、共同未决的美国专利申请(代理人案号SCEA08073US00),其整体内容通过引用结合于此。
本申请涉及编号12/533,073、2009年9月2日提交并且标题为“并行数字图片编码”的共同转让、共同未决的美国专利申请(代理人案号SCEA08077US00),其整体内容通过引用结合于此。
本申请涉及编号12/533,075、2009年9月2日提交并且标题为“利用阈值和提早终止以在视频编码器中实现快速运动估计”的共同转让、共同未决的美国专利申请(代理人案号SCEA08078US00),其整体内容通过引用结合于此。
背景技术
数字信号压缩被广泛地应用在许多多媒体应用和设备中。使用编码器/解码器(编解码器)的数字信号压缩允许了流媒体,诸如要在互联网上传输或在光盘上存储的音频或视频信号。已经出现了多个不同标准的数字视频压缩,包括H.261、H.263;DV;MPEG-1、MPEG-2、MPEG-4、VC1;以及AVC(H.264)。这些标准以及其它视频压缩技术寻求通过在图片中和在连续的图片间消除空间和时间冗余来有效地表示视频帧图片。通过使用这些压缩标准,视频内容可被携带在高度压缩的视频比特流中,并因此有效地存储在磁盘中或在网络上传输。
MPEG-4 AVC(高级视频编码),也称为H.264,是一种提供了比其前任显著更大的压缩的视频压缩标准。该H.264标准被期望提供达到更早的MPEG-2标准的压缩的2倍。该H.264标准还被期望提供感官质量上的改善。从而,越来越多的视频内容正在以AVC(H.264)编码流的形式被输送。两个竞争的DVD格式,HD-DVD格式和蓝光盘格式,支持的H.264/AVC High Profile解码,以作为强制播放器特征。在ISO/IEC MPEG&ITU-TVCEG(ISO/IEC JTC1/SC29/WG11和ITU-T SG16 Q.6)的联合视频小组(JVT),2005年1月18-21日在中国香港的第14次会议上,由Gray Sullivan、Thomas Wiegand 和Ajay Luthra所著的“Draft of Version 4 of H.264/AVC(ITU-T Recommendation H.264 and ISO/IEC 14496-10(MPEG-4 part 10)Advanced Video Coding)”中,AVC(H.264)编码被详细描述,其整体内容通过引用被结合于此以用于所有目的。
现代视频编码器/解码器(编解码器),诸如MPEG2、MPEG4和H.264一般将视频帧划分为称为内帧、预测帧和双向预测帧的三个基本类型,其通常分别被称为I帧、P帧和B帧。
I帧是除了自身而不参考任何图片来编码的图片。I帧被用于随机访问并且被用作用于解码其它P帧或B帧的参考。I帧可由编码器生成以创建随机访问点(以允许解码器在给定图片位置从头开始正确地解码)。I帧可在差分图像细节禁止生成有效P或B帧时被生成。由于I帧包含完整的图片,因此I帧通常需要比P帧或B帧更多的比特来编码。
为了被解码,P帧需要在先解码一些其它的一个或多个图片。P帧通常比I帧需要更少的用于编码的比特。P帧包含关于与解码顺序中的先前I帧有关的差异的编码信息。P帧通常参考图片组(GoP)中的在先的I帧。P帧可包含图像数据和运动向量位移两者,以及两者的组合。在一些标准编解码器(诸如MPEG-2)中,P帧在解码期间仅使用一个先前解码的图片作为参考,并且需要该图片在显示顺序中也在该P帧之前。在H.264中,P帧在解码期间可使用多个先前解码图片作为参考,并且可具有与用于其预测的一个或多个图片有关的任何的任意显示顺序关系。
为了被解码,B帧需要在先解码I帧或P帧两者之一。像P帧一样,B帧可包含图像数据和运动矢量位移两者,和/或两者的组合。B帧可包括一些预测模式,该预测模式通过对使用两个不同的先前解码的参考区域所获得的预测进行平均来形成运动区域(例如,帧的段,诸如宏块或更小范围)的预测。在一些编解码器(诸如MPEG-2)中,B帧从不被用作用于其它图片预测的参考。从而,可对这种B图片使用更低质量的编码(导致所使用的比特少于使用其它的方式),因为细节的损失将不会损害后继图片的预测质量。在其它编解码器中,诸如H.264,B帧可被用作或不被用作用于其它图片解码的参考(任凭编码器自行处理)。一些编解码器(诸如MPEG-2),在解码期间精确使用两个先前解码的图片作为参考,并且需要那些图片之一在显示顺序中在该B图片之前而另一个图片在该B图片之后。在其它编解码器中,诸如H.264,B帧可在解码期间使用一个、两个或多于两个的先前解码的图片作为参考,并且可具有与用于其预测的一个或多个图片有关的任何的任意显示顺序关系。B帧通常需要比I帧或P帧两者之一更少的用于编码的比特。
如在此所使用的,术语I帧、B帧和P帧可被应用到与I帧、B帧和P帧具有相似属性的任何流数据单元,例如,如相对于流视频的上下文在以上所描述的。
视频编码通常利用实际上在给定视频场景之内,该场景的视觉内容的特定元素倾向于保持相对静止。因此,通过按照该图片和用作参考的先前图片之间的差异来编码给定图片,可能减少对视频信号进行编码所需要的数据的压缩。然而,如果视频序列包含场景改变,则可能没有可用作参考的先前图片。由于场景的改变可对编码过程具有影响,因此编码程序能够检测场景改变是有用的。以前的场景改变检测算法已经基于了对视频帧内容的分析。
本发明的实施例出自于该上下文内。
附图说明
通过结合附图一起考虑随后的详细描述,本发明的技术可被容易的理解,其中:
图1A是说明了两个视频帧之间的场景改变的示意图。
图1B是说明了用于编码的视频图片的一种可能的划分的示意图。
图2A是说明根据本发明的实施例的场景改变检测算法的示例的流程图。
图2B-2C是说明了根据本发明的实施例的基于宏块的场景改变检测算法的框图。
图3A-3C示出了用于加权过滤窗口的三个不同的开窗形状。
图4A-4B示出了每个都由四个8×8块所组成的宏块。
图5A-5B示出了具有移动方向的宏块。
图6是说明了根据本发明的实施例的用于在视频图片中实现场景改变检测的装置的框图。
图7是说明了根据本发明的实施例的用于在视频图片中编码实现场景改变检测的装置的单元处理器实现的示例的框图。
图8是依照本发明的实施例的包含用于实现图片级速率控制的计算机可读指令的计算机可读介质的框图。
具体实施方式
尽管随后的详细描述包含出于说明目的的许多特定细节,但本领域任何普通技术人员将理解,对随后的细节的许多变形和变更在本发明的范围之内。由此,以下描述的本发明的示例性实施例在对要求保护的发明没有任何一般性损失,并且没有强加的限制的情况下被阐述。
介绍
可参照图1A来理解场景改变检测的问题的本质,图1A分别描绘了第一和第二视频帧101、102。帧101、102是视频序列中的连续帧。第一帧101示出了针对特定背景105从特定角度获得的两个特征103、104的视图。第二帧102示出了相同的两个特征103、104,并且在第一帧101和第二帧102之间,特征103、104的相对位置已经改变。此外,在第一帧101中,特征103之一是微笑,而在第二帧102中,该特征103是皱眉。
从内容观点(现有技术所采取的方法)来看,第一帧101和第二帧102之间的差异可解释为场景改变。然而,从编码观点来看,由于该场景的元素(即,该示例中的特征103、104和背景105)是基本上相同的,因此这不是场景改变。因此,第一帧101可被用作用于第二帧102的参考,只要它们之间的距离在基础的运动搜索范围之内。不幸的是,使用基于内容的场景改变检测的现有技术的视频编码方案将对此无法识别并将把第二帧102编码为独立帧(I帧)。这将在帧101、102的编码中引起低效率。
为克服这种问题,本发明的实施例可实现视频场景改变检测算法。在此提出的算法可在视频序列中有效地定位场景切换,使得随后的视频处理模块(例如,视频压缩器/编码器)能利用这种有用的信息。在视频编码应用领域中的典型应用是确定图片帧的类型。例如,具有场景剪切的图片帧将被标记为I图片帧,其中MPEG视频编码器能够独立地编码这种帧而不用参考过去的图片帧。
在此描述的场景改变检测算法可在多个方面与其它场景改变算法相区别。特别是,该提出的算法可与视频编码在概念上结合,而不必与视频编码在实现上结合。就是说,该算法不需要成为视频编码程序的一部分,即使许多现有的场景改变算法被嵌入在运动估计模块中。这种算法可以与视频编码引擎分离并且可被看作要被编码的视频序列的预处理的形式。
用该提出的算法,除了图片内容外,关于图片帧是否是场景改变的确定还基于编码效率。例如,图片帧示出了与其邻近帧不同的具有非常相似的大背景对象的小前景对象。从内容观点来看,该图片帧可能被标记为场景改变帧,然而,从编码效率观点来看,该图片帧的大部分(例如,背景对象)是冗余的并且与在先帧中的该部分相似。这种冗余信息可由基础运动估计/补偿模块所提取并去除。
提出的算法是基于宏块的方法,该方法与典型的基于MPEG的视频编码器中的编码粒度相匹配。提出的算法还利用了具有加权因子的窗口过滤以确定当前图片中的宏块与先前图片的共同定位和邻近宏块的差异的程度。通过基于窗口的加权过滤,可为最终的决定计算和收集统计的差异。
为了编码和解码,可按合适大小的单元分解视频图片。例如,如图1B中所示,单个图片110可被分解成一个或多个段。如在此使用的,术语“段”是指图片内一个或多个像素的组。段的范围可以从图片内的单个像素,直到整个图片。段的非限制的示例包括片段112、宏块114、子宏块116、块118和个别像素120。如在图1B中说明的,每个片段112包含一行或多行宏块114。在一行中的宏块的数量取决于宏块的大小和图片110的大小和分辨率。例如,如果每个宏块包含16乘16个像素,则每行中的宏块的数量可以通过将图片110的宽度(以像素为单位)除以16来确定。每个宏块114可被分解成多个子宏块116。每个子宏块可被分解成多个块118,以及每个块可包含多个像素120。作为示例且在不限制本发明的情况下,在普通视频编码方案中,每个16×16像素宏块114可被分解成四个8×8像素子宏块116。每个子宏块可被分解成四个块118,以及每个块可包含4像素乘4像素的排列,其包含16个像素120。
算法描述
在图2A中示出了场景改变检测算法200的示例。如以上所提到的,视频流中的每个图片可被分解为多个段。在本发明的实施例中,场景改变的确定是基于相对于先前图片对当前图片逐段分析的。出于示例而非限制的目的,该分析被描述为以逐宏块为基础来被完成。本领域技术人员将认识到,该算法可被推广到其它段大小。
如在202处所指示的,可为当前图片N中的每个宏块计算统计量μm,以特征化每个宏块。有用的统计量的示例包括该宏块的平均像素值(例如色度或亮度)或这样的值的方差。每个宏块的统计量μm的值可以以逐宏块为基础存储在存储器中。
如图2B-2C中所描绘的,当前视频图片N可被逐宏块地划分,与在先图片N-1相同的方式。算法200使用在先帧基于分析先前图片N-1和当前图片N中宏块的分析来判断当前帧N是否是场景改变帧。特别地,如以下所讨论的,可为在先帧N-1中的每个宏块计算统计量μm的值并将该值存储在计算机存储器中,以用于场景改变的确定。
如在204处所指示的,可在先前图片N-1中的共同定位的宏块周围定义窗口。作为示例而不作为限制,对于当前图片N中的宏块A,可在先前帧N-1中找到共同定位的宏块a,并且邻近宏块a的所有八个宏块(从b到i)也被定位以形成加权过滤窗口。如在此所使用的,如果宏块A和a在不同图片中但处于那些图片内的对应的位置,则宏块A和a可被称为是共同定位的。作为示例,宏块A可以是当前图片中的第k行宏块中的第j个宏块,而共同定位的宏块a可以是在先宏块N-1的第k行中的第j个宏块。注意的是,人们可选择不同的窗口形状,只要该形状对场景改变检测的目的有技术意义。例如,图3A-3C描绘了三种可能的替代的开窗形状,其可用于本发明的实施例中的过滤窗口。
如在206处所指示的,一旦在先前图片中的共同定位的宏块周围选择过滤窗口,可基于该窗口中的每个宏块的统计量值来计算统计和E。作为示例而不作为限制,该统计和E可以是在窗口上取得的统计量μm的加权和。在一些实施例中,为窗口中的每个宏块分配加权因子以捕获每个宏块与中心宏块(例如A和a)的相关程度。作为示例,如果宏块A和a在统计上显著相似,则窗口中的所有其它邻近宏块可被分配相等的加权因子。如果A和a在统计上不显著相似,则可得到关联的移动方向M。基于检测的移动方向M,位于沿移动方向M的窗口内的宏块相比于那些没有位于沿移动方向M的宏块可被分配更大的权重。有多种方式可得到移动方向。作为示例而不作为限制,如图4A-4B中所示,基于简单8×8像素块(一个宏块通常包括4个8×8块)的方向确定可被用于估计移动方向。如图5A-5B中所示,根据最大块差异可导致移动方向。
可以以任何合适的方式得到移动方向。作为示例而不作为限制,该移动方向可以与先前图片N-1中的宏块a与当前图片N中的宏块A之间的在统计上最不相同块之间的直线平行。
在图5A-5B中所描绘的示例中,位于沿移动方向M的宏块f、c和d相比于没有位于沿移动方向M的宏块g、b、i、e和h可被分配更多的权重。加权因子的和可被设置为常数值1以用于标准化,即:
其中Wm是给定宏块m的权重因子,m={a,b,c,d,e,f,g,h,i},并且0.0≤Wm≤1.0。
在分配加权因子之后,可计算总的加权和。例如,假设使用宏块的平均像素值(也可使用其它统计数据)并表示为μm,则总的加权和E可由以下给出:
Figure DEST_PATH_IMAGE004
如在208处所指示的,一旦已经计算出加权和E,则可计算宏块A的平均值μA与加权和E之差值。如果该差在预定义的阈值(TH)之上,则宏块A可被当作场景改变宏块,否则其是非场景改变宏块。注意的是,可基于图片的内容为每个图片更新阈值TH。
在已经作出关于当前图片N中的每个宏块是场景改变宏块还是非场景改变宏块的确定之后,可计算出当前图片N中的场景改变宏块的数量。然后可能基于场景改变宏块的数量来确定该图片帧是否具有场景改变。作为示例而不作为限制,该算法可以基于以下判断:场景改变宏块的数量是当前图片N中的宏块的大多数,还是大于该图片的预定义阈值。在图2A中所描绘的示例中,通过对场景改变宏块的计数进行增量来保持场景改变宏块的数量的流水记数(running tally)。例如,如果在210处确定了宏块为场景改变宏块,则该计数被增量,如在212处所指示的。在214处如果记数超出了阈值,则在216处该图片可被认为是场景改变图片,并且可避免另外的场景改变宏块计算。在210处如果发现宏块是非场景改变宏块,则在218处如果该宏块是最后的宏块,并且在214处该记数仍在阈值之下,则在220处可确定当前图片N为非场景改变图片。否则,为当前图片中的下一个宏块重复该过程。一旦已经为当前图片中的每个宏块重复了该过程,则可为后继图片N+1重复该过程。要注意的是,为当前图片N中的每个宏块计算的μM的值,可被存储以用于在计算图片N的统计和E中使用,该图片N是相对图片N+1的在先图片。
一旦作出了关于当前图片是否是场景改变图片的确定,例如,使用软件编码器来可编码当前图片。算法200可存储或传输指示了当前图片是否包含场景改变的信息。编码器可在编码当前图片时使用该信息。例如,如果该信息指示了当前图片是场景改变图片,则编码器可将当前图片编码为I帧。否则,编码器可将该图片编码为P帧或B帧。
以上描述的算法可被实现在合适的计算机装置上。图6说明了计算机装置600的示例的框图,该计算机装置600可被用于实现场景改变检测,用于如上所描述的图片编码。装置600一般可包括处理器模块601和存储器602。处理器模块601可包括一个或多个处理器核。作为使用多个处理器模块的处理系统的示例,是单元处理器(Cell processor),单元处理器的示例被详细描述在例如单元宽带引擎体系机构(Cell Broadband Engine Architecture)中,其可在https://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线获得,其通过引用结合于此。
存储器602可以是以集成电路的形式,例如,RAM、DRAM、ROM等等。该存储器也可以是由所有处理器模块601可访问的主存储器。在一些实施例中,处理器模块601可包括多个处理器核以及与每个核相关联的本地存储器。编码器程序603可以以可在处理器模块601上执行的处理器可读指令的形式存储在主存储器602中。该编码器程序603可被配置为将图片编码成压缩的信号数据和/或配置为解码压缩的信号数据。作为示例而非作为限制,可如在公开号为20090010338的共同转让共同未决的专利申请中所描述的来配置该编码器程序603,该专利申请的内容通过引用将其整体结合于此。如以上所讨论的,编码器程序603可被配置为接收关于给定的图片是否是场景改变图片的信息,并且部分地基于该当前图片是否是场景改变图片来将该图片编码为I帧、P帧或B帧。
场景改变检测程序604也可被存储在存储器602中。场景改变检测程序可包括指令,当由处理器模块601执行该指令时,例如,根据图2A的算法200,实现如以上所描述的场景改变检测。该编码器程序603和场景改变检测程序604可以以任何合适的处理器可读语言来编写,处理器可读语言例如是C、C++、JAVA、汇编、MATLAB、FORTRAN以及多个其它语言。
输入数据607可被存储在处理器602中。这种输入数据可包括流数据的缓冲部分,例如编码的视频图片或其部分。在执行编码器程序603和/或场景改变检测程序604期间,程序代码和/或数据607的部分可被加载到存储器602或用于由多个处理器核所并行处理的处理器核的本地存储设备中。作为示例而不作为限制,输入数据607可包括编码前或处于编码中间阶段的视频图片或视频图片的段。这些各种段可被存储在一个或多个缓冲器中。特别是,这些段可被存储在实现在存储器602中的输出图片缓冲器中。
装置600还可包括公知的支持功能610,诸如输入/输出(I/O)元件611、电源(P/S)612、时钟(CLK)613和高速缓存器614。装置600可以可选地包括大容量存储设备615,诸如磁盘驱动器、CD-ROM驱动器、录音带驱动器等等,以便存储程序和/或数据。装置600还可以可选地包括显示单元616和用户接口单元618以促进在装置600和用户之间的交互。显示单元616可以是以显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口618可包括键盘、鼠标、操纵杆、光笔或可连同图形用户接口(GUI)一起使用的其它设备。装置600还可包括网络接口620以使设备能够与网络上的其它设备通信,网络例如是因特网。这些组件可以在硬件、软件或固件或这些中的两个或更多个的一些组合中实现。
有多种附加方式来用装置600中的多个处理器进行流线并行处理。例如,可能“展开(unroll)”处理循环,例如在两个或更多个处理器核上复制代码并使每个处理器核实现该代码以处理不同的数据块来“展开”处理循环。这种实现可避免与设置循环相关联的等待时间。
能够在三个或更多个处理器上实现并行处理的处理器系统的尤其一个示例是单元处理器。存在可被分类为单元处理器的多种不同的处理器体系结构。作为示例且在不限制的情况下,图7说明了一种类型的单元处理器700。该单元处理器700包括主存储器702、单功率处理器元件(PPE)704以及8个协同处理器元件(SPE)706。可替代地,该单元处理器700可被配置具有任何数量的SPE。相对于图7,存储器702、PPE 704和多个SPE 706可互相通信,并且在环形元件互连总线710上与I/O设备通信。存储器702可包含输入数据703、编码器程序709以及场景改变检测程序711,该输入数据703具有和以上所描述的输入数据607一样的特征,该编码器程序709具有和以上所描述的编码器程序603一样的特征,该场景改变检测程序711具有和以上所描述的场景改变检测程序604一样的特征。例如,如上所述,至少一个SPE 706可在其本地存储设备(LS)中包括场景改变检测指令705和/或要被并行处理的缓冲数据的一部分。PPE可在其L1高速缓存器中包括编码指令707,该编码指令707具有和以上所描述的编码器程序603一样的特征。指令705和数据707也可被存储在存储器702中,用于在需要时由SPE和PPE访问。
作为示例,PPE 704可以是具有关联的高速缓存器的64位PowerPC处理器单元(PPC)。该PPE 704可包括可选的向量多媒体扩展单元。每个SPE 706包括协同处理器单元(SPU)和本地存储设备(LS)。在一些实现方式中,本地存储设备可具有例如用于代码和数据的大约256千字节的存储能力。该多个SPU是没有PPU复杂的计算单元,因为该多个SPU通常不执行任何系统管理功能。该多个SPU可具有单指令多数据(SIMD)能力,并且通常处理数据和发起任何需要的数据传输(服从由PPE所设置的访问属性)以便执行它们被分配的任务。该多个SPE允许系统700实现应用,该应用需要更高的计算单元密度并可有效地使用提供的指令集。由PPE 704所管理的系统中大量的SPU 706允许在广泛的应用上的成本效益处理。作为示例,单元处理器700可由被称为单元宽带引擎体系结构(CBEA)的体系结构所特征化。在遵从CBEA的体系结构中,可将多个Pep组合成PPE组,以及可将多个SPE组合成SPE组。出于示例的目的,单元处理器700被描绘为仅具有带有单个SPE和单个PPE的单个SPE组和单个PPE组。可替代地,单元处理器可包括功率处理器单元的多个组(PPE组)和协同处理器单元的多个组(SPE组)。遵从CBEA的处理器被详细描述在例如单元宽带引擎体系机构(Cell Broadband Engine Architecture)中,其可在https://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线获得,其通过引用结合于此。
本发明的实施例提供了用于并行场景改变检测和流数据编码的系统和方法,该流数据诸如是流视频。这样的实施例可被应用到大多数视频编码器,尤其是H.264/AVC解码器,以及更特别地,可应用到具有作为模块的视频解码器的产品。这种产品的示例包括但不限于视频游戏控制台、DVD播放器、软件(PC)视频解码器/播放器、视频开通(video on)手机等等。在替代的实施例中,这种系统和方法可被应用到除了视频外的流数据的解码。这样的实施例的示例包括用于解码流音频数据、图形渲染流、静止图片和XML文档的系统和方法。本发明的实施例可能对于记录视频游戏、流送游戏图像到便携式游戏设备、以及上载并与通过网络连接的多个游戏系统共享游戏结果的各种应用是所期望的。
如以上所记录的,本发明的实施例可通过修改现有视频编码标准来实现,以允许压缩和编码一系列视频图片中的给定图片之前进行场景改变检测。尽管以上已经根据编码视频图像中的场景改变检测来描述了多个示例,人们可替代地利用本发明的实施例来编码静止图片,例如,以JPEG的静止图片。
根据另一个实施例,如用于连同以上所描述的图像编码一起执行场景改变检测的指令可被存储在计算机可读存储介质中。作为示例而不作为限制,图8说明了计算机可读存储介质800的示例。该存储介质包含以可由计算机处理设备检索、翻译的格式存储的计算机可读指令。作为示例而不作为限制,该计算机可读存储介质800可以是计算机可读存储器,诸如,随机存取存储器(RAM)或只读存储器(ROM)、用于固定的磁盘驱动器(例如,硬盘驱动器)的计算机可读存储磁盘、或可移除磁盘驱动器。另外,该计算机可读存储介质800可以是闪存设备、计算机可读磁带、CD-ROM、DVD-ROM、蓝光盘、HD-DVD、UMD或其它光学存储介质。
该存储介质800包含配置为在处理器执行时实现场景改变检测的场景改变检测指令801。该场景改变检测指令801可包括一个或多个统计计算指令802,该统计计算指令802实现了为当前图片中的每个宏块来计算统计量μm。另外,该场景改变检测指令可包括一个或多个窗口定义指令803,该窗口定义指令803被配置为在先前图像中的共同定位的宏块周围定义窗口。此外,场景改变检测指令801可包括一个或多个统计求和指令804,该统计求和指令804在窗口中的宏块之上计算统计和E。另外,该场景改变检测指令801可包括一个或多个差计算指令805,该差计算指令805被配置成为当前图片中的给定宏块计算E和μm之差。该场景改变检测指令801还可包括场景改变宏块确定指令806,该场景改变宏块确定指令806使用E和μm之差来确定该给定宏块是否是场景改变宏块。该场景改变检测指令801还可包括场景改变宏块计数指令807,该场景改变宏块计算指令807使用当前图片的场景改变宏块的数量来确定该当前图片是否是场景改变图片。
存储介质800可以可选地包括一个或多个图片编码指令810,该图片编码指令810被配置为部分地基于当前图片是否被确定为场景改变图片来将当前图片编码为I帧、IDR帧、P帧或B帧。
虽然以上是本发明的优选实施例的完整描述,但使用各种替代、修改和等同方式是可能的。因此,本发明的范围不应当参照以上描述来被确定,而应当改为参照附加的权利要求连同它们的等同方式的全部范围一起来确定。在此描述的无论是否优选的任何特征,都可与在此描述的无论是否优选的任何其它特征相组合。在随后的权利要求中,除了以其它方式明确阐明的地方,不定冠词“A”或“An”指的是在该冠词之后的一个或多个项中的一些。附加的权利要求不被解释为包括“装置加功能”的限定,除非这种限定在给定的权利要求中使用短语“用于……的装置”来明确叙述。

Claims (20)

1. 一种用于在编码一个或多个数字图片中检测场景改变的方法,包括:
a)为当前图片中的给定段计算统计量μM
b)在先前图片中的共同定位的段周围定义一个或多个段的窗口;
c)在该窗口中的段上计算统计和E;
d)为该给定段计算统计和E与统计量μM之差;
e)使用E和μM之差来确定该给定段是否是场景改变段;
f)为当前图片确定场景改变段的数量;
g)从该场景改变段的数量确定当前图片是否是场景改变图片;以及
h)存储或传输指示该当前图片是否是场景改变图片的信息。
2. 权利要求1的方法,进一步包括:
i)根据指示该当前图片是否是场景改变图片的信息来用编码器编码该当前图片。
3. 权利要求2的方法,其中,i)包括:如果该信息指示该当前图片是场景改变图片,则将该当前图片编码为I帧,或者如果该信息指示该当前图片不是场景改变图片,则将该当前图片编码为B帧或P帧。
4. 权利要求1的方法,进一步包括,针对该当前图片中的多个段重复a)到e)。
5. 权利要求1的方法,其中每个段是宏块。
6. 权利要求1的方法,其中a)包括为当前图片中的每个段计算平均像素值或像素值的方差。
7. 权利要求1的方法,其中该窗口包括邻近该共同定位的段的一个或多个段。
8. 权利要求1的方法,其中c)包括为该窗口中的每个段确定权重Wm,以及为该窗口中的每个段确定统计值μm,以及其中统计和E由                                               
Figure DEST_PATH_IMAGE002
所加权给出,其中该和在该窗口中的所有段上获得。
9. 权利要求8的方法,其中为该窗口中的每个段确定该权重Wm包括确定移动方向,以及根据该窗口中的对应段与该移动方向的接近程度来分配每个权重Wm
10. 权利要求1的方法,其中e)包括将E和μM之差与阈值相比较。
11. 权利要求1的方法,其中g)包括将场景改变段的数量与阈值相比较。
12. 权利要求1的方法,其中g)包括确定场景改变段的数量是否是该当前图片中的段的大多数。
13. 一种用于在编码一个或多个数字图片中检测场景改变的系统,包括:
处理器;
存储器,耦合到该处理器;
指令,体现在该存储器中并且可由该处理器执行,其中该指令被配置为实现用于在编码一个或多个数字图片中检测场景改变的方法,该方法包括:
a)为当前图片中的给定段计算统计量μM
b)在先前图片中的共同定位的段周围定义一个或多个段的窗口;
c)在该窗口中的段上计算统计和E;
d)为该给定段计算统计和E与统计量μM之差;
e)使用E和μM之差来确定该给定段是否是场景改变段;
f)为当前图片确定场景改变段的数量;
g)从该场景改变段的数量确定当前图片是否是场景改变图片;以及
h)存储或传输指示该当前图片是否是场景改变图片的信息。
14. 权利要求14的系统,进一步包括编码器,该编码器被配置为根据指示该当前图片是否是场景改变图片的信息来编码该当前图片。
15. 权利要求14的系统,其中该指令被进一步配置为针对该当前图片中的多个段重复a)到e)。
16. 权利要求14的系统,其中c)包括为该窗口中的每个段确定权重Wm,以及为该窗口中的每个段确定统计值μm,以及其中统计和E由
Figure 673199DEST_PATH_IMAGE002
加权给出,其中该和在该窗口中的所有段上获得。
17. 权利要求16的系统,其中为该窗口中的每个段确定该权重Wm包括确定移动方向,并根据该窗口中的对应段与该移动方向的接近程度来分配每个权重Wm
18. 权利要求14的系统,其中该编码器被配置为:如果该信息指示该当前图片是场景改变图片,则将该当前图片编码为I帧,或者如果该信息指示该当前图片不是场景改变图片,则将该当前图片编码为B帧或P帧。
19. 一种计算机可读存储介质,具有体现在其中的计算机程序指令,其中该计算机程序指令被配置为,当被执行时,实现用于在编码一个或多个数字图片中检测场景改变的方法,该方法包括:
a)为当前图片中的给定段计算统计量μM
b)在先前图片中的共同定位的段周围定义一个或多个段的窗口;
c)在该窗口中的段上计算统计和E;
d)为该给定段计算统计和E与统计量μM之差;
e)使用E和μM之差来确定该给定段是否是场景改变段;
f)为当前图片确定场景改变段的数量;
g)从该场景改变段的数量确定当前图片是否是场景改变图片;以及
h)存储或传输指示该当前图片是否是场景改变图片的信息。
20. 权利要求19的计算机可读存储介质,其中该计算机程序指令被进一步配置为根据指示该当前图片是否是场景改变图片的信息来编码该当前图片。
CN201080049516.5A 2009-09-02 2010-08-30 场景改变检测 Active CN102576411B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/553,069 US8345750B2 (en) 2009-09-02 2009-09-02 Scene change detection
US12/553069 2009-09-02
US12/553,069 2009-09-02
PCT/US2010/047178 WO2011028666A1 (en) 2009-09-02 2010-08-30 Scene change detection

Publications (2)

Publication Number Publication Date
CN102576411A true CN102576411A (zh) 2012-07-11
CN102576411B CN102576411B (zh) 2015-01-07

Family

ID=43624860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080049516.5A Active CN102576411B (zh) 2009-09-02 2010-08-30 场景改变检测

Country Status (5)

Country Link
US (1) US8345750B2 (zh)
EP (1) EP2473949B1 (zh)
JP (1) JP5508534B2 (zh)
CN (1) CN102576411B (zh)
WO (1) WO2011028666A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104685873A (zh) * 2012-10-05 2015-06-03 索尼公司 编码控制设备以及编码控制方法
WO2016049834A1 (en) * 2014-09-30 2016-04-07 Microsoft Technology Licensing, Llc Hash-based encoder decisions for video coding
US10264290B2 (en) 2013-10-25 2019-04-16 Microsoft Technology Licensing, Llc Hash-based block matching in video and image coding
US10368092B2 (en) 2014-03-04 2019-07-30 Microsoft Technology Licensing, Llc Encoder-side decisions for block flipping and skip mode in intra block copy prediction
US10390039B2 (en) 2016-08-31 2019-08-20 Microsoft Technology Licensing, Llc Motion estimation for screen remoting scenarios
US10567754B2 (en) 2014-03-04 2020-02-18 Microsoft Technology Licensing, Llc Hash table construction and availability checking for hash-based block matching
US10681372B2 (en) 2014-06-23 2020-06-09 Microsoft Technology Licensing, Llc Encoder decisions based on results of hash-based block matching
US11076171B2 (en) 2013-10-25 2021-07-27 Microsoft Technology Licensing, Llc Representing blocks with hash values in video and image coding and decoding
US11095877B2 (en) 2016-11-30 2021-08-17 Microsoft Technology Licensing, Llc Local hash-based motion estimation for screen remoting scenarios
US11202085B1 (en) 2020-06-12 2021-12-14 Microsoft Technology Licensing, Llc Low-cost hash table construction and hash-based block matching for variable-size blocks

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379718B2 (en) * 2009-09-02 2013-02-19 Sony Computer Entertainment Inc. Parallel digital picture encoding
US8848799B2 (en) * 2009-09-02 2014-09-30 Sony Computer Entertainment Inc. Utilizing thresholds and early termination to achieve fast motion estimation in a video encoder
US8711933B2 (en) 2010-08-09 2014-04-29 Sony Computer Entertainment Inc. Random access point (RAP) formation using intra refreshing technique in video coding
JP2013115583A (ja) * 2011-11-28 2013-06-10 Canon Inc 動画像符号化装置及びその制御方法並びにプログラム
US9565440B2 (en) 2013-06-25 2017-02-07 Vixs Systems Inc. Quantization parameter adjustment based on sum of variance and estimated picture encoding cost
US9426475B2 (en) * 2013-06-25 2016-08-23 VIXS Sytems Inc. Scene change detection using sum of variance and estimated picture encoding cost
US9386317B2 (en) 2014-09-22 2016-07-05 Sony Interactive Entertainment Inc. Adaptive picture section encoding mode decision control
US10419760B2 (en) 2014-09-29 2019-09-17 Sony Interactive Entertainment Inc. Picture quality oriented rate control for low-latency streaming applications
US10200716B2 (en) 2015-06-25 2019-02-05 Sony Interactive Entertainment Inc. Parallel intra-prediction encoding/decoding process utilizing PIPCM and/or PIDC for selected sections
US10353758B2 (en) * 2016-03-18 2019-07-16 Samsung Electronics Co., Ltd. Data coding methods for a communication between semiconductor chips
US10178390B2 (en) 2016-03-30 2019-01-08 Sony Interactive Entertainment Inc. Advanced picture quality oriented rate control for low-latency streaming applications
US11212536B2 (en) 2017-07-14 2021-12-28 Sony Interactive Entertainment Inc. Negative region-of-interest video coding
US11093788B2 (en) * 2018-02-08 2021-08-17 Intel Corporation Scene change detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1572117A (zh) * 2001-10-19 2005-01-26 皇家飞利浦电子股份有限公司 对视频重叠区域进行跳跃解码的方法和系统
US7313183B2 (en) * 2003-06-24 2007-12-25 Lsi Corporation Real time scene change detection in video sequences

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2611607B2 (ja) * 1992-06-29 1997-05-21 日本ビクター株式会社 シーンチェンジ検出装置
US5724100A (en) * 1996-02-26 1998-03-03 David Sarnoff Research Center, Inc. Method and apparatus for detecting scene-cuts in a block-based video coding system
US5731835A (en) * 1996-02-26 1998-03-24 David Sarnoff Research Center, Inc. Dynamic coding rate control in a block-based video coding system
US5751378A (en) 1996-09-27 1998-05-12 General Instrument Corporation Scene change detector for digital video
JP3409834B2 (ja) * 1997-07-10 2003-05-26 ソニー株式会社 画像処理装置および画像処理方法、並びに記録媒体
US6618507B1 (en) * 1999-01-25 2003-09-09 Mitsubishi Electric Research Laboratories, Inc Methods of feature extraction of video sequences
JP3778721B2 (ja) * 1999-03-18 2006-05-24 富士通株式会社 動画像符号化方法および装置
KR100850935B1 (ko) * 2001-12-27 2008-08-08 주식회사 엘지이아이 장면 전환 검출 장치
US7292690B2 (en) * 2002-01-02 2007-11-06 Sony Corporation Video scene change detection
US6993182B2 (en) * 2002-03-29 2006-01-31 Koninklijke Philips Electronics N.V. Method and apparatus for detecting scene changes in video using a histogram of frame differences
US20050089232A1 (en) * 2003-10-23 2005-04-28 Chun-Ming Hsu Method of video compression that accommodates scene changes
US7177474B2 (en) * 2003-11-10 2007-02-13 Mobixell Networks Inc. Video to animation conversion with file size constraint
JP4835439B2 (ja) * 2004-08-10 2011-12-14 ソニー株式会社 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
EP1784011A4 (en) * 2004-08-10 2011-09-28 Sony Corp INFORMATION SIGNAL PROCESSING METHOD, INFORMATION SIGNAL PROCESSING DEVICE, AND COMPUTER PROGRAM RECORDING MEDIUM
KR20120068050A (ko) * 2004-08-10 2012-06-26 소니 주식회사 정보 신호 처리 방법 및 정보 신호 처리 장치
US7382417B2 (en) * 2004-12-23 2008-06-03 Intel Corporation Method and algorithm for detection of scene cuts or similar images in video images
US8218641B2 (en) 2006-10-31 2012-07-10 Sony Computer Entertainment Inc. Picture encoding using same-picture reference for pixel reconstruction
EP1924098A1 (en) 2006-11-14 2008-05-21 Sony Deutschland GmbH Motion estimation and scene change detection using two matching criteria
JP4698754B2 (ja) * 2007-05-21 2011-06-08 三菱電機株式会社 シーンチェンジ検出方法および装置
US20090268097A1 (en) * 2008-04-28 2009-10-29 Siou-Shen Lin Scene change detection method and related apparatus according to summation results of block matching costs associated with at least two frames
US8451907B2 (en) * 2008-09-02 2013-05-28 At&T Intellectual Property I, L.P. Methods and apparatus to detect transport faults in media presentation systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1572117A (zh) * 2001-10-19 2005-01-26 皇家飞利浦电子股份有限公司 对视频重叠区域进行跳跃解码的方法和系统
US7313183B2 (en) * 2003-06-24 2007-12-25 Lsi Corporation Real time scene change detection in video sequences

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104685873A (zh) * 2012-10-05 2015-06-03 索尼公司 编码控制设备以及编码控制方法
CN104685873B (zh) * 2012-10-05 2017-12-15 索尼公司 编码控制设备以及编码控制方法
US10264290B2 (en) 2013-10-25 2019-04-16 Microsoft Technology Licensing, Llc Hash-based block matching in video and image coding
US11076171B2 (en) 2013-10-25 2021-07-27 Microsoft Technology Licensing, Llc Representing blocks with hash values in video and image coding and decoding
US10368092B2 (en) 2014-03-04 2019-07-30 Microsoft Technology Licensing, Llc Encoder-side decisions for block flipping and skip mode in intra block copy prediction
US10567754B2 (en) 2014-03-04 2020-02-18 Microsoft Technology Licensing, Llc Hash table construction and availability checking for hash-based block matching
US10681372B2 (en) 2014-06-23 2020-06-09 Microsoft Technology Licensing, Llc Encoder decisions based on results of hash-based block matching
WO2016049834A1 (en) * 2014-09-30 2016-04-07 Microsoft Technology Licensing, Llc Hash-based encoder decisions for video coding
US11025923B2 (en) 2014-09-30 2021-06-01 Microsoft Technology Licensing, Llc Hash-based encoder decisions for video coding
US10390039B2 (en) 2016-08-31 2019-08-20 Microsoft Technology Licensing, Llc Motion estimation for screen remoting scenarios
US11095877B2 (en) 2016-11-30 2021-08-17 Microsoft Technology Licensing, Llc Local hash-based motion estimation for screen remoting scenarios
US11202085B1 (en) 2020-06-12 2021-12-14 Microsoft Technology Licensing, Llc Low-cost hash table construction and hash-based block matching for variable-size blocks

Also Published As

Publication number Publication date
EP2473949A4 (en) 2017-03-22
EP2473949A1 (en) 2012-07-11
WO2011028666A1 (en) 2011-03-10
JP5508534B2 (ja) 2014-06-04
US8345750B2 (en) 2013-01-01
JP2013504256A (ja) 2013-02-04
US20110051809A1 (en) 2011-03-03
EP2473949B1 (en) 2021-03-10
CN102576411B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN102576411B (zh) 场景改变检测
US8879642B2 (en) Methods and apparatus for concealing corrupted blocks of video data
CN102187583B (zh) 基于上下文的自适应二进制算术编码(cabac)的视频流兼容性
JP5580453B2 (ja) 直接モード符号化及び復号化装置
US11595659B2 (en) Method and apparatus for encoding or decoding video data in FRUC mode with reduced memory accesses
US7408990B2 (en) Efficient motion vector coding for video compression
CN110519600B (zh) 帧内帧间联合预测方法、装置、编解码器及存储装置
US20040218675A1 (en) Method and apparatus for determining reference picture and block mode for fast motion estimation
Zhang et al. Video steganography with perturbed macroblock partition
KR102267770B1 (ko) 픽쳐들의 그룹에서 변경가능 엘리먼트들의 세트를 결정하기 위한 방법 및 디바이스
CN104159060A (zh) 预处理器方法及设备
CN101185339B (zh) 图像解码设备和图像数据解码方法、图像编码设备及方法
Yao et al. Double compression detection for H. 264 videos with adaptive GOP structure
CN101938649A (zh) 译码设备、译码控制设备、译码方法和程序
RU2715519C1 (ru) Устройство кодирования видео с предсказанием, способ кодирования видео с предсказанием, программа кодирования видео с предсказанием, устройство декодирования видео с предсказанием, способ декодирования видео с предсказанием и программа декодирования видео с предсказанием
US8295349B2 (en) Methods and apparatuses for video compression intra prediction mode determination
CN101873495B (zh) 场景转换检测装置以及影像记录装置
JP2007228560A (ja) 動画像符号化方法および動画像符号化装置
CN1703097A (zh) 编码运动矢量的设备和方法及其程序和介质
CN100373951C (zh) 检测块假象的方法
JP4719889B2 (ja) カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム
JP4892450B2 (ja) 画像符号化装置および画像符号化方法
CN101411183A (zh) 预处理器方法及设备
CN112437312A (zh) 视频解码方法、编码方法、装置、设备及存储介质
CN101682782B (zh) 运动图像编码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant