WO2021095242A1 - 映像符号化方法、映像符号化装置及びコンピュータープログラム - Google Patents

映像符号化方法、映像符号化装置及びコンピュータープログラム Download PDF

Info

Publication number
WO2021095242A1
WO2021095242A1 PCT/JP2019/044904 JP2019044904W WO2021095242A1 WO 2021095242 A1 WO2021095242 A1 WO 2021095242A1 JP 2019044904 W JP2019044904 W JP 2019044904W WO 2021095242 A1 WO2021095242 A1 WO 2021095242A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
coded
coding
pixels
frames
Prior art date
Application number
PCT/JP2019/044904
Other languages
English (en)
French (fr)
Inventor
誠之 高村
木全 英明
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/044904 priority Critical patent/WO2021095242A1/ja
Priority to JP2021555756A priority patent/JP7397360B2/ja
Priority to US17/773,987 priority patent/US20220377356A1/en
Publication of WO2021095242A1 publication Critical patent/WO2021095242A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to a technique for encoding an image.
  • inter-prediction which is one of the prediction methods when coding a video
  • a frame different from the coded frame is used as a reference image.
  • inter-prediction it was common that past or future frames were used as reference images in terms of time rather than the frames to be encoded.
  • a technique has been proposed in which an image having a high correlation with a plurality of coded frames is generated and used as a reference image.
  • a sprite image is generated using a common background image in an environment in which a plurality of coded frames are captured.
  • the sprite image is used as a reference image, and the image of the foreground portion not included in the sprite image is encoded by using the object coding technique.
  • the bit size used for the reference image can be reduced, and as a result, highly efficient compression becomes possible.
  • the sprite image requires a larger number of pixels than the coded frame. This is because multiple frames such as a frame shot with the viewpoint moved and a frame shot with the zoom changed become the coded target frames, and the background image of these multiple coded target frames is included in the sprite image. is there. Therefore, there is a problem that the sprite image cannot be effectively used by the coding technique having a limitation that the number of pixels of the coded target frame and the reference image is the same.
  • VVC Very Video Coding
  • VVC Very Video Coding
  • the correlation between the frames can be used without considering that they are in the same space. That is, although the correlation between frames for inter-prediction can be used, the correlation between the same space and the background of the frame cannot be used. As described above, the background common to the plurality of coded frames, that is, the correlation between the reference images cannot be used, and as a result, the coding efficiency may be lowered.
  • the present invention provides a technique capable of improving the coding efficiency in the coding technique in which the number of pixels of the reference image is required to be the same as the number of pixels of the coded target frame. I am aiming.
  • One aspect of the present invention includes a provisional image generation step of generating one provisional image from a plurality of coding target frames, and a conversion step of converting the generated provisional image into the same number of pixels as the plurality of coding target frames.
  • a video coding method comprising a predictive image generation step of generating a predictive image for each coded frame using the converted image as a reference image.
  • One aspect of the present invention includes a provisional image generation unit that generates one provisional image from a plurality of coding target frames, and a conversion unit that converts the generated provisional image into the same number of pixels as the plurality of coding target frames.
  • a video coding apparatus including a predictive image generation unit that generates a predictive image for each coded frame using the converted image as a reference image.
  • One aspect of the present invention is a computer program for causing a computer to execute the above video coding method.
  • the present invention it is possible to improve the coding efficiency in the coding technique in which the number of pixels of the reference image is required to be the same as the number of pixels of the coded image.
  • FIG. 1 is a schematic block diagram showing an outline of a functional configuration of a coding device 100 (video coding device).
  • the coding device 100 is configured by using an information processing device such as a personal computer or a server device.
  • VVC Very Video Coding
  • the coding device 100 of the present invention includes a sprite generation unit 10 (provisional image generation unit), a size change unit 20 (conversion unit), and a coding unit 30 (prediction image generation unit).
  • the sprite generation unit 10 generates an initial sprite image (provisional image) based on the input video signal.
  • a conventional sprite image generation technique may be applied to the sprite generation unit 10.
  • the size (number of pixels) of the initial sprite image generated by the sprite generation unit 10 is larger than the coded frame included in the video signal.
  • the initial sprite image is divided and captured by a plurality of frames, and a background or the like in which the foreground component of each frame is removed or reduced is assumed.
  • the size change unit 20 generates a modified sprite image by performing image processing on the initial sprite image. This is because VVC implements image processing (affine transformation), which was not supported up to HEVC, so it is possible to convert the created initial sprite image to a deformed sprite image of a desired size.
  • the size of the modified sprite image is smaller than the initial sprite image.
  • the size of the modified sprite image is, for example, the same as the size of the coded frame included in the video signal.
  • the coding unit 30 applies the modified sprite image as a long-term reference frame, and encodes each coded target frame included in the video signal.
  • the coding device 100 generates an initial sprite image larger than the coded target frame, and transforms the initial sprite image to the same size as the coded target frame. Therefore, it is possible to improve the coding efficiency in the coding technique in which the number of pixels of the reference image is required to be the same as the number of pixels of the coded image.
  • the details of the coding apparatus 100 will be described.
  • FIG. 2 is a flowchart showing a specific example of the processing flow of the coding apparatus 100.
  • a sprite image is first generated (step S101-NO).
  • the sprite generation unit 10 generates an initial sprite image based on the input video signal (a plurality of coded frames) (step S102).
  • the technique used when the sprite generation unit 10 generates the initial sprite image may be a conventional sprite image generation technique.
  • the size (number of pixels) of the initial sprite image generated by the sprite generation unit 10 is larger than the coded frame included in the video signal.
  • the size change unit 20 generates a modified sprite image by performing image processing including the size change process on the initial sprite image (step S103).
  • the size of the modified sprite image is smaller than the initial sprite image.
  • the size of the modified sprite image is, for example, the same size as the coded frame included in the video signal. When all the coded target frames included in the video signal have the same size, these coded target frames and the modified sprite image all have the same size.
  • the deformed sprite image includes an image of the entire area included in the initial sprite image. Therefore, it is desirable that an image reduction process be used to generate the deformed sprite image. Further, a rotation process or a shear process may be used to generate the deformed sprite image. In this case, a combination of a reduced image and a rotation process may be used to generate a deformed sprite image, a combination of a reduced image and a shear process may be used, or a reduced image, a rotation process, and a shearing process. A combination with treatment may be used. For such image processing, for example, affine transformation may be applied.
  • the modified sprite image generated by the resizing unit 20 is used as a long-term reference in the encoding unit 30.
  • the modified sprite image is saved as a long-term reference frame (step S104).
  • each coded frame of the input video signal is encoded using a long-term reference frame and a frame that has already been decoded and can be referred to. Processing is done.
  • An existing coding process may be applied to this coding process.
  • the VVC coding process is applied as described above.
  • the coding unit 30 performs motion compensation for the coded frame using the long-term reference frame (step S105).
  • the coding unit 30 generates a predicted image for each coded frame by performing motion compensation.
  • the coding unit 30 utilizes the relationship between the coding target frames used when generating the initial sprite image, and corresponds to the coding target region in the modified sprite image, and has a code.
  • a reference area having a number of pixels different from the number of pixels in the conversion target area may be specified.
  • the coding unit 30 may perform deformation processing on the deformed sprite image in motion compensation.
  • the transformation process is a process of transforming an image, for example, a process of scaling, a rotation process, a shearing process, or the like. Such a transformation process may be performed using an affine transformation.
  • the coding unit 30 After that, the coding unit 30 generates a prediction residual signal by subtracting the prediction signal obtained by motion compensation and the video signal of the coded target frame. The coding unit 30 performs a discrete cosine transform on the predicted residual signal (step S106) and performs a quantization process (step S107). Then, the coding unit 30 generates the coded data by performing the coding process on the quantized predicted residual signal (step S108).
  • FIG. 3 is a diagram showing an outline of the hardware configuration of the encoding device 100.
  • the coding device 100 includes a processor 50, a memory 60, an I / O 70, and an auxiliary storage device 80 as a hardware configuration.
  • the processor 50 may function as a sprite generation unit 10, a size change unit 20, and an encoding unit 30 by executing a coding program stored in the memory 60.
  • the memory 60 may function as a memory for holding a long-term reference frame.
  • the I / O 70 may input a video signal or output encoded data.
  • the auxiliary storage device 80 may store a video signal or store coded data.
  • the coding program may be recorded on a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a non-temporary storage medium such as a storage device such as a hard disk built in a computer system.
  • the coding program may be transmitted over a telecommunication line.
  • Part or all of the operations of the sprite generation unit 10, the size change unit 20, and the coding unit 30 may be realized by using hardware including an electronic circuit using, for example, LSI, ASIC, PLD, FPGA, or the like. ..
  • FIGS. 4 to 6 are diagrams showing the results of a performance comparison experiment between the coding device 100 of the present embodiment and the conventional coding device.
  • the images used in the experiment are live-action video Jets (1280x720, 60Hz, first 300 frames) including camera work and EBU Kids Soccer (8bit, 4: 2: 0 conversion, 1920x1080, 500 frames, hereinafter Soccer).
  • the 300th frame was used as the key frame for Jets
  • the 250th frame was used as the key frame for Soccer.
  • Jets include pan-zoom, and Soccer is pan-dominated.
  • the initial sprite image was generated by applying a median filter in the time direction to the area covered by the entire frame.
  • the modified sprite image was generated by vertically and horizontally scaling the initial sprite image to the same size as the input frame size.
  • the coding conditions are as follows. VVC reference software VTM6.1 was used as the encoder.
  • the coding structure is Low Delay B, and the base quantization parameter (QP) is 22,27,32,37.
  • QP base quantization parameter
  • the sprite was encoded as a long-term reference frame with a QP 10 smaller than the base QP, and then the entire input sequence was encoded. PSNR was evaluated without sprites, and the code amount was evaluated with sprites.
  • FIGS. 4 and 5 are R-D curves obtained by experiments. A slight deterioration is seen in the high rate part of Soccer, which is considered to be due to the absolute limit of PSNR at the time of enlargement due to image reduction.
  • FIG. 6 is a table showing BD-Rate and relative coding / decoding times. A 32% reduction in Jets and a 23% reduction in Soccer has been achieved. Moreover, the coding time can be reduced by 7 to 11%. The decoding time was within a change of about plus or minus 2%. This result indicates that the sum of the reduction amounts of the prediction error may be larger than the increase in the code amount of the coded data due to the addition of the sprite image.
  • the coding device 100 of the present embodiment generates an initial sprite image larger than the coded target frame, and transforms the initial sprite image to the same size as the coded target frame. Therefore, even in the coding technique in which the number of pixels of the reference image is required to be the same as the number of pixels of the coded image, the advantage of using the sprite image can be obtained. As a result, it becomes possible to improve the coding efficiency.
  • the present invention is applicable to a technique for encoding an image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

複数の符号化対象フレームから1の暫定画像を生成する暫定画像生成ステップと、生成された暫定画像を前記複数の符号化対象フレームと同じ画素数に変換する変換ステップと、変換された画像を参照画像として用いて、前記符号化対象フレーム毎に予測画像を生成する予測画像生成ステップと、を有する映像符号化方法である。

Description

映像符号化方法、映像符号化装置及びコンピュータープログラム
 本発明は、映像を符号化する技術に関する。
 映像を符号化する際の予測方法の1つであるインター予測では、符号化対象フレームとは異なるフレームが参照画像として利用される。インター予測では、符号化対象フレームよりも時間的に過去又は未来のフレームが参照画像として用いられることが一般的であった。しかし、過去又は未来のフレームの代わりに、複数の符号化対象フレームと相関が高くなるような画像を参照画像として生成し用いる技術が提案されている。そのような技術の一例として、非特許文献1に開示されているようなスプライトモードがある。
 スプライトモードを利用する例について説明する。複数の符号化対象フレームが撮影された環境において共通する背景の画像を用いてスプライト画像が生成される。スプライト画像は参照画像として利用され、スプライト画像に含まれなかった前景部分の画像は、オブジェクト符号化技術を利用して符号化される。このような処理によって、参照画像に用いられるビットサイズの低減が実現され、その結果として高効率での圧縮が可能となる。
"Versatile Video Coding (Draft 6)",Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,15th Meeting Gothenburg, SE, 3-12 July 2019
 スプライト画像には符号化対象フレームよりも多い画素数が必要となる。視点が移動して撮影されたフレームやズームが変更して撮影されたフレーム等の複数のフレームが符号化対象フレームとなり、これらの複数の符号化対象フレームの背景画像がスプライト画像に含まれるためである。そのため、符号化対象フレームと参照画像との画素数が同じであるなどの制限を有する符号化技術ではスプライト画像を有効に用いることができないという問題があった。このような制限を有する符号化技術の具体例としてVVC(Versatile Video Coding)がある。このようなVVC等の符号化技術では、複数の符号化フレームごとに異なる背景として予測する場合がある。つまり、同一の空間内における、少なくとも一部異なる領域を撮像しているフレーム群であっても、同一の空間内ということを考慮せず、フレーム間での相関しか利用することができない。つまり、インター予測を行うフレーム間での相関を利用できているものの、上記同一の空間とフレームの背景との相関を利用することができない。このように、複数の符号化対象フレームに共通する背景、つまり参照画像間の相関を利用できず、結果として符号化効率が低下してしまう場合があった。
 上記事情に鑑み、本発明は、参照画像の画素数が符号化対象フレームの画素数と同じであることが要求される符号化技術において符号化効率を向上させることが可能となる技術の提供を目的としている。
 本発明の一態様は、複数の符号化対象フレームから1の暫定画像を生成する暫定画像生成ステップと、生成された暫定画像を前記複数の符号化対象フレームと同じ画素数に変換する変換ステップと、変換された画像を参照画像として用いて、前記符号化対象フレーム毎に予測画像を生成する予測画像生成ステップと、を有する映像符号化方法である。
 本発明の一態様は、複数の符号化対象フレームから1の暫定画像を生成する暫定画像生成部と、生成された暫定画像を前記複数の符号化対象フレームと同じ画素数に変換する変換部と、変換された画像を参照画像として用いて、前記符号化対象フレーム毎に予測画像を生成する予測画像生成部と、を備える映像符号化装置である。
 本発明の一態様は、上記の映像符号化方法をコンピューターに実行させるためのコンピュータープログラムである。
 本発明により、参照画像の画素数が符号化対象画像の画素数と同じであることが要求される符号化技術において符号化効率を向上させることが可能となる。
符号化装置100の機能構成の概略を示す概略ブロック図である。 符号化装置100の処理の流れの具体例を示すフローチャートである。 符号化装置100のハードウェア構成の概略を示す図である。 本実施形態の符号化装置100と、従来の符号化装置との性能比較実験を行った結果を示す図である。 本実施形態の符号化装置100と、従来の符号化装置との性能比較実験を行った結果を示す図である。 本実施形態の符号化装置100と、従来の符号化装置との性能比較実験を行った結果を示す図である。
 本発明の符号化方法の実施形態について、図面を参照して詳細に説明する。
 [概略]
 図1は、符号化装置100(映像符号化装置)の機能構成の概略を示す概略ブロック図である。符号化装置100は、例えばパーソナルコンピューターやサーバー装置等の情報処理装置を用いて構成される。図1に示す符号化装置100には、例えばVVC(Versatile Video Coding)が実装されてもよい。本発明の符号化装置100は、スプライト生成部10(暫定画像生成部)、サイズ変更部20(変換部)及び符号化部30(予測画像生成部)を備える。スプライト生成部10は、入力された映像信号に基づいて初期スプライト画像(暫定画像)を生成する。スプライト生成部10には、従来のスプライト画像の生成技術が適用されてもよい。スプライト生成部10によって生成される初期スプライト画像の大きさ(画素数)は、映像信号に含まれる符号化対象フレームよりも大きい。初期スプライト画像は、複数のフレームにより分割されて撮像されており、各フレームの前景の成分を除く若しくは削減した背景等が想定される。
 サイズ変更部20は、初期スプライト画像に対して画像処理を行うことによって変形スプライト画像を生成する。これは、HEVCまでではサポートされていなかったもののVVCでは画像処理(アフィン変換)を実装するため、作成した初期スプライト画像から所望のサイズの変形スプライト画像に変換することが可能になったためである。変形スプライト画像の大きさは、初期スプライト画像よりも小さい。変形スプライト画像の大きさは、例えば映像信号に含まれる符号化対象フレームの大きさと同じである。符号化部30は、変形スプライト画像を長期参照フレームとして適用し、映像信号に含まれる各符号化対象フレームを符号化する。
 このように、符号化装置100では、符号化対象フレームよりも大きい初期スプライト画像を生成し、初期スプライト画像を符号化対象フレームと同じ大きさに変形する。そのため、参照画像の画素数が符号化対象画像の画素数と同じであることが要求される符号化技術において符号化効率を向上させることが可能となる。以下、符号化装置100の詳細について説明する。
 [詳細]
 図2は、符号化装置100の処理の流れの具体例を示すフローチャートである。符号化装置100では、まずスプライト画像が生成される(ステップS101-NO)。具体的には、入力される映像信号(複数の符号化対象フレーム)に基づいてスプライト生成部10が初期スプライト画像を生成する(ステップS102)。スプライト生成部10が初期スプライト画像を生成する際に用いられる技術は、従来からあるスプライト画像の生成技術であってもよい。スプライト生成部10によって生成される初期スプライト画像の大きさ(画素数)は、映像信号に含まれる符号化対象フレームよりも大きい。
 次に、サイズ変更部20は、初期スプライト画像に対してサイズ変更処理を含む画像処理を行うことによって、変形スプライト画像を生成する(ステップS103)。変形スプライト画像の大きさは、初期スプライト画像よりも小さい。変形スプライト画像の大きさは、例えば映像信号に含まれる符号化対象フレームと同じ大きさである。映像信号に含まれる符号化対象フレームが全て同じ大きさである場合には、これらの符号化対象フレームと変形スプライト画像とは全て同じ大きさとなる。
 変形スプライト画像は、初期スプライト画像に含まれる全領域の画像を含むことが望ましい。そのため、変形スプライト画像の生成には、画像の縮小処理が用いられることが望ましい。また、変形スプライト画像の生成には、回転処理やせん断処理が用いられてもよい。この場合、変形スプライト画像の生成には、縮小画像と回転処理との組合せが用いられてもよいし、縮小画像とせん断処理との組合せが用いられてもよいし、縮小画像と回転処理とせん断処理との組合せが用いられてもよい。このような画像処理には、例えばアフィン変換が適用されてもよい。
 サイズ変更部20によって生成された変形スプライト画像は、符号化部30において長期参照フレーム(long-term reference)として用いられる。例えば、符号化部30に備えられるフレームメモリーにおいて、変形スプライト画像が長期参照フレームとして保存される(ステップS104)。
 長期参照フレームとして変形スプライト画像が保存された後は(ステップS101-YES)、入力される映像信号の各符号化対象フレームについて、長期参照フレームおよび既に復号済みで参照可能なフレームを用いて符号化処理が行われる。この符号化処理には、既存の符号化処理が適用されてもよい。本実施形態では、上述したようにVVCの符号化処理が適用される。具体的には、符号化部30は、長期参照フレームを用いて符号化対象フレームについて動き補償を行う(ステップS105)。符号化部30は、動き補償を行うことによって、符号化対象フレーム毎に予測画像を生成する。
 符号化部30は、予測画像の生成において、初期スプライト画像を生成する際に用いられた符号化対象フレーム間の関係を利用して、変形スプライト画像における符号化対象領域に対応し、且つ、符号化対象領域の画素数と異なる画素数である参照領域を特定してもよい。符号化部30は、動き補償において、変形スプライト画像に対して変形処理を行ってもよい。変形処理とは、画像を変形する処理であり、例えば拡大縮小処理、回転処理、せん断処理などの処理である。このような変形処理はアフィン変換を用いて実行されてもよい。このような変形処理が行われるため、初期スプライト画像を縮小することで生成された変形スプライト画像を長期参照フレームとして用いても、スプライト画像を用いた場合と略同様の効果を得ることが可能となる。即ち、例えば縮小することで生成された変形スプライト画像であっても、初期スプライト画像と同じ大きさに拡大してから参照画像として用いられることで、初期スプライト画像を用いた場合と同様の効果を得ることができる。
 その後、符号化部30は、動き補償によって得られた予測信号と符号化対象フレームの映像信号とを減算することで予測残差信号を生成する。符号化部30は、予測残差信号に対し離散コサイン変換を行い(ステップS106)、量子化処理を行う(ステップS107)。そして、符号化部30は、量子化された予測残差信号に対して符号化処理を行うことで、符号化データを生成する(ステップS108)。
 図3は、符号化装置100のハードウェア構成の概略を示す図である。符号化装置100は、ハードウェア構成として、プロセッサー50、メモリー60、I/O70及び補助記憶装置80を備える。プロセッサー50は、メモリー60に記憶された符号化プログラムを実行することによって、スプライト生成部10、サイズ変更部20及び符号化部30として機能してもよい。メモリー60は、長期参照フレームを保持するメモリーとして機能してもよい。I/O70は、映像信号を入力したり、符号化データを出力したりしてもよい。補助記憶装置80は、映像信号を記憶したり、符号化データを記憶したりしてもよい。
 符号化プログラムは、コンピューター読み取り可能な記録媒体に記録されてもよい。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。符号化プログラムは、電気通信回線を介して送信されてもよい。スプライト生成部10、サイズ変更部20及び符号化部30の動作の一部又は全部は、例えば、LSI、ASIC、PLD又はFPGA等を用いた電子回路を含むハードウェアを用いて実現されてもよい。
 図4~図6は、本実施形態の符号化装置100と、従来の符号化装置との性能比較実験を行った結果を示す図である。実験用いられた映像は、カメラワークを含む実写映像Jets(1280x720,60Hz,先頭300フレーム)と、EBUKidsSoccer(8bit,4:2:0化、1920x1080,500フレーム、以後Soccer)である。初期スプライト画像の生成については、Jetsについては第300フレーム、Soccerについては第250フレームをキーフレームとした。Jetsはパン・ズームを含み、Soccerはパンが支配的である。初期スプライト画像は、全フレームが覆う領域について時間方向にメディアンフィルターを施すことで生成された。変形スプライト画像は、初期スプライト画像に対し、入力フレームサイズと同サイズに縦横変倍することで生成された。
 符号化条件は以下の通りである。エンコーダーには、VVCの参照ソフトウェアVTM6.1が用いられた。符号化構造はLow Delay B、ベース量子化パラメータ(QP)は22,27,32,37である。デフォルト符号化設定で、アフィン動き補償の使用はon(Affine = 1)となっているが、これをより積極的に用いることを期待し、AffineAmvr= 1, AffineAmvrEncOpt = 1 と設定変更されている。まずスプライトをベースQP より10 小さいQP で長期参照フレームとして符号化し、続いて全入力シーケンスを符号化した。PSNRはスプライトを含まず評価し、符号量はスプライトを含み評価した。
 図4及び図5は、実験により得られたR-D曲線である。Soccerの高レート部で僅かな劣化が見られるが、これは画像縮小により拡大時PSNRに絶対限界が生じるためと考えられる。図6は、BD-Rate,相対符号化・復号時間を示す表である。Jetsでは32%、Soccerでは23%の符号量削減が実現できている。また、符号化時間は7~11%削減できている。復号時間は、プラスマイナス2%程度の変化に収まっていた。この結果は、スプライト画像を追加することによる符号化データの符号量の増加よりも、予測誤差の削減量の総和の方が大きくなる場合がある事を示している。
 以上説明したように、本実施形態の符号化装置100では、符号化対象フレームよりも大きい初期スプライト画像を生成し、初期スプライト画像を符号化対象フレームと同じ大きさに変形する。そのため、参照画像の画素数が符号化対象画像の画素数と同じであることが要求される符号化技術においても、スプライト画像を用いることの長所を得ることができる。その結果、符号化効率を向上させることが可能となる。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、画像を符号化する技術に適用可能である。
100…符号化装置、10…スプライト生成部、20…サイズ変更部、30…符号化部

Claims (6)

  1.  複数の符号化対象フレームから1の暫定画像を生成する暫定画像生成ステップと、
     生成された暫定画像を前記複数の符号化対象フレームと同じ画素数に変換する変換ステップと、
     変換された画像を参照画像として用いて、前記符号化対象フレーム毎に予測画像を生成する予測画像生成ステップと、
    を有する映像符号化方法。
  2.  前記予測画像生成ステップでは、前記暫定画像を生成する際に用いられた前記符号化対象フレーム間の関係を利用して、前記参照画像における符号化対象領域に対応し、且つ、前記符号化対象領域の画素数と異なる画素数である参照領域を特定する、請求項1に記載の映像符号化方法。
  3.  前記複数の符号化対象フレームの画素数は同一であり、前記変換ステップでは前記符号化対象フレームと前記暫定画像との画素数が一致するように前記暫定画像を変換する、請求項1又は2に記載の映像符号化方法。
  4.  前記変換ステップにおいて、前記暫定画像に対し回転又はせん断処理をさらに実行する、請求項1から3のいずれか一項に記載の映像符号化方法。
  5.  複数の符号化対象フレームから1の暫定画像を生成する暫定画像生成部と、
     生成された暫定画像を前記複数の符号化対象フレームと同じ画素数に変換する変換部と、
     変換された画像を参照画像として用いて、前記符号化対象フレーム毎に予測画像を生成する予測画像生成部と、
    を備える映像符号化装置。
  6.  請求項1から4のいずれか一項に記載の映像符号化方法をコンピューターに実行させるためのコンピュータープログラム。 
PCT/JP2019/044904 2019-11-15 2019-11-15 映像符号化方法、映像符号化装置及びコンピュータープログラム WO2021095242A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/044904 WO2021095242A1 (ja) 2019-11-15 2019-11-15 映像符号化方法、映像符号化装置及びコンピュータープログラム
JP2021555756A JP7397360B2 (ja) 2019-11-15 2019-11-15 映像符号化方法、映像符号化装置及びコンピュータープログラム
US17/773,987 US20220377356A1 (en) 2019-11-15 2019-11-15 Video encoding method, video encoding apparatus and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/044904 WO2021095242A1 (ja) 2019-11-15 2019-11-15 映像符号化方法、映像符号化装置及びコンピュータープログラム

Publications (1)

Publication Number Publication Date
WO2021095242A1 true WO2021095242A1 (ja) 2021-05-20

Family

ID=75911415

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/044904 WO2021095242A1 (ja) 2019-11-15 2019-11-15 映像符号化方法、映像符号化装置及びコンピュータープログラム

Country Status (3)

Country Link
US (1) US20220377356A1 (ja)
JP (1) JP7397360B2 (ja)
WO (1) WO2021095242A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012120244A (ja) * 1997-02-13 2012-06-21 Mitsubishi Electric Corp 動画像符号化装置及び動画像符号化方法及び動画像予測装置
JP2017092886A (ja) * 2015-11-17 2017-05-25 日本電信電話株式会社 映像符号化方法、映像符号化装置及び映像符号化プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2952226B2 (ja) * 1997-02-14 1999-09-20 日本電信電話株式会社 動画像の予測符号化方法および復号方法、動画像予測符号化または復号プログラムを記録した記録媒体、および、動画像予測符号化データを記録した記録媒体
TWI246338B (en) * 2004-04-09 2005-12-21 Asustek Comp Inc A hybrid model sprite generator and a method to form a sprite
WO2008019156A2 (en) * 2006-08-08 2008-02-14 Digital Media Cartridge, Ltd. System and method for cartoon compression
JP2010124397A (ja) * 2008-11-21 2010-06-03 Toshiba Corp 高解像度化装置
WO2011050998A1 (en) * 2009-10-29 2011-05-05 Thomas Sikora Method and device for processing a video sequence
JP2014527736A (ja) * 2011-07-18 2014-10-16 トムソン ライセンシングThomson Licensing 接続されるコンポーネントの方位ベクトルを符号化する方法及び装置、対応する復号化方法及び装置、並びにそのように符号化されたデータを担持する記憶媒体
JP6610853B2 (ja) * 2014-03-18 2019-11-27 パナソニックIpマネジメント株式会社 予測画像生成方法、画像符号化方法、画像復号方法及び予測画像生成装置
JP6457248B2 (ja) * 2014-11-17 2019-01-23 株式会社東芝 画像復号装置、画像符号化装置および画像復号方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012120244A (ja) * 1997-02-13 2012-06-21 Mitsubishi Electric Corp 動画像符号化装置及び動画像符号化方法及び動画像予測装置
JP2017092886A (ja) * 2015-11-17 2017-05-25 日本電信電話株式会社 映像符号化方法、映像符号化装置及び映像符号化プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. SAMUELSSON ET AL.: "AHG8: Adaptive Resolution Change(ARC) with downsampling", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, JVET-00240-VL, 5 July 2019 (2019-07-05), XP030218945 *

Also Published As

Publication number Publication date
JPWO2021095242A1 (ja) 2021-05-20
US20220377356A1 (en) 2022-11-24
JP7397360B2 (ja) 2023-12-13

Similar Documents

Publication Publication Date Title
JP5537681B2 (ja) 変換ユニット内の複数サインビット秘匿
JP3796217B2 (ja) 静止映像及び動映像を符号化/復号化するための変換係数の最適走査方法
JP2618083B2 (ja) イメージ回復方法及び装置
KR101365567B1 (ko) 영상의 예측 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101608426B1 (ko) 영상의 인트라 예측 부호화/복호화 방법 및 그 장치
Lee et al. A new frame recompression algorithm integrated with H. 264 video compression
US8675979B2 (en) Transcoder, method of transcoding, and digital recorder
US8761246B2 (en) Encoding/decoding device, encoding/decoding method and storage medium
US20120106631A1 (en) Image encoding/decoding apparatus and method using multi-dimensional integer transform
US20240089443A1 (en) Image decoding device, method, and non-transitory computer-readable storage medium
CN106028031B (zh) 视频编码装置和方法、视频解码装置和方法
JP2022121615A (ja) 画像符号化装置、画像復号装置、及びプログラム
WO2021095242A1 (ja) 映像符号化方法、映像符号化装置及びコンピュータープログラム
KR101713250B1 (ko) 인트라 예측을 이용한 부호화 및 복호화 장치와 방법
Abou-Elailah et al. Improved side information generation for distributed video coding
JP5197428B2 (ja) 画像符号化装置及び画像符号化方法
KR20110024574A (ko) 통합 영상 부호화 방법 및 장치
JP2022092009A (ja) 映像符号化又は映像復号装置、映像符号化又は映像復号方法、プログラム、及び記録媒体
JP2007266861A (ja) 画像符号化装置
JP2006279272A (ja) 動画像符号化装置およびその符号化制御方法
JP4878047B2 (ja) 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置,映像符号化プログラム,映像復号プログラムおよびそれらの記録媒体
US20230007311A1 (en) Image encoding device, image encoding method and storage medium, image decoding device, and image decoding method and storage medium
US20210306635A1 (en) Image encoding apparatus, image decoding apparatus, control methods thereof, and non-transitory computer-readable storage medium
JP2011049816A (ja) 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、およびプログラム
JP2008092137A (ja) 画像符号化装置及び画像符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19952525

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021555756

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19952525

Country of ref document: EP

Kind code of ref document: A1