JP2010136037A - Video code amount control method, video-encoding device, video code amount control program, and recording medium for the program - Google Patents

Video code amount control method, video-encoding device, video code amount control program, and recording medium for the program Download PDF

Info

Publication number
JP2010136037A
JP2010136037A JP2008309277A JP2008309277A JP2010136037A JP 2010136037 A JP2010136037 A JP 2010136037A JP 2008309277 A JP2008309277 A JP 2008309277A JP 2008309277 A JP2008309277 A JP 2008309277A JP 2010136037 A JP2010136037 A JP 2010136037A
Authority
JP
Japan
Prior art keywords
code amount
video
control unit
audio
encoding control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008309277A
Other languages
Japanese (ja)
Other versions
JP4755239B2 (en
Inventor
Takeshi Nakamura
健 中村
Atsushi Shimizu
淳 清水
Ryuichi Tanida
隆一 谷田
Noboru Harada
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008309277A priority Critical patent/JP4755239B2/en
Publication of JP2010136037A publication Critical patent/JP2010136037A/en
Application granted granted Critical
Publication of JP4755239B2 publication Critical patent/JP4755239B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To enhance subjective picture quality, while making variation in the picture quality quiet as a whole by utilizing surplus code amount of sound in video encoding. <P>SOLUTION: In a video-encoding device, a surplus code amount calculation part 131, when determining a target code amount of a GOP to be encoded, calculates the sound surplus code amount allowed to be utilized for the encoding of the GOP from a sound generation code amount. A condition determining section 132 determines the utilization condition of a predetermined surplus code amount; and when the calculated surplus code amount agrees with the condition, a GOP target code amount calculating part 133 adds all or a part of the sound surplus code amount to an original GOP target code amount. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は,音声ストリームのビットレートと映像ストリームのビットレートとの和が所定のビットレートの範囲内になるように,音声の発生符号量に応じて映像の符号量を制御する映像符号量制御方法,映像符号化装置,映像符号量制御プログラムおよびその記録媒体に関するものである。   The present invention provides video code amount control for controlling the video code amount in accordance with the generated code amount of audio so that the sum of the bit rate of the audio stream and the bit rate of the video stream falls within a predetermined bit rate range. The present invention relates to a method, a video encoding device, a video code amount control program, and a recording medium thereof.

一般に,映像ストリームと,音声やデータなどの他のストリームとを多重化して送るような伝送システムでは,映像は,他のストリームとは独立にビットレート制御を行っていた(非特許文献1,2参照)。   In general, in a transmission system in which a video stream and other streams such as audio and data are multiplexed and transmitted, the video is subjected to bit rate control independently of other streams (Non-Patent Documents 1 and 2). reference).

一般に映像・音声符号化では,複雑で変化の多い入力信号に対しては符号量が多くなり,単調で変化の少ない入力信号に対しては符号量が少なくなる。   In general, in video / audio coding, the amount of code increases for an input signal that is complex and changes a lot, and the amount of code decreases for an input signal that is monotonous and changes little.

ロッシー符号化ストリームは,固定ビットレート(CBR:Constant Bit Rate )で伝送するために,信号の劣化の程度を変化させることにより,発生符号量を所定の範囲内に収めるように制御する。一方,ロスレス符号化ストリームでは,発生符号量の変化を制御することができないため,一般に可変ビットレート(VBR:Variable Bit Rate )で伝送される。
ISO/IEC 13818-2 Annex C, ITU-T Recomendation H.264 Annex C 映像情報メディア学会編,“総合マルチメディア選書MPEG”,社団法人映像情報メディア学会,(株)オーム社発行,1996.4.20
Since the lossy coded stream is transmitted at a constant bit rate (CBR), the generated code amount is controlled to fall within a predetermined range by changing the degree of signal degradation. On the other hand, in a lossless encoded stream, since the change in the amount of generated code cannot be controlled, it is generally transmitted at a variable bit rate (VBR).
ISO / IEC 13818-2 Annex C, ITU-T Recomendation H.264 Annex C The Institute of Image Information and Television Engineers, “Multi-media selection MPEG”, The Institute of Image Information and Television Engineers, published by Ohm Corporation, 1996.4.20

MPEG−4 ALSのようなロスレス音声符号化ストリームと映像符号化ストリーム(以下,符号化ストリームを単に「ストリーム」ともいう)とを多重化する場合,音声伝送ビットレートの変動が映像伝送ビットレートに比べて無視できないほど大きいことが多い。   When a lossless audio encoded stream such as MPEG-4 ALS and a video encoded stream (hereinafter, the encoded stream is also simply referred to as “stream”) are multiplexed, the fluctuation of the audio transmission bit rate is changed to the video transmission bit rate. It is often too large to ignore.

したがって,映像と音声の多重化ストリームにおいて,固定で割り当てられていた音声のビットレートのうち,音声符号化データの発生符号量が小さい余剰符号量分を映像符号化に利用することができれば,ビットレートに無駄が生じることがなく,画質の向上に寄与すると考えられる。   Therefore, in the multiplexed stream of video and audio, out of the fixed bit rate of audio, if the surplus code amount with small generated code amount of audio encoded data can be used for video encoding, The rate is not wasted, and it is thought that it contributes to the improvement of image quality.

しかし,このように音声符号化データの発生符号量の変動分を,映像符号化に有効に利用することを考えた場合,映像の全体としての画質は向上するものの,音声符号化データの発生符号量が多い場面では画質の劣化が大きく,音声符号化データの発生符号量が少ない場面では画質が鮮明になり過ぎることがあり,そのため音声符号化データの変動に応じて画質の変動が目立ってしまうことがあるという,新たな問題が生じる。   However, considering that the fluctuation of the generated code amount of the audio encoded data is effectively used for video encoding in this way, the image quality of the entire video is improved, but the generated code of the audio encoded data is improved. Image quality is greatly degraded in scenes with a large amount of data, and image quality may be too clear in scenes with a small amount of generated code of speech encoded data. Therefore, image quality fluctuations become conspicuous according to changes in speech encoded data. A new problem arises.

図9は,本発明の課題を説明する図である。従来,符号化ビットレートが固定の音声符号化ストリームと映像符号化ストリームを多重化する場合,図9(A)に示すように,映像は,音声のストリームとは独立にビットレート制御が行われていた。なお,GOP(Group Of Pictures )は,一般に十数フレームから数十フレームのピクチャ群からなる映像符号化データの単位であり,ここで,GOP(n)はn番目のGOPを表している。   FIG. 9 is a diagram illustrating the problem of the present invention. Conventionally, when an audio encoded stream and a video encoded stream with a fixed encoding bit rate are multiplexed, as shown in FIG. 9A, the video is bit-rate controlled independently of the audio stream. It was. Note that GOP (Group Of Pictures) is a unit of video encoded data generally composed of a group of pictures of dozens to tens of frames, where GOP (n) represents the nth GOP.

ロスレス音声符号化ストリームの場合,音声の発生符号量は変動し,音声符号化データのデータ量が,与えられた音声ビットレートで送信可能なデータ量よりもかなり少なくなることがある。このビットレートの余裕分の符号量を,ここでは余剰符号量という。図9(B)に斜線を付して示している部分が余剰符号量である。   In the case of a lossless audio encoded stream, the generated code amount of audio fluctuates, and the data amount of audio encoded data may be considerably smaller than the data amount that can be transmitted at a given audio bit rate. The amount of code for this bit rate margin is referred to as surplus code amount here. The portion indicated by hatching in FIG. 9B is the surplus code amount.

図9(C)は,図9(B)に示した音声の余剰符号量を映像符号化データの伝送に利用することを考えた場合の音声ビットレートと映像ビットレートとの関係を示している。音声の余剰符号量を映像符号化データの伝送に利用することにより,映像符号化時におけるGOP単位の目標符号量を,元の映像ビットレートによる目標符号量よりも大きくすることができる。   FIG. 9C shows the relationship between the audio bit rate and the video bit rate when it is considered to use the audio surplus code amount shown in FIG. 9B for transmission of video encoded data. . By using the surplus audio code amount for transmission of video encoded data, the target code amount in GOP units during video encoding can be made larger than the target code amount based on the original video bit rate.

図9(C)に示すように,音声の余剰符号量分を映像符号化データの伝送に利用したとすると,映像の発生符号量を増加させることができるので,映像の画質が向上すると考えられるが,音声ビットレートの変動に応じて映像ビットレートが変動することになり,画質の変動が目につく可能性があるという,新たな問題が発生する。   As shown in FIG. 9C, if the extra audio code amount is used for transmission of video encoded data, the generated code amount of video can be increased, so that the image quality of the video is improved. However, the video bit rate fluctuates according to the fluctuation of the audio bit rate, and a new problem that the fluctuation of the image quality may be noticeable occurs.

本発明は,上記課題の解決を図り,音声の余剰符号量分を映像符号化に有効に利用し,画質を向上させるとともに,全体として画質の変動を目立たせなくすることを目的とする。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems and to effectively use the excess code amount of audio for video coding, improve the image quality, and make the fluctuation of the image quality inconspicuous as a whole.

本発明は,上記課題を解決するため,ロスレス音声符号化ストリームやデータストリーム等の符号化ビットレートを制御できないストリームと,ロッシー映像符号化ストリームとをCBRに多重化する場合に,次のように音声の発生符号量に応じて映像の符号量を制御する。   In order to solve the above-described problem, the present invention provides the following when multiplexing a lossy audio encoded stream, a data stream, etc., which cannot control the encoding bit rate, and a lossy video encoded stream into CBR as follows: The code amount of the video is controlled according to the generated code amount of the audio.

(1)映像符号化時の目標符号量と発生符号量の差,量子化ステップサイズ,アクティビティなどのパラメータが,所定の条件に合致した場合にのみ,音声の余剰符号量を映像符号化に利用する。   (1) The excess audio code amount is used for video encoding only when the parameters such as the difference between the target code amount and the generated code amount at the time of video encoding, the quantization step size, and the activity meet the predetermined conditions. To do.

(2)映像符号化に利用可能な音声の余剰符号量は,その時点で符号化済みの音声符号化データの余剰符号量や伝送タイミングから求める。また,余剰符号量の利用判断,利用量を決めるタイミングは,GOPの先頭またはフレーム単位とする。   (2) The amount of surplus audio that can be used for video encoding is obtained from the amount of surplus code of the encoded audio data already encoded at that time and the transmission timing. In addition, the use determination of the surplus code amount and the timing for determining the use amount are set at the head of the GOP or in units of frames.

(3)映像のGOP符号化開始時に,GOP期間分音声を先行して符号化した場合には,同一GOP期間の,そうでない場合には直前のGOP期間の音声の余剰符号量分を求める。余剰符号量の利用が決定された場合,その余剰符号量を上限とする。画質改善のために必要な符号量は,量子化ステップサイズ,アクティビティから計算する。   (3) At the start of video GOP encoding, if the audio for the GOP period is encoded in advance, the excess code amount of the audio for the same GOP period, otherwise the immediately preceding GOP period is obtained. When the use of the surplus code amount is determined, the surplus code amount is set as the upper limit. The amount of code required for image quality improvement is calculated from the quantization step size and activity.

以上の点を踏まえて,本発明は,次のように映像の符号量を制御する。まず,符号化済みの音声発生符号量から映像符号化制御単位(例えばGOPまたはフレーム)の期間における音声の余剰符号量を算出する。その余剰符号量を映像符号化制御単位における目標符号量に加えるかどうかの,あらかじめ定められた映像の発生符号量に影響する映像の特徴または符号化の条件を判定する。条件が満たされる場合には,余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,条件が満たされない場合には,余剰符号量を映像符号化制御単位における目標符号量に加えないで,次に符号化する映像符号化制御単位における目標符号量を決定する。決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する。   Based on the above points, the present invention controls the video code amount as follows. First, a surplus audio code amount in a period of a video encoding control unit (for example, GOP or frame) is calculated from the encoded audio generation code amount. A video feature or a coding condition that affects a predetermined video generated code amount is determined as to whether or not the surplus code amount is added to the target code amount in the video coding control unit. If the condition is satisfied, part or all of the surplus code amount is added to the target code amount in the video coding control unit. If the condition is not satisfied, the surplus code amount is added to the target code amount in the video coding control unit. In addition, the target code amount in the video encoding control unit to be encoded next is determined. According to the determined target code amount, the video signal in the video encoding control unit is encoded.

前記条件として,例えば次のような条件のいずれかを用いる実施が好適である。
・過去の所定数の映像フレームの平均量子化パラメータが所定の閾値以上であるという条件,
・過去の所定数の映像フレームの平均量子化ステップが所定の閾値以上であるという条件,
・これから符号化する映像符号化制御単位のアクティビティ平均値が所定の閾値以上であるという条件,
・これから符号化する映像符号化制御単位にシーンチェンジがあるという条件,
・過去の所定数の映像フレームの目標符号量と発生符号量との差の総和が所定の閾値以上であるという条件。
For example, it is preferable to use one of the following conditions as the condition.
A condition that the average quantization parameter of a predetermined number of past video frames is equal to or greater than a predetermined threshold;
A condition that the average quantization step of a predetermined number of video frames in the past is equal to or greater than a predetermined threshold;
-The condition that the average activity value of the video encoding control unit to be encoded is equal to or greater than a predetermined threshold,
-The condition that there is a scene change in the video encoding control unit to be encoded from now on,
A condition that the sum of the differences between the target code amount and the generated code amount of a predetermined number of past video frames is equal to or greater than a predetermined threshold.

映像符号化に利用する音声の余剰符号量の算出方法としては,次のような方法を用いることができる。
・音声の余剰符号量を,映像符号化制御単位と同一表示期間の音声符号化制御単位群における,各音声符号化制御単位の所定の最大発生符号量と実際の発生符号量との差の総和から算出する方法,
・音声の余剰符号量を,映像符号化制御単位より所定の映像フレーム数だけ前の映像符号化制御単位と同じ長さの期間の映像フレーム群と同一表示期間の音声符号化制御単位群における,各音声符号化制御単位の所定の最大発生符号量と実際の発生符号量との差の総和から算出する方法。
The following method can be used as a method for calculating the excess code amount of audio used for video encoding.
The sum of the difference between the predetermined maximum generated code amount of each audio encoding control unit and the actual generated code amount in the audio encoding control unit group in the same display period as the video encoding control unit To calculate from
In the audio encoding control unit group having the same display period as the video frame group having the same length as that of the video encoding control unit preceding the video encoding control unit by a predetermined number of video frames, A method of calculating from a sum of differences between a predetermined maximum generated code amount and an actual generated code amount in each speech encoding control unit.

本発明は,映像符号化データと,映像符号化データ以外の符号化データとを多重化して伝送する場合に,前述した音声符号化データの余剰符号量と同様に,映像符号化データ以外の符号化データの余剰符号量をもとに,追加目標符号量を決定し,映像符号化の符号量を制御することもできる。   In the present invention, when video encoded data and encoded data other than video encoded data are multiplexed and transmitted, codes other than video encoded data are transmitted in the same manner as the excess code amount of audio encoded data described above. It is also possible to determine the additional target code amount based on the surplus code amount of the encoded data and control the code amount of video encoding.

本発明によれば,映像と音声とを多重化した符号化ストリームが所定のビットレートの範囲内になるように映像を符号化する場合に,映像の符号化が困難なシーンでは画質を向上させ,全体としては画質の変動を目立たせなくすることで,主観的な画質を向上させることができるようになる。   According to the present invention, when video is encoded so that an encoded stream obtained by multiplexing video and audio is within a predetermined bit rate range, the image quality is improved in a scene where video encoding is difficult. As a whole, subjective image quality can be improved by making image quality fluctuations less noticeable.

以下,本発明の実施の形態を図面を用いながら詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は,本発明の実施例に係る装置の構成例を示す図である。映像符号化装置10は,映像・音声重畳信号のうち映像信号を入力し,映像信号を符号化して映像ストリームを出力する。音声符号化装置20は,映像・音声重畳信号のうち音声信号を入力し,音声ストリームを出力する。多重化部30は,音声ストリームと映像ストリームとを所定のビットレートとなるように多重化して出力する。   FIG. 1 is a diagram illustrating a configuration example of an apparatus according to an embodiment of the present invention. The video encoding device 10 receives a video signal from the video / audio superimposed signal, encodes the video signal, and outputs a video stream. The audio encoding device 20 inputs an audio signal among the video / audio superimposed signals and outputs an audio stream. The multiplexing unit 30 multiplexes and outputs the audio stream and the video stream so as to have a predetermined bit rate.

本実施例において,音声符号化装置20は,フレーム毎もしくは逐次,音声発生符号量を映像符号化装置10に伝達する機能を持つほかは従来技術と同様に構成できるので,その内部構成についての詳しい説明は省略する。   In this embodiment, the audio encoding device 20 can be configured in the same manner as the prior art except that it has a function of transmitting the audio generation code amount to the video encoding device 10 for each frame or sequentially. Description is omitted.

映像符号化装置10は,映像信号を入力する映像入力部11,入力した映像信号を蓄積する映像入力バッファ12,GOP毎の映像の目標符号量を決定する映像GOP目標符号化量決定部13,映像フレーム毎の目標符号量を決定する映像フレーム目標符号量決定部14,映像信号をフレーム目標符号量に従って符号化する映像フレーム符号化処理部15,映像ストリームを出力する映像ストリーム出力部16,映像ストリームを一時的に蓄積する映像ストリーム出力バッファ17を備える。   The video encoding device 10 includes a video input unit 11 that inputs a video signal, a video input buffer 12 that stores the input video signal, a video GOP target encoding amount determination unit 13 that determines a target code amount of a video for each GOP, Video frame target code amount determination unit 14 that determines a target code amount for each video frame, video frame encoding processing unit 15 that encodes a video signal according to the frame target code amount, video stream output unit 16 that outputs a video stream, and video A video stream output buffer 17 for temporarily storing the stream is provided.

映像GOP目標符号量決定部13は,GOP毎に音声発生符号量から映像符号化に利用することができる余剰符号量を算出する余剰符号量算出部131と,算出した余剰符号量を映像符号化に利用するかどうかを判定する条件判定部132と,条件の判定結果に従ってGOP目標符号量を算出するGOP目標符号量算出部133とを備える。   The video GOP target code amount determination unit 13 performs a surplus code amount calculation unit 131 that calculates a surplus code amount that can be used for video encoding from the audio generation code amount for each GOP, and video encodes the calculated surplus code amount. And a GOP target code amount calculation unit 133 that calculates a GOP target code amount according to the determination result of the condition.

アクティビティ・シーンチェンジ解析部18は,入力映像信号のうち符号化に先立って解析される先行解析対象映像データについて,アクティビティ値の算出もしくはシーンチェンジの有無を検出するものであり,後述する実施例3,4で用いられる。他の実施例では省略することができる。   The activity / scene change analysis unit 18 calculates activity values or detects the presence / absence of a scene change in the video data to be analyzed prior to encoding in the input video signal. , 4 are used. In other embodiments, it can be omitted.

〔実施例1〕
図2は,本発明の実施例1の映像符号化処理のフローチャートである。実施例1では,過去のいくつかの数の映像フレームの平均量子化パラメータQPave (n)が,ある閾値THqp以上の場合に,音声の余剰符号量を映像符号化に利用する。これは,映像符号化に利用できる符号量の不足により平均量子化パラメータQPave (n)がある値以上になると,画質の粗くなる程度が大きくなり,画質向上の必要性が増すとともに,音声の余剰符号量の追加による画質の変動が目立ちにくくなるからである。
[Example 1]
FIG. 2 is a flowchart of the video encoding process according to the first embodiment of the present invention. In the first embodiment, when the average quantization parameter QP ave (n) of several past video frames is equal to or greater than a certain threshold TH qp , the surplus audio code amount is used for video coding. This is because when the average quantization parameter QP ave (n) exceeds a certain value due to a lack of code amount that can be used for video coding, the degree of coarsening of the image increases, the need for improving the image quality increases, This is because the change in image quality due to the addition of the excess code amount is less noticeable.

n番目のGOP(Group Of Pictures) を,GOP(n)とする。映像と音声の符号化は並行して行われる。ただし,本実施例では,GOP(n)の映像フレーム符号化開始より前に,GOP(n)の映像フレームと同一表示期間の音声フレームの符号化が完了しているものとする。   The nth GOP (Group Of Pictures) is GOP (n). Video and audio are encoded in parallel. However, in this embodiment, it is assumed that encoding of an audio frame having the same display period as that of a GOP (n) video frame is completed before the start of GOP (n) video frame encoding.

まず,映像GOP目標符号量決定部13は,以下のステップS101〜S105の処理を実行する。音声符号化装置20から音声発生符号量の情報を受け取り,GOP(n)の映像フレームと同一表示期間の音声フレームj〜j+M−1について,GOP(n)期間の余剰符号量Gr (n)を,次式によって求める(ステップS101)。 First, the video GOP target code amount determination unit 13 executes the following steps S101 to S105. The information on the amount of generated speech code is received from the speech encoding device 20, and the surplus amount of code G r (n) in the GOP (n) period for the speech frames j to j + M−1 in the same display period as the video frame of GOP (n). Is obtained by the following equation (step S101).

r (n)=Σx=j j+M-1 {Samax−Sa (x)}
ここで,Mは,GOP(n)期間の音声フレーム数,Samaxは,各音声フレームの最大発生符号量,Sa (x)は,x番目の音声フレームの発生符号量である。Samaxとしては,あらかじめ定めた値を用いてよい。
G r (n) = Σx = j j + M−1 {S amax −S a (x)}
Here, M is the number of speech frames in the GOP (n) period, S amax is the maximum generated code amount of each speech frame, and S a (x) is the generated code amount of the xth speech frame. A predetermined value may be used as Samax .

次に,過去の数映像フレームの平均量子化パラメータQPave (n)が,ある閾値THqp以上かどうかを判定する(ステップS102)。平均をとる映像フレーム数は任意の数でよく,あらかじめ定められる。平均量子化パラメータQPave (n)が,ある閾値THqp以上の場合には,余剰符号量Gr (n)を超えない範囲で,平均量子化パラメータQPave (n)の閾値THqp超過分に比例して,追加GOP目標符号量Gd (n)を決定する(ステップS103)。この場合のGd (n)は,次式によって求められる。 Next, it is determined whether the average quantization parameter QP ave (n) of the past several video frames is equal to or greater than a certain threshold TH qp (step S102). The number of video frames to be averaged may be any number and is determined in advance. If the average quantization parameter QP ave (n) is greater than or equal to a certain threshold TH qp , the average quantization parameter QP ave (n) exceeds the threshold TH qp within a range not exceeding the surplus code amount G r (n). The additional GOP target code amount G d (n) is determined in proportion to (step S103). In this case, G d (n) is obtained by the following equation.

d (n)=min(Gr (n),a・(QPave (n)−THqp))
min()は,最小値を返す関数であり,aは予め定められた定数である。
G d (n) = min (G r (n), a · (QP ave (n) −TH qp ))
min () is a function that returns a minimum value, and a is a predetermined constant.

一方,平均量子化パラメータQPave (n)が,ある閾値THqp以上でない場合には,追加GOP目標符号量Gd (n)を0とする(ステップS104)。 On the other hand, if the average quantization parameter QP ave (n) is not equal to or greater than a certain threshold TH qp , the additional GOP target code amount G d (n) is set to 0 (step S104).

次に,GOP目標符号量G(n)を,GOP内フレーム数N×基準映像ビットレートR/映像フレームレートPと,追加GOP目標符号量Gd (n)と,前のGOPからの繰越符号量の和で求める(ステップS105)。GOP目標符号量G(n)は,次のようになる。 Next, the GOP target code amount G (n) is calculated as follows: NOP frame number N × reference video bit rate R / video frame rate P, additional GOP target code amount G d (n), and carry-over code from the previous GOP The sum is obtained (step S105). The GOP target code amount G (n) is as follows.

G(n)=N・R/P+Gd (n)+前のGOPからの繰越符号量
なお,基準映像ビットレートRとは,音声フレームの発生符号量が常に最大の場合に確保できる映像ビットレートを指す。
Carryover code amount from G (n) = N · R / P + G d (n) + previous GOP Incidentally, the reference image bit rate R, the video bit rate can be ensured when always maximum amount of codes generated in the speech frame Point to.

次に,映像フレーム目標符号量決定部14および映像フレーム符号化処理部15は,以下に説明するステップS106〜S109の処理を,GOP(n)内のフレームの符号化が終了するまで繰り返す(ステップS110)。   Next, the video frame target code amount determination unit 14 and the video frame encoding processing unit 15 repeat the processing of steps S106 to S109 described below until the encoding of the frame in GOP (n) is completed (step S106). S110).

映像フレーム目標符号量決定部14は,GOP(n)の目標符号量をGOP内の各フレームに対して配分し,次フレームの目標符号量T(i)を求める(ステップS106)。GOP(n)の目標符号量から,次フレームの目標符号量T(i)を算出する方法としては,例えば次の参考文献1に開示されている方法などがあり,周知技術であるため,ここでの詳細な説明は省略する。
[参考文献1]International Organisation for Standardisation, Test Model Editing Committee, 1993, Test Model 5, April, ISO-IEC/JTC1/SC29/WG11/N0400
次に,映像フレーム目標符号量決定部14は,伝送先の映像復号装置におけるデコーダ受信バッファのバッファサイズや転送済みのデータ量から算出したバッファ占有量をもとに,デコーダ受信バッファが破綻しない限界の符号量を求め,目標符号量がその値を超えないようにクリッピングする(ステップS107)。なお,デコーダ受信バッファのバッファサイズが十分大きい場合や,デコードまでの遅延時間を大きくしてもよい場合には,このクリッピングの処理を省略する実施も可能である。
The video frame target code amount determination unit 14 allocates the target code amount of GOP (n) to each frame in the GOP and obtains the target code amount T (i) of the next frame (step S106). As a method for calculating the target code amount T (i) of the next frame from the target code amount of GOP (n), for example, there is a method disclosed in the following reference 1, and this is a well-known technique. The detailed description in is omitted.
[Reference 1] International Organization for Standardization, Test Model Editing Committee, 1993, Test Model 5, April, ISO-IEC / JTC1 / SC29 / WG11 / N0400
Next, the video frame target code amount determination unit 14 determines the limit that the decoder reception buffer will not fail based on the buffer occupancy calculated from the buffer size of the decoder reception buffer and the transferred data amount in the transmission destination video decoding device. Is clipped so that the target code amount does not exceed the value (step S107). If the buffer size of the decoder reception buffer is sufficiently large, or if the delay time until decoding may be increased, the clipping process can be omitted.

映像フレーム符号化処理部15は,映像フレーム目標符号量決定部14が算出した目標符号量に従って,フレームiを符号化する(ステップS108)。なお,インターレースの指定があればフィールド単位で符号化するが,説明を簡単にするため,フィールド単位の符号化の場合も単にフレームの符号化として説明する。   The video frame encoding processing unit 15 encodes the frame i according to the target code amount calculated by the video frame target code amount determining unit 14 (step S108). If interlace is specified, encoding is performed in units of fields. However, in order to simplify the description, the case of encoding in units of fields will be described simply as frame encoding.

フレームの符号化が終了すると,映像フレーム目標符号量決定部14は,GOP(n)の目標符号量から発生符号量S(i)を減算する(ステップS109)。その後,GOP(n)内の全フレームについて符号化が終了したかどうかを判定し,終了していなければ,ステップS106に戻って,全フレームについて符号化が終了まで同様に処理を繰り返す(ステップS110)。   When the frame encoding is completed, the video frame target code amount determination unit 14 subtracts the generated code amount S (i) from the target code amount of GOP (n) (step S109). Thereafter, it is determined whether or not encoding has been completed for all frames in GOP (n). If not, the process returns to step S106, and the same processing is repeated until encoding is completed for all frames (step S110). ).

映像GOP目標符号量決定部13は,GOP開始時のGOP目標符号量G(n)と,GOP発生符号量との差から,次のGOPへの繰越符号量を決定する(ステップS111)。以下,ステップS101に戻って,次のGOPについて同様に符号化処理を行う。   The video GOP target code amount determination unit 13 determines the carry-over code amount to the next GOP from the difference between the GOP target code amount G (n) at the start of GOP and the GOP generated code amount (step S111). Thereafter, the process returns to step S101, and the encoding process is similarly performed for the next GOP.

〔実施例2〕
図3は,本発明の実施例2の映像符号化処理のフローチャートである。実施例2では,過去のいくつかの数の映像フレームの平均量子化ステップQave (n)が,ある閾値THq 以上の場合に,音声の余剰符号量を映像符号化に利用する。これは,映像符号化に利用できる符号量の不足により平均量子化ステップQave (n)がある値以上になると,画質の粗くなる程度が大きくなり,画質向上の必要性が増すとともに,音声の余剰符号量の追加による画質の変動が目立ちにくくなるからである。
[Example 2]
FIG. 3 is a flowchart of the video encoding process according to the second embodiment of the present invention. In the second embodiment, when the average quantization step Q ave (n) of several past video frames is greater than or equal to a certain threshold value TH q , the excess code amount of speech is used for video coding. This becomes a shortage of code amount available for video encoding more than a certain value average quantization step Q ave (n), the extent of a rough picture quality is increased, along with the need for improved image quality increases, the voice This is because the change in image quality due to the addition of the excess code amount is less noticeable.

前述した実施例1と実施例2との違いは,音声の余剰符号量を映像符号化に利用するか否かの条件の判定を,平均量子化パラメータQPave (n)で行うか平均量子化ステップQave (n)で行うかという点である。量子化パラメータと量子化ステップの換算式は,符号化規格によって異なるが,一般に「(符号量)=a/(量子化ステップ)+b」(a,bは定数)で近似できるため,実施例1より実施例2のほうが追加目標符号量の計算精度がよい。 The difference between the first embodiment and the second embodiment described above is that the condition for determining whether or not to use the audio surplus code amount for video coding is determined by the average quantization parameter QP ave (n) or the average quantization. This is whether it is performed in step Q ave (n). Although the conversion formula between the quantization parameter and the quantization step varies depending on the encoding standard, it can be approximated by “(code amount) = a / (quantization step) + b” (a and b are constants) in general. The calculation accuracy of the additional target code amount is better in the second embodiment.

実施例2では,図2に示すフローチャートのうち,ステップS102〜S104が,図3のステップS202〜S204に置き換わり,他の部分については同様であるので,以下では,ステップS202〜S204の部分についてだけ説明する。   In the second embodiment, steps S102 to S104 in the flowchart shown in FIG. 2 are replaced with steps S202 to S204 in FIG. 3 and the other portions are the same. Therefore, only the steps S202 to S204 will be described below. explain.

図2に示すステップS101を実行した後,映像GOP目標符号量決定部13の条件判定部132は,過去の数映像フレームの平均量子化ステップQave (n)が,ある閾値THq 以上かどうかを判定する(ステップS202)。GOP目標符号量算出部133は,平均量子化パラメータQave (n)が閾値THq 以上の場合には,余剰符号量Gr (n)を超えない範囲で,平均量子化パラメータQave (n)の閾値THq 超過分に応じて,追加GOP目標符号量Gd (n)を決定する(ステップS203)。この場合のGd (n)は,次式によって求められる。 After executing step S101 shown in FIG. 2, the condition determination unit 132 of the video GOP target code amount determination unit 13 determines whether the average quantization step Q ave (n) of the past several video frames is greater than a certain threshold TH q . Is determined (step S202). When the average quantization parameter Q ave (n) is greater than or equal to the threshold value TH q, the GOP target code amount calculation unit 133 does not exceed the excess code amount G r (n), and the average quantization parameter Q ave (n ) according to the threshold TH q excess of, determining an additional GOP target code amount G d (n) (step S203). In this case, G d (n) is obtained by the following equation.

d (n)=min(Gr (n),a・(1/THq −1/Qave (n))
min()は,最小値を返す関数であり,aは予め定められた定数である。
G d (n) = min (G r (n), a · (1 / TH q −1 / Q ave (n))
min () is a function that returns a minimum value, and a is a predetermined constant.

一方,平均量子化パラメータQave (n)が閾値THq 以上でない場合には,追加GOP目標符号量Gd (n)を0とする(ステップS204)。 On the other hand, if the average quantization parameter Q ave (n) is not equal to or greater than the threshold TH q , the additional GOP target code amount G d (n) is set to 0 (step S204).

以降の処理は,実施例1における図2のステップS105〜S111と同様である。   The subsequent processing is the same as steps S105 to S111 in FIG.

〔実施例3〕
図4は,本発明の実施例3の映像符号化処理のフローチャートである。実施例3では,これから符号化するGOPのアクティビティ平均値act(n)が,ある閾値THact 以上の場合に,音声の余剰符号量を映像符号化に利用する。これは,アクティビティ平均値act(n)が大きいと発生符号量が増え,画質が粗くなり,画質向上の必要性が増すとともに,音声の余剰符号量の追加による画質の変動が目立ちにくくなるからである。
Example 3
FIG. 4 is a flowchart of the video encoding process according to the third embodiment of the present invention. In the third embodiment, when the activity average value act (n) of the GOP to be encoded is equal to or greater than a certain threshold TH act , the excess audio code amount is used for video encoding. This is because if the activity average value act (n) is large, the amount of generated code increases, the image quality becomes coarse, the need for improving the image quality increases, and the change in image quality due to the addition of the extra code amount of audio becomes less noticeable. is there.

実施例3では,図1に示す映像符号化装置10において,アクティビティ・シーンチェンジ解析部18が設けられ,アクティビティ・シーンチェンジ解析部18は,映像符号化より1GOP分先行して,映像のアクティビティ解析を行い,アクティビティ平均値act(n)を事前に算出する。ここで,アクティビティとは,符号化対象領域の画素値分布の特徴を示すものであり,画素値の変動具合を表す値である。例えばアクティビティは,マクロブロックをさらに分割した小ブロックの分散値の最小値などで定義される。小ブロックの分散値とは,小ブロック内の輝度値の平均値とその小ブロック内の各画素の輝度値との差分の絶対値の総和を取ったものである。   In the third embodiment, an activity / scene change analysis unit 18 is provided in the video encoding apparatus 10 shown in FIG. 1, and the activity / scene change analysis unit 18 precedes the video encoding by 1 GOP and performs video activity analysis. The activity average value act (n) is calculated in advance. Here, the activity indicates the characteristics of the pixel value distribution in the encoding target area, and is a value representing the degree of variation of the pixel value. For example, an activity is defined by a minimum variance value of small blocks obtained by further dividing a macroblock. The variance value of the small block is a sum of absolute values of differences between the average value of the luminance values in the small block and the luminance value of each pixel in the small block.

実施例3では,図2に示すフローチャートのうち,ステップS102〜S104が,図4のステップS302〜S304に置き換わり,他の部分については同様であるので,以下では,ステップS302〜S304の部分についてだけ説明する。   In the third embodiment, steps S102 to S104 in the flowchart shown in FIG. 2 are replaced with steps S302 to S304 in FIG. 4 and the other portions are the same, so only the steps S302 to S304 will be described below. explain.

図2に示すステップS101を実行した後,映像GOP目標符号量決定部13の条件判定部132は,これから符号化するGOPのアクティビティ平均値act(n)が,ある閾値THact 以上かどうかを判定する(ステップS302)。GOP目標符号量算出部133は,アクティビティ平均値act(n)が閾値THact 以上の場合には,余剰符号量Gr (n)を超えない範囲で,アクティビティ平均値act(n)の閾値THact 超過分に比例して,追加GOP目標符号量Gd (n)を決定する(ステップS303)。この場合のGd (n)は,次式によって求められる。 After executing step S101 shown in FIG. 2, the condition determination unit 132 of the video GOP target code amount determination unit 13 determines whether the activity average value act (n) of the GOP to be encoded is equal to or greater than a certain threshold TH act. (Step S302). When the activity average value act (n) is equal to or greater than the threshold TH act , the GOP target code amount calculation unit 133 does not exceed the surplus code amount G r (n), and the threshold TH of the activity average value act (n). The additional GOP target code amount G d (n) is determined in proportion to the excess of act (step S303). In this case, G d (n) is obtained by the following equation.

d (n)=min(Gr (n),a・(act(n)−THact ))
min()は,最小値を返す関数であり,aは予め定められた定数である。
G d (n) = min (G r (n), a · (act (n) −TH act ))
min () is a function that returns a minimum value, and a is a predetermined constant.

一方,アクティビティ平均値act(n)が閾値THact 以上でない場合には,追加GOP目標符号量Gd (n)を0とする(ステップS304)。 On the other hand, if the activity average value act (n) is not equal to or greater than the threshold TH act , the additional GOP target code amount G d (n) is set to 0 (step S304).

以降の処理は,実施例1における図2のステップS105〜S111と同様である。   The subsequent processing is the same as steps S105 to S111 in FIG.

〔実施例4〕
図5は,本発明の実施例4の映像符号化処理のフローチャートである。実施例4では,これから符号化するGOPにシーンチェンジがあった場合に,音声の余剰符号量を映像符号化に利用する。これは,これから符号化するGOPにシーンチェンジがあると,シーンチェンジ直後のフレームにおいて動き補償が当たらず,同じ画質を保つためには,通常より多くの符号量を必要とするためである。
Example 4
FIG. 5 is a flowchart of the video encoding process according to the fourth embodiment of the present invention. In the fourth embodiment, when there is a scene change in the GOP to be encoded, the surplus amount of audio is used for video encoding. This is because if a GOP to be encoded has a scene change, motion compensation is not performed in the frame immediately after the scene change, and a larger amount of code is required than usual in order to maintain the same image quality.

実施例4では,図1に示す映像符号化装置10において,アクティビティ・シーンチェンジ解析部18が設けられ,アクティビティ・シーンチェンジ解析部18は,映像符号化より1GOP分先行して,映像のアクティビティ解析およびシーンチェンジ解析を行い,シーンチェンジの有無と,シーンチェンジがある場合のシーンチェンジフレームのアクティビティactscを事前に求める。 In the fourth embodiment, an activity / scene change analysis unit 18 is provided in the video encoding device 10 shown in FIG. 1, and the activity / scene change analysis unit 18 performs video activity analysis by 1 GOP before video encoding. In addition, scene change analysis is performed to determine in advance the presence / absence of a scene change and the activity act sc of the scene change frame when there is a scene change.

シーンチェンジの検出方法は,例えば次の参考文献2に記載されているような方法など,従来から種々の方法が知られているので,ここでの詳しい説明は省略する。
[参考文献2]大辻,外村,“映像カット自動検出方式の検討”,社団法人映像情報メディア学会,テレビジョン学会技術報告ITEJ Technical Report, Vol.16, No.43(19920710), pp.7-12
実施例4では,図2に示すフローチャートのうち,ステップS102〜S104が,図5のステップS402〜S404に置き換わり,他の部分については同様であるので,以下では,ステップS402〜S404の部分についてだけ説明する。
Various methods for detecting a scene change have been conventionally known, such as the method described in Reference Document 2 below, and will not be described in detail here.
[Reference 2] Otsuki, Tonomura, “Examination of automatic video cut detection method”, The Institute of Image Information and Television Engineers, ITJ Technical Report, Vol.16, No.43 (19920710), pp.7 -12
In the fourth embodiment, steps S102 to S104 in the flowchart shown in FIG. 2 are replaced with steps S402 to S404 in FIG. 5 and the other portions are the same, so only the steps S402 to S404 will be described below. explain.

図2に示すステップS101を実行した後,映像GOP目標符号量決定部13の条件判定部132は,アクティビティ・シーンチェンジ解析部18による解析結果から,これから符号化するGOPにシーンチェンジがあるかどうかを判定する(ステップS402)。GOP目標符号量算出部133は,シーンチェンジがある場合には,余剰符号量Gr (n)を超えない範囲で,シーンチェンジフレームのアクティビティactscに比例して,追加GOP目標符号量Gd (n)を決定する(ステップS403)。この場合のGd (n)は,次式によって求められる。 After executing step S101 shown in FIG. 2, the condition determination unit 132 of the video GOP target code amount determination unit 13 determines from the analysis result by the activity / scene change analysis unit 18 whether there is a scene change in the GOP to be encoded. Is determined (step S402). When there is a scene change, the GOP target code amount calculation unit 133 adds the additional GOP target code amount G d in proportion to the activity act sc of the scene change frame within a range not exceeding the surplus code amount G r (n). (N) is determined (step S403). In this case, G d (n) is obtained by the following equation.

d (n)=min(Gr (n),a・actsc+b))
min()は,最小値を返す関数であり,a,bは予め定められた定数である。
G d (n) = min (G r (n), a · act sc + b))
min () is a function that returns the minimum value, and a and b are predetermined constants.

一方,これから符号化するGOPにシーンチェンジがない場合には,追加GOP目標符号量Gd (n)を0とする(ステップS404)。 On the other hand, if there is no scene change in the GOP to be encoded, the additional GOP target code amount G d (n) is set to 0 (step S404).

以降の処理は,実施例1における図2のステップS105〜S111と同様である。   The subsequent processing is the same as steps S105 to S111 in FIG.

〔実施例5〕
図6は,本発明の実施例5の映像符号化処理のフローチャートである。実施例5では,過去のいくつかの数の映像フレームの目標符号量と発生符号量との差の総和ΔBが,ある閾値THB 以上の場合に,音声の余剰符号量を映像符号化に利用する。これは,目標符号量と発生符号量との差が大きい状態が続く場合には,符号量が不足していると考えられるためである。
Example 5
FIG. 6 is a flowchart of the video encoding process according to the fifth embodiment of the present invention. In the fifth embodiment, when the sum ΔB of the difference between the target code amount and the generated code amount of several past video frames is equal to or greater than a certain threshold TH B , the surplus audio code amount is used for video encoding. To do. This is because it is considered that the code amount is insufficient when the difference between the target code amount and the generated code amount continues.

実施例5では,図2に示すフローチャートのうち,ステップS102〜S104が,図6のステップS502〜S504に置き換わり,他の部分については同様であるので,以下では,ステップS502〜S504の部分についてだけ説明する。   In the fifth embodiment, steps S102 to S104 in the flowchart shown in FIG. 2 are replaced with steps S502 to S504 in FIG. 6 and the other portions are the same, so only the steps S502 to S504 will be described below. explain.

図2に示すステップS101を実行した後,映像GOP目標符号量決定部13の条件判定部132は,過去の数映像フレームの目標符号量と実際の発生符号量との差の総和ΔBが,ある閾値THB 以上かどうかを判定する(ステップS502)。GOP目標符号量算出部133は,差の総和ΔBが閾値THq 以上の場合には,余剰符号量Gr (n)を超えない範囲で,閾値THB 超過分に比例して,追加GOP目標符号量Gd (n)を決定する(ステップS503)。この場合のGd (n)は,次式によって求められる。 After executing step S101 shown in FIG. 2, the condition determination unit 132 of the video GOP target code amount determination unit 13 has the sum ΔB of the difference between the target code amount of the past several video frames and the actual generated code amount. It is determined whether or not the threshold value TH B is exceeded (step S502). When the total difference ΔB is equal to or greater than the threshold value TH q , the GOP target code amount calculation unit 133 adds the additional GOP target in proportion to the excess of the threshold value TH B within a range not exceeding the surplus code amount G r (n). The code amount G d (n) is determined (step S503). In this case, G d (n) is obtained by the following equation.

d (n)=min(Gr (n),a・(ΔB−THB ))
min()は,最小値を返す関数であり,aは予め定められた定数である。
G d (n) = min (G r (n), a · (ΔB−TH B ))
min () is a function that returns a minimum value, and a is a predetermined constant.

一方,差の総和ΔBが閾値THB 以上でない場合には,追加GOP目標符号量Gd (n)を0とする(ステップS504)。 On the other hand, if the total difference ΔB is not equal to or greater than the threshold value TH B , the additional GOP target code amount G d (n) is set to 0 (step S504).

以降の処理は,実施例1における図2のステップS105〜S111と同様である。   The subsequent processing is the same as steps S105 to S111 in FIG.

〔実施例6〕
図7は,本発明の実施例6の映像符号化処理のフローチャートである。実施例6と,前述した実施例1〜5との違いは,余剰符号量算出部131におけるGOP(n)期間の余剰符号量Gr (n)の算出方法である。
Example 6
FIG. 7 is a flowchart of the video encoding process according to the sixth embodiment of the present invention. The difference between the sixth embodiment and the first to fifth embodiments described above is the method of calculating the surplus code amount G r (n) in the GOP (n) period in the surplus code amount calculation unit 131.

実施例6においても,映像と音声の符号化は並行して行われる。ただし,実施例1〜5では,GOP(n)の映像フレームと同一表示期間の音声フレームの発生符号量をもとにGOP(n)期間の余剰符号量Gr (n)を算出するのに対し,実施例6では,GOP(n)の最後の映像フレームよりA個の映像フレーム分だけ前の期間と,同じ長さの同一表示期間の音声フレームの発生符号量をもとに,GOP(n)期間の余剰符号量Gr (n)を算出する。ここで,Aは予め定められた非負の整数である。 Also in the sixth embodiment, video and audio are encoded in parallel. However, in the first to fifth embodiments, the surplus code amount G r (n) in the GOP (n) period is calculated based on the generated code amount of the audio frame in the same display period as the video frame of GOP (n). On the other hand, in the sixth embodiment, based on the generated code amount of the audio frame in the same display period having the same length as that of the A video frame before the last video frame of GOP (n), n) The surplus code amount G r (n) for the period is calculated. Here, A is a predetermined non-negative integer.

したがって,本実施例では,GOP(n)の映像フレーム符号化開始より前に,音声符号化装置20により,このGOP(n)の最後の映像フレームのA映像フレーム前の期間(長さはGOP(n)期間と同じ)と同一表示期間の音声フレームの符号化が完了しているものとする。   Therefore, in this embodiment, before the start of video frame encoding of GOP (n), the audio encoding device 20 makes a period (length is GOP) of the last video frame of GOP (n) before the A video frame. (N) Same as period) It is assumed that the encoding of the audio frame in the same display period is completed.

実施例6は,GOP(n)の映像符号化期間と音声発生符号量算出期間との時間的なずれにより,前述した実施例と比べて余剰符号量Gr (n)の算出精度が多少悪くなる場合があるが,音声を先行して符号化する期間を短くすることが可能になるため,符号化の遅延時間を前述した実施例に比べて短縮することができるようになる。 In the sixth embodiment, the calculation accuracy of the surplus code amount G r (n) is slightly worse than that of the above-described embodiment due to the time lag between the video coding period of GOP (n) and the sound generation code amount calculation period. However, since it is possible to shorten the time period for encoding speech in advance, the encoding delay time can be shortened as compared with the above-described embodiment.

実施例6では,図2に示すフローチャートのうち,ステップS101が,図7のステップS601に置き換わる。   In the sixth embodiment, step S101 in the flowchart shown in FIG. 2 is replaced with step S601 in FIG.

ステップS601では,映像GOP目標符号量決定部13の余剰符号量算出部131が,音声符号化装置20から通知された音声発生符号量の情報をもとに,GOP(n)の映像フレーム期間よりA映像フレーム前の同一長期間と同じ表示期間の音声フレームj〜j+M−1(Mは前記表示期間の音声フレーム数)について,GOP(n)期間の余剰符号量Gr (n)を,次式によって求める。 In step S601, the surplus code amount calculation unit 131 of the video GOP target code amount determination unit 13 starts from the video frame period of GOP (n) based on the information of the audio generation code amount notified from the audio encoding device 20. For audio frames j to j + M−1 (M is the number of audio frames in the display period) in the same display period as the same long period before the A video frame, the surplus code amount G r (n) in the GOP (n) period is Obtained by the formula.

r (n)=Σx=j j+M-1 {Samax−Sa (x)}
ここで,Samaxは,各音声フレームの最大発生符号量,Sa (x)は,x番目の音声フレームの発生符号量である。
G r (n) = Σx = j j + M−1 {S amax −S a (x)}
Here, S amax is the maximum generated code amount of each audio frame, and S a (x) is the generated code amount of the x-th audio frame.

以降の処理は,実施例1における図2のステップS102〜S111と同様であるが,余剰符号量利用条件の判定を,前述した実施例2〜5の方法を用いて実施してもよい。この場合,図2のステップS102〜S104が,実施例2の場合には図3のステップS202〜S204に,実施例3の場合には図4のステップS302〜S304に,実施例4の場合には図5のステップS402〜S404に,実施例5の場合には図6のステップS502〜S504に,さらに置き換わることになる。   The subsequent processing is the same as steps S102 to S111 of FIG. 2 in the first embodiment, but the determination of the surplus code amount use condition may be performed using the method of the second to fifth embodiments described above. In this case, steps S102 to S104 in FIG. 2 are performed in steps S202 to S204 in FIG. 3 in the case of the second embodiment, steps S302 to S304 in FIG. 4 in the case of the third embodiment, and in the case of the fourth embodiment. 5 further replaces steps S402 to S404 in FIG. 5 and, in the case of the fifth embodiment, steps S502 to S504 in FIG.

〔実施例7〕
図8は,本発明の実施例7の映像符号化処理のフローチャートである。実施例7と,前述した実施例1〜6との違いは,前述した実施例1〜6では,音声の余剰符号量を映像符号化に利用していたのに対し,実施例7では,符号化ストリームに重畳する映像ストリーム以外のデータストリームの余剰符号量を,余剰符号量算出部131におけるGOP(n)期間の余剰符号量Gr (n)として算出している点である。
Example 7
FIG. 8 is a flowchart of the video encoding process according to the seventh embodiment of the present invention. The difference between the seventh embodiment and the first to sixth embodiments described above is that, in the first to sixth embodiments described above, the audio extra code amount is used for video coding, whereas in the seventh embodiment, the code is changed. The surplus code amount of the data stream other than the video stream to be superimposed on the encoded stream is calculated as the surplus code amount G r (n) in the GOP (n) period in the surplus code amount calculation unit 131.

本実施例では,GOP(n)の映像フレーム符号化開始より前に,GOP(n)の映像フレームと同一デコード時刻の符号化ストリーム中に多重化するデータのデータビット量が判明しているものとする。この場合の基準映像ビットレートは,データフレームのビット量が常に最大の場合に確保できる映像ビットレートを指す。   In this embodiment, the amount of data bits of data to be multiplexed in the encoded stream at the same decoding time as the video frame of GOP (n) is known before the start of video frame encoding of GOP (n). And The reference video bit rate in this case refers to a video bit rate that can be secured when the bit amount of the data frame is always the maximum.

実施例7では,図2に示すフローチャートのうち,ステップS101が,図8のステップS701に置き換わる。   In the seventh embodiment, step S101 in the flowchart shown in FIG. 2 is replaced with step S701 in FIG.

ステップS701では,映像GOP目標符号量決定部13の余剰符号量算出部131が,GOP(n)の映像フレームのデコード時刻と同一時刻に受信側で必要とされるデータフレームj〜j+M−1(MはGOP(n)と同一期間のデータフレーム数)について,GOP(n)期間の余剰符号量Gr (n)を,次式によって求める。 In step S701, the surplus code amount calculation unit 131 of the video GOP target code amount determination unit 13 uses the data frames j to j + M−1 (required on the receiving side at the same time as the video frame decoding time of GOP (n). For M) (the number of data frames in the same period as GOP (n)), the surplus code amount G r (n) in the GOP (n) period is obtained by the following equation.

r (n)=Σx=j j+M-1 {Sdmax−Sd (x)}
ここで,Sdmaxは,各データフレームの最大発生符号量,Sd (x)は,x番目のデータフレームの発生符号量である。
G r (n) = Σx = j j + M−1 {S dmax −S d (x)}
Here, S dmax is the maximum generated code amount of each data frame, and S d (x) is the generated code amount of the x-th data frame.

以降の処理は,実施例1における図2のステップS102〜S111と同様であるが,実施例6の場合と同じように,余剰符号量利用条件の判定を,実施例2〜5の方法を用いて行ってもよい。   The subsequent processing is the same as steps S102 to S111 in FIG. 2 in the first embodiment. However, as in the sixth embodiment, the surplus code amount use condition is determined using the method of the second to fifth embodiments. You may go.

以上の映像符号化の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。   The above video encoding processing can be realized by a computer and a software program, and the program can be recorded on a computer-readable recording medium or provided through a network.

本発明の実施例に係る装置の構成例を示す図である。It is a figure which shows the structural example of the apparatus which concerns on the Example of this invention. 本発明の実施例1の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 1 of this invention. 本発明の実施例2の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 2 of this invention. 本発明の実施例3の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 3 of this invention. 本発明の実施例4の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 4 of this invention. 本発明の実施例5の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 5 of this invention. 本発明の実施例6の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 6 of this invention. 本発明の実施例7の映像符号化処理のフローチャートである。It is a flowchart of the video encoding process of Example 7 of this invention. 本発明の課題を説明する図である。It is a figure explaining the subject of this invention.

符号の説明Explanation of symbols

10 映像符号化装置
11 映像入力部
12 映像入力バッファ
13 映像GOP目標符号化量決定部
131 余剰符号量算出部
132 条件判定部
133 GOP目標符号量算出部
14 映像フレーム目標符号量決定部
15 映像フレーム符号化処理部
16 映像ストリーム出力部
17 映像ストリーム出力バッファ
18 アクティビティ・シーンチェンジ解析部
20 音声符号化装置
30 多重化部
DESCRIPTION OF SYMBOLS 10 Video coding apparatus 11 Video input part 12 Video input buffer 13 Video GOP target coding amount determination part 131 Surplus code amount calculation part 132 Condition determination part 133 GOP target code amount calculation part 14 Video frame target code amount determination part 15 Video frame Encoding processing unit 16 Video stream output unit 17 Video stream output buffer 18 Activity / scene change analysis unit 20 Audio encoding device 30 Multiplexing unit

Claims (8)

映像符号化データと音声符号化データとを多重化した符号化ストリームが所定のビットレートの範囲内になるように,映像の符号量を制御する映像符号量制御方法であって,
符号化済みの音声発生符号量から映像符号化制御単位の期間における音声の余剰符号量を算出する過程と,
前記余剰符号量を映像符号化制御単位における目標符号量に加えるかどうかの,あらかじめ定められた映像の発生符号量に影響する映像の特徴または符号化の条件を判定する過程と,
前記条件が満たされると判定された場合に,前記余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,前記条件が満たされないと判定された場合に,前記余剰符号量を映像符号化制御単位における目標符号量に加えないで,次に符号化する映像符号化制御単位における目標符号量を決定する過程と,
前記決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する過程とを有する
ことを特徴とする映像符号量制御方法。
A video code amount control method for controlling a video code amount so that an encoded stream obtained by multiplexing video encoded data and audio encoded data falls within a predetermined bit rate range,
A process of calculating a surplus code amount of audio in a period of a video encoding control unit from a coded audio generation code amount;
Determining whether or not to add a surplus code amount to a target code amount in a video encoding control unit, and determining a video feature or encoding condition that affects a predetermined generated video amount;
When it is determined that the condition is satisfied, a part or all of the excess code amount is added to the target code amount in the video encoding control unit, and when it is determined that the condition is not satisfied, the excess code amount Determining the target code amount in the video encoding control unit to be encoded next, without adding to the target code amount in the video encoding control unit;
A video code amount control method comprising: encoding a video signal in a video encoding control unit according to the determined target code amount.
請求項1に記載の映像符号量制御方法において,
前記条件は,過去の所定数の映像フレームの平均量子化パラメータが所定の閾値以上であるという条件,または過去の所定数の映像フレームの平均量子化ステップが所定の閾値以上であるという条件,またはこれから符号化する映像符号化制御単位のアクティビティ平均値が所定の閾値以上であるという条件,またはこれから符号化する映像符号化制御単位にシーンチェンジがあるという条件,または過去の所定数の映像フレームの目標符号量と発生符号量との差の総和が所定の閾値以上であるという条件である
ことを特徴とする映像符号量制御方法。
In the video code amount control method according to claim 1,
The condition is that the average quantization parameter of a predetermined number of past video frames is greater than or equal to a predetermined threshold, or that the average quantization step of a past predetermined number of video frames is greater than or equal to a predetermined threshold, or The condition that the average activity value of the video encoding control unit to be encoded is greater than or equal to a predetermined threshold, the condition that there is a scene change in the video encoding control unit to be encoded, or the past predetermined number of video frames A video code amount control method, characterized in that the total sum of the differences between the target code amount and the generated code amount is equal to or greater than a predetermined threshold.
請求項1または請求項2に記載の映像符号量制御方法において,
前記音声の余剰符号量を,前記映像符号化制御単位と同一表示期間の音声符号化制御単位群における,各音声符号化制御単位の所定の最大発生符号量と実際の発生符号量との差の総和から算出する
ことを特徴とする映像符号量制御方法。
In the video code amount control method according to claim 1 or 2,
The surplus code amount of the audio is determined as a difference between a predetermined maximum generated code amount of each audio encoding control unit and an actual generated code amount in the audio encoding control unit group in the same display period as the video encoding control unit. A video code amount control method, characterized by being calculated from a sum.
請求項1または請求項2に記載の映像符号量制御方法において,
前記音声の余剰符号量を,前記映像符号化制御単位より所定の映像フレーム数だけ前の前記映像符号化制御単位と同じ長さの期間の映像フレーム群と同一表示期間の音声符号化制御単位群における,各音声符号化制御単位の所定の最大発生符号量と実際の発生符号量との差の総和から算出する
ことを特徴とする映像符号量制御方法。
In the video code amount control method according to claim 1 or 2,
The audio encoding control unit group having the same display period as the video frame group having the same length as the video encoding control unit preceding the video encoding control unit by a predetermined number of video frames. A video code amount control method, comprising: calculating a sum of differences between a predetermined maximum generated code amount and an actual generated code amount in each audio encoding control unit.
映像符号化データと他の符号化データとを多重化した符号化ストリームが所定のビットレートの範囲内になるように,映像の符号量を制御する映像符号量制御方法であって,
符号化済みの前記他の符号化データの発生符号量から映像符号化制御単位の期間における前記他の符号化データの余剰符号量を算出する過程と,
前記余剰符号量を映像符号化制御単位における目標符号量に加えるかどうかの,あらかじめ定められた映像の発生符号量に影響する映像の特徴または符号化の条件を判定する過程と,
前記条件が満たされると判定された場合に,前記余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,前記条件が満たされないと判定された場合に,前記余剰符号量を映像符号化制御単位における目標符号量に加えないで,次に符号化する映像符号化制御単位における目標符号量を決定する過程と,
前記決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する過程とを有する
ことを特徴とする映像符号量制御方法。
A video code amount control method for controlling a video code amount so that an encoded stream obtained by multiplexing video encoded data and other encoded data is within a predetermined bit rate range,
Calculating a surplus code amount of the other encoded data in a period of a video encoding control unit from a generated code amount of the other encoded data that has been encoded;
Determining whether or not to add a surplus code amount to a target code amount in a video encoding control unit, and determining a video feature or encoding condition that affects a predetermined generated video amount;
When it is determined that the condition is satisfied, a part or all of the excess code amount is added to the target code amount in the video encoding control unit, and when it is determined that the condition is not satisfied, the excess code amount Determining the target code amount in the video encoding control unit to be encoded next, without adding to the target code amount in the video encoding control unit;
A video code amount control method comprising: encoding a video signal in a video encoding control unit according to the determined target code amount.
映像符号化データと音声符号化データとを多重化した符号化ストリームが所定のビットレートの範囲内になるように,映像の符号量を制御し,映像信号を符号化する映像符号化装置であって,
符号化済みの音声発生符号量を取得し,映像符号化制御単位の期間における音声の余剰符号量を算出する手段と,
前記余剰符号量を映像符号化制御単位における目標符号量に加えるかどうかの,あらかじめ定められた映像の発生符号量に影響する映像の特徴または符号化の条件を判定する手段と,
前記条件が満たされると判定された場合に,前記余剰符号量の一部または全部を映像符号化制御単位における目標符号量に加え,前記条件が満たされないと判定された場合に,前記余剰符号量を映像符号化制御単位における目標符号量に加えないで,次に符号化する映像符号化制御単位における目標符号量を決定する手段と,
前記決定された目標符号量に従って,映像符号化制御単位における映像信号を符号化する手段とを備える
ことを特徴とする映像符号化装置。
A video encoding device that controls the amount of video code and encodes a video signal so that an encoded stream obtained by multiplexing video encoded data and audio encoded data falls within a predetermined bit rate range. And
Means for obtaining an encoded audio generation code amount and calculating a surplus code amount of audio in a period of a video encoding control unit;
Means for determining whether or not to add a surplus code amount to a target code amount in a video encoding control unit, a video feature or encoding condition that affects a predetermined generated code amount of video;
When it is determined that the condition is satisfied, a part or all of the excess code amount is added to the target code amount in the video encoding control unit, and when it is determined that the condition is not satisfied, the excess code amount Means for determining the target code amount in the video encoding control unit to be encoded next, without adding to the target code amount in the video encoding control unit;
A video encoding device, comprising: means for encoding a video signal in a video encoding control unit according to the determined target code amount.
請求項1から請求項5までのいずれか1項に記載の映像符号量制御方法を,コンピュータに実行させるための映像符号量制御プログラム。   A video code amount control program for causing a computer to execute the video code amount control method according to any one of claims 1 to 5. 請求項1から請求項5までのいずれか1項に記載の映像符号量制御方法を,コンピュータに実行させるための映像符号量制御プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium having recorded thereon a video code amount control program for causing a computer to execute the video code amount control method according to any one of claims 1 to 5.
JP2008309277A 2008-12-04 2008-12-04 Video code amount control method, video encoding device, video code amount control program, and recording medium therefor Active JP4755239B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008309277A JP4755239B2 (en) 2008-12-04 2008-12-04 Video code amount control method, video encoding device, video code amount control program, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008309277A JP4755239B2 (en) 2008-12-04 2008-12-04 Video code amount control method, video encoding device, video code amount control program, and recording medium therefor

Publications (2)

Publication Number Publication Date
JP2010136037A true JP2010136037A (en) 2010-06-17
JP4755239B2 JP4755239B2 (en) 2011-08-24

Family

ID=42346884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008309277A Active JP4755239B2 (en) 2008-12-04 2008-12-04 Video code amount control method, video encoding device, video code amount control program, and recording medium therefor

Country Status (1)

Country Link
JP (1) JP4755239B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013255208A (en) * 2012-02-01 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> Video encoding device, video encoding method and video encoding program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (en) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd Bit rate control system
JPH1118090A (en) * 1997-06-19 1999-01-22 Victor Co Of Japan Ltd Variable rate coder
JP2008193202A (en) * 2007-02-01 2008-08-21 Nec Corp Video/audio band control system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (en) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd Bit rate control system
JPH1118090A (en) * 1997-06-19 1999-01-22 Victor Co Of Japan Ltd Variable rate coder
JP2008193202A (en) * 2007-02-01 2008-08-21 Nec Corp Video/audio band control system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013255208A (en) * 2012-02-01 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> Video encoding device, video encoding method and video encoding program

Also Published As

Publication number Publication date
JP4755239B2 (en) 2011-08-24

Similar Documents

Publication Publication Date Title
US20190297347A1 (en) Picture-level rate control for video encoding
KR100329892B1 (en) Control strategy for dynamically encoding multiple streams of video data in parallel for multiplexing onto a constant bit rate channel
US8588296B2 (en) Bitrate control algorithm for video transcoding systems
US6522693B1 (en) System and method for reencoding segments of buffer constrained video streams
US5719632A (en) Motion video compression system with buffer empty/fill look-ahead bit allocation
US6678322B1 (en) Video data coding device, video data coding method, video data transmitting device, and video data recording medium
US5677969A (en) Method, rate controller, and system for preventing overflow and underflow of a decoder buffer in a video compression system
US8194735B2 (en) Video encoding apparatus and video encoding method
EP2160903B1 (en) A buffer-based rate control exploiting frame complexity, buffer level and position of intra frames in video coding
US8804825B2 (en) Bi-pred mode decision in GOP architecture
US6982762B1 (en) Sequence adaptive bit allocation for pictures encoding
US7095784B2 (en) Method and apparatus for moving picture compression rate control using bit allocation with initial quantization step size estimation at picture level
US9516328B2 (en) Method and apparatus for rate control accuracy in video encoding
US6714592B1 (en) Picture information conversion method and apparatus
US20020085636A1 (en) Picture coding method, picture coding apparatus and image relaying apparatus
US7373004B2 (en) Apparatus for constant quality rate control in video compression and target bit allocator thereof
US9071846B2 (en) Moving picture encoding method and apparatus for performing a multi-frame motion prediction with reference to a plurality of picture frames
US6879632B1 (en) Apparatus for and method of variable bit rate video coding
Sun et al. A robust and adaptive rate control algorithm for object-based video coding
US7965768B2 (en) Video signal encoding apparatus and computer readable medium with quantization control
US8081679B2 (en) Image processing apparatus
US6226326B1 (en) Coding device and coding method
JP4755239B2 (en) Video code amount control method, video encoding device, video code amount control program, and recording medium therefor
US7133448B2 (en) Method and apparatus for rate control in moving picture video compression
US20040233984A1 (en) Apparatus for variable bit rate control in video compression and target bit allocator thereof

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4755239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350