JP3923783B2 - Encoding device and decoding device - Google Patents
Encoding device and decoding device Download PDFInfo
- Publication number
- JP3923783B2 JP3923783B2 JP2001337869A JP2001337869A JP3923783B2 JP 3923783 B2 JP3923783 B2 JP 3923783B2 JP 2001337869 A JP2001337869 A JP 2001337869A JP 2001337869 A JP2001337869 A JP 2001337869A JP 3923783 B2 JP3923783 B2 JP 3923783B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- spectrum
- data
- encoding
- spectrum data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、デジタル音響データの高音質符号化及び復号化技術に関する。
【0002】
【従来の技術】
現在、音声データを圧縮符号化する様々な音声圧縮方式が開発されている。MPEG−2 Advanced Audio Coding(以下、AACと略称する)もその方式の一つである。AACの詳細は、「ISO/IEC 13818−7(MPEG−2 Advanced Audio Coding、AAC)」という規格書に記載されている。
【0003】
先ず従来の符号化及び復号化手順を、図22を用いて説明する。図22は、従来のMPEG−2 AAC方式による符号化装置300及び復号化装置400の構成を示すブロック図である。符号化装置300は、入力された音響信号をMPEG−2 AAC符号化方式に基づいて圧縮符号化する装置であって、音響信号入力部310、変換部320、量子化部331、符号化部332及びストリーム出力部340から構成される。
【0004】
音響信号入力部310は、例えば、44.1kHzのサンプリング周波数で、入力信号であるデジタル音響データを連続した1024サンプルごとに切り出す。なお、この1024サンプルの符号化単位を「フレーム」という。
【0005】
変換部320は、音響信号入力部310によって切り出された時間軸上のサンプルデータを、MDCTによって周波数軸上のスペクトルデータに変換する。なお、この時点で変換された1024サンプルのスペクトルデータは、複数のグループに分類される。前記各グループは、複数のグループのそれぞれに、1サンプル以上のスペクトルデータが含まれるように設定される。また、この各グループは、人間の聴覚におけるクリティカルバンドを擬似している。各グループのそれぞれを「スケールファクターバンド」という。
【0006】
量子化部331は、変換部320から得られたスペクトルデータを所定ビット数で量子化する。MPEG−2 AACでは、スケールファクターバンドごとに1つの正規化係数を用いて、スケールファクターバンド内のスペクトルデータを量子化する。この正規化係数のことを「スケールファクター」という。また、各スペクトルデータを各スケールファクターで量子化した結果を「量子化値」という。符号化部332は、量子化部331で量子化されたデータ、すなわち、各スケールファクターと、それを用いて量子化されたスペクトルデータとをストリーム用のフォーマットにハフマン符号化する。この際に、符号化部332は、1フレームにおいて前後に隣接するスケールファクターバンドのスケールファクターの差分を求め、その差分と先頭スケールファクターバンドのスケールファクターとをハフマン符号化する。
【0007】
ストリーム出力部340は、符号化部332から得られた符号化信号を、MPEG−2 AACビットストリームに変換し、出力する。符号化装置300から出力されたビットストリームは、伝送媒体を介して復号化装置400に伝送されたり、CDやDVD等の光ディスク、半導体、ハードディスク等の記録媒体に記録されたりする。
【0008】
復号化装置400は、符号化装置300によって符号化されたビットストリームを復号化する装置であって、ストリーム入力部410、復号化部421、逆量子化部422、逆変換部430及び音響信号出力部440から構成される。
【0009】
ストリーム入力部410は、符号化装置300によって符号化されたビットストリームを伝送媒体を介して、あるいは、記録媒体から再生して入力し、入力したビットストリームから符号化信号を取り出す。復号化部421は、取り出された符号化信号をストリーム用のフォーマットから量子化データに復号化する。
【0010】
逆量子化部422は、復号化部421で復号化された量子化データを逆量子化する。MPEG−2 AACでは、ハフマン符号化されたデータを復号化する。逆変換部430は、逆量子化部422で得られた周波数軸上のスペクトルデータを、時間軸上のサンプルデータに変換する。MPEG−2 AACでは、IMDCT(Inverse Modified Discrete Cosine Transform)を用いて変換する。音響信号出力部440は、逆変換部430で得られた時間軸上のサンプルデータを順次組み合わせ、デジタル音響データとして出力する。
【0011】
【発明が解決しようとする課題】
上記方式においては、音響データの符号化において、入力された音響データの音質がどの程度保持されるかを表す1つの目安として、符号化後の再生帯域がある。例えば入力信号のサンプリング周波数が44.1kHzの時、再生帯域は22.05kHzとなり、この22.05kHz分、又は22.05kHzに近い広帯域なデータを劣化させることなく効率的に符号化し、かつ符号化結果の全データを転送レートの範囲内で復号化装置に転送しきることによって、復号化装置において高音質な音響信号を得ることができる。すなわち、符号化装置側では高音質な符号化を達成することができる。しかし、再生帯域の広さはスペクトルデータの数に影響し、スペクトルデータの数は情報量に影響する。例えば入力信号のサンプリング周波数が44.1kHzの時、1024サンプルのスペクトルデータが22.05kHz分のデータに対応し、22.05kHzの再生帯域を確保するためには、1024サンプルのスペクトルデータ全てを伝送する必要がある。
【0012】
ところが、携帯電話等の低転送レートの伝送路を考慮すると、実際に1024サンプルのスペクトルデータ全てを伝送することは、データ量が大きすぎて現実的ではない。つまり、転送レートに合わせたデータ量で、この再生帯域の全スペクトルデータを転送しようとすると、各周波数帯域に割り当てることができる情報量がわずかとなり、その結果、量子化ノイズによる影響が大きくなり、符号化による音質劣化を招く。
【0013】
このため、MPEG−2 AACに限らず、多くの音響信号符号化方式においては、スペクトルデータに聴覚的重み付けを行い、優先度の低いデータは伝送しないことにより、効率的な音響信号の伝送を実現している。これに従えば、再生帯域に関しては、聴覚的に優先度の高い低域部の符号化精度を向上させるため、低域部の符号化情報に十分なデータ量を割り当て、優先度の低い高域部は伝送対象外とされる確率が高い。
【0014】
しかしながら、MPEG−2 AAC方式においてはこのような工夫がなされているにもかかわらず、音響信号の符号化に対して、さらなる高品質化、圧縮効率の向上が求められている。つまり、低転送レートであっても、高域部の音響信号を伝送することの要望が高まってきている。
【0015】
本発明の目的は、符号化後の情報量を大幅に増加させることなく音響信号の高音質な符号化及びその復号化を実現できる符号化装置及び復号化装置を提供することである。
【0016】
【課題を解決するための手段】
上記目的を達成するために本発明の符号化装置は、入力された音響信号を符号化する符号化装置であって、一定時間分の入力音響信号を変換して得られる複数のグループに分けられたスペクトルデータから、前記各グループ内のスペクトルデータを正規化する正規化係数と、前記正規化係数を用いて前記各グループ内の前記各スペクトルデータを量子化して得られる量子化値と、前記各スペクトルデータの正負を表す正または負の符号と、前記各スペクトルデータの周波数軸上の位置とを含む4種類の情報で表された周波数の低域部データを符号化する第1符号化手段と、周波数高域部の前記各グループにおける前記スペクトルデータに近似した低域部スペクトルデータを特定する情報と、特定された前記低域部スペクトルデータを整形するための情報として、高域部スペクトルデータの特徴を、前記4種類の情報のうち、1種類以上3種類以下の情報で表した整形のための情報とを含む補助情報を生成する補助情報生成手段と、生成された前記補助情報を符号化する第2符号化手段と、前記第1符号化手段によって符号化されたデータと、前記第2符号化手段によって符号化されたデータとを出力する出力手段とを備えることを特徴とする。本発明の上記符号化装置において、補助情報生成手段は、一定時間分の入力音響信号を変換して得られる複数のグループに分けられたスペクトルデータのうち、周波数の高域部の特徴を、低域部より少ない情報で表した補助情報を生成し、第2符号化手段は、生成された前記補助情報を符号化する。
【0017】
上記目的を達成するために本発明の復号化装置は、一定時間分の入力音響信号を変換して得られる複数のグループに分けられたスペクトルデータから、前記各グループ内のスペクトルデータを正規化するための正規化係数と、前記正規化係数を用いて前記各グループの前記各スペクトルデータを量子化して得られる量子化値と、前記各スペクトルデータの正負を表す正または負の符号と、前記各スペクトルデータの周波数軸上の位置とを含む4種類の情報で表された、周波数の低域部データを符号化して得られた第1符号化データと、周波数高域部の前記各グループにおける前記スペクトルデータに近似した低域部スペクトルデータを特定する情報と、特定された前記低域部スペクトルデータを整形するための情報として、高域部スペクトルデータの特徴を、前記4種類の情報のうち、1種類以上3種類以下の情報で表した整形のための情報とを含む補助情報を符号化して得られた第2符号化データとを含む符号化データを入力し、復号化する復号化装置であって、入力符号化データから前記第2符号化データを分離する符号化データ分離手段と、入力符号化データ中の前記第1符号化データを復号化し、周波数の低域部を表すスペクトルデータを出力する第1復号化手段と、入力された符号化データから分離された前記第2符号化データを復号化し、前記補助情報中の前記低域部スペクトルデータを特定する情報に基づいて、前記第1復号化手段によって出力された前記スペクトルデータのうち、特定された低域部スペクトルデータを高域部の前記各グループにコピーし、前記補助情報中の前記整形のための情報に基づいて、コピーされたスペクトルデータを整形することによって周波数の高域部を表すスペクトルデータを生成し、出力する第2復号化手段と、前記第1復号化手段によって出力されたスペクトルデータと、前記第2復号化手段によって出力されたスペクトルデータとを合成して変換し、時間軸上の音響信号として出力する音響信号出力手段とを備えることを特徴とする。本発明の上記復号化装置において、符号化データ分離手段は、入力符号化データから前記第2符号化データを分離し、第2復号化手段は、分離された前記第2符号化データを復号化して前記低域部スペクトルデータを特定する情報と整形のための情報とを含む前記補助情報を生成し、生成された前記補助情報に基づいて周波数の高域部を表すスペクトルデータを生成し、出力する。
【0018】
なお、本発明は、本発明の符号化装置を備える送信装置と本発明の復号化装置を備える受信装置とからなる放送システムとして実現したり、それら符号化装置及び復号化装置の特徴的な構成要素を処理ステップとする符号化方法及び復号化方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのプログラムをCD−ROM等のコンピュータ読み取り可能な記録媒体や通信路等の伝送媒体を介して流通させることができることは言うまでもない。
【0019】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態における符号化装置100及び復号化装置200について詳細に説明する。また本発明の実施の形態においては、従来方式としてMPEG−2 AACを例にとって説明を行う。図1は、本発明の実施の形態における符号化装置100及び復号化装置200の構成を示すブロック図である。
<符号化装置100>
【0020】
符号化装置100は、入力された音響信号の低域部をMPEG−2 AAC符号化方式に基づいて圧縮符号化するとともに、高域部の音響信号の特徴を表す補助情報を生成し、それを圧縮符号化して、前記低域部の符号化ビットストリームに組み込んで出力する装置であって、音響信号入力部110、変換部120、第1の量子化部131、第1の符号化部132、第2の量子化部133、第2の符号化部134及びストリーム出力部140から構成される。
【0021】
音響信号入力部110は、周波数44.1kHzのサンプリング周波数でサンプリングされたMPEG−2 AACと同様の入力信号であるデジタル音響データを、約22.7msec(1024サンプルごと)のサイクルで、その前後の512サンプルをオーバーラップさせて切り出す。
【0022】
変換部120は、従来と同様、音響信号入力部110によって切り出された時間軸上のサンプルデータを、周波数軸上のスペクトルデータに変換する。MPEG−2 AACでは、MDCT(Modified Discrete Cosine Transform)を用いて、入力信号1024点を前後512サンプルのデータとオーバーラップさせて2048サンプルの時間軸データを、2048サンプルのスペクトルデータに変換するが、MDCTでは左右対称なスペクトルデータとなるため、片方の1024サンプルのみ符号化すればよい。
【0023】
さらに、変換部120は、変換された1024サンプルのスペクトルデータを、それぞれ1サンプル以上(実用的には4の倍数)のスペクトルデータを含む複数のスケールファクターバンドに分類する。このスケールファクターバンドは、この規格において、各スケールファクターバンドに含まれるサンプル(スペクトルデータ)数が周波数に応じて定められており、低域部においては少数のサンプルごとに細かく区切られ、高域部になるほど多数のサンプルを含むよう大きく区切られている。MPEG−2 AACにおいては、1フレームのスペクトルデータに対応するスケールファクターバンドの数もサンプリング周波数に応じて定められている。例えば、サンプリング周波数が44.1kHzの場合は、1フレームに含まれるスケールファクターバンドの数は49個であり、49個のスケールファクターバンドの中に1024サンプルのスペクトルデータが含まれている。一方、このように定められたスケールファクターバンドのうち、どのスケールファクターバンドを伝送するかは特に規定されておらず、伝送路の転送レートに応じて、最も好ましいスケールファクターバンドを選択して伝送すればよい。例えば、伝送路の転送レートが96kbpsの場合、1フレームのうちの低域部40スケールファクターバンド(640サンプル)のみを選択して伝送するようにしてもよい。
【0024】
なお、本実施の形態においては、変換部120が、変換後のスペクトルデータを、独自に定めた区切り方及び数のスケールファクターバンドに分類した場合について説明する。
【0025】
第1の量子化部131は、変換部120の出力するスペクトルデータを入力し、入力されたスペクトルデータの低域部の各スケールファクターバンドにつき、それぞれスケールファクターを決定するとともに、決定したスケールファクターでそのスケールファクターバンド内のスペクトルを量子化し、量子化結果である量子化値を第1の符号化部132に出力する。例えばこの場合、入力信号のサンプリング周波数が44.1kHzであるから、再生帯域は22.05kHzとなるが、このうちの低域部、例えば11.025kHz以下の帯域について、各スケールファクターにおいてスペクトルデータから得られる量子化値が例えば4ビット以下の数値で表されるように、スケールファクターを計算し、そのスケールファクターを用いてスケールファクターバンド内の各スペクトルを正規化した後に量子化する。
【0026】
第1の符号化部132は、第1の量子化部131で量子化されたデータ、すなわち、全スペクトルデータのうち、低域部側の512サンプルに対応する各スケールファクターバンド内の量子化値及びその量子化に用いられたスケールファクターなどを、第1の符号化信号としてハフマン符号化して所定のストリーム用のフォーマットに変換する。
【0027】
第2の量子化部133は、変換部120の出力するスペクトルデータを入力し、第1の量子化部131において量子化されない帯域、すなわち11.025kHzを超える高域部の補助情報のみを計算して出力する。
【0028】
補助情報とは、高域部のスペクトルデータに基づいて計算され、従来の方式であれば伝送されない高域部の音響信号を表す簡略化された情報をいう。つまり、一定時間分の入力音響信号を変換して得られるスペクトルデータのうち、周波数の高域部の特徴を表す情報であって、具体的には、高域部のスケールファクターバンド内で絶対最大スペクトルデータ(絶対値が最大となるスペクトルデータ)の量子化値を1にするような、スケールファクターバンドごとのスケールファクター及びその量子化値であり、また、各スケールファクターバンド内での絶対最大スペクトルデータの位置であり、高域部の各スケールファクターバンドに共通するスケールファクターを定めた場合のスケールファクターバンドごとの絶対最大スペクトルデータの量子化値であり、高域部においてあらかじめ定めた位置のスペクトルの正負を示す符号であり、さらに、高域部のスペクトルに相似した低域部のスペクトルをコピーして高域部のスペクトルを表す場合のコピー方法を示す情報などである。またさらに、前記のような補助情報中に、高域部のみに限らず、低域部から高域部に渡って混入されているホワイトノイズなどの振幅を示す雑音情報などを加えておいてもよい。
【0029】
第2の符号化部134は、第2の量子化部133が出力した補助情報を所定のストリーム用のフォーマットにハフマン符号化し、第2の符号化情報として出力する。
【0030】
ストリーム出力部140は、第1の符号化部132から出力される第1の符号化信号にヘッダ情報及びその他必要に応じた副情報を付加してMPEG−2 AACの符号化ビットストリームに変換し、かつ第2の符号化部134から出力された第2の符号化信号を、上記ビットストリーム中の従来の復号化装置では無視される又はその動作が規定されていない領域に格納する。
【0031】
具体的には、ストリーム出力部140は、第2の符号化部134から出力される符号化信号を、MPEG−2 AACの符号化ビットストリームにおけるFill ElementやData Stream Elementに格納する。符号化装置100から出力されたビットストリームは伝送媒体を介して復号化装置200に伝送されたり、CDやDVD等の光ディスク、半導体、ハードディスク等の記録媒体に記録されたりする。
【0032】
なお、MPEG−2 AACでは入力の音響信号に応じて、MDCTの変換長を変更することができる。変換長が2048サンプルのものをLONGブロック、変換長が256サンプルのものをSHORTブロックといい、これらをまとめてブロックサイズという。本説明は特に断りのない限りLONGブロックについて行うが、SHORTブロックにおいても同様の処理が行える。
【0033】
なおまた実際のMPEG−2 AACの符号化処理では、Gain ControlやTNS(TEMPORAL NOISE SHAPING)、聴覚心理モデル、M/S Stereo、Intensity Stereo、Prediction等のツール利用、及びブロックサイズの切り替え、ビットリザーバー等を使用する場合がある。
<復号化装置200>
【0034】
復号化装置200は、入力された符号化ビットストリームから前記補助情報に基づいて高域部の付加された広帯域の音響データを復元する装置であって、ストリーム入力部210、第1の復号化部221、第1の逆量子化部222、第2の復号化部223、第2の逆量子化部224、逆量子化データ合成部225、逆変換部230及び音響信号出力部240から構成される。
【0035】
ストリーム入力部210は、伝送媒体を介したり、記録媒体から再生したりして符号化装置100において生成されたビットストリームを入力し、従来の復号化装置が復号するべき領域に格納されている第1の符号化信号と、従来の復号化装置が無視するかまたはその情報に対する動作が規定されていない領域に格納されている第2の符号化信号とを取り出して、それぞれ第1の復号化部221と第2の復号化部223とに出力する。
【0036】
第1の復号化部221は、ストリーム入力部210の出力する第1の符号化信号を入力し、ハフマン符号化されたデータをストリーム用のフォーマットから量子化データに復号化する。第1の逆量子化部222は、第1の復号化部221により復号化された量子化データを逆量子化し、低域部のスペクトルデータを出力する。ここで、第1の逆量子化部222が出力するスペクトルデータのサンプル数は512サンプル(最大サンプル数は1024)であり、これらは11.025kHzの再生帯域(最大再生帯域22 . 05kHz)を表す。
【0037】
第2の復号化部223は、ストリーム入力部210の出力する第2の符号化信号を入力し、入力された第2の符号化信号を復号して補助情報を出力する。第2の逆量子化部224は、第1の逆量子化部222から出力されたスペクトルデータをもとにあらかじめ決められた手順でノイズ、例えば、低域部スペクトルデータの一部または全部のコピー、あるいはホワイトノイズまたはピンクノイズなどを生成し、かつ第2の復号化部223の出力する補助情報をもとに上記ノイズを整形して、高域部のスペクトルデータを出力する。
【0038】
具体的には、第2の逆量子化部224は、第1の逆量子化部222によって出力される低域部のスペクトルデータを高域部にコピーしておき、高域部のスケールファクターバンド毎に、バンド内にコピーされたスペクトルデータの絶対最大値と、量子化値「1」を補助情報に記述されているそのバンドに対応するスケールファクター値を用いて逆量子化した値との比率を係数として、バンド内の各スペクトルデータに乗じることによって高域部のスペクトルを復元する。さらに、第2の逆量子化部224は、あらかじめ所定の振幅をもつホワイトノイズを生成しておき、補助情報内の雑音情報に従って振幅を調整し、復元された前記スペクトルに加算して高域部のスペクトルデータを出力する。
【0039】
逆量子化データ合成部225は、第1の逆量子化部222の出力するスペクトルデータと第2の逆量子化部224の出力するスペクトルデータとを合成する。逆変換部230は、MPEG−2 AACに従って、逆量子化データ合成部225から出力された周波数軸上のスペクトルデータを、IMDCTを用いて時間軸上の1024サンプルのサンプルデータに変換する。音響信号出力部240は、逆変換部230で得られた時間軸上のサンプルデータを順次組み合わせ、デジタル音響データとして出力する。
【0040】
以上のように本実施の形態によれば、低域部は従来の符号化を行い、高域部を極めて少ない情報量で符号化を行うことにより、情報量の合計が、従来と比べて大幅に増加しない範囲で高品質の音響信号を符号化することができる。
【0041】
また本実施の形態における符号化装置100及び復号化装置200の構成は、従来の符号化装置300に第2の量子化部133及び第2の符号化部134を追加し、かつ従来の復号化装置400に第2の復号化部223及び第2の逆量子化部224を追加しただけであるため、既存の符号化装置300及び復号化装置400の構成を大幅に変更することなく実現できるという効果がある。
【0042】
また、本実施の形態のおける符号化装置300が生成したビットストリームは、従来の復号化装置400でも復号することができるという効果がある。
なお本実施の形態においてはMPEG−2 AACを例に挙げて説明したが、他の音響符号化方式にも適用できるし、既存しない新しい音響符号化方式にも適用できることは明らかである。
【0043】
また本実施の形態においては、第2の量子化部133における入力データは、変換部120から出力されるスペクトルデータのみとしたが、これに限ったものでなくてもよく、第1の量子化部131の出力を逆量子化した値を別途入力してもよい。
図2は、本実施の形態の他の構成例である符号化装置101及び復号化装置200の構成を示すブロック図である。なお、図1と同様の構成についてはすでに説明しているので、図1と同一の符号を付し、説明を省略する。
【0044】
符号化装置101が符号化装置100と異なる点は、新たに、逆量子化部152を備えることである。この符号化装置101において、第1の量子化部151は、変換部120によって出力された1024点のスペクトルデータすべてを量子化し、その量子化結果を逆量子化部152に出力するとともに、そのうちの低域部512点の量子化結果を第1の符号化部132に出力する。
【0045】
逆量子化部152は、第1の量子化部151によって一旦、量子化された量子化値を逆量子化し、逆量子化結果であるスペクトルデータを第2の量子化部153に出力する。
第2の量子化部153は変換部120からのスペクトルデータを入力せず、逆量子化部152の逆量子化結果であるスペクトルデータを入力し、入力されたスペクトルデータに基づいて高域部の補助情報を生成する。
【0046】
なお、ここでは第2の量子化部153は変換部120からのスペクトルデータを入力せず、逆量子化部152からのスペクトルデータに基づいて高域部の補助情報を生成するとしたが、本発明はこの例に限定されず、第2の量子化部153は、ある部分については変換部120からのスペクトルデータを入力し、ある部分については逆量子化部152からのスペクトルデータを入力するとしてもよい。
【0047】
図3は、図1に示した符号化装置100において処理される音響信号の状態変化を示す図である。図3(a)は、図1に示した音響信号入力部110によって切り出される時間軸上の1024のサンプルデータを示す波形図である。図3(b)は、時間軸上のサンプルデータが図1に示した変換部120のMDCTによって変換された後の周波数軸上のスペクトルデータを示す波形図である。なお、図3(a)及び図3(b)において、サンプルデータ及びスペクトルデータはアナログ波形で示されているが、実際には、いずれもデジタル信号である。以下の波形図においても同様である。
【0048】
音響信号入力部110には、44.1kHzでサンプリングされたデジタル音響信号が入力される。音響信号入力部110は、この入力信号から毎1024サンプルを切り出すタイミングでその前後512サンプルをオーバーラップさせて切り出し、変換部120に出力する。変換部120は、合計2048サンプルのデータをMDCTするが、MDCTによって得られるスペクトルが左右対称の波形となるため、その半分の1024サンプルに対応する図3(b)に示すようなスペクトルデータを生成する。
【0049】
図3(b)に示すスペクトルデータは、縦軸に、周波数スペクトルの値、すなわち、図3(a)において1024サンプルの電圧値で表されていた音響信号の周波数成分の量(大きさ)を、前記サンプル数に対応する1024点で表している。また、符号化装置100に入力されるデジタル音響信号のサンプリング周波数が44.1kHzであるので、スペクトルデータの再生帯域は、22.05kHzとなっている。さらに、MDCTによって得られるスペクトルは図3(b)に示すように負の値をとる場合があるので、MDCTによって得られたスペクトルを符号化する場合には、スペクトルの正負の符号も合わせて符号化する必要がある。以下では、符号化の符号との混同を避けるため、スペクトルデータの正負の符号を表す情報を「サイン情報」という。
【0050】
図4は、図1に示したストリーム出力部140によって補助情報が格納されるビットストリーム中の位置を示す図である。図において、高域部のスペクトルを表す補助情報は、符号化された後、第2の符号化信号としてビットストリーム中の音響符号化信号として認識されない領域に格納される。
【0051】
図4(a)において斜線で示す部分は、例えば、ビットストリームのデータ長を合わせるために「0」で埋められる領域(Fill Element)であって、この領域に、高域部のスペクトルを表す補助情報、すなわち第2の符号化信号が格納されていても、従来の復号化装置400では復号化すべき符号化信号とは認識されず、無視される。
【0052】
また、図4(b)において斜線で示す部分は、例えば、Data Stream Element(DSE)という領域であって、この領域は、将来の拡張のためMPEG−2 AACの規格によってビット長などの物理的構造だけが規定された領域である。この領域は、Fill Elementと同様、ここに高域部のスペクトルを表す補助情報が格納されていても、従来の復号化装置400では無視されるか又はそのデータが読み取られたとしても読み取られたデータに対する復号化装置400の動作が規定されていない領域である。
【0053】
また、以上ではMPEG−2 AACの規格によって従来の復号化装置400では無視されるようなビットストリーム中の領域に第2の符号化信号を格納するとしたが、それ以外にも、ヘッダ情報の所定の位置に組み込んでもよいし、第1の符号化信号中の所定の位置に第2の符号化信号を組み込んでもよいし、その両方にまたがって組み込んでもよい。またビットストリーム中に第2の符号化信号を格納するために、ヘッダにおいても第1の符号化信号においても、連続した領域を確保しなくてもよい。すなわち、図4(c)のように、ヘッダ情報と第1の符号化情報との中に、非連続に第2の符号化信号を組み込んでもよい。
【0054】
図5は、図1に示したストリーム出力部140が補助情報を格納する場合の他の例を示す図である。図5(a)は、第1の符号化信号のみがフレームごとに連続して格納されているストリーム1を示している。図5(b)は、補助情報が符号化された第2の符号化信号のみが、ストリーム1に対応するフレームごとに連続して格納されているストリーム2を示している。
【0055】
ストリーム出力部140は、第2の符号化信号を、第1の符号化信号を格納したビットストリームであるストリーム1とは全く別のストリーム2に格納してもよい。例えば、ストリーム1とストリーム2とは、異なるチャンネルで伝送されるビットストリームである。
【0056】
このように、第1の符号化信号と第2の符号化信号をまったく異なるビットストリームで伝送することにより、入力音響信号の基本的な情報を表す低域部分をあらかじめ伝送又は蓄積しておき、必要に応じて高域部情報を後から付加することができるという効果がある。
【0057】
以上のように構成された符号化装置100及び復号化装置200の動作について、以下、図6、図7、図9、図11、図13、図15、図17及び図19〜図21のフローチャートを用いて説明する。
【0058】
図6は、図1に示した第1の量子化部のスケールファクター決定処理における動作を示すフローチャートである。第1の量子化部131は、まず、スケールファクターの初期値として、各スケールファクターバンドに共通のスケールファクターを定め(S91)、そのスケールファクターを用いて1フレーム分の音響データとして伝送されるべき低域部スペクトルデータをすべて量子化するとともに、求められたスケールファクターの前後の差分を求め、その差分と先頭のスケールファクターと各量子化値とをハフマン符号化する(S92)。なお、ここでの量子化及び符号化は、ビット数のカウントのためだけに行うので、処理を簡略化するため、データのみについて行い、ヘッダなどの情報は付加しないものとする。次いで、第1の量子化部131は、ハフマン符号化後のデータのビット数が所定のビット数を超えたか否かを判断し(S93)、超えていれば、スケールファクターの初期値を下げ(S101)、そのスケールファクターの値を用いて、同じ低域部スペクトルデータにつき、量子化とハフマン符号化とをやり直した上(S92)、ハフマン符号化後の1フレーム分の低域部符号化データのビット数が所定のビット数を超えたか否かを判断して(S93)、所定ビット数以下になるまでこの処理を繰り返す。
【0059】
第1の量子化部131は、低域部符号化データのビット数が所定のビット数を超えていなければ、スケールファクターバンドごとに以下の処理を繰り返し、各スケールファクターバンドのスケールファクターを決定する(S94)。まず、スケールファクターバンド内の各量子化値を逆量子化し(S95)、それぞれの逆量子化値とそれに対応する元のスペクトルデータとの各絶対値の差分を求めて合計する(S96)。さらに、求められた差分の合計が許容範囲内の値であるか否かを判断し(S97)、許容範囲内であれば、次のスケールファクターバンドにつき、上記の処理を繰り返す(S94〜S98)。一方、許容範囲を超えていれば、スケールファクターの値を大きくして当該スケールファクターバンドのスペクトルデータを量子化するとともに(S100)、その量子化値を逆量子化して(S95)、逆量子化値と対応するスペクトルデータとの絶対値の差分を合計する(S96)。さらに、差分の合計が許容範囲内かどうかを判断して(S97)許容範囲を超えていれば、許容範囲内となるまでスケールファクターを順次大きくし(S100)、上記の処理(S95〜S97及びS100)を繰り返す。
【0060】
第1の量子化部131は、すべてのスケールファクターバンドにつき、スケールファクターバンド内の量子化値を逆量子化した値と元のスペクトルデータとの絶対値の差分の合計が許容範囲となるようなスケールファクターを決定すると(S98)、決定されたスケールファクターを用いて、再度、1フレーム分の低域部スペクトルデータを量子化し、各スケールファクターの差分と先頭のスケールファクターと各量子化値とをハフマン符号化し、低域部符号化データのビット数が所定のビット数を超えているか否かを判定する(S99)。低域部符号化データのビット数が所定のビット数を超えていれば、それが所定のビット数以下になるまでスケールファクターの初期値を下げた後(S101)、各スケールファクターバンド内のスケールファクターを決定する処理(S94〜S98)を繰り返す。低域部符号化データのビット数が所定のビット数を超えていなければ(S99)、そのときの各スケールファクターの値を、各スケールファクターバンドのスケールファクターに決定する。
【0061】
なお、スケールファクターバンド内の量子化値を逆量子化した値と元のスペクトルデータとの絶対値の差分の合計が許容範囲となるかどうかの判断は、聴覚心理モデルなどのデータに基づいて行われる。
【0062】
また、ここではスケールファクターの初期値を比較的大きな数値に設定し、ハフマン符号化後の低域部符号化データのビット数が、所定のビット数を超えた場合には、順次、スケールファクターの初期値を下げていく方法でスケールファクターを決定しているが、必ずしもこのようにする必要はない。例えば、あらかじめスケールファクターの初期値を低い値に設定しておき、その初期値を徐々に増加していき、低域部符号化データの全体のビット数が所定のビット数を最初に超えた段階で、直前に設定されていたスケールファクターの初期値を用いて各スケールファクターバンドのスケールファクターを決定するようにしてもよい。
【0063】
さらに、ここでは1フレーム分の低域部符号化データ全体のビット数が所定のビット数を超えないように各スケールファクターバンドのスケールファクターを決定したが、必ずしもこのようにしなくてよい。例えば、各スケールファクターバンドにおいて、スケールファクターバンド内の各量子化値が所定のビット数を超えないようスケールファクターを決定するようにしてもよい。以下に、図7を用いて、この処理における第1の量子化部131の動作を説明する。
【0064】
図7は、図1に示した第1の量子化部131の他のスケールファクター決定処理における動作を示すフローチャートである。第1の量子化部131は、符号化の対象となる低域部のすべてのスケールファクターバンドについて、以下の手順によりスケールファクターの計算を行う(S1)。また、第1の量子化部131は、各スケールファクターバンド内のすべてのスペクトルデータにつき、以下の手順によりスケールファクターの計算を行う(S2)。
【0065】
まず、第1の量子化部131は、所定のスケールファクターの値で、スペクトルデータを公式に基づいて量子化し(S3)、その量子化値が量子化値を表すために与えられる所定のビット数、例えば、4ビットを超えたか否かを判定する(S4)。
【0066】
判定の結果、量子化値が4ビットを超えている場合、スケールファクターの値を調整し(S8)、調整後のスケールファクターの値で同じスペクトルデータを量子化する(S3)。第1の量子化部131は、得られた量子化値が4ビットを超えたか否かを判定し(S4)、そのスペクトルデータの量化値が4ビット以下の値になるまで、スケールファクターの調整(S8)と調整後のスケールファクターによる量子化(S3)とを繰り返す。
【0067】
判定の結果、量子化値が4ビット以下である場合、次のスペクトルデータについて、所定のスケールファクターの値で、量子化を行う(S3)。
第1の量子化部131は、1つのスケールファクターバンド内のすべてのスペクトルデータの量子化値が4ビット以下となると(S5)、そのときのスケールファクターの値を、そのスケールファクターバンドのスケールファクターに決定する(S6)。
【0068】
さらに、第1の量子化部131は、すべてのスケールファクターバンドにつき、スケールファクターを決定すると(S7)、処理を終了する。
以上の処理により、符号化の対象となる低域部のすべてのスケールファクターバンドにつき、それぞれ1つのスケールファクターが決定される。第1の量子化部131は、このように決定されたスケールファクターを用いて、低域部のスペクトルデータを量子化し、量子化結果である4ビットの量子化値と、8ビットの前記スケールファクターとを第1の符号化部132に出力する。
【0069】
図8は、図1に示した第2の量子化部133によって生成される補助情報(スケールファクター)の具体例を示すスペクトル波形図である。なお、図8において、低域部の周波数軸上に示す区切りは、それぞれ本実施の形態において定めたスケールファクターバンドの区切りを示している。また、高域部において周波数方向に破線で示す区切りは、本実施の形態において定めた高域部のスケールファクターバンドの区切りを示している。以下の波形図においても同様である。
【0070】
変換部120から出力されるスペクトルデータのうち、図8に実線の波形で示す再生帯域11.025kHz以下の低域部は、第1の量子化部131に出力され、従来どおり量子化される。一方、図8に破線の波形で示す再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部は、第2の量子化部133によって計算される補助情報(スケールファクター)によって表される。以下、図8の具体例を用い、図9のフローチャートに従って第2の量子化部133の補助情報(スケールファクター)の計算手順を説明する。
【0071】
図9は、図1に示した第2の量子化部133の補助情報(スケールファクター)計算処理における動作を示すフローチャートである。
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき、各スケールファクターバンドにおける絶対最大スペクトルデータの量子化値を「1」にする最適なスケールファクターを、以下の手順に従って計算する(S11)。
【0072】
第2の量子化部133は、再生帯域11.025kHzを超える高域部の最初のスケールファクターバンドにおける絶対最大スペクトルデータ(ピーク)を特定する(S12)。図8の具体例において、最初のスケールファクターバンド内で特定されたピークの位置が▲1▼で、そのときのピークの値が「256」であったとする。
【0073】
第2の量子化部133は、図7のフローチャートに示した手順と同様にして、量子化値を計算する公式にピークの値「256」と初期値のスケールファクター値とをあてはめ、公式から得られる量子化値が「1」となるスケールファクターsfの値を計算する(S13)。例えば、この場合、ピーク値「256」の量子化値を「1」にするスケールファクターsfの値、例えばsf=24が算出される。
【0074】
最初のスケールファクターバンドについて、ピークの量子化値を「1」にするスケールファクターの値sf=24が求められると(S14)、第2の量子化部133は、次のスケールファクターバンドについて、スペクトルデータのピークを特定し(S12)、例えば、特定されたピークの位置が▲2▼で、その値が「312」であった場合、ピーク値「312」の量子化値が「1」となるスケールファクターsfの値、例えばsf=32を計算する(S13)。
【0075】
同様にして、第2の量子化部133は、高域部における3番目のスケールファクターバンドについて、ピーク▲3▼の値「288」の量子化値を「1」にするスケールファクターsfの値、例えばsf=26を計算し、4番目のスケールファクターバンドについて、ピーク▲4▼の値「203」の量子化値を「1」にするスケールファクターsfの値、例えばsf=18を計算する。
【0076】
このようにして、高域部のすべてのスケールファクターバンドについて、ピーク値の量子化値を「1」にするスケールファクターが計算されると(S14)、第2の量子化部133は、計算によって得られた各スケールファクターバンドのスケールファクターを、高域部の補助情報として第2の符号化部134に出力し、処理を終了する。
【0077】
以上のようにして第2の量子化部133によって補助情報(スケールファクター)が生成されるが、この補助情報(スケールファクター)は、512点のスペクトルデータで表されていた高域部を、各スケールファクターの値を0〜255までの値で表せば、高域部における各スケールファクターバンド(ここでは4つ)につき、それぞれ8ビットで表すことができる。また、この各スケールファクターの差分をハフマン符号化するようにすれば、データ量をさらに低減できる可能性がある。これに対し、この高域部の512点のスペクトルデータを低域部と同様に従来の方法で量子化及びハフマン符号化したとすると、最低でも150ビット程度のデータ量になると予測される。従って、この補助情報は、高域部の各スケールファクターバンドにつき1つのスケールファクターを示しているに過ぎないが、従来の方法に従って高域部を量子化する場合に比べて、データ量が大きく低減されていることがわかる。
【0078】
また、このスケールファクターは、各スケールファクターバンドにおけるピーク値(絶対値)にほぼ比例した値を示しており、高域部における512点で一定値をとるスペクトルデータあるいは低域部のスペクトルデータの一部または全部のコピーにスケールファクターを乗算して得られるスペクトルデータは、入力音響信号に基づいて得られたスペクトルデータを大まかに復元しているといえる。また、スケールファクターバンド毎に、バンド内にコピーされたスペクトルデータの絶対最大値と、そのバンドに対応するスケールファクター値を用いて量子化値「1」を逆量子化した値との比率を係数として、バンド内の各スペクトルデータに乗じることにより、より精度良くスペクトルデータを復元することができる。さらに、高域部の波形の相違は、低域部ほど聴覚的にはっきり識別されるものではないので、このようにして得られた補助情報は、高域部の波形を表す情報として十分であるといえる。
【0079】
なお、ここでは、高域部の各スケールファクターバンド内のスペクトルデータの量子化値が「1」となるようスケールファクターを計算したが、必ずしも「1」である必要はなく、他の値に定めておいてもよい。
【0080】
またここでは、補助情報としてスケールファクターのみを符号化したが、これに限ったものでなく、量子化値、特徴的なスペクトルの位置情報、スペクトルの正負の符号を表すサイン情報及びノイズ生成方法等を併せて符号化してもよい。またこれらを2つ以上組み合わせて符号化してもよい。この場合、補助情報内に、振幅の比率を表す係数や絶対最大スペクトルデータの位置などを前記スケールファクターと組み合わせて符号化すれば、特に有効である。
【0081】
図10は、図1に示した第2の量子化部133によって生成される補助情報(量子化値)の具体例を示すスペクトル波形図である。また、図11は、図1に示した第2の量子化部133の補助情報(量子化値)計算処理における動作を示すフローチャートである。
【0082】
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき共通のスケールファクター値、例えば「18」をあらかじめ定めておき、そのスケールファクター値「18」を用いて、スケールファクターバンドごとに、そのスケールファクターバンドにおける絶対最大値スペクトルデータ(ピーク)の量子化値を計算する(S21)。
【0083】
第2の量子化部133は、再生帯域11.025kHzを超える高域部の最初のスケールファクターバンドにおける絶対最大スペクトルデータ(ピーク)を特定する(S22)。図10の具体例において、最初のスケールファクターバンド内で特定されたピークの位置が▲1▼で、そのときのピークの値が「256」であったとする。
【0084】
第2の量子化部133は、量子化値を計算する公式に、あらかじめ定めた共通のスケールファクター値「18」とピークの値「256」とをあてはめ、量子化値を計算する(S23)。例えば、この場合、ピーク値「256」をスケールファクター値「18」で量子化すると、量子化値「6」が算出される。
【0085】
最初のスケールファクターバンドについて、ピーク値「256」の量子化値「6」が求められると(S24)、第2の量子化部133は、次のスケールファクターバンドについて、スペクトルデータのピークを特定し(S22)、例えば、特定されたピークの位置が▲2▼で、その値が「312」であった場合、スケールファクターの値を「18」とするピーク値「312」の量子化値、例えば「10」を計算する(S23)。
【0086】
同様にして、第2の量子化部133は、高域部における3番目のスケールファクターバンドについて、スケールファクターの値を「18」とするピーク▲3▼の値「288」の量子化値「9」を計算し、4番目のスケールファクターバンドについて、スケールファクターの値を「18」とするピーク▲4▼の値「203」の量子化値「5」を計算する。
【0087】
このようにして、高域部のすべてのスケールファクターバンドについて、スケールファクターを「18」に固定した場合のピーク値の量子化値が計算されると(S24)、第2の量子化部133は、計算によって得られた各スケールファクターバンドの量子化値を、高域部の補助情報として第2の符号化部134に出力し、処理を終了する。
【0088】
以上のようにして第2の量子化部133によって補助情報(量子化値)が生成されるが、この補助情報(量子化値)は、512点のスペクトルデータで表されていた高域部を、4つのスケールファクターバンドにつき、それぞれ4ビットの量子化値で表している。これに対し、前述の補助情報(スケールファクター)では、高域部を、4つのスケールファクターバンドにつき、それぞれ8ビットのスケールファクターで表していたので、これと比較すると、高域部のデータ量がより低減されている。また、この量子化値は、各スケールファクターバンドにおけるピーク値(絶対値)の振幅を大まかに表しており、高域部における512点で一定値をとるスペクトルデータあるいは低域部のスペクトルデータの一部または全部のコピーに、これを単純に乗算して得られるスペクトルデータであっても、入力音響信号に基づいて得られたスペクトルデータを大まかに復元しているといえる。また、スケールファクターバンド毎に、バンド内にコピーされたスペクトルデータの絶対最大値と、あらかじめ定められていたスケールファクター値を用いてそのバンドに対応する量子化値を逆量子化した値との比率を係数として、バンド内の各スペクトルデータに乗じることにより、さらに精度良くスペクトルデータを復元することができる。
【0089】
なおここでは、第2の符号化情報として伝送される量子化値に対応するスケールファクター値は、あらかじめ定めたものにしたが、最適なスケールファクター値を計算し、第2の符号化情報に付加して伝送してもよい。例えば、量子化値の最大値が7となるようにスケールファクターを選択すれば、量子化値を表すビット数が3ビットですむので、量子化値の伝送に必要な情報量はより少なくて済む。
【0090】
なお、補助情報として量子化値のみ、または量子化値とスケールファクターのみを符号化したが、これに限ったものでなくてよく、スケールファクター、特徴的なスペクトルの位置情報、スペクトルデータのサイン情報及びノイズ生成方法等を符号化してもよい。またこれらを2つ以上組み合わせて符号化してもよい。
【0091】
図12は、図1に示した第2の量子化部133によって生成される補助情報(位置情報)の具体例を示すスペクトル波形図である。また、図13は、図1に示した第2の量子化部133の補助情報(位置情報)計算処理における動作を示すフローチャートである。
【0092】
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき、各スケールファクターバンドにおける絶対最大スペクトルデータの位置を以下の手順に従って特定する(S31)。
【0093】
第2の量子化部133は、再生帯域11.025kHzを超える高域部の最初のスケールファクターバンドにおける絶対最大スペクトルデータ(ピーク)を特定する(S32)。図12の具体例において、最初のスケールファクターバンド内で特定されたピークの位置が▲1▼で、このスケールファクターバンドの先頭から22番目のスペクトルデータであったとする。第2の量子化部133は、特定されたピークの位置「スケールファクターバンドの先頭から22番目のスペクトルデータ」を保持する(S33)。
【0094】
最初のスケールファクターバンドについて、ピークの位置が特定され、保持されると(S34)、第2の量子化部133は、次のスケールファクターバンドについて、スペクトルデータのピークを特定する(S32)。例えば、特定されたピークの位置が▲2▼で、スケールファクターバンドの先頭から60番目のスペクトルデータであったとする。第2の量子化部133は、特定されたピークの位置「スケールファクターバンドの先頭から60番目のスペクトルデータ」を保持する(S33)。
【0095】
以下同様にして、第2の量子化部133は、高域部における3番目のスケールファクターバンドについて、ピーク▲3▼の位置「スケールファクターバンドの先頭のスペクトルデータ」を特定して保持するとともに、4番目のスケールファクターバンドについて、ピーク▲4▼の位置「スケールファクターバンドの先頭から25番目のスペクトルデータ」を特定して保持する。
【0096】
このようにして、高域部のすべてのスケールファクターバンドについて、ピークの位置が特定され、保持されると(S34)、第2の量子化部133は、保持していた各スケールファクターバンドのピークの位置を、高域部の補助情報として第2の符号化部134に出力し、処理を終了する。
【0097】
以上のようにして第2の量子化部133によって補助情報(位置情報)が生成されるが、この補助情報(位置情報)は、512点のスペクトルデータで表されていた高域部を、4つのスケールファクターバンドにつき、それぞれ6ビットの位置情報で表している。
【0098】
この場合、復号化装置200において、第2の逆量子化部224は、低域部の512サンプル分のスペクトルデータの一部または全部を、第2の復号化部223から入力された補助情報(位置情報)に応じて高域部側の512サンプルデータとしてコピーする。
コピーの手順は、1つ以上のスケールファクターバンドにおけるスペクトルデータのピーク情報を元に、類似したデータを第1の逆量子化部222より出力されたスペクトルデータより抽出し、その一部又は全部をコピーすることで達成される。
【0099】
また第2の逆量子化部224においては、必要に応じてコピーしたスペクトルデータの振幅を調整する。振幅の調整は各スペクトルデータにあらかじめ定められた係数、例えば「0.5」として、この係数を乗じることで達成する。この係数は固定値でもよいし、帯域ごと、あるいはスケールファクターバンドごとに変更してもよいし、第1の逆量子化部222より出力されるスペクトルデータに応じて変更してもよい。
【0100】
また、上記ではあらかじめ定めた係数を用いるが、補助情報として、この係数の値を第2の符号化情報内に付加してもよい。または係数としてスケールファクター値を第2の符号化情報に付加してもよいし、係数としてスケールファクターバンド内のピークの量子化値を第2の符号化情報に付加してもよい。また振幅調整方法はこれに限ったものではなく、他の方法を用いてもよい。
【0101】
なおここでは、補助情報として位置情報のみ、または位置情報と係数情報のみを符号化したが、これに限ったものでなくてよく、スケールファクター、量子化値、スペクトルのサイン情報及びノイズ生成方法等を符号化してもよい。またこれらを2つ以上組み合わせて符号化してもよい。
また、低域部側のスペクトルデータを高域部側のスペクトルデータとしてコピーしているが、これに限らず、高域部側のスペクトルデータは第2の符号化情報のみから生成してもよい。
【0102】
図14は、図1に示した第2の量子化部133によって生成される補助情報(サイン情報)の具体例を示すスペクトル波形図である。また、図15は、図1に示した第2の量子化部133の補助情報(サイン情報)計算処理における動作を示すフローチャートである。
【0103】
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき、各スケールファクターバンドのあらかじめ定めた位置、例えばスケールファクターバンド中央におけるスペクトルデータのサイン情報を以下の手順に従って特定する(S41)。
【0104】
第2の量子化部133は、再生帯域11.025kHzを超える高域部の最初のスケールファクターバンドの中央位置におけるスペクトルデータのサイン情報を調べ(S42)、その値を保持する。例えば、最初のスケールファクターバンドの中央位置におけるスペクトルデータのサイン符号は、「+」である。第2の量子化部133は、この符号「+」を1ビットの値「1」で表して保持する。また、この符号が「−」であった場合は、「0」で表して保持する。
【0105】
最初のスケールファクターバンドについて、スケールファクターバンドの中央位置におけるスペクトルデータのサイン情報が保持されると(S43)、第2の量子化部133は、次のスケールファクターバンドについて、中央位置におけるスペクトルデータの符号を調べる(S42)。例えば、調べられた符号が「+」であったとすると、第2の量子化部133は、2番めのスケールファクターバンドの中央位置におけるスペクトルデータのサイン情報として「1」を保持する。
【0106】
以下同様にして、第2の量子化部133は、高域部における3番目のスケールファクターバンド中央位置におけるスペクトルデータの符号「+」を調べ、そのサイン情報「1」を保持するとともに、4番目のスケールファクターバンド中央位置におけるスペクトルデータの符号「+」を調べ、そのサイン情報「1」を保持する。
【0107】
このようにして、高域部のすべてのスケールファクターバンドについて、中央位置のスペクトルデータのサイン情報が保持されると(S43)、第2の量子化部133は、保持していた各スケールファクターバンドのサイン情報を、高域部の補助情報として第2の符号化部134に出力し、処理を終了する。
【0108】
以上のようにして第2の量子化部133によって補助情報(サイン情報)が生成されるが、この補助情報(サイン情報)は、512点のスペクトルデータで表されていた高域部を、4つのスケールファクターバンドにつき、それぞれ1ビットのサイン情報で表しており、非常に短いデータ長で高域部のスペクトルを表すことができる。
【0109】
この場合、復号化装置200において、第2の逆量子化部224は、低域部の512サンプル分のスペクトルデータの一部または全部を高域部側スペクトルとしてコピーし、第2の復号化部223から入力されたサイン情報に応じて、あらかじめ定められた位置のスペクトルデータの符号を決定する。
【0110】
なお、ここでは、高域部の各スケールファクターバンド中央位置の符号を表したサイン情報を補助情報(サイン情報)としたが、スケールファクターバンド中央の位置に限定されず、例えば、各ピーク位置のサイン情報であっても良いし、スケールファクターバンド先頭のサイン情報であっても良いし、それ以外の所定の位置でもよい。
【0111】
またここでは、伝送する符号(サイン情報)に対応するスペクトルデータの位置はあらかじめ定めたものになっているが、これは第1の逆量子化部222の出力に応じて変更してもよいし、各スケールファクターバンドのサイン情報がどの位置のサイン情報であるかを示す位置情報を、第2の符号化情報に付加して伝送してもよい。
【0112】
また第2の逆量子化部224においては、必要に応じてコピーしたスペクトルデータの振幅を調整する。振幅の調整は、各スペクトルデータにあらかじめ決められた係数、例えばその値を「0.5」として、その係数を乗じることで達成できる。
この係数は固定値でもよいし、帯域ごとに、あるいはスケールファクターバンドごとに変更してもよいし、第1の逆量子化部222より出力されるスペクトルデータに応じて変更してもよい。また振幅調整方法はこれに限ったものではなく、他の方法を用いてもよい。
【0113】
なおここでは、あらかじめ定めた係数を用いたが、この係数の値を補助情報として第2の符号化情報に付加してもよい。また、その係数としてスケールファクター値を第2の符号化情報に付加してもよいし、係数として量子化値を第2の符号化情報に付加してもよい。
【0114】
さらにここでは、補助情報としてサイン情報のみ、またはサイン情報と係数情報とのみ、またはサイン情報と位置情報とのみ、またはサイン情報と位置情報と係数情報とのみを符号化したが、これに限ったものでなく、量子化値、スケールファクター、特徴的なスペクトルの位置情報、及びノイズ生成方法等を符号化してもよい。またこれらを2つ以上組み合わせて符号化してもよい。
【0115】
なお本実施の形態においては、低域部側のスペクトルデータを高域部側のスペクトルデータとしてコピーしているが、これに限らず、高域部側のスペクトルデータは第2の符号化情報のみから生成してもよい。
なお、上記では、この符号「+」を1ビットの値「1」で表し、符号「−」をで「0」で表したが、補助情報(サイン情報)における符号の表し方は、これに限定されず、他の値で表してもよい。
【0116】
図16は、図1に示した第2の量子化部133によって生成される補助情報(コピー情報)の作成方法の一例を示すスペクトル波形図である。図16(a)は、高域部の最初のスケールファクターバンドにおけるスペクトルを示す波形図である。図16(b)は、補助情報(コピー情報)によって特定される低域部のスペクトル波形の一例を示す波形図である。また、図17は、図1に示した第2の量子化部133の補助情報(コピー情報)計算処理における動作を示すフローチャートである。
【0117】
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき、そのスケールファクターバンド先頭からのピークの位置n(先頭からn番目)に対し、低域部においてスケールファクターバンド先頭からのピークの位置がnに最も近い値となるスケールファクターバンドの番号Nを、以下の手順に従って特定する(S51)。
【0118】
第2の量子化部133は、再生帯域11.025kHzを超える高域部の最初のスケールファクターバンドにおける絶対最大スペクトルデータ(ピーク)の位置nを特定する(S52)。その結果、例えば、図16(a)に示すように、特定されたピークの位置が▲1▼で、そのスペクトルがこのスケールファクターバンドのn=22のスペクトルデータであったとする。
【0119】
第2の量子化部133は、スペクトルの周波数が再生帯域11.025kHz以下の低域部におけるスペクトルのすべての(正負の両方を含む)ピークの位置を特定する(S53)。
次いで、第2の量子化部133は、低域部で特定されたすべてのピークについて、ピークからスケールファクターバンドの先頭までの位置がnに最も近いスケールファクターバンドをサーチし、そのスケールファクターバンドの番号Nと、そのサーチの方向とピークのサイン情報とを特定する(S54)。
【0120】
具体的には、第2の量子化部133は、特定された(正負の両方を含む)全ピークにつき、低周波側のピークから順次、そのピークからの位置がnに最も近いスケールファクターバンドの先頭をサーチする。サーチの方向は、ピークからさらに低周波の方向に向かってサーチする場合(1)と、ピークからさらに高周波の方向に向かってサーチする場合(2)との2通りがある。また、高域部のピークと正負の符号が反転している低域部のピークについても、ピークからさらに低周波の方向に向かってサーチする場合(3)と、ピークからさらに高周波の方向に向かってサーチする場合(4)との2通りがある。
【0121】
これらのうち、サーチ方向が(2)と(4)の場合には、このピーク情報に基づいて低域部のスペクトル波形をコピーした場合には、図16(b)に示すように高域部のピークの位置と低域部のピークの位置とがスケールファクターバンド内で左右(周波数軸方向)に反転した波形がコピーされるため、例えば(1)と(3)とのサーチ方向を順方向とし、(2)と(4)とを逆方向として、サーチ方向の順逆を表す情報を添付することが必要である。また、サーチ方向が(3)と(4)との場合は、図16(b)に示すように高域部のピークの位置と低域部のピークの位置とが上下(縦軸方向)に反転した波形がコピーされるため、高域部のピーク値と低域部のピーク値との正負の符号が反転しているか否かを示す情報を添付することが必要である。
【0122】
第2の量子化部133は、低域部で特定されたピークが正の値をとるピークであれば(1)と(2)とのサーチ方向で、低域部で特定されたピークが負の値をとるピークであれば(3)と(4)との合わせて4通りの方向についてサーチを行い、そのサーチ結果のうち、ピークからの位置がnに最も近いスケールファクターバンドの番号を特定する。この場合、あらかじめnとの誤差範囲を所定の値、例えば「5」に設定しておき、前記4通りのサーチ結果のうちから、ピークからの位置がnに最も近いスケールファクターバンドを選択して、そのスケールファクターバンドの番号Nを特定する。併せて、高域部のピーク値と低域部のピーク値との正負の符号が反転しているか否かを示すサイン情報と、サーチ方向の順逆を表す情報とを特定する。
【0123】
例えば、サーチ方向(1)では、図17(b)の(1)に示すような低域部のスペクトルに対応して、ピークからの位置の誤差「1」で、スケールファクターバンドの番号N=3が特定されたとする。また、サーチ方向(2)では、図17(b)の(2)に示すような低域部のスペクトルに対応して、ピークからの位置の誤差「5」で、スケールファクターバンドの番号N=18が特定されたとし、同様に、サーチ方向(3)では、図17(b)の(3)に示すような低域部のスペクトルに対応して、誤差「4」で、スケールファクターバンドの番号N=12、サーチ方向(4)では、図17(b)の(4)に示すような低域部のスペクトルに対応して、誤差「2」で、スケールファクターバンドの番号N=10が特定されたとする。第2の量子化部133は、特定されたスケールファクターバンドの番号4つのうち、ピークからの位置の誤差が「1」で、ピークからの位置がnに最も近いスケールファクターバンドの番号N=3を選択する。これと併せて、低域部のピークの符号「+」を表すサイン情報「1」と、ピークからさらに低周波の方向に向かってサーチしたことを表すサーチ方向情報「1」とを生成する。この場合、ピークの符号が「−」であればサイン情報を「0」とし、ピークからさらに高周波の方向に向かってサーチした場合は、サーチ方向情報を「0」として表す。
【0124】
高域部の最初のスケールファクターバンドについて、スケールファクターバンドの番号N=3とサイン情報「1」とサーチ方向情報「1」とが特定されると(S55)、第2の量子化部133は、上記と同様にして次のスケールファクターバンドについて、スケールファクターバンドの番号Nとそのサイン情報とそのサーチ方向情報とを特定する。
【0125】
このようにして、高域部のすべてのスケールファクターバンドについて、そのスケールファクターバンドにおける先頭からのピークの位置nに対し、スケールファクターバンド先頭からのピークの位置がnに最も近い値となる低域部のスケールファクターバンドの番号Nとそのサイン情報とそのサーチ方向情報とが特定されると(S55)、第2の量子化部133は、特定された高域部の各スケールファクターバンドに対応する低域部のスケールファクターバンドの番号Nとサイン情報とサーチ方向情報とを高域部の補助情報(コピー情報)として第2の符号化部134に出力し、処理を終了する。
【0126】
この場合、復号化装置200において、第1の符号化信号を従来の手順に従って復号化すると、低域部側の512サンプルのスペクトルデータが得られる。第2の逆量子化部224では、第2の復号化部223から出力されたスケールファクターバンド番号に該当するスペクトルデータの一部または全部を高域部側スペクトルとしてコピーする。また第2の逆量子化部224においては、必要に応じてコピーしたスペクトルデータの振幅を調整する。振幅の調整は、各スペクトルにあらかじめ決められた係数、例えばその値を「0.5」として、その係数を乗じることで達成できる。
【0127】
この係数は固定値でもよいし、帯域ごと、スケールファクターバンドごとに変更してもよいし、第1の逆量子化部222より出力されるスペクトルデータに応じて変更してもよい。
【0128】
なおここでは、振幅の調整に、あらかじめ定めた係数を用いたが、この係数の値を補助情報として第2の符号化情報に付加してもよい。また係数としてスケールファクター値を第2の符号化情報に付加してもよいし、係数として量子化値を第2の符号化情報に付加してもよい。また振幅調整方法はこれに限ったものではなく、他の方法を用いてもよい。
【0129】
なお、ここでは、高域部の補助情報(コピー情報)としてスケールファクターバンドの番号Nのほかにそのサイン情報とサーチ方向情報とを抽出したが、高域部について伝送可能な情報量に応じて、サイン情報とサーチ方向情報とは省略してもよい。また、サイン情報は、低域部のピークの符号が「+」であれば「1」、「−」であれば「0」とし、サーチ方向情報は、ピークからさらに低周波の方向に向かってサーチした場合は「1」、ピークからさらに高周波の方向に向かってサーチした場合は「0」として表したが、サイン情報における低域部のピークの符号及びサーチ方向情報のサーチ方向の表し方は、それぞれこれらに限定されず、他の値で表してもよい。
【0130】
また、ここでは、低域部において特定された各ピークの位置からその距離がnに最も近い値となるスケールファクターバンドの先頭をサーチしたが、本発明はこの例に限定されず、低域部の各スケールファクターバンド先頭からその距離がnに最も近い値となるピークをサーチしてもよい。
【0131】
図18は、図1に示した第2の量子化部133によって生成される補助情報(コピー情報)の作成方法の第2の例を示すスペクトル波形図である。図19は、図1に示した第2の量子化部133の補助情報(コピー情報)の第2の計算処理における動作を示すフローチャートである。
【0132】
第2の量子化部133は、再生帯域11.025kHzを超える再生帯域22.05kHzまでの高域部のすべてのスケールファクターバンドにつき、そのスケールファクターバンド内の全スペクトルとのスペクトルの差分(エネルギー差)が最小となる低域部のスケールファクターバンドの番号Nを、以下の手順に従って特定する(S61)。ただし、低域部において高域部との差分をとるスペクトルの個数は、高域部のスケールファクターバンド内のスペクトルの個数と等しくとり、特定されるスケールファクターバンドの番号Nは、そのスペクトルの先頭のスケールファクターバンドの番号とする。
【0133】
第2の量子化部133は、低域部のすべてのスケールファクターバンドにつき(S62)、そのスケールファクターバンドの先頭から高域部のスケールファクターバンド内のスペクトルデータと同数のスペクトルデータからなる周波数の幅で、高域部のスペクトルと低域部のスペクトルとの差分を求める(S63)。例えば、図18に示す波形図において、高域部の最初のスケールファクターバンドが、スペクトルデータ数=48のスケールファクターバンドであったとすると、第2の量子化部133は、低域部の番号N=1のスケールファクターバンドの先頭から48個のスペクトルデータにつき、順次、高域部と低域部とのスペクトルの差分を求める。
【0134】
第2の量子化部133は、高域部のスケールファクターバンドと同数のスペクトルについて、高域部と低域部とのスペクトルの差分が求められると(S65)、その値を保持し、次の低域部のスケールファクターバンドの先頭から、高域部のスケールファクターバンド内のスペクトルと同数のスペクトルデータの周波数の幅で、高域部スペクトルと低域部スペクトルとの差分を求める(S64)。例えば、低域部の番号N=1のスケールファクターバンドの先頭から48個のスペクトルデータの幅で、スペクトルの差分が求められると、求められた差分の値を保持しておき、低域部の番号N=2のスケールファクターバンドの先頭から48個のスペクトルデータの幅で、スペクトルの差分を求める。以下同様に、低域部の番号N=3のスケールファクターバンド、番号N=4のスケールファクターバンド、・・・、番号N=28(低域部の最後)のスケールファクターバンドというように、低域部のすべてのスケールファクターバンドについて、順次、高域部と低域部との48個のスペクトルデータ同士の差分を合計してスペクトルの差分を求める。
【0135】
低域部のすべてのスケールファクターバンドについて、そのスケールファクターバンドの先頭から、高域部のスケールファクターバンド内のスペクトルデータと同数のスペクトルデータの幅で、高域部スペクトルと低域部スペクトルとの差分が求められると(S64)、第2の量子化部133は、求められた差分が最小となるスケールファクターバンドの番号Nを特定する(S65)。例えば、図19に示すスペクトル波形図において、低域部の番号N=8のスケールファクターバンドが特定されたとする。このことは、低域部の斜線で示す部分のスペクトルは、高域部の斜線で示す部分のスペクトルとの差分が最も少なく、スペクトル同士のエネルギー差が最も小さいことを示している。すなわち、番号N=8のスケールファクターバンドの先頭から48個のスペクトルデータは、11.025kHzから始まる高域部の最初のスケールファクターバンドにコピーした場合、図19の高域部に一点鎖線で示す波形となり、オリジナルのスペクトルに対して近似的に、高域部の当該スケールファクターバンド内のエネルギーを表すことができる。
【0136】
第2の量子化部133は、高域部のスケールファクターバンドにつき、スペクトルの差分が最小となる低域部スケールファクターバンドの番号Nを特定すると、特定されたスケールファクターバンドの番号Nを保持し、上記と同様にして、次の高域部のスケールファクターバンドにつき、該当するスケールファクターバンドの番号Nを特定する(S66)。以下、高域部の各スケールファクターバンドにつき、順次この処理を繰り返し、すべての高域部のスケールファクターバンドにいて、スペクトルの差分が最小となる低域部スケールファクターバンドの番号Nを特定すると、保持していた低域部のスケールファクターバンドの番号Nを、高域部の補助情報(コピー情報)として第2の符号化部134に出力し、処理を終了する。
【0137】
なお、この場合、復号化装置200における低域側スペクトルのコピー方法及び振幅調整方法は、図16と図17とを用いて説明した補助情報(コピー情報)の場合と同様である。
【0138】
また、図19のフローチャートでは高域部と低域部とのエネルギー差を計算する際に、同符号、かつ、周波数軸上の同方向に計算したが、本発明の符号化装置はこれに限定されず、図16と図17とを用いて説明したように、以下の3通りの方法のいずれかを用いて高域部と低域部とのエネルギー差を計算してもよい。▲1▼高域部と低域部との各スペクトルデータの値を、同符号で、かつ、低周波側から高周波側に向かって順次選択される高域部スペクトルデータに対し、低域部スケールファクターバンドの先頭から高域部と同数のスペクトルデータについて高周波側から低周波側に向かって(すなわち周波数軸上の逆方向に)スペクトルデータを順次選択し、差分を計算する。▲2▼低域部スペクトルの符号を反転し(マイナスをかけ)、かつ、周波数軸上の同方向に計算する。▲3▼低域部スペクトルの符号を反転し(マイナスをかけ)、かつ、周波数軸上の逆方向に計算する。また、これら4つのすべての方法で計算を行った後、これらのうちのエネルギー差が最小となる低域部スペクトルのスケールファクターバンドの番号Nを補助情報としてもよい。この場合には、エネルギー差が最小となる低域部スペクトルを高域部に正しくコピーするために、低域部スペクトルと高域部スペクトルとの符号の関係を示す情報と、高域部に低域部スペクトルをコピーする周波数軸上の方向を示す情報とを、スケールファクターバンドごとに補助情報に含める。低域部スペクトルと高域部スペクトルとの符号の関係を示す情報は、例えば、同符号で差分をとった場合を「1」、逆符号で差分をとった場合を「0」として1ビットで表される。また、低域部スペクトルを高域部にコピーする場合の周波数軸上の方向を示す情報は、例えば、順方向にコピーする場合、すなわち、高域部と低域部とにおいてスペクトルデータを選択する方向が順方向だった場合を「1」、逆方向にコピーする場合、すなわち、高域部と低域部とにおいてスペクトルデータを選択する方向が逆方向だった場合を「0」として1ビットで表される。
【0139】
図20は、図1に示した第2の逆量子化部224によって低域部512スペクトルが順方向に高域部にコピーされる手順を示すフローチャートである。図20において、inv_spec1[i]は、第1の逆量子化部222の出力データのうちのi番目のスペクトルの値を示し、inv_spec2[j]は、第2の逆量子化部224の入力データのうちのj番目のスペクトルの値を示している。
【0140】
まず、第2の逆量子化部224は、0番目のスペクトルから511番目のスペクトルまでを同方向に入力するため、スペクトルの数をカウントするカウンタi、jの初期値をそれぞれ「0」にセットする(S71)。次いで、第2の逆量子化部224は、カウンタiの値が「512」未満であるか否かを調べ(S72)、カウンタiの値が「512」未満であれば、第1の逆量子化部222の低域部i番目(この場合、0番目)のスペクトルの値を、第2の逆量子化部224の高域部j番目(この場合、0番目)のスペクトルの値として入力する(S73)。この後、第2の逆量子化部224は、カウンタi、jの値をそれぞれ「1」だけインクリメントし(S74)、カウンタiの値が「512」未満であるか否かを調べる(S72)。
【0141】
第2の逆量子化部224は、カウンタiの値が「512」未満である間、上記処理を繰り返し、カウンタiの値が「512」以上になると、処理を終了する。この結果、第1の逆量子化部222の逆量子化結果である0〜511番目の低域部の全スペクトルが、そのまま第2の逆量子化部224の高域部のスペクトルとしてコピーされる。
【0142】
図21は、図1に示した第2の逆量子化部224によって低域部512スペクトルが周波数軸方向の逆方向に高域部にコピーされる手順を示すフローチャートである。図20と同様、図21において、inv_spec1[i]は、第1の逆量子化部222の出力データのうちのi番目のスペクトルの値を示し、inv_spec2[j]は、第2の逆量子化部224の入力データのうちのj番目のスペクトルの値を示している。
【0143】
まず、第2の逆量子化部224は、0番目のスペクトルから511番目のスペクトルまでを逆方向に入力するため、スペクトルの数をカウントするカウンタiの初期値を「0」に、jの初期値を「511」にセットする(S81)。次いで、第2の逆量子化部224は、カウンタiの値が「512」未満であるか否かを調べ(S82)、カウンタiの値が「512」未満であれば、第1の逆量子化部222の低域部i番目(この場合、0番目)のスペクトルの値を、第2の逆量子化部224の高域部j番目(この場合、511番目)のスペクトルの値として入力する(S83)。この後、第2の逆量子化部224は、カウンタiの値を「1」だけインクリメントし、jの値を「1」だけデクリメントして(S84)、カウンタiの値が「512」未満であるか否かを調べる(S82)。
【0144】
第2の逆量子化部224は、カウンタiの値が「512」未満である間、上記処理を繰り返し、カウンタiの値が「512」以上になると、処理を終了する。この結果、第1の逆量子化部222の逆量子化結果である0〜511番目の低域部の全スペクトルが、第2の逆量子化部224の高域部の511〜0番目のスペクトルとして逆方向にコピーされる。
【0145】
なおここでは、第2の逆量子化部224は低域部における全てのスペクトルデータを高域部にコピーしたが、一部のみコピーしてもよい。また高域部と低域部の全体を一度にコピーする手順として図20及び図21の場合を例として挙げたが、一部図20のようにコピーし、一部図21のようにコピーしてもよい。また、さらに、それらの一部、または全部を正負の符号を反転してコピーしてもよい。
【0146】
またこれらのコピー手順は、あらかじめ決めておいてもよいし、低域部のデータに応じて変更してもよいし、補助情報として伝送してもよい。
なおここでは、低域部側のスペクトルデータを高域部側のスペクトルデータとしてコピーしているが、これに限らず、高域部側のスペクトルデータは第2の符号化情報のみから生成してもよい。
【0147】
なお本実施の形態においては、全スペクトルデータのうち低域部側の512サンプルを第1の符号化信号として符号化し、残りを第2の符号化信号として符号化したがその配分はこれに限定されるものではない。
なお本実施の形態においては、第2の逆量子化部224におけるノイズ生成として、主として第1の逆量子化部222から得られるスペクトルデータをコピーする場合について説明したが、これに限ったものでなく、高域の各スケールファクターバンド内において一定値を持つスペクトルデータ、ホワイトノイズ、及びピンクノイズなどを、第2の逆量子化部224で独自に生成してもよいし、補助情報に応じて生成してもよい。
【0148】
なお本実施の形態においては、第2の符号化信号として、各スケールファクターバンドに1つの補助情報を符号化しているが、2つ以上のスケールファクターバンド毎に1つの補助情報を符号化してもよいし、1つのスケールファクターバンドに2つ以上の補助情報を符号化してもよい。
なお本実施の形態における補助情報は、チャンネル毎に補助情報を符号化してもよいし、2つ以上のチャンネルに対して1つの補助情報を符号化してもよい。
【0149】
なお本実施の形態においては、符号化装置100における量子化部及び符号化部はそれぞれ2つとしたが、これに限定されるものではなく、3つ以上の量子化部及び復号化部を備えてもよい。
なお本実施の形態においては、復号化装置200における復号化部及び逆量子化部はそれぞれ2つとしたが、これに限定されるものではなく、3つ以上の復号化部及び逆量子化部を備えてもよい。
【0150】
なお、本実施の形態においては、変換部120が、変換後のスペクトルデータを、独自に定めた区切り方及び数のスケールファクターバンドに分類した場合について説明したが、本発明の符号化装置はこれに限定されず、変換部は変換後のスペクトルデータをMPEG−2 AACの規格に従ったスケールファクターバンドに分類してもよい。このように規格に従ったスケールファクターバンドに分類しておくことによって、従来の復号化装置400においても、本発明の符号化装置100によって符号化されたビットストリームを支障なく復号化して、従来どおりのデジタル音響出力データを得ることができる。
【0151】
以上の処理は、ハードウェアはもちろん、ソフトウェアでも実現でき、また、1部をハードウェア、残りをソフトウェアで実現するという構成でもよい。
なお、本実施の形態においては、サンプリング周波数を44.1kHzとし、1フレームを1024サンプルのデジタル音響データとして説明したが、本発明の符号化装置及び復号化装置はこれに限定されず、サンプリング周波数は何Hzであってもよい。
【0152】
本発明の符号化装置は、入力された音響信号を符号化する符号化装置であって、一定時間分の入力音響信号を変換して得られる複数のグループに分けられたスペクトルデータから、前記各グループ内のスペクトルデータを正規化する正規化係数と、前記正規化係数を用いて前記各グループ内の前記各スペクトルデータを量子化して得られる量子化値と、前記各スペクトルデータの正負を表す正または負の符号と、前記各スペクトルデータの周波数軸上の位置とを含む4種類の情報で表された周波数の低域部データを符号化する第1符号化手段と、周波数高域部の前記各グループにおける前記スペクトルデータに近似した低域部スペクトルデータを特定する情報と、特定された前記低域部スペクトルデータを整形するための情報として、高域部スペクトルデータの特徴を、前記4種類の情報のうち、1種類以上3種類以下の情報で表した整形のための情報とを含む補助情報を生成する補助情報生成手段と、生成された前記補助情報を符号化する第2符号化手段と、前記第1符号化手段によって符号化されたデータと、前記第2符号化手段によって符号化されたデータとを出力する出力手段とを備えることを特徴とする。本発明の上記符号化装置において、補助情報生成手段は、一定時間分の入力音響信号を変換して得られる複数のグループに分けられたスペクトルデータのうち、周波数の高域部の特徴を、低域部より少ない情報で表した補助情報を生成し、第2符号化手段は、生成された前記補助情報を符号化する。
【0153】
従って、本発明の符号化装置によれば、高域部のスペクトルデータをそのまま量子化及び符号化するのではなく、周波数の高域部の特徴を、低域部より少ないパラメータで表した補助情報を符号化するので、低域部と比べて非常に少ないデータ量で周波数の高域部のスペクトルを符号化することができるという効果がある。また、従来のMPEG−2 AACでは、全帯域の音響信号の符号化を低域部と高域部とで同じ方式で行っていたため、低転送レートでの高域部の伝送は困難であったが、本発明の符号化装置によれば、符号化後の情報量を大幅に増加させることなく高域部の情報を伝送することができるので、これを復号する復号化装置では、従来の復号化装置よりも高域部の豊かな高音質な音響信号を復号化することができるという効果がある。
【0154】
また、本発明の符号化装置において、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の前記各グループにおいて、ピークとなるスペクトルデータを量子化したとき、その値が一定値となるよう計算された前記正規化係数を前記整形のための情報として生成するとしてもよい。
また、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の前記各グループにおいてピークとなるスペクトルデータを、前記各グループに共通の正規化係数を用いて量子化し、その量子化値を前記整形のための情報として生成するとしてもよい。
【0155】
従って、本発明の符号化装置によれば、高域部の各グループ(スケールファクターバンド)につき、それぞれ1つの正規化係数またはピークとなるスペクトルデータの量子化値を補助情報として生成するので、1つの正規化係数または量子化値を表すためにある程度のビット数、例えば8ビットを割り当てたとしても、補助情報のデータ量はわずかである。従って、少ないデータ量で高域部のグループごとに、スペクトルデータの大まかな最大振幅を表すことができる。これにより、本発明の符号化装置によれば、たとえ低転送レートの伝送路であっても、従来と比べてわずかな伝送量の増加で、原音の特徴を備えた高域部音響信号を生成するための情報を伝送することができるので、これを復号化する復号化装置においては、より原音に忠実な音響信号を復元できるという効果がある。
【0156】
また、本発明の符号化装置において、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部に属する各グループにおいて、ピークとなるスペクトルデータの周波数位置を前記整形のための情報として生成するとしてもよい。
また、前記スペクトルデータはMDCT係数であって、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の所定周波数位置におけるスペクトルデータの正負を示す符号を前記整形のための情報として生成するとしてもよい。
【0157】
従って、本発明の符号化装置によれば、ピークとなるスペクトルデータの周波数位置、あるいは高域部の所定の周波数位置におけるスペクトルデータの正負の符号によって、少ないデータ量で高域部の各グループ(スケールファクターバンド)における大まかなスペクトルの形状を表すことができるので、コピーされたスペクトルデータが高域部のスペクトルにより精度よく近似するよう整形することができるという効果がある。
【0158】
また、本発明の符号化装置において、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の各グループにおいて、当該グループ内のスペクトルと最も近似する低域部のスペクトルを特定する情報を前記低域部スペクトルデータを特定する情報として生成するとしてもよい。
【0159】
従って、本発明の符号化装置によれば、高域部スペクトルとよく似た形状のスペクトルが低域部にあった場合には、その低域部のスペクトルを特定して高域部にコピーするだけでよいので、非常に少ないデータ量で高域部スペクトルをより忠実に表すことができるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態における符号化装置及び復号化装置の構成を示すブロック図である。
【図2】本実施の形態の他の構成例である符号化装置及び復号化装置の構成を示すブロック図である。
【図3】図1に示した符号化装置において処理される音響信号の状態変化を示す図である。
【図4】図1に示したストリーム出力部によって補助情報が格納されるビットストリーム中の位置を示す図である。
【図5】図1に示したストリーム出力部が補助情報を格納する場合の他の例を示す図である。
【図6】図1に示した第1の量子化部のスケールファクター決定処理における動作を示すフローチャートである。
【図7】図1に示した第1の量子化部の他のスケールファクター決定処理における動作を示すフローチャートである。
【図8】図1に示した第2の量子化部によって生成される補助情報(スケールファクター)の具体例を示すスペクトル波形図である。
【図9】図1に示した第2の量子化部の補助情報(スケールファクター)計算処理における動作を示すフローチャートである。
【図10】図1に示した第2の量子化部によって生成される補助情報(量子化値)の具体例を示すスペクトル波形図である。
【図11】図1に示した第2の量子化部の補助情報(量子化値)計算処理における動作を示すフローチャートである。
【図12】図1に示した第2の量子化部によって生成される補助情報(位置情報)の具体例を示すスペクトル波形図である。
【図13】図1に示した第2の量子化部の補助情報(位置情報)計算処理における動作を示すフローチャートである。
【図14】図1に示した第2の量子化部によって生成される補助情報(サイン情報)の具体例を示すスペクトル波形図である。
【図15】図1に示した第2の量子化部の補助情報(サイン情報)計算処理における動作を示すフローチャートである。
【図16】図1に示した第2の量子化部によって生成される補助情報(コピー情報)の作成方法の一例を示すスペクトル波形図である。
【図17】図1に示した第2の量子化部の補助情報(コピー情報)計算処理における動作を示すフローチャートである。
【図18】図1に示した第2の量子化部によって生成される補助情報(コピー情報)の作成方法の第2の例を示すスペクトル波形図である。
【図19】図1に示した第2の量子化部の補助情報(コピー情報)の第2の計算処理における動作を示すフローチャートである。
【図20】図1に示した第2の逆量子化部によって低域部512スペクトルが順方向に高域部にコピーされる手順を示すフローチャートである。
【図21】図1に示した第2の逆量子化部によって低域部512スペクトルが周波数軸方向の逆方向に高域部にコピーされる手順を示すフローチャートである。
【図22】従来のMPEG−2 AAC方式による符号化装置及び復号化装置の構成を示すブロック図である。
【符号の説明】
100 符号化装置
110 音響信号入力部
120 変換部
131 第1の量子化部
132 第1の符号化部
133 第2の量子化部
134 第2の符号化部
140 ストリーム出力部
200 復号化装置
210 ストリーム入力部
221 第1の復号化部
222 第1の逆量子化部
223 第2の復号化部
224 第2の逆量子化部
225 逆量子化データ合成部
230 逆変換部
240 音響信号出力部
152 逆量子化部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a high-quality sound encoding and decoding technique for digital audio data.
[0002]
[Prior art]
Currently, various audio compression methods for compressing and encoding audio data have been developed. MPEG-2 Advanced Audio Coding (hereinafter abbreviated as AAC) is one of the methods. Details of AAC are described in a standard document “ISO / IEC 13818-7 (MPEG-2 Advanced Audio Coding, AAC)”.
[0003]
First, a conventional encoding and decoding procedure will be described with reference to FIG. FIG. 22 is a block diagram showing the configuration of a conventional MPEG-2
[0004]
The acoustic
[0005]
The
[0006]
The
[0007]
The
[0008]
The
[0009]
The
[0010]
The
[0011]
[Problems to be solved by the invention]
In the above method, there is a reproduction band after encoding as one guideline indicating how much the sound quality of the input acoustic data is retained in the encoding of the acoustic data. For example, when the sampling frequency of the input signal is 44.1 kHz, the reproduction band is 22.05 kHz, and the data corresponding to this 22.05 kHz, or 22.05 kHz, can be efficiently encoded without degrading,In addition, by transferring all the encoded data to the decoding device within the range of the transfer rate, it is possible to obtain a high-quality sound signal in the decoding device. That is, on the encoding device sideHigh-quality encodingTheAchievementTo doit can. However, the width of the reproduction band affects the number of spectrum data, and the number of spectrum data affects the amount of information. For example, when the sampling frequency of the input signal is 44.1 kHz, the spectrum data of 1024 samples corresponds to the data for 22.05 kHz, and in order to secure the reproduction band of 22.05 kHz, all of the spectrum data of 1024 samples is transmitted. There is a need to.
[0012]
However, considering a low transfer rate transmission line such as a cellular phone, it is not practical to actually transmit all 1024 samples of spectrum data because the amount of data is too large. In other words, when trying to transfer the entire spectrum data of this reproduction band with the data amount according to the transfer rate, the amount of information that can be allocated to each frequency band becomes small, and as a result, the influence of quantization noise increases, This results in sound quality degradation due to encoding.
[0013]
For this reason, not only MPEG-2 AAC but also many audio signal encoding schemes achieve efficient audio signal transmission by performing auditory weighting on spectral data and not transmitting low-priority data. is doing. According to this, with respect to the reproduction band, in order to improve the encoding accuracy of the low-frequency part having a high auditory priority, a sufficient amount of data is allocated to the low-frequency part encoded information, The part has a high probability of being excluded from transmission.
[0014]
However, in spite of such a contrivance in the MPEG-2 AAC system, further improvement in quality and improvement in compression efficiency are required for encoding of an audio signal. That is, there is a growing demand for transmitting high-frequency acoustic signals even at low transfer rates.
[0015]
An object of the present invention is to provide an encoding device and a decoding device capable of realizing high-quality sound signal encoding and decoding without significantly increasing the amount of information after encoding.
[0016]
[Means for Solving the Problems]
In order to achieve the above object, the encoding device of the present invention is an encoding device that encodes an input acoustic signal, and is divided into a plurality of groups obtained by converting the input acoustic signal for a certain period of time. Spectral dataFrom,A normalization coefficient for normalizing the spectrum data in each group, a quantization value obtained by quantizing each spectrum data in each group using the normalization coefficient, and positive / negative of each spectrum data It is represented by four types of information including a positive or negative sign to represent and a position on the frequency axis of each spectrum data.Low frequency rangedataThe first encoding means for encoding the frequency high frequency sectionAs information for identifying low-frequency spectrum data approximated to the spectrum data in each group of the above and information for shaping the identified low-frequency spectrum data, high-frequency spectrum dataFeatures of, Including information for shaping expressed by one or more types of information among the four types of informationAuxiliary information generating means for generating auxiliary information, second encoding means for encoding the generated auxiliary information, data encoded by the first encoding means, and encoding by the second encoding means Output means for outputting the converted data. In the above encoding apparatus of the present invention, the auxiliary information generating means has the characteristics of the high frequency part of the frequency among the spectrum data divided into a plurality of groups obtained by converting the input acoustic signal for a predetermined time., Expressed with less information than the low rangeAuxiliary information is generated, and the second encoding means encodes the generated auxiliary information.
[0017]
In order to achieve the above object, the decoding device of the present invention provides:From the spectrum data divided into a plurality of groups obtained by converting the input acoustic signal for a certain time, a normalization coefficient for normalizing the spectrum data in each group, and using the normalization coefficient Four types of information including a quantized value obtained by quantizing each spectrum data of each group, a positive or negative sign representing the positive or negative of each spectrum data, and a position on the frequency axis of each spectrum data The first encoded data obtained by encoding the low frequency part data of the frequency represented by the information, the information specifying the low frequency part spectrum data approximate to the spectrum data in each group of the frequency high frequency part, As information for shaping the specified low-frequency spectrum data, the characteristics of the high-frequency spectrum data are classified into one type of the four types of information. And a second encoded data auxiliary information including the information for the shaping, expressed above three following information obtained by encodingA decoding device that inputs and decodes encoded data, the encoded data separating means for separating the second encoded data from the input encoded data, and the first encoded data in the input encoded data And a first decoding means for outputting spectral data representing a low frequency part of the frequency and separated from the input encoded dataTheDecoding the second encoded data,The auxiliary informationInformation specifying the low-frequency spectrum data inOn the basis of theBased on the information for shaping in the auxiliary information, the specified low band spectrum data among the spectrum data output by the first decoding means is copied to each group of the high band section. By shaping the copied spectral dataA second decoding unit that generates and outputs spectrum data representing a high frequency part of the frequency, a spectrum data output by the first decoding unit, and a spectrum data output by the second decoding unit. And an acoustic signal output means for synthesizing and converting and outputting as an acoustic signal on the time axis. In the decoding apparatus of the present invention, the encoded data separation means is configured to input the encoded data from the input encoded data.Second encoded dataAnd the second decoding means, MinutesSeparatedTheSaidSecond encoded dataDecryptIncludes information for identifying the low-frequency spectrum data and information for shapingThe auxiliary information is generated, and spectrum data representing a high frequency part is generated and output based on the generated auxiliary information.
[0018]
Note that the present invention can be realized as a broadcasting system including a transmission device including the encoding device of the present invention and a reception device including the decoding device of the present invention, or a characteristic configuration of the encoding device and the decoding device. It can be realized as an encoding method and a decoding method using elements as processing steps, or as a program for causing a computer to execute these steps. Needless to say, the program can be distributed via a computer-readable recording medium such as a CD-ROM or a transmission medium such as a communication path.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an
<
[0020]
The
[0021]
The acoustic signal input unit 110 converts digital acoustic data, which is an input signal similar to MPEG-2 AAC sampled at a sampling frequency of 44.1 kHz, in a cycle of about 22.7 msec (every 1024 samples). Cut out 512 samples in an overlapping manner.
[0022]
The
[0023]
Furthermore, the
[0024]
In the present embodiment, a case will be described in which the
[0025]
The
[0026]
The
[0027]
The
[0028]
Auxiliary information refers to simplified information that represents a high-frequency acoustic signal that is calculated based on spectral data in the high-frequency region and that is not transmitted in the conventional method. In other words, it is information that represents the characteristics of the high frequency part of the spectrum data obtained by converting the input acoustic signal for a certain period of time. Specifically, it is the absolute maximum within the scale factor band of the high frequency part. This is the scale factor for each scale factor band and its quantized value such that the quantized value of the spectrum data (spectrum data with the maximum absolute value) is 1, and the absolute maximum spectrum within each scale factor band. This is the quantized value of the absolute maximum spectrum data for each scale factor band when the scale factor that is common to each scale factor band in the high frequency region is determined, and the spectrum at the position determined in advance in the high frequency region. In addition, the sign of the low frequency region is similar to the spectrum of the high frequency region. , Etc. information indicating the copying method when copying the torque representative of the spectrum of the higher frequency band. Furthermore, noise information indicating amplitude such as white noise mixed from the low frequency range to the high frequency range may be added to the auxiliary information as described above, not only in the high frequency range. Good.
[0029]
The
[0030]
The
[0031]
Specifically, the
[0032]
In MPEG-2 AAC, the conversion length of MDCT can be changed according to the input acoustic signal. A conversion length of 2048 samples is called a LONG block, a conversion length of 256 samples is called a SHORT block, and these are collectively called a block size. This description will be given for the LONG block unless otherwise noted, but the same processing can be performed for the SHORT block.
[0033]
In actual MPEG-2 AAC encoding processing, tools such as Gain Control, TNS (TEMPORAL NOISE SHAPING), auditory psychology model, M / S Stereo, Intensity Stereo, Prediction, block size switching, bit reservoir Etc. may be used.
<
[0034]
The
[0035]
The
[0036]
The
[0037]
The
[0038]
Specifically, the second
[0039]
The inverse quantized
[0040]
As described above, according to the present embodiment, the low-frequency part performs conventional encoding, and the high-frequency part is encoded with an extremely small amount of information, so that the total amount of information is significantly larger than the conventional one. Thus, it is possible to encode a high-quality acoustic signal within a range that does not increase significantly.
[0041]
The configuration of the
[0042]
In addition, there is an effect that the bit stream generated by the
In the present embodiment, MPEG-2 AAC has been described as an example, but it is apparent that the present invention can be applied to other acoustic coding schemes and can also be applied to new acoustic coding schemes that do not exist.
[0043]
In the present embodiment, the input data in the
FIG. 2 is a block diagram showing configurations of
[0044]
The difference between the
[0045]
The
The
[0046]
Here, the
[0047]
FIG. 3 is a diagram showing a change in state of an acoustic signal processed in the
[0048]
The acoustic signal input unit 110 receives a digital acoustic signal sampled at 44.1 kHz. The acoustic signal input unit 110 overlaps and cuts out 512 samples before and after every 1024 samples from the input signal, and outputs them to the
[0049]
In the spectral data shown in FIG. 3 (b), the vertical axis indicates the frequency spectrum value, that is, the amount (size) of the frequency component of the acoustic signal represented by the voltage value of 1024 samples in FIG. 3 (a). , 1024 points corresponding to the number of samples. Further, since the sampling frequency of the digital audio signal input to the
[0050]
FIG. 4 is a diagram illustrating a position in the bit stream in which auxiliary information is stored by the
[0051]
In FIG. 4A, the hatched portion is, for example, a region (Fill Element) that is filled with “0” in order to match the data length of the bit stream. Even if the information, that is, the second encoded signal is stored, the
[0052]
Also, the hatched portion in FIG. 4B is an area called, for example, Data Stream Element (DSE), and this area is a physical extension such as a bit length according to the MPEG-2 AAC standard for future expansion. Only the structure is a defined area. Similar to the Fill Element, this area is read even if auxiliary information representing the spectrum of the high frequency part is stored here or ignored by the
[0053]
In the above description, the second encoded signal is stored in an area in the bitstream that is ignored by the
[0054]
FIG. 5 is a diagram illustrating another example when the
[0055]
The
[0056]
In this way, by transmitting the first encoded signal and the second encoded signal in completely different bit streams, a low-frequency portion representing basic information of the input acoustic signal is transmitted or accumulated in advance, There is an effect that the high frequency band information can be added later if necessary.
[0057]
The operations of the
[0058]
FIG. 6 is a flowchart showing an operation in the scale factor determination process of the first quantization unit shown in FIG. The
[0059]
If the number of bits of the low band encoded data does not exceed the predetermined number of bits, the
[0060]
The
[0061]
Whether or not the sum of the absolute value difference between the value obtained by dequantizing the quantized value in the scale factor band and the original spectrum data is within the allowable range is determined based on data such as a psychoacoustic model. Is called.
[0062]
Also, here, the initial value of the scale factor is set to a relatively large value, and when the number of bits of the low band encoded data after Huffman coding exceeds a predetermined number of bits, the scale factor is sequentially changed. Although the scale factor is determined by a method of lowering the initial value, it is not always necessary to do so. For example, when the initial value of the scale factor is set to a low value in advance, the initial value is gradually increased, and the total number of bits of the low-frequency encoded data first exceeds the predetermined number of bits. Thus, the scale factor of each scale factor band may be determined using the initial value of the scale factor set immediately before.
[0063]
Furthermore, although the scale factor of each scale factor band is determined here so that the number of bits of the entire low-frequency encoded data for one frame does not exceed a predetermined number of bits, this need not necessarily be done. For example, in each scale factor band, the scale factor may be determined so that each quantized value in the scale factor band does not exceed a predetermined number of bits. Hereinafter, the operation of the
[0064]
FIG. 7 is a flowchart showing an operation in another scale factor determination process of the
[0065]
First, the
[0066]
As a result of the determination, if the quantized value exceeds 4 bits, the scale factor value is adjusted (S8), and the same spectrum data is quantized with the adjusted scale factor value (S3). The
[0067]
As a result of the determination, if the quantized value is 4 bits or less, the next spectrum data is quantized with a value of a predetermined scale factor (S3).
When the quantized values of all the spectral data in one scale factor band are 4 bits or less (S5), the
[0068]
Furthermore, when the
With the above processing, one scale factor is determined for each of all the scale factor bands in the low frequency band to be encoded. The
[0069]
FIG. 8 is a spectrum waveform diagram showing a specific example of the auxiliary information (scale factor) generated by the
[0070]
Of the spectrum data output from the
[0071]
FIG. 9 is a flowchart showing an operation in the auxiliary information (scale factor) calculation process of the
The
[0072]
The
[0073]
The
[0074]
When the scale factor value sf = 24 for setting the peak quantized value to “1” is obtained for the first scale factor band (S14), the
[0075]
Similarly, the
[0076]
In this way, when the scale factor for setting the quantized value of the peak value to “1” is calculated for all the scale factor bands in the high frequency part (S14), the
[0077]
As described above, the auxiliary information (scale factor) is generated by the
[0078]
The scale factor is a value that is substantially proportional to the peak value (absolute value) in each scale factor band, and is one of the spectrum data that takes a constant value at 512 points in the high frequency region or the spectrum data in the low frequency region. It can be said that the spectrum data obtained by multiplying a copy of all or all copies by the scale factor roughly restores the spectrum data obtained based on the input acoustic signal. Also, for each scale factor band, the coefficient is the ratio between the absolute maximum value of the spectral data copied in the band and the value obtained by dequantizing the quantized value “1” using the scale factor value corresponding to the band. As described above, the spectral data can be restored with higher accuracy by multiplying each spectral data in the band. Furthermore, since the difference in the waveform of the high frequency part is not as clearly audibly identified as the low frequency part, the auxiliary information obtained in this way is sufficient as information representing the waveform of the high frequency part. It can be said.
[0079]
Here, the scale factor is calculated so that the quantized value of the spectrum data in each scale factor band in the high frequency region is “1”. However, the scale factor is not necessarily “1” and is set to another value. You may keep it.
[0080]
In this example, only the scale factor is encoded as auxiliary information. However, the present invention is not limited to this. The quantization value, the characteristic spectrum position information, the sign information indicating the positive and negative signs of the spectrum, the noise generation method, etc. May be encoded together. Two or more of these may be combined and encoded. In this case, it is particularly effective if the auxiliary information is encoded in combination with the scale factor such as a coefficient representing the amplitude ratio and the position of the absolute maximum spectrum data.
[0081]
FIG. 10 is a spectrum waveform diagram showing a specific example of the auxiliary information (quantized value) generated by the
[0082]
The
[0083]
The
[0084]
The
[0085]
When the quantized value “6” of the peak value “256” is obtained for the first scale factor band (S24), the
[0086]
Similarly, the
[0087]
In this way, when the quantized value of the peak value when the scale factor is fixed to “18” is calculated for all the scale factor bands in the high frequency region (S24), the
[0088]
As described above, the auxiliary information (quantized value) is generated by the
[0089]
Here, the scale factor value corresponding to the quantized value transmitted as the second encoded information is set in advance, but the optimum scale factor value is calculated and added to the second encoded information. May be transmitted. For example, if the scale factor is selected so that the maximum value of the quantized value is 7, the number of bits representing the quantized value is only 3 bits, so that the amount of information necessary for transmitting the quantized value can be reduced. .
[0090]
In addition, only the quantized value or only the quantized value and the scale factor are encoded as auxiliary information. However, the present invention is not limited to this. The scale factor, the characteristic spectrum position information, and the spectrum data sign information may be used. In addition, a noise generation method or the like may be encoded. Two or more of these may be combined and encoded.
[0091]
FIG. 12 is a spectrum waveform diagram showing a specific example of auxiliary information (position information) generated by the
[0092]
The
[0093]
The
[0094]
When the peak position is specified and held for the first scale factor band (S34), the
[0095]
Similarly, the
[0096]
In this way, when the peak positions are specified and held for all the scale factor bands in the high frequency region (S34), the
[0097]
As described above, auxiliary information (position information) is generated by the
[0098]
In this case, in the
In the copying procedure, based on the peak information of the spectrum data in one or more scale factor bands, similar data is extracted from the spectrum data output from the first
[0099]
The second
[0100]
In the above description, a predetermined coefficient is used, but the value of this coefficient may be added to the second encoded information as auxiliary information. Alternatively, the scale factor value may be added to the second encoded information as a coefficient, or the quantized value of the peak in the scale factor band may be added to the second encoded information as the coefficient. The amplitude adjustment method is not limited to this, and other methods may be used.
[0101]
Here, only position information or only position information and coefficient information is encoded as auxiliary information. However, the present invention is not limited to this, and scale factors, quantized values, spectrum sign information, noise generation methods, etc. May be encoded. Two or more of these may be combined and encoded.
Moreover, although the spectrum data on the low band side is copied as the spectrum data on the high band section side, the present invention is not limited to this, and the spectrum data on the high band section side may be generated only from the second encoded information. .
[0102]
FIG. 14 is a spectrum waveform diagram showing a specific example of the auxiliary information (sign information) generated by the
[0103]
The
[0104]
The
[0105]
When the sign information of the spectrum data at the center position of the scale factor band is held for the first scale factor band (S43), the
[0106]
Similarly, the
[0107]
In this way, when the sign information of the spectrum data at the center position is held for all the scale factor bands in the high frequency part (S43), the
[0108]
As described above, auxiliary information (sign information) is generated by the
[0109]
In this case, in the
[0110]
Here, the sign information representing the sign of the center position of each scale factor band in the high frequency region is used as auxiliary information (sign information), but is not limited to the position of the center of the scale factor band. It may be sign information, sign information at the head of the scale factor band, or a predetermined position other than that.
[0111]
Here, the position of the spectrum data corresponding to the code to be transmitted (signature information) is predetermined, but this may be changed according to the output of the first
[0112]
The second
This coefficient may be a fixed value, may be changed for each band or for each scale factor band, or may be changed according to the spectrum data output from the first
[0113]
Although a predetermined coefficient is used here, the value of this coefficient may be added to the second encoded information as auxiliary information. Further, a scale factor value may be added to the second encoded information as the coefficient, or a quantized value may be added to the second encoded information as a coefficient.
[0114]
Furthermore, here, only sign information, only sign information and coefficient information, only sign information and position information, or only sign information, position information, and coefficient information are encoded as auxiliary information. Instead, the quantization value, scale factor, characteristic spectrum position information, noise generation method, and the like may be encoded. Two or more of these may be combined and encoded.
[0115]
In this embodiment, the spectrum data on the low frequency band side is copied as the spectrum data on the high frequency band side. However, the present invention is not limited to this, and the spectrum data on the high frequency band side is only the second encoded information. You may generate from.
In the above description, the code “+” is represented by a 1-bit value “1”, and the code “−” is represented by “0”. It is not limited and may be expressed by other values.
[0116]
FIG. 16 is a spectrum waveform diagram showing an example of a method for creating auxiliary information (copy information) generated by the
[0117]
The
[0118]
The
[0119]
The
Next, the
[0120]
Specifically, the
[0121]
Among these, when the search directions are (2) and (4), when the spectrum waveform of the low frequency region is copied based on this peak information, the high frequency region is as shown in FIG. Since the waveform in which the position of the peak and the position of the low-frequency peak are reversed left and right (frequency axis direction) in the scale factor band is copied, for example, the search directions of (1) and (3) are forward And (2) and (4) as reverse directions, it is necessary to attach information indicating the forward and reverse search directions. When the search directions are (3) and (4), the peak position of the high band and the peak position of the low band are vertically moved (vertical axis direction) as shown in FIG. Since the inverted waveform is copied, it is necessary to attach information indicating whether or not the positive and negative signs of the high band peak value and the low band peak value are reversed.
[0122]
If the peak specified in the low frequency region has a positive value, the
[0123]
For example, in the search direction (1), the scale factor band number N = with an error “1” of the position from the peak corresponding to the low-frequency spectrum as shown in (1) of FIG. Assume that 3 is specified. Further, in the search direction (2), the scale factor band number N = with an error “5” of the position from the peak corresponding to the spectrum in the low band as shown in (2) of FIG. 18 is specified, and similarly, in the search direction (3), an error “4” corresponding to the spectrum of the low frequency region as shown in (3) of FIG. In the search direction (4) with the number N = 12, the scale factor band number N = 10 has an error of “2” corresponding to the low-frequency spectrum as shown in (4) of FIG. Suppose that it was identified. The
[0124]
When the scale factor band number N = 3, the sign information “1”, and the search direction information “1” are specified for the first scale factor band in the high frequency range (S55), the
[0125]
In this way, for all scale factor bands in the high frequency band, the low frequency where the peak position from the head of the scale factor band is closest to n with respect to the peak position n from the head of the scale factor band. When the number N of the scale factor band of the part, the sign information thereof, and the search direction information thereof are specified (S55), the
[0126]
In this case, when the
[0127]
This coefficient may be a fixed value, may be changed for each band, for each scale factor band, or may be changed according to the spectrum data output from the first
[0128]
Here, a predetermined coefficient is used for adjusting the amplitude, but the value of this coefficient may be added to the second encoded information as auxiliary information. Further, a scale factor value may be added to the second encoded information as a coefficient, or a quantized value may be added to the second encoded information as a coefficient. The amplitude adjustment method is not limited to this, and other methods may be used.
[0129]
In this case, the sign information and the search direction information are extracted in addition to the scale factor band number N as auxiliary information (copy information) of the high frequency band, but depending on the amount of information that can be transmitted for the high frequency band. The sign information and the search direction information may be omitted. The sign information is “1” if the sign of the low-frequency peak is “+”, and “0” if it is “−”, and the search direction information is further from the peak toward the lower frequency. The search is indicated as “1”, and the search from the peak toward the higher frequency direction is indicated as “0”. However, the sign of the low-frequency peak in the sign information and how to express the search direction of the search direction information are as follows. These are not limited to these, and may be expressed by other values.
[0130]
Further, here, the head of the scale factor band whose distance is closest to n from the position of each peak specified in the low frequency region is searched, but the present invention is not limited to this example, and the low frequency region A peak whose distance is closest to n from the head of each scale factor band may be searched.
[0131]
FIG. 18 is a spectrum waveform diagram showing a second example of a method for creating auxiliary information (copy information) generated by the
[0132]
The
[0133]
The
[0134]
When the
[0135]
For all scale factor bands in the low frequency band, the width of the high frequency spectrum and the low frequency spectrum is the same as the spectrum data in the high frequency scale factor band from the beginning of the scale factor band. When the difference is obtained (S64), the
[0136]
When the
[0137]
In this case, the low-frequency side spectrum copy method and amplitude adjustment method in
[0138]
Further, in the flowchart of FIG. 19, when calculating the energy difference between the high frequency region and the low frequency region, the calculation is performed in the same direction and in the same direction on the frequency axis, but the encoding device of the present invention is limited to this. Instead, as described with reference to FIGS. 16 and 17, the energy difference between the high frequency region and the low frequency region may be calculated using any of the following three methods. (1) The low-frequency scale for the high-frequency spectrum data that is selected from the low-frequency side to the high-frequency side, with the same spectral data values for the high-frequency part and the low-frequency part. Spectral data is sequentially selected from the high frequency side to the low frequency side (that is, in the reverse direction on the frequency axis) for the same number of spectral data as the high frequency region from the beginning of the factor band, and the difference is calculated. (2) The sign of the low frequency spectrum is inverted (minus) and calculated in the same direction on the frequency axis. (3) The sign of the low frequency spectrum is inverted (minus) and the calculation is performed in the reverse direction on the frequency axis. Further, after performing the calculation by all these four methods, the number N of the scale factor band of the low-frequency spectrum that minimizes the energy difference among these may be used as auxiliary information. In this case, in order to correctly copy the low band spectrum with the smallest energy difference to the high band, information indicating the sign relationship between the low band spectrum and the high band spectrum and the low band spectrum Information indicating the direction on the frequency axis for copying the region spectrum is included in the auxiliary information for each scale factor band. The information indicating the relationship between the codes of the low-frequency spectrum and the high-frequency spectrum is, for example, “1” when the difference is obtained with the same code and “0” when the difference is obtained with the opposite code. expressed. The information indicating the direction on the frequency axis when copying the low-frequency spectrum to the high-frequency section is, for example, selecting spectral data in the high-frequency area and the low-frequency area when copying in the forward direction. When the direction is forward, “1”, when copying in the reverse direction, that is, when the direction in which spectrum data is selected in the high-frequency part and the low-frequency part is the reverse direction, “0” is set to 1 bit. expressed.
[0139]
FIG. 20 is a flowchart illustrating a procedure in which the
[0140]
First, since the second
[0141]
The second
[0142]
FIG. 21 is a flowchart illustrating a procedure in which the
[0143]
First, since the second
[0144]
The second
[0145]
Here, the second
[0146]
These copying procedures may be determined in advance, may be changed according to the data in the low frequency region, or may be transmitted as auxiliary information.
Here, the spectrum data on the low frequency band side is copied as the spectrum data on the high frequency band side, but not limited to this, the spectrum data on the high frequency band side is generated only from the second encoded information. Also good.
[0147]
In the present embodiment, 512 samples on the low frequency side of the entire spectrum data are encoded as the first encoded signal and the remaining are encoded as the second encoded signal, but the distribution is limited to this. Is not to be done.
In the present embodiment, the case where the spectral data obtained mainly from the first
[0148]
In the present embodiment, one auxiliary information is encoded for each scale factor band as the second encoded signal. However, even if one auxiliary information is encoded for every two or more scale factor bands, Alternatively, two or more pieces of auxiliary information may be encoded in one scale factor band.
In addition, the auxiliary information in this Embodiment may encode auxiliary information for every channel, and may encode one auxiliary information with respect to two or more channels.
[0149]
In the present embodiment, there are two quantization units and two encoding units in
In the present embodiment, there are two decoding units and two dequantization units in
[0150]
In the present embodiment, the case where the
[0151]
The above processing can be realized not only by hardware but also by software, and a configuration in which one part is realized by hardware and the rest is realized by software.
In the present embodiment, the sampling frequency is 44.1 kHz and one frame is described as digital audio data of 1024 samples. However, the encoding device and decoding device of the present invention are not limited to this, and the sampling frequency is not limited thereto. May be any Hz.
[0152]
The encoding device of the present invention is an encoding device that encodes an input acoustic signal, and is spectral data divided into a plurality of groups obtained by converting the input acoustic signal for a predetermined time.From,A normalization coefficient for normalizing the spectrum data in each group, a quantization value obtained by quantizing each spectrum data in each group using the normalization coefficient, and positive / negative of each spectrum data It is represented by four types of information including a positive or negative sign to represent and a position on the frequency axis of each spectrum data.Low frequency rangedataThe first encoding means for encoding the frequency high frequency sectionAs information for identifying low-frequency spectrum data approximated to the spectrum data in each group of the above and information for shaping the identified low-frequency spectrum data, high-frequency spectrum dataFeatures of, Including information for shaping expressed by one or more types of information among the four types of informationAuxiliary information generating means for generating auxiliary information, second encoding means for encoding the generated auxiliary information, data encoded by the first encoding means, and encoding by the second encoding means Output means for outputting the converted data. In the above encoding apparatus of the present invention, the auxiliary information generating means has the characteristics of the high frequency part of the frequency among the spectrum data divided into a plurality of groups obtained by converting the input acoustic signal for a predetermined time., Expressed with less information than the low rangeAuxiliary information is generated, and the second encoding means encodes the generated auxiliary information.
[0153]
Therefore, according to the encoding device of the present invention, the high-frequency part spectral data is not directly quantized and encoded, but the high-frequency part of the frequency is characterized., Expressed with fewer parameters than the low frequency rangeSince the auxiliary information is encoded,Very low compared to the low rangeThere is an effect that the spectrum in the high frequency part of the frequency can be encoded with a small amount of data. Also, in the conventional MPEG-2 AAC, the encoding of the acoustic signal of the entire band is performed.In low and high frequenciesSince it was performed in the same manner, it was difficult to transmit the high frequency band at a low transfer rate. However, according to the encoding device of the present invention, the high frequency band is not increased without significantly increasing the amount of information after encoding. Therefore, a decoding device that decodes the information can decode a high-quality sound signal that is richer in the high frequency region than a conventional decoding device.
[0154]
Further, in the encoding device according to the present invention, the auxiliary information generation unit quantizes the spectrum data that becomes a peak in each group of the high frequency part for the spectrum data divided into a plurality of groups.When thatThe normalization factor calculated so that the value becomes a constant value isInformation for shapingGenerated asYou may do that.
In addition, the auxiliary information generation means, for the spectrum data divided into a plurality of groups,SaidSpectral data that peaks in each group is quantized using a normalization coefficient common to each group, and the quantized value isInformation for shapingGenerated asMay do.
[0155]
Therefore, according to the encoding device of the present invention, each group of the high frequency part(Scale factor band)InluckSince each quantization coefficient or peak quantized value of spectrum data is generated as auxiliary information, it is assumed that a certain number of bits, for example, 8 bits are assigned to represent one normalization coefficient or quantized value. However, the amount of auxiliary information is smallThe Therefore,Small amount of data for each high frequency group,Rough spectrum datamaximumAmplitude can be represented. Thereby, according to the encoding device of the present invention, even in a transmission path with a low transfer rate, with a slight increase in transmission amount compared to the conventional,With the characteristics of the original soundHigh regionInformation for generating acoustic signals.Since the data can be transmitted, the decoding apparatus that decodes the data has an effect of restoring an acoustic signal that is more faithful to the original sound.
[0156]
Further, in the encoding device of the present invention, the auxiliary information generating means is configured to perform a high-frequency portion for the spectrum data divided into a plurality of groups.Belongs toIn each group, the frequency position of the peak spectral data isInformation for shapingGenerated asYou may do that.
Also,The spectrum data is an MDCT coefficient, and the auxiliary information generating means, for the spectrum data divided into a plurality of groups, adds a code indicating whether the spectrum data is positive or negative at a predetermined frequency position in a high frequency region.Information for shapingGenerated asYou may do that.
[0157]
Therefore, according to the encoding apparatus of the present invention, the frequency position of the peak spectral data, or the predetermined high-frequency portion.ofBy the sign of the spectrum data at the frequency position, it is possible to represent the rough spectrum shape in each high frequency group (scale factor band) with a small amount of data.Therefore, the copied spectral data can be shaped so that it can be approximated more accurately by the high-frequency spectrum.There is an effect.
[0158]
Further, in the encoding device of the present invention, the auxiliary information generating means is configured to obtain, for each spectrum of the spectrum data divided into a plurality of groups, a low-frequency portion that most closely approximates the spectrum in the high-frequency portion. Information identifying the spectrumInformation that identifies low-frequency spectrum dataIt may be generated as
[0159]
Therefore, according to the encoding device of the present invention, when a spectrum having a shape very similar to the high-frequency spectrum is found in the low-frequency spectrum, the low-frequency spectrum is specified.And copy to high frequencyJust doSoThere is an effect that the high-frequency spectrum can be expressed more faithfully with a very small amount of data.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an encoding device and a decoding device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of an encoding device and a decoding device, which are other configuration examples of the present embodiment.
FIG. 3 is a diagram showing a change in state of an acoustic signal processed in the encoding device shown in FIG. 1;
4 is a diagram illustrating a position in a bit stream in which auxiliary information is stored by the stream output unit illustrated in FIG. 1. FIG.
FIG. 5 is a diagram illustrating another example when the stream output unit illustrated in FIG. 1 stores auxiliary information.
6 is a flowchart showing an operation in the scale factor determination process of the first quantization unit shown in FIG. 1; FIG.
7 is a flowchart showing an operation in another scale factor determination process of the first quantizing unit shown in FIG. 1; FIG.
FIG. 8 is a spectrum waveform diagram showing a specific example of auxiliary information (scale factor) generated by the second quantization unit shown in FIG. 1;
FIG. 9 is a flowchart showing an operation in auxiliary information (scale factor) calculation processing of the second quantization unit shown in FIG. 1;
10 is a spectrum waveform diagram showing a specific example of auxiliary information (quantized value) generated by the second quantization unit shown in FIG. 1; FIG.
FIG. 11 is a flowchart illustrating an operation in auxiliary information (quantized value) calculation processing of the second quantization unit illustrated in FIG. 1;
12 is a spectrum waveform diagram showing a specific example of auxiliary information (position information) generated by the second quantization unit shown in FIG. 1; FIG.
FIG. 13 is a flowchart showing an operation in auxiliary information (position information) calculation processing of the second quantization unit shown in FIG. 1;
14 is a spectrum waveform diagram showing a specific example of auxiliary information (sign information) generated by the second quantization unit shown in FIG. 1; FIG.
FIG. 15 is a flowchart showing an operation in auxiliary information (sign information) calculation processing of the second quantization unit shown in FIG. 1;
16 is a spectrum waveform diagram showing an example of a method for creating auxiliary information (copy information) generated by the second quantization unit shown in FIG. 1; FIG.
FIG. 17 is a flowchart showing an operation in auxiliary information (copy information) calculation processing of the second quantization unit shown in FIG. 1;
18 is a spectrum waveform diagram showing a second example of a method for creating auxiliary information (copy information) generated by the second quantizing unit shown in FIG. 1; FIG.
FIG. 19 is a flowchart showing an operation in a second calculation process of auxiliary information (copy information) of the second quantization unit shown in FIG. 1;
20 is a flowchart showing a procedure for copying a
FIG. 21 is a flowchart illustrating a procedure in which a low-
FIG. 22 is a block diagram showing a configuration of a conventional MPEG-2 AAC encoding apparatus and decoding apparatus.
[Explanation of symbols]
100 Encoder
110 Acoustic signal input unit
120 Conversion unit
131 1st quantization part
132 1st encoding part
133 2nd quantization part
134 Second encoding unit
140 Stream output unit
200 Decryption device
210 Stream input section
221 First decoding unit
222 First inverse quantization unit
223 Second decoding unit
224 Second inverse quantization unit
225 Inverse quantization data composition unit
230 Inverse conversion unit
240 Acoustic signal output unit
152 Inverse quantization unit
Claims (16)
一定時間分の入力音響信号を周波数軸上のスペクトルデータに変換し、前記スペクトルデータを複数のグループに分ける変換手段と、
前記複数のグループに分けられた前記スペクトルデータの低域部について、前記低域部に含まれる各グループ内のスペクトルデータを正規化する正規化係数と、前記正規化係数を用いて前記各グループ内の前記各スペクトルデータを量子化して得られる量子化値と、前記各スペクトルデータの正負を表す情報と、前記各スペクトルデータの周波数軸上の位置とを含む4種類の情報を含む低域部データを符号化する第1符号化手段と、
前記複数のグループに分けられたスペクトルデータの高域部について、前記高域部に含まれる各グループ内のスペクトルデータに近似した低域部のグループを特定する情報と、特定された前記低域部のグループのスペクトルデータを整形するための情報として、高域部データの特徴を、前記4種類の情報のうち、1種類以上3種類以下の情報で表した整形のための情報とを含む補助情報を生成する補助情報生成手段と、
生成された前記補助情報を符号化する第2符号化手段と、
前記第1符号化手段によって符号化されたデータと、前記第2符号化手段によって符号化されたデータとを出力する出力手段と
を備え、
前記補助情報生成手段は、複数のグループに分けられたスペクトルデータの高域部に含まれる前記各グループにおいて、ピークとなるスペクトルデータを量子化したとき、その値が一定値となるよう計算された前記正規化係数を前記整形のための情報として生成する
ことを特徴とする符号化装置。An encoding device that encodes an input acoustic signal,
A conversion means for converting an input acoustic signal for a predetermined time into spectrum data on a frequency axis, and dividing the spectrum data into a plurality of groups;
For lower frequency band of the spectral data divided into the plurality of groups, the normalized coefficient for normalizing the spectral data in each group in the low-frequency band, within said each group using the normalizing factor Low-frequency data including four types of information including a quantized value obtained by quantizing each spectrum data, information indicating the sign of each spectrum data, and a position on the frequency axis of each spectrum data First encoding means for encoding
For the high frequency part of the spectrum data divided into the plurality of groups, information for specifying a group of low frequency parts approximate to the spectral data in each group included in the high frequency part, and the specified low frequency part as information for shaping the spectral data of the group, the characteristics of the high frequency Bude over data, among the four kinds of information, including the information for shaping expressed in one or more three following information Auxiliary information generating means for generating auxiliary information;
Second encoding means for encoding the generated auxiliary information;
Output means for outputting the data encoded by the first encoding means and the data encoded by the second encoding means ;
The auxiliary information generation means is calculated so that when the spectrum data that becomes a peak is quantized in each group included in the high frequency part of the spectrum data divided into a plurality of groups, the value becomes a constant value. An encoding apparatus that generates the normalization coefficient as information for the shaping .
一定時間分の入力音響信号を周波数軸上のスペクトルデータに変換し、前記スペクトルデータを複数のグループに分ける変換手段と、 A conversion means for converting an input acoustic signal for a predetermined time into spectrum data on a frequency axis, and dividing the spectrum data into a plurality of groups;
前記複数のグループに分けられた前記スペクトルデータのうち、周波数の低域部を符号化する第1符号化手段と、 A first encoding means for encoding a low frequency part of the spectrum data divided into the plurality of groups;
一定時間分の入力音響信号を変換して得られるスペクトルデータのうち、周波数の高域部の特徴を表す補助情報を生成する補助情報生成手段と、 Of the spectral data obtained by converting the input acoustic signal for a certain period of time, auxiliary information generating means for generating auxiliary information representing the characteristics of the high frequency part of the frequency,
生成された前記補助情報を符号化する第2符号化手段と、 Second encoding means for encoding the generated auxiliary information;
前記第1符号化手段によって符号化されたデータと、前記第2符号化手段によって符号化されたデータとを出力する出力手段と Output means for outputting the data encoded by the first encoding means and the data encoded by the second encoding means;
を備え、 With
前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の各グループにおいて、当該グループ内のスペクトルと最も近似する低域部のスペクトルを特定する情報を前記補助情報として生成することを特徴とする符号化装置。 The auxiliary information generation means uses, as the auxiliary information, information specifying a spectrum of a low frequency portion that is most approximate to a spectrum in the group in each group of the high frequency region for the spectrum data divided into a plurality of groups. An encoding device characterized by generating.
ことを特徴とする請求項1又は請求項2記載の符号化装置。The auxiliary information generating means quantizes the spectrum data divided into a plurality of groups by using a normalization coefficient common to each group, the spectrum data having a peak in each group in the high frequency band, The encoding apparatus according to claim 1 or 2 , wherein a quantization value is generated as information for the shaping.
ことを特徴とする請求項1又は請求項2記載の符号化装置。The auxiliary information generating means generates, as the information for shaping, the frequency position of the spectrum data that becomes a peak in each group belonging to the high frequency part for the spectrum data divided into a plurality of groups. The encoding apparatus according to claim 1 or 2 .
ことを特徴とする請求項1又は請求項2記載の符号化装置。The spectrum data is an MDCT coefficient, and the auxiliary information generation means uses the spectrum data divided into a plurality of groups to indicate a sign indicating whether the spectrum data is positive or negative at a predetermined frequency position in the high frequency band for the shaping. The encoding device according to claim 1 or 2 , wherein the encoding device is generated as information.
ことを特徴とする請求項1記載の符号化装置。The auxiliary information generating means, for each of the spectrum data divided into a plurality of groups, in each group of the high frequency portion, the information specifying the spectrum of the low frequency portion that most closely approximates the spectrum in the group, The encoding device according to claim 1, wherein the partial spectrum data is generated as information specifying the partial spectrum data.
ことを特徴とする請求項1又は請求項2記載の符号化装置。The auxiliary information generating means includes the distance on the frequency axis from the division of the group belonging to the high-frequency part to the peak of the spectrum in the high-frequency part group and the division of the group belonging to the low-frequency part. The encoding device according to claim 1 or 2, wherein information for specifying a low-frequency spectrum in which a difference in distance from a distance on a frequency axis to a spectrum peak in a partial group is minimum is generated. .
ことを特徴とする請求項1又は請求項2記載の符号化装置。The auxiliary information generating means generates information for specifying a low-frequency part spectrum having a minimum difference value when the energy difference is taken with the same frequency width as the spectrum in the group belonging to the high-frequency part. encoding apparatus according to claim 1 or claim 2 wherein the.
ことを特徴とする請求項8記載の符号化装置。The encoding device according to claim 8, wherein the information specifying the low-frequency spectrum data is represented by a number specifying the group of the specified low-frequency spectrum.
前記第1符号化手段によって符号化されたデータを所定のフォーマットに定められた符号化音響ストリームに変換するとともに、前記符号化音響ストリーム内の領域であって、符号化規約では使用が制約されていない領域に、前記第2符号化手段によって符号化されたデータを格納して出力するストリーム出力部
を備えることを特徴とする請求項1又は請求項2記載の符号化装置。The output means further includes:
The data encoded by the first encoding means is converted into an encoded audio stream defined in a predetermined format, and is an area within the encoded audio stream, the use of which is restricted by the encoding protocol. if not region encoding apparatus according to claim 1 or claim 2 wherein, characterized in that it comprises a stream output unit for outputting the stored coded data by said second encoding means.
前記第1符号化手段によって符号化されたデータを所定のフォーマットに定められた符号化音響ストリームに変換するとともに、前記第2符号化手段によって符号化されたデータを、前記符号化音響ストリームとは異なるストリームに格納して出力する第2ストリーム出力部
を備えることを特徴とする請求項1又は請求項2記載の符号化装置。The output means further includes:
The data encoded by the first encoding unit is converted into an encoded audio stream defined in a predetermined format, and the data encoded by the second encoding unit is referred to as the encoded audio stream. encoding apparatus according to claim 1 or claim 2, wherein further comprising a second stream output unit for outputting stored in different streams.
一定時間分の入力音響信号を周波数軸上のスペクトルデータに変換し、前記スペクトルデータを複数のグループに分ける変換手段と、 A conversion means for converting an input acoustic signal for a predetermined time into spectrum data on a frequency axis, and dividing the spectrum data into a plurality of groups;
前記複数のグループに分けられた前記スペクトルデータの低域部について、前記低域部に含まれる各グループ内のスペクトルデータを正規化する正規化係数と、前記正規化係数を用いて前記各グループ内の前記各スペクトルデータを量子化して得られる量子化値と、前記各スペクトルデータの正負を表す情報と、前記各スペクトルデータの周波数軸上の位置とを含む4種類の情報を含む低域部データを符号化する第1符号化手段と、 A normalization coefficient that normalizes spectral data in each group included in the low-frequency part for the low-frequency part of the spectral data divided into the plurality of groups, and each group using the normalization coefficient Low-frequency data including four types of information including a quantized value obtained by quantizing each spectrum data, information indicating the sign of each spectrum data, and a position on the frequency axis of each spectrum data First encoding means for encoding
前記複数のグループに分けられたスペクトルデータの高域部について、前記高域部に含まれる各グループ内のスペクトルデータに近似した低域部のグループを特定する情報と、特定された前記低域部のグループのスペクトルデータを整形するための情報として、高域部データの特徴を、前記4種類の情報のうち、1種類以上3種類以下の情報で表した整形のための情報とを含む補助情報を生成する補助情報生成手段と、 For the high frequency part of the spectrum data divided into the plurality of groups, information for specifying a group of low frequency parts approximate to the spectral data in each group included in the high frequency part, and the specified low frequency part Auxiliary information including information for shaping the characteristics of the high frequency band data as information for shaping the spectrum data of the group of the above-described four types of information by information of one or more and three or less types Auxiliary information generating means for generating
生成された前記補助情報を符号化する第2符号化手段と、 Second encoding means for encoding the generated auxiliary information;
前記第1符号化手段によって符号化されたデータと、前記第2符号化手段によって符号化されたデータとを出力する出力手段として機能させ、 Function as output means for outputting the data encoded by the first encoding means and the data encoded by the second encoding means,
前記補助情報生成手段が、複数のグループに分けられた前記スペクトルデータにつき、高域部の前記各グループにおいてピークとなるスペクトルデータを量子化したとき、その値が一定値となるよう計算された、前記正規化係数を前記整形のための情報として生成するように機能させるプログラム。 The auxiliary information generating means, for the spectral data divided into a plurality of groups, when quantizing the spectral data that peaks in each group of the high frequency portion, the value was calculated to be a constant value, A program that causes the normalization coefficient to function as information for shaping.
前記補助情報生成手段が、複数のグループに分けられた前記スペクトルデータにつき、高域部の前記各グループにおけるスペクトルデータのピーク値を、前記各グループに共通の正規化係数を用いて量子化し、その量子化値を前記整形のための情報として生成するように機能させる請求項12記載のプログラム。 The auxiliary information generating means quantizes the peak value of the spectrum data in each group of the high frequency band using the normalization coefficient common to each group for the spectrum data divided into a plurality of groups, The program according to claim 12, which functions to generate a quantized value as information for the shaping.
前記補助情報生成手段が、複数のグループに分けられた前記スペクトルデータにつき、高域部に属する各グループにおいて、ピークとなるスペクトルデータの周波数位置を前記整形のための情報として生成するように機能させる請求項12記載のプログラム。 The auxiliary information generating means functions to generate, as information for shaping, the frequency position of the peak spectrum data in each of the groups belonging to the high frequency part, with respect to the spectrum data divided into a plurality of groups. The program according to claim 12.
前記スペクトルデータはMDCT係数であって、前記補助情報生成手段は、複数のグループに分けられた前記スペクトルデータにつき、高域部の所定周波数位置におけるスペクトルデータの正負を示す符号を前記整形のための情報として生成するように機能させる請求項12記載のプログラム。 The spectrum data is an MDCT coefficient, and the auxiliary information generating means uses a sign indicating the sign of spectrum data at a predetermined frequency position in a high frequency region for the shaping for the spectrum data divided into a plurality of groups. The program according to claim 12, which functions to be generated as information.
前記補助情報生成手段が、複数のグループに分けられた前記スペクトルデータにつき、高域部の各グループにおいて、当該グループ内のスペクトルと最も近似する低域部のスペクトルを特定する情報を前記低域部スペクトルデータを特定する情報として生成するように機能させる請求項12記載のプログラム。 For the spectrum data divided into a plurality of groups, the auxiliary information generating means, in each group of the high frequency part, information specifying the low frequency part spectrum that most closely approximates the spectrum in the group, the low frequency part The program according to claim 12, which functions to generate spectrum data as information for specifying.
Priority Applications (16)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001337869A JP3923783B2 (en) | 2001-11-02 | 2001-11-02 | Encoding device and decoding device |
CNB02803421XA CN1324558C (en) | 2001-11-02 | 2002-10-30 | Coding device and decoding device |
CN02809440.9A CN1288622C (en) | 2001-11-02 | 2002-10-30 | Encoding and decoding device |
PCT/JP2002/011254 WO2003038812A1 (en) | 2001-11-02 | 2002-10-30 | Audio encoding and decoding device |
PCT/JP2002/011255 WO2003038389A1 (en) | 2001-11-02 | 2002-10-30 | Encoding device, decoding device and audio data distribution system |
DE60208426T DE60208426T2 (en) | 2001-11-02 | 2002-10-30 | DEVICE FOR SIGNAL CODING, SIGNAL DECODING AND SYSTEM FOR DISTRIBUTING AUDIO DATA |
EP02775411A EP1440432B1 (en) | 2001-11-02 | 2002-10-30 | Audio encoding and decoding device |
DE60204039T DE60204039T2 (en) | 2001-11-02 | 2002-10-30 | DEVICE FOR CODING AND DECODING AUDIO SIGNALS |
PCT/JP2002/011256 WO2003038813A1 (en) | 2001-11-02 | 2002-10-30 | Audio encoding and decoding device |
EP02775413A EP1440433B1 (en) | 2001-11-02 | 2002-10-30 | Audio encoding and decoding device |
DE60204038T DE60204038T2 (en) | 2001-11-02 | 2002-10-30 | DEVICE FOR CODING BZW. DECODING AN AUDIO SIGNAL |
CN02803419.8A CN1209744C (en) | 2001-11-02 | 2002-10-30 | Coding device and decoding device |
EP02775412A EP1440300B1 (en) | 2001-11-02 | 2002-10-30 | Encoding device, decoding device and audio data distribution system |
US10/285,627 US7392176B2 (en) | 2001-11-02 | 2002-11-01 | Encoding device, decoding device and audio data distribution system |
US10/285,633 US7328160B2 (en) | 2001-11-02 | 2002-11-01 | Encoding device and decoding device |
US10/285,609 US7283967B2 (en) | 2001-11-02 | 2002-11-01 | Encoding device decoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001337869A JP3923783B2 (en) | 2001-11-02 | 2001-11-02 | Encoding device and decoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003140692A JP2003140692A (en) | 2003-05-16 |
JP3923783B2 true JP3923783B2 (en) | 2007-06-06 |
Family
ID=19152443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001337869A Expired - Fee Related JP3923783B2 (en) | 2001-11-02 | 2001-11-02 | Encoding device and decoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3923783B2 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3861770B2 (en) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | Signal encoding apparatus and method, signal decoding apparatus and method, program, and recording medium |
ES2354427T3 (en) * | 2003-06-30 | 2011-03-14 | Koninklijke Philips Electronics N.V. | IMPROVEMENT OF THE DECODED AUDIO QUALITY THROUGH THE ADDITION OF NOISE. |
JP4997720B2 (en) * | 2004-12-16 | 2012-08-08 | ソニー株式会社 | Multiplexing device, multiplexing method, program, and recording medium |
KR100857114B1 (en) * | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
ATE463029T1 (en) | 2006-05-10 | 2010-04-15 | Panasonic Corp | CODING DEVICE AND CODING METHOD |
WO2007138825A1 (en) * | 2006-05-25 | 2007-12-06 | Pioneer Corporation | Digital audio data processing device and processing method |
GB2461185B (en) * | 2006-12-25 | 2011-08-17 | Kyushu Inst Technology | High-frequency signal interpolation device and high-frequency signal interpolation method |
KR101411900B1 (en) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | Method and apparatus for encoding and decoding audio signal |
US8452588B2 (en) | 2008-03-14 | 2013-05-28 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
US9384749B2 (en) * | 2011-09-09 | 2016-07-05 | Panasonic Intellectual Property Corporation Of America | Encoding device, decoding device, encoding method and decoding method |
CN103999153B (en) * | 2011-10-24 | 2017-03-01 | Lg电子株式会社 | Method and apparatus for quantifying voice signal in the way of with selection |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
-
2001
- 2001-11-02 JP JP2001337869A patent/JP3923783B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003140692A (en) | 2003-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1440300B1 (en) | Encoding device, decoding device and audio data distribution system | |
US8645127B2 (en) | Efficient coding of digital media spectral data using wide-sense perceptual similarity | |
RU2422987C2 (en) | Complex-transform channel coding with extended-band frequency coding | |
KR102055022B1 (en) | Encoding device and method, decoding device and method, and program | |
JP3923783B2 (en) | Encoding device and decoding device | |
US20020049586A1 (en) | Audio encoder, audio decoder, and broadcasting system | |
US20080312758A1 (en) | Coding of sparse digital media spectral data | |
JP2007017908A (en) | Signal encoding apparatus and method, signal decoding apparatus and method, and program and recording medium | |
JP4789622B2 (en) | Spectral coding apparatus, scalable coding apparatus, decoding apparatus, and methods thereof | |
JP3964860B2 (en) | Stereo audio encoding method, stereo audio encoding device, stereo audio decoding method, stereo audio decoding device, and computer-readable recording medium | |
JP4603485B2 (en) | Speech / musical sound encoding apparatus and speech / musical sound encoding method | |
US7583804B2 (en) | Music information encoding/decoding device and method | |
JP2001343997A (en) | Method and device for encoding digital acoustic signal and recording medium | |
JP4317355B2 (en) | Encoding apparatus, encoding method, decoding apparatus, decoding method, and acoustic data distribution system | |
WO2002021091A1 (en) | Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method | |
JP3984468B2 (en) | Encoding device, decoding device, and encoding method | |
JP2004246038A (en) | Speech or musical sound signal encoding method, decoding method, encoding device, decoding device, encoding program, and decoding program | |
JP2006047561A (en) | Audio signal encoding device and audio signal decoding device | |
JP2005004119A (en) | Sound signal encoding device and sound signal decoding device | |
JP2002157000A (en) | Encoding device and decoding device, encoding processing program and decoding processing program, recording medium with recorded encoding processing program or decoding processing program, and broadcasting system using encoding device or decoding device | |
JP2003029797A (en) | Encoder, decoder and broadcasting system | |
JPH0481199B2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070222 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3923783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140302 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |