JP4950210B2 - オーディオ圧縮 - Google Patents

オーディオ圧縮 Download PDF

Info

Publication number
JP4950210B2
JP4950210B2 JP2008538430A JP2008538430A JP4950210B2 JP 4950210 B2 JP4950210 B2 JP 4950210B2 JP 2008538430 A JP2008538430 A JP 2008538430A JP 2008538430 A JP2008538430 A JP 2008538430A JP 4950210 B2 JP4950210 B2 JP 4950210B2
Authority
JP
Japan
Prior art keywords
signal
high frequency
low frequency
section
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008538430A
Other languages
English (en)
Other versions
JP2009515212A (ja
Inventor
タンミ,ミッコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009515212A publication Critical patent/JP2009515212A/ja
Application granted granted Critical
Publication of JP4950210B2 publication Critical patent/JP4950210B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本出願は、一般に、オーディオ圧縮に関するものである。
オーディオ圧縮は、一般に、デジタルオーディオ信号を保存又は伝送するべく、最近の消費者装置において採用されている。消費者装置は、通信装置、ビデオ装置、オーディオプレーヤー、無線装置、及びその他の消費者装置であってよい。高圧縮比により、相対的に大きなストレージ容量、或いは、通信チャネル、即ち、無線通信チャネル又は有線通信チャネルを介した相対的に効率的な伝送が実現される。但し、圧縮比と同時に、圧縮された信号の品質をハイレベルに維持する必要がある。オーディオコーディングの目的は、一般に、所与の圧縮比、即ち、ビットレートとの関係において、オーディオ品質を極大化させることにある。
過去数十年の間に、多数のオーディオコーディング法が開発されている。先進的なオーディオコーディングシステムは、人間の耳の特性を効果的に利用している。主要な概念は、知覚品質に影響を及ぼすことが最も少ない信号の領域にコーディング雑音を配置可能であり、この結果、可聴歪みを導入することなしにデータレートを低減可能であるというものである。従って、音響心理学の理論が最近のオーディオコーディングの重要な部分を構成している。
既知のオーディオエンコーダにおいては、入力信号を限られた数のサブ帯域に分割している。これらのサブ帯域信号のそれぞれを量子化可能である。スペクトル内の最高周波数は、低い周波数よりも、知覚的な重要性が低いことが音響心理学の理論から判明している。これは、コーダ内において、低周波数サブ帯域の場合よりも、相対的に少ない数のビットを高周波数サブ帯域の量子化に割り当てることにより、ある程度考慮可能である。
更に高度なオーディオコーディングにおいては、大部分の場合に、オーディオ信号の低周波数領域と高周波数領域の間には、大きな依存性が存在している、即ち、スペクトルの上半分は、一般に、下半分と非常に類似している、という事実を利用している。低周波数領域とは、オーディオスペクトルの下半分である見なすことが可能であり、高周波数は、オーディオスペクトルの上半分であると見なすことができる。低周波数と高周波数の間の境界は、固定されてはいないが、2kHz〜15kHzの間に位置可能であり、場合によっては、これらの境界を超過することも可能であることを理解されたい。
高周波数領域をコーディングするための現在の方法は、SBR(Spectral−Band−Replication)と呼ばれている。この技法については、M. Dietz、L. Liljeryd、K. Kjorling、及びO. Kunzによる「Spectral Band Replication, a novel approach in audio coding」(112th AES Convention、Munich,Germany、2002年5月)及びP. Ekstrandによる「Bandwidth extension of audio signals by spectral band replication」(1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio、Leuven,Beljium、2002年11月)に記述されている。この記述されている方法は、例えば、AAC又はMP3(MPEG−1 Layer III)コーダなどの一般的なオーディオコーダ、並びに、多くのその他の最新技術のコーダに適用可能である。
当技術分野における方法の欠点は、低周波数帯域の高周波数帯域への単純な転位が、オリジナルの高周波数と、転位された低周波数を利用したそれらの再構築との間の不同性に結び付く可能性を有しているという点にある。別の欠点は、雑音及び正弦波を既知の方法に従って周波数スペクトルに追加する必要があるという点にある。
従って、改善されたオーディオコーディング法を提供することが本出願の目的である。適度に低いビットレートによって入力信号を更に正確に表現するコーディング法を提供することが本出願の更なる目的である。
前述の欠点を克服するべく、本出願は、一態様によれば、入力オーディオ信号を受信する段階と、オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割する段階と、高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割する段階と、低周波数帯域信号セクションの中において高周波数サブ帯域信号と最良にマッチングしているものを判定する段階と、高周波数サブ帯域信号と最良にマッチングしている低周波数帯域信号セクションを少なくとも参照するパラメータを生成する段階と、を有するオーディオ信号をエンコーディングする方法を提供している。
本出願は、入力信号の高周波数領域をコーディングする新しい方法を提供している。入力信号を時間的に連続したフレームに分割可能である。フレームのそれぞれは、入力信号の時間的なインスタンスを表している。それぞれのフレーム内においては、そのスペクトル成分によって入力信号を表現可能である。これらのスペクトル成分、即ち、サンプルは、入力信号内における周波数を表している。
低周波数領域を高周波数領域に盲目的に転位させる代わりに、本出願は、オリジナルの及びコーディング済みの高周波数スペクトル成分の間の類似性を極大化させている。本出願によれば、信号の既にコーディング済みの低周波数領域を利用することにより、高周波数領域を形成している。
低周波数信号サンプルを受信信号の高周波数サブ帯域と比較することにより、実際の高周波数サブ帯域と最良にマッチングしている低周波数における信号セクションを見出すことが可能である。本出願は、低周波数スペクトルサンプルの全体において、高周波数サブ帯域に最良に類似している信号セクションについてサンプルごとにサーチする段階を提供している。信号セクションは、サンプルシーケンスに対応していることから、本出願は、換言すれば、高周波数サブ帯域と最良にマッチングしているサンプルシーケンスを見出す段階を提供している。このサンプルシーケンスは、低周波数帯域内における最後の検討された開始点は、低周波数帯域内の最後のサンプルからマッチング対象である高周波数サブ帯域の長さを減算したものである必要があるという点を除いて、低周波数帯域内の任意の場所において開始可能である。
実際の高周波数サブ帯域に最良にマッチングしている低周波数信号セクションに対するインデックス又はリンクを使用することにより、高周波数サブ帯域をモデル化可能である。対応した高周波数サブ帯域の表現の受信側における回復を実現するには、このインデックス又はリンクをエンコードし、保存又は伝送するだけでよい。
実施例によれば、信号セクションと高周波数サブ帯域の最も類似したマッチング、即ち、最も類似したスペクトル形状を低周波数帯域内においてサーチしている。高周波数サブ帯域に最も類似していると判明した信号セクションを少なくとも参照するパラメータをエンコーダ内において生成している。これらのパラメータは、検出されたセクションを高周波数帯域内にスケーリングするスケーリングファクタを有することができる。デコーダ側においては、これらのパラメータを使用して対応する低周波数信号セクションを高周波数領域に転位させることにより、高周波数サブ帯域を再構築している。
スケーリングファクタを使用することにより、複写された低周波数信号セクションに対してスケーリングを適用可能である。実施例によれば、エンコードする必要があるのは、スケーリングファクタ及び低周波数信号セクションに対するリンクのみである。
高周波数サブ帯域を再生成するべく最良にマッチングしている低周波数信号セクションを使用した際には、高周波数領域の形状は、既知の方法によるものよりも、オリジナルの高周波数スペクトルに更に密接に類似している。振幅、形状、及び周波数の位置が、オリジナルの信号に対して更に類似しているため、知覚的に重要なスペクトルピークを更に正確にモデル化可能である。モデル化された高周波数サブ帯域をオリジナルの高周波数サブ帯域と比較可能であることから、消失したスペクトル成分、即ち、正弦波又は雑音を容易に検出し、次いで、これらを追加可能である。
エンベロープ整形を実現するべく、実施例は、パラメータを使用して低周波数信号サンプルを高周波数サブ帯域信号に転位させることによって低周波数信号セクションを利用する段階を提供しており、この場合に、これらのパラメータは、転位した低周波数信号セクションのエンベロープが、受信信号の高周波数サブ帯域信号のエンベロープと連続するように、スケーリングファクタを有している。スケーリングファクタにより、複写された低周波数信号セクションのエネルギー及び形状を調節し、実際の高周波数サブ帯域に更に良好にマッチングさせることが可能である。
パラメータは、実施例による対応した高周波数サブ帯域信号を表すための低周波数信号セクションに対するリンクを有することが可能である。これらのリンクは、低周波数信号セクションに対するポインタ又はインデックスであってよい。この情報により、高周波数サブ帯域を構築する際に低周波数信号セクションを参照可能である。
量子化ビットの数を低減するべく、高周波数サブ帯域信号のエンベロープを正規化可能である。正規化により、低周波数帯域と高周波数帯域の両方が、正規化された振幅レンジ内に存在することになる。これにより、スケーリングファクタの量子化に必要なビットの数が低減される。正規化に使用した情報をエンコーダから提供することにより、デコーダ内において高周波数サブ帯域の表現を構築しなければならない。実施例は、線形予測コーディングによるエンベロープの正規化を提供している。又、ケプストラムモデル化を利用することにより、エンベロープを正規化することも可能である。ケプストラムモデル化は、信号のパワースペクトルの対数の逆フーリエ変換を使用している。
スケーリングファクタの生成段階は、スペクトル内の少なくとも振幅ピークにマッチングするべく線形ドメイン内においてスケーリングファクタを生成する段階を有することができる。又、スケーリングファクタを生成する段階は、実施例に従って、対数ドメイン内において少なくともスペクトルのエネルギー及び/又は形状をマッチングさせる段階を有することも可能である。
実施例は、修正離散コサイン変換(MDCT:Modified Discrete cosine transformation)を使用して低周波数帯域及び/又は高周波数帯域内において信号サンプルを生成する段階を提供している。MDCT変換は、好ましくは、実数としてスペクトル係数を提供している。実施例によるMDCT変換は、任意の適切なフレームサイズ、具体的には、通常フレームの場合には、2048個のサンプルの、そして、過渡フレームの場合には、256個のサンプルのフレームサイズにおいて、使用可能であるが、この間の任意のその他の値を使用することも可能である。
対応した高周波数サブ帯域信号に最良にマッチングしている低周波数信号セクションを取得するべく、実施例は、正規化された相関又はユークリッド距離を使用して類似性尺度を算出する段階を提供している。
入力信号をエンコーディングするべく、実施例は、低周波数信号サンプルを量子化する段階と、少なくともスケーリングファクタを量子化する段階と、を提供している。低周波数信号セクションに対するリンクは、整数であってよい。
追加の正弦波を追加することにより、高周波数信号の品質を改善可能である。このような正弦波に対応するべく、実施例は、入力信号を時間的に連続したフレームに分割する段階と、入力信号の2つの連続したフレーム内において調性セクション(tonal section)を検出する段階と、を提供している。調性セクションは、追加の正弦波を追加することにより、機能強化可能である。高度な調性セクションは、更に、対応する高周波数領域内における高周波数サブ帯域の数を増大させることにより、更に機能強化可能である。入力信号は、例えば、非調性(not tonal)、調性(tonal)、及び強力な調性(strongly tonal)などの異なる調性グループ(tonality group)に分割可能である。
調性セクションを検出する段階は、シフト離散フーリエ変換(SDFT:Shifted Discrete Fourier Transformation)を使用する段階を有することができる。SDFTの結果をエンコーダ内において利用することにより、MDCT変換を提供可能である。
本出願の別の態様は、エンコーディング済みのビットストリームを受信する段階と、このビットストリームから少なくとも1つの低周波数信号及び低周波数信号セクションを参照する少なくともパラメータをデコーディングする段階と、低周波数信号サンプル及び低周波数信号セクションを参照するパラメータを利用して少なくとも2つの高周波数サブ帯域信号を再構築する段階と、少なくとも1つの低周波数信号及び少なくとも2つの高周波数サブ帯域信号を有する出力信号を出力する段階と、を有するオーディオ信号をデコーディングする方法である。
本出願の更なる態様は、入力オーディオ信号を受信するべく構成された受信手段と、オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割するべく構成されており、且つ、高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割するべく更に構成されたフィルタリング手段と、高周波数サブ帯域信号に最良にマッチングしている低周波数帯域信号セクションを少なくとも参照するパラメータを生成するべく構成されたコーディング手段と、を有するオーディオ信号をエンコーディングするエンコーダである。
更には、本出願の更なる態様は、エンコーディング済みのビットストリームを受信するべく構成された受信手段と、このビットストリームから少なくとも1つの低周波数信号及び低周波数信号セクションを参照する少なくともパラメータをデコーディングするべく構成されたデコーディング手段と、低周波数信号のサンプル及び低周波数信号セクションを参照するパラメータを利用して少なくとも2つの高周波数サブ帯域信号を再構築するべく構成された生成手段と、を有するオーディオ信号をデコーディングするデコーダである。
本出願の更なる態様は、前述のデコーダと、前述のエンコーダと、を有するデジタルオーディオ圧縮用のシステムである。
更には、本出願の更なる態様は、オーディオ信号をエンコーディングするコンピュータプログラムプロダクトに関するものであり、このプログラムは、入力オーディオ信号を受信する段階と、オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割する段階と、高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割する段階と、高周波数サブ帯域信号に最良にマッチングしている低周波数帯域信号セクションを少なくとも参照するパラメータを生成する段階と、をプロセッサに実行させるべく動作可能である命令を有している。
又、ビットストリームをデコーディングするコンピュータプログラムプロダクトであって、プログラムは、エンコーディング済みのビットストリームを受信する段階と、このビットストリームから少なくとも1つの低周波数信号及び低周波数信号セクションを参照する少なくともパラメータをデコーディングする段階と、低周波数信号のサンプル及び低周波数信号セクションを参照するパラメータを利用して少なくとも2つの高周波数サブ帯域信号を再構築する段階と、少なくとも1つの低周波数信号及び少なくとも2つの高周波数サブ帯域信号を有する出力信号を出力する段階と、をプロセッサに実行させるべく動作可能である命令を有している。
一般的なオーディオコーディングシステムは、図1に概略的に示されているように、エンコーダ及びデコーダから構成されている。図示されているのは、エンコーダ4、ストレージ又は媒体チャネル6、及びデコーダ8を有するコーディングシステム2である。
エンコーダ4は、入力オーディオ信号10を圧縮することにより、ビットストリーム12を生成しており、このビットストリームは、保存されるか、又は媒体チャネル6を通じて伝送される。ビットストリーム12は、デコーダ8内において受信可能である。デコーダ8は、ビットストリーム12を圧縮解除することにより、出力オーディオ信号14を生成している。ビットストリーム12のビットレートと、入力信号10との関係における出力オーディオ信号14の品質が主要な特徴であり、コーディングシステム2の性能は、これらによって定義されている。
最近のオーディオエンコーダ4の代表的な構造が図2に概略的に示されている。入力信号10を分析フィルタバンク構造16を使用することにより、サブ帯域に分割している。音響心理学モデル20から供給される情報を利用することにより、コーディング手段18内において、それぞれのサブ帯域を量子化及びコーディング可能である。コーディングは、Huffmanコーディングであってよい。量子化の設定とコーディングの方式は、音響心理学モデル18によって決定可能である。量子化及びコーディング済みの情報をビットストリームフォーマッタ22内において使用することにより、ビットストリーム12を生成している。
ビットストリーム12は、図3に概略的に示されているように、デコーダ8内においてデコーディング可能である。デコーダ8は、ビットストリームアンパッキング手段24、サブ帯域再構築手段26、及び合成フィルタバンク28を有することができる。
デコーダ8は、エンコーダ4の逆演算を実行しており、変換によってビットストリーム12を出力オーディオ信号14に戻している。デコーディングプロセスにおいては、サブ帯域再構築手段26内において、ビットストリーム12をサブ帯域信号に逆量子化している。これらのサブ帯域信号を合成フィルタバンク28に供給し、この合成フィルタバンクが、サブ帯域信号からオーディオ信号を合成し、出力信号14を生成している。
多くの場合に、低周波数領域及び限られた量の追加制御情報のみを使用することにより、高周波数領域を効率的且つ知覚的に正確に合成可能である。最適には、高周波数部分のコーディングに必要とされるのは、少数の制御パラメータのみである。スペクトルの上部部分の全体を少量の情報によって合成可能であるため、合計ビットレートにおける相当の節約を実現可能である。
MP3proなどの現在のコーディングは、音響心理学的なコーディングに加えて、SBRコーディング方式を導入することにより、これらの特性をオーディオ信号内において利用している。SBRにおいては、図4及び図5に概略的に示されているように、コーディング済みの低周波数領域を利用することにより、高周波数領域を別個に生成可能である。
図4は、エンコーダ4を概略的に示している。エンコーダ4は、低域通過フィルタリング手段30、コーディング手段31、SBR手段32、エンベロープ抽出手段34、及びビットストリームフォーマッタ22を有している。
低域通過フィルタ30は、まず、入力信号10をフィルタリングするためのカットオフ周波数を定義している。この効果が図6aに示されている。カットオフ周波数36未満の周波数のみがフィルタを通過している。
コーディング手段31は、32個の低周波数サブ帯域を伴う量子化及びHuffmanコーディングを実行している。コーディング手段31内において、低周波数コンテンツをQMFドメインに変換している。この低周波数コンテンツをコーダ31の出力に基づいて転位させている。この転位は、SBR手段32内において実行している。低周波数の高周波数への転位の効果が図6bに示されている。この転位は、低周波数サブ帯域サンプルが高周波数サブ帯域サンプル内にそのまま複写されるように、盲目的に実行されている。これは、入力信号のすべてのフレーム内において同様に、且つ、入力信号の特性とは無関係に、実行されている。
SBR手段32内においては、高周波数サブ帯域を追加情報に基づいて調節可能である。これは、合成された高周波数領域の特定の特徴をオリジナルのものに類似したものにするべく実行されている。正弦波又は雑音などの追加成分を高周波数領域に追加することにより、オリジナルの高周波数領域との類似性を増大させることが可能である。最終的に、オリジナルの高周波数スペクトルのエンベロープと連続するように、エンベロープ抽出手段34内において、エンベロープを調節している。この効果を図6cにおいて観察可能であり、この場合には、入力信号の実際の高周波数成分により近接したものとなるように、高周波数成分をスケーリングしている。
ビットストリーム12内において、コーディング済みの低周波数信号は、スケーリング及びエンベロープ調節パラメータと共に存在している。図5に示されているように、このビットストリーム12は、デコーダ内においてデコーディング可能である。
図5は、アンパッキング手段24、低周波数デコーダ38、高周波数再構築手段40、成分調節手段42、及びエンベロープ調節手段44を有するデコーダ8を示している。デコーダ38内において、低周波数サブ帯域を再構築している。高周波数再構築手段40内において、これらの低周波数サブ帯域から高周波数サブ帯域を静的に再構築している。成分調節手段42内において、正弦波を追加可能であり、エンベロープ調節手段44内において、エンベロープを調節可能である。
本出願によれば、低周波数信号サンプルの高周波数サブ帯域への転位は、動的に実行されており、例えば、どの低周波数信号セクションが高周波数サブ帯域に最良にマッチングしているかをチェックしている。対応した低周波数信号セクションに対するインデックスを生成している。このインデックスをエンコードし、デコーダ内において使用することにより、低周波数信号から高周波数サブ帯域を構築している。
図7は、エンコーダ4と、デコーダ8と、を有するコーディングシステムを示している。エンコーダ4は、高周波数コーディング手段50、低周波数コーダ52、及びビットストリームフォーマッタ22から構成されている。エンコーダ4は、更に複雑なオーディオコーディング体系の一部であってよい。本出願は、低ビットレートにおいて良好な品質を目的としている大部分の任意のオーディオコーダ内において使用可能である。例えば、実際の低ビットレートオーディオコーダとは完全に別個に本出願を使用可能であり、例えば、AACやMPEGなどの音響心理学的なコーダの前段に配置可能である。
高周波数領域は、通常、低周波数領域と類似したスペクトル形状を含んでことから、一般的に、良好なコーディング性能が実現される。デコーダに伝送する必要があるのは、複写されたスペクトルのインデックス及びスケーリングファクタのみであることから、これは、相対的に低い合計ビットレートによって実現される。
低周波数コーダ22内において、低周波数サンプルXL(k)をコーディングしている。高周波数コーダ50内においては、後程詳述するように、コーディングのために、変換、スケーリング、及びエンベロープ形成を表すパラメータα1、α2、iを生成している。
まず、高周波数スペクトルをnb個のサブ帯域に分割している。それぞれのサブ帯域ごとに、最も類似したマッチング(即ち、最も類似したスペクトル形状)を低周波数領域からサーチしている。
この方法は、MDCT(Modified Discrete Cosine transformation)ドメイン内において動作可能である。その良好な特性(クリティカルサンプリングとの50%のオーバーラップや柔軟なウィンドウ切り替えなど)に起因し、MDCTドメインは、大部分の最新技術のオーディオコーダ内において使用されている。MDCT変換は、次式のように実行している。
Figure 0004950210
ここで、x(n)は、入力信号であり、h(n)は、長さ2Nを有する時間分析ウィンドウであって、0≦k<Nである。通常、オーディオコーディングにおいては、Nは、1024個(通常フレーム)又は128個(過渡)のサンプルである。スペクトル係数X(k)は、実数であってよい。前述のフレームサイズ、並びに、任意のその他のフレームサイズが可能である。
高周波数サブ帯域を表すパラメータを生成するべく、高周波数コーダ50内において、高周波数サブ帯域に最もマッチングしている低周波数信号セクションを見出す必要がある。高周波数コーダ50及び低周波数コーダ52は、N個のMDCTコーディング済みの成分を生成可能であり、ここで、XL(k)は、低周波数成分を表しており、XH(k)は、高周波数成分を表している。
低周波数コーダ52により、NL個の低周波数MDCT係数
Figure 0004950210
をコーディング可能であり、ここで、0≦k<NLである。通常は、NL=N/2であるが、その他の選択も実行可能である。
オリジナルのスペクトルX(k)及び
Figure 0004950210
を利用している目的は、使用する尺度により、オリジナルの高周波数信号XH(k)=X(NL+k)に最大限に類似した高周波数成分
Figure 0004950210
を生成することであり、ここで、0≦k<N−NLである。
Figure 0004950210
及び
Figure 0004950210
が、協働し、次のように、合成されたスペクトル
Figure 0004950210
を形成している。
Figure 0004950210
オリジナルの高周波数スペクトルXH(k)をnb個のオーバーラップしていない帯域に分割している。原則的に、帯域の数と帯域の幅は、任意に選択可能である。例えば、Nが1024個のサンプルに等しい際には、8個の等しい幅の周波数帯域を使用可能である。別の適度な選択肢は、人間の聴力の知覚的特性に基づいて帯域を選択するというものである。例えば、Bark又はERB(Equivalent Rectangular Bandwidth)スケールを利用することにより、帯域の数とそれらの幅を選択可能である。
高周波数コーダ内において、高周波数信号及び低周波数成分の間の類似性尺度を算出可能である。
J個のサンプルの長さを有するXH(k)のj番目の帯域を含む列ベクトルを
Figure 0004950210
としよう。
Figure 0004950210
を、次のように、コーディング済みの低周波数スペクトル
Figure 0004950210
と比較可能である。
Figure 0004950210
ここで、S(a,b)は、ベクトルa及びbの間の類似性尺度であり、
Figure 0004950210
は、コーディング済みの低周波数スペクトル
Figure 0004950210
のインデックスi(j)≦k<i(j)+wjを含むベクトルである。望ましい低周波数信号セクションの長さは、現在の高周波数サブ帯域の長さと同一であり、従って、基本的に、必要な唯一の情報は、インデックスi(j)であり、これは、個々の低周波数信号セクションがどこで始まっているのかを示している。
類似性尺度を使用することにより、最高の類似性を提供するインデックスi(j)を選択可能である。類似性尺度を使用することにより、ベクトルの形状がどれほど類似しているかを表しており、それらの相対的な振幅は、重要ではない。類似性尺度には、多数の選択肢が存在している。1つの可能な実装は、次のように、正規化された相関であってよい。
Figure 0004950210
これは、a及びbの振幅の影響を受けにくい尺度を提供している。別の適度な代替肢は、次のように、ユークリッド距離に基づいた類似性尺度である。
Figure 0004950210
同様に、多くのその他の類似性尺度を利用可能である。
低周波数信号サンプル内のこれらの最も類似したセクションを高周波数サブ帯域に複写すると共に、特定のスケーリングファクタを使用することにより、スケーリング可能である。これらのスケーリングファクタは、コーディング済みの高周波数スペクトルのエンベロープが、オリジナルのスペクトルのエンベロープと連続するように、機能している。
インデックスi(j)を使用することにより、
Figure 0004950210
に形状において最も類似している選択されたベクトル
Figure 0004950210
Figure 0004950210
と同一の振幅にスケーリングしなければならない。スケーリングには、多数の異なる技法が存在している。例えば、スケーリングは、まず、線形ドメインにおいてスペクトル内の高振幅ピークをマッチングさせた後に、対数ドメインにおいて、エネルギー及び形状をマッチングさせるという2つのフェーズにおいて実行可能である。これらのスケーリングファクタによってベクトル
Figure 0004950210
をスケーリングすることにより、結果的に、コーディング済みの周波数成分
Figure 0004950210
が得られる。
線形ドメインスケーリングは、単純に次のように実行される。
Figure 0004950210
ここで、α1(j)は、次式から得られる。
Figure 0004950210
α1(j)が正及び負の両方の値を取得可能であることに留意されたい。対数スケーリングの前に、ベクトルサンプルの符号と
Figure 0004950210
の最大対数値を次のように保存している。
Figure 0004950210
この段階で、対数スケーリングを実行可能であり、
Figure 0004950210
を次のように更新する。
Figure 0004950210
ここで、スケーリングファクタα2(j)は、次式から得られる。
Figure 0004950210
このスケーリングファクタは、対数ドメインにおける波形の間の類似性を極大化している。或いは、この代わりに、エネルギーが略等しいレベルに設定されるように、次のように、α2(j)を選択することも可能である。
Figure 0004950210
上記の式において、変数
Figure 0004950210
の目的は、
Figure 0004950210
内の最大の値の振幅(即ち、スペクトルピーク)が過大にスケーリングされないようにすることにある(第1スケーリングファクタα1(j)が、これらを既に正しいレベルに設定している)。変数
Figure 0004950210
を使用することにより、オリジナルサンプルの符号を保存しているが、この理由は、この情報が、対数ドメインへの変換の際に失われるためである。
帯域のスケーリングが完了した後に、ベクトル
Figure 0004950210
を合成することにより、合成済みの高周波数スペクトル
Figure 0004950210
を取得可能であり、ここで、j=0,1,...,nb−1である。
パラメータの選択が完了した後に、高周波数領域再構築情報をデコーダ8に伝送するべく、これらのパラメータを量子化する必要がある。
デコーダ8内において
Figure 0004950210
を再構築するには、それぞれの帯域について、パラメータi(j)、α1(j)、及びα2(j)が必要である。デコーダ8内において、高周波数生成手段54がこれらのパラメータを利用している。インデックスi(j)は、整数であるため、そのまま提出可能である。α1(j)及びα2(j)は、例えば、スカラー又はベクトル量子化を使用することにより、量子化可能である。
これらのパラメータの量子化されたバージョン
Figure 0004950210
及び
Figure 0004950210
を高周波数生成手段54内において使用することにより、式(6)及び式(10)に従って
Figure 0004950210
を構築している。
低周波数デコーディング手段56は、低周波数信号をデコーディングし、且つ、再構築された高周波数サブ帯域と共に、式2に従って出力信号14を形成している。
図7に示されているシステムは、エンベロープ正規化手段によって更に機能強化可能である。図8に示されているシステムは、図7に示されているシステムに加えて、エンベロープ正規化手段58及びエンベロープ合成手段60を有している。
このシステムにおいては、高周波数コーディング法を使用し、且つ、エンコーダ4内のエンベロープ正規化手段58を使用することにより、エンベロープ正規化スペクトルを生成している。実際のエンベロープの合成は、デコーダ8内の別個のエンベロープ合成手段60内において実行されている。
エンベロープの正規化は、例えば、LPC分析又はケプストラムモデル化を使用することにより、実行可能である。図8に示されているように、エンベロープの正規化に伴い、オリジナルの高周波数スペクトルエンベロープを表すエンベロープパラメータをデコーダに提出しなければならないことに留意されたい。
SBRにおいて、追加の正弦波及び雑音成分を高周波数領域に追加している。前述のアプリケーション内においても、同様の内容を実行可能である。必要に応じて、追加成分を容易に追加可能である。これは、この記述されている方法においては、オリジナルの及び合成されたスペクトルの間の差を計測可能であり、且つ、従って、スペクトル形状において大きな差が存在している場所を見出すことが可能であるためである。例えば、一般的なBWEコーダにおいては、スペクトル形状がオリジナルのスペクトルから大きく異なっているため、通常、追加の正弦波又は雑音成分を追加するべきかどうかを決定することが相対的に困難である。
いくつかの場合において、入力信号が顕著な調性を有している際には、オリジナルと比較した際に、コーディング済みの信号の品質が低下可能であることが判明した。これは、コーディング済みの高周波数領域が、オリジナルの信号ほどには、フレーム間における周期性を有していないためである。いくつかの周期的(正弦波的)成分が消失可能であるため、又は既存の周期的成分の振幅がフレーム間において過剰に変化しているため、周期性が失われている。
高周波数サブ帯域を再構築するべく使用される低周波数信号サンプルが完全な正弦波を表していない際にも調性セクションを包含するべく、2つの更なる段階を提供可能である。
第1段階において、可能な品質の劣化を伴う調性信号セクションを検出可能である。調性セクションは、SDFT(Shifted Discrete Fourier Transform)ドメインにおいて2つの連続したフレーム間の類似性を比較することにより、検出可能である。SDFTは、位相情報をも含んでいるため、この目的に有用な変換であるが、これは、コーダのその他の部分において使用されているMDCT変換と依然として密接に関連している。
調性検出は、過渡検出の直後、又は実際の高周波数領域コーディングの初期化の前に実行可能である。過渡フレームは、一般に、調性成分を含んでいないため、調性検出は、現在の及び以前のフレームの両方が通常の長いフレーム(例えば、2048個のサンプル)である際にのみ、適用可能である。
調性検出は、前述のように、SDFT(Shifted Discrete Fourier Transform)に基づいており、これは、2N個のサンプルの長いフレームについて、次のように定義可能である。
Figure 0004950210
ここで、h(n)は、ウィンドウであり、x(n)は、入力信号であり、u及びvは、それぞれ、時間及び周波数ドメインシフトを表している。X(k)=real(Y(k))であるため、u=(N+1)/2及びv=1/2となるように、これらのドメインシフトを選択可能である。
従って、SDFT及びMDCT変換を別個に演算する代わりに、まず、調性分析のために、SDFT変換を演算可能であり、この結果、SDFT係数の実数部分として、MDCT変換が容易に得られる。従って、調性検出によって演算の複雑性が大幅に増大することにはならない。
それぞれ、現在の及び以前のフレームのSDFT変換を表しているY(k)b及びY(k)b-1により、フレーム間の類似性を次式を使用して計測可能である。
Figure 0004950210
ここで、NL+1は、高周波数コーディング用の限界周波数に対応している。パラメータSが小さくなるほど、高周波数スペクトルの類似性が増大する。Sの値に基づいて、フレームを次のように分類可能である。
Figure 0004950210
制限ファクタslim1及びslm2の良好な選択肢は、それぞれ、0.02及び0.2である。但し、その他の選択肢も選択可能である。更には、異なる変形を使用可能であり、例えば、これらの分類の中の1つを完全に除去することも可能である。
図10に示されているように、前述の調性検出(62)は、入力信号10に基づいて実行可能である。
図10に示されているように、調性検出(62)に基づいて、入力フレームを、非調性(64)、調性(66)、及び強力な調性(66)という3つのグループに分割可能である。
調性検出(62)の後に、第2段階において、前述のように、追加の正弦波を高周波数領域に追加すると共に、恐らくは、高周波数領域の生成に使用される高周波数サブ帯域の数を増大させることにより、調性セクションの品質を改善可能である。
最も一般的なケースは、信号が非調性(64)であるというものであり、この場合には、コーディングは、前述のように継続される。
入力信号が調性(66)に分類される場合には、前述のように、コーディングを適用した後に、追加の正弦波を高周波数スペクトルに追加可能である。固定数の正弦波をMDCTドメインスペクトルに追加可能である。オリジナルの及びコーディング済みのスペクトルの間の絶対差が最大である周波数に対して正弦波を単純に追加可能である。正弦波の位置及び振幅を量子化し、デコーダに提出している。
フレームが調性(又は、強力な調性)であると検出された際には、正弦波をスペクトルの高周波数領域に追加可能である。それぞれ、オリジナルの及びコーディング済みの高周波数サブ帯域成分を表しているXH(k)及び
Figure 0004950210
により、第1正弦波をインデックスk1に追加可能であり、これは、次式から取得可能である。
Figure 0004950210
正弦波の(その符号を含む)振幅は、次のように定義可能である。
Figure 0004950210
最後に、
Figure 0004950210
を次のように更新可能である。
Figure 0004950210
所望の数の正弦波の追加が完了する時点まで、式(17)〜式(19)を反復可能である。通常は、4つの追加の正弦波により、調性セクションにおいて明瞭に改善された結果を得ることが可能である。正弦波の振幅Aiを量子化し、デコーダ8に提出可能である。正弦波の位置kiも提出可能である。更には、現在のフレームが調性であることをデコーダ8に通知可能である。
調性セクションにおいては、第2スケーリングファクタα2は、品質を改善不可能であり、従って、これを除去可能であることが判明した。
強力な調性セクション(68)が検出された際には、現在のセクションの高周波数領域のコーディングが特に困難であることがわかる。従って、正弦波の追加だけでは、不十分であろう。高周波数コーディングの精度を増大させることにより、品質を更に改善可能である。これは、高周波数領域の生成に使用される帯域の数を追加することにより、実行可能である。
強力な調性セクションにおいては、高周波数サブ帯域は、フレーム間において非常に類似した状態に留まっている。この類似性をコーディング済みの信号においても維持するべく、特殊な操作を適用可能である。特に、高周波数サブ帯域の数nbが相対的に小さい(即ち、8以下である)場合には、高周波数サブ帯域の数を更に大きなレートに増大可能である。例えば、16個の高周波数サブ帯域は、一般に、更に高い精度の性能を提供している。
多数の帯域に加えて、多数の正弦波を追加することも可能である。一般に、良好な解決策は、「通常」の調性セクションにおけるものの2倍の数の正弦波を使用するというものである。
高周波数サブ帯域の数を増大させると共に、正弦波の数を増大させれば、「通常」のフレームと比べた場合に、強力な調性セクションのビットレートは、容易に倍増することになる。しかしながら、強力な調性セクションは、非常に特殊なケースであって、非常にまれにしか発生せず、従って、平均ビットレートの増大は、非常にわずかである。
当技術分野におけるオーディオ信号をコーディングするシステムである。 当技術分野におけるエンコーダである。 当技術分野におけるデコーダである。 SBRエンコーダである。 SBRデコーダである。 異なる段階におけるオーディオ信号のスペクトル表現である。 第1実施例によるシステムである。 第2実施例によるシステムである。 エンベロープの正規化を伴う周波数スペクトルである。 調性検出を使用したコーディングの機能強化である。

Claims (24)

  1. オーディオ信号をエンコーディングする方法において、
    入力オーディオ信号を受信する段階と、
    前記オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割する段階と、
    前記高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割する段階と、
    低周波数信号サンプルを前記受信入力オーディオ信号の高周波数サブ帯域と比較することにより、低周波数帯域信号セクションと前記高周波数サブ帯域信号との間の類似性尺度を判定する段階と、
    低周波数帯域信号セクションを量子化及びコーディングする段階と、
    前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するパラメータを生成する段階と、
    前記入力信号を時間的に連続したフレームに分割する段階と、
    前記入力信号の2つの連続したフレーム内において調性セクションを検出する段階と、
    少なくとも1つの正弦波の位置及び振幅を表すパラメータを調性セクションのパラメータに追加する段階と、
    前記コーディング済みの低周波数信号セクションと前記パラメータとを有するビットストリームを作成する段階と、
    を有する方法。
  2. パラメータを生成する段階は、前記低周波数帯域信号セクションをスケーリングするための少なくとも1つのスケーリングファクタを生成する段階を更に有する、請求項1記載の方法。
  3. 前記スケーリングファクタは、前記パラメータを使用して前記高周波数サブ帯域信号に転位される前記低周波数信号セクションのエンベロープが、前記受信信号の前記高周波数サブ帯域信号のエンベロープと連続するように生成される、請求項2記載の方法。
  4. スケーリングファクタを生成する段階は、前記スペクトル内の少なくとも振幅ピークにマッチングするように、線形ドメイン内においてスケーリングファクタを生成する段階を有する、請求項2記載の方法。
  5. スケーリングファクタを生成する段階は、前記スペクトルの少なくともエネルギー及び/又は形状にマッチングするように、対数ドメイン内においてスケーリングファクタを生成する段階を有する、請求項2記載の方法。
  6. パラメータを生成する段階は、前記対応する高周波数サブ帯域信号を表す低周波数信号セクションに対するリンクを生成する段階を有する、請求項1記載の方法。
  7. 前記低周波数帯域信号セクションの中において高周波数サブ帯域信号に最良にマッチングしているものを判定する段階は、
    A)正規化された相関と、
    B)ユークリッド距離と、
    の中の少なくとも1つを使用する段階を有する、請求項1記載の方法。
  8. 少なくとも前記低周波数信号セクションのサンプルは、修正離散コサイン変換を使用することにより生成される、請求項1記載の方法。
  9. 前記高周波数サブ帯域信号の前記エンベロープを正規化する段階を更に有する、請求項1記載の方法。
  10. 前記低周波数信号のサンプルを量子化する段階と、前記少なくとも1つのスケーリングファクタを量子化する段階と、を更に有する、請求項2記載の方法。
  11. 調性セクションを検出する段階は、シフト離散フーリエ変換を使用する段階を有する、請求項記載の方法。
  12. 調性セクション用の前記高周波数サブ帯域の数を増大させる段階を更に有する、請求項記載の方法。
  13. オーディオ信号をデコーディングする方法において、
    エンコーディング済みのビットストリームを受信する段階と、
    前記ビットストリームから少なくとも1つの低周波数信号と、低周波数信号セクション並びに少なくとも1つの正弦波の位置及び振幅を参照する少なくともパラメータと、をデコーディングする段階であって、前記パラメータは、前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するものである、段階と、
    前記低周波数信号のサンプルと、前記低周波数信号セクション並びに正弦波の位置及び振幅を参照する前記パラメータと、を利用することにより、少なくとも2つの高周波数サブ帯域信号を再構築する段階と、
    前記少なくとも1つの低周波数信号及び前記少なくとも2つの高周波数サブ帯域信号を有する出力信号を出力する段階であって、前記少なくとも2つの高周波数サブ帯域が、前記少なくとも1つのデコーディング済みの低周波数信号と前記パラメータとから再構築されている、段階と、
    を有する方法。
  14. オーディオ信号をエンコーディングするエンコーダにおいて、
    入力オーディオ信号を受信するべく構成された受信手段と、
    前記オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割し、前記高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割するべく構成されており、更に、前記入力信号を時間的に連続したフレームに分割し、前記入力信号の2つの連続したフレーム内において調性セクションを検出するべく構成されたフィルタリング手段と、
    低周波数信号サンプルを前記受信入力オーディオ信号の高周波数サブ帯域と比較することにより、低周波数帯域信号セクションと前記高周波数サブ帯域信号との間の類似性尺度を判定し、前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するパラメータを生成し、少なくとも1つの正弦波の位置及び振幅を表すパラメータを調性セクションのパラメータに追加するべく構成され、更に、低周波数帯域信号セクションを量子化及びコーディングするべく構成されたコーディング手段と、
    前記コーディング済みの低周波数信号セクションと前記パラメータとを有するビットストリームを作成する出力手段と、
    を有するエンコーダ。
  15. 前記コーディング手段は、前記低周波数帯域信号セクションをスケーリングするための少なくとも1つのスケーリングファクタを生成するべく構成されている、請求項14記載のエンコーダ。
  16. 前記コーディング手段は、前記パラメータを使用して高周波数サブ帯域信号に転位される前記低周波数信号セクションのエンベロープが、前記受信信号の前記高周波数サブ帯域信号のエンベロープと連続するように、前記スケーリングファクタを生成するべく構成されている、請求項14記載のエンコーダ。
  17. 前記フィルタリング手段は、シフト離散フーリエ変換を使用して調性セクションを検出するべく構成されている、請求項14記載のエンコーダ。
  18. 前記コーディング手段は、調性セクション用の前記高周波数サブ帯域の数を増大させるべく構成されている、請求項14記載のエンコーダ。
  19. オーディオ信号をデコーディングするデコーダにおいて、
    エンコーディング済みのビットストリームを受信するべく構成された受信手段と、
    前記ビットストリームから少なくとも1つの低周波数信号と、低周波数信号セクション並びに少なくとも1つの正弦波の位置及び振幅を参照する少なくともパラメータと、をデコーディングするべく構成されたデコーディング手段であって、前記パラメータは、前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するものである、デコーディング手段と、
    前記低周波数信号のサンプルと、前記低周波数信号セクション並びに正弦波の位置及び振幅を参照する前記パラメータと、を利用して少なくとも2つの高周波数サブ帯域信号を再構築するべく構成された生成手段であって、前記少なくとも2つの高周波数サブ帯域が、前記少なくとも1つのデコーディング済みの低周波数信号と前記パラメータとから再構築されている、生成手段と、
    を有するデコーダ。
  20. 請求項19記載のデコーダと、請求項14記載のエンコーダと、を有するデジタルオーディオ圧縮用のシステム。
  21. オーディオ信号をエンコーディングするためのコンピュータプログラムにおいて、前記プログラムは、
    入力オーディオ信号を受信する段階と、
    前記オーディオ信号を少なくとも1つの低周波数帯域及び1つの高周波数帯域に分割する段階と、
    前記高周波数帯域を少なくとも2つの高周波数サブ帯域信号に分割する段階と、
    低周波数信号サンプルを前記受信入力オーディオ信号の高周波数サブ帯域と比較することにより、低周波数帯域信号セクションと前記高周波数サブ帯域信号との間の類似性尺度を判定する段階と、
    低周波数帯域信号セクションを量子化及びコーディングする段階と、
    前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するパラメータを生成する段階と、
    前記入力信号を時間的に連続したフレームに分割する段階と、
    前記入力信号の2つの連続したフレーム内において調性セクションを検出する段階と、
    少なくとも1つの正弦波の位置及び振幅を表すパラメータを調性セクションのパラメータに追加する段階と、
    前記コーディング済みの低周波数信号セクションと前記パラメータとを有するビットストリームを作成する段階と、
    をプロセッサに実行させるべく動作可能である命令を有する、コンピュータプログラム。
  22. シフト離散フーリエ変換を使用して調性セクションを検出する段階をプロセッサに実行させるべく動作可能である、請求項21記載のコンピュータプログラム。
  23. 調性セクション用の前記高周波数サブ帯域の数を増大させる段階をプロセッサに実行させるべく動作可能である、請求項21記載のコンピュータプログラム。
  24. ビットストリームをデコーディングするためのコンピュータプログラムにおいて、前記プログラムは、
    エンコーディング済みのビットストリームを受信する段階と、
    前記ビットストリームから、少なくとも1つの低周波数信号と、低周波数信号セクション並びに少なくとも1つの正弦波の位置及び振幅を参照する少なくともパラメータと、をデコーディングする段階であって、前記パラメータは、前記低周波数帯域信号セクションを高周波数に転位して前記高周波数サブ帯域を再構築するために、前記高周波数サブ帯域信号に対して最高の類似性尺度を有する前記低周波数帯域信号セクションを少なくとも参照するものである、段階と、
    前記低周波数信号のサンプルと、前記低周波数信号セクション並びに正弦波の位置及び振幅を参照する前記パラメータと、を利用することにより、少なくとも2つの高周波数サブ帯域信号を再構築する段階と、
    前記少なくとも1つの低周波数信号及び前記少なくとも2つの高周波数サブ帯域信号を有する出力信号を出力する段階であって、前記少なくとも2つの高周波数サブ帯域が、前記少なくとも1つのデコーディング済みの低周波数信号と前記パラメータとから再構築されている、段階と、
    をプロセッサに実行させるべく動作可能である命令を有する、コンピュータプログラム。
JP2008538430A 2005-11-04 2005-11-04 オーディオ圧縮 Active JP4950210B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2005/003293 WO2007052088A1 (en) 2005-11-04 2005-11-04 Audio compression

Publications (2)

Publication Number Publication Date
JP2009515212A JP2009515212A (ja) 2009-04-09
JP4950210B2 true JP4950210B2 (ja) 2012-06-13

Family

ID=35883664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008538430A Active JP4950210B2 (ja) 2005-11-04 2005-11-04 オーディオ圧縮

Country Status (8)

Country Link
US (1) US8326638B2 (ja)
EP (1) EP1943643B1 (ja)
JP (1) JP4950210B2 (ja)
KR (1) KR100958144B1 (ja)
CN (1) CN101297356B (ja)
AU (1) AU2005337961B2 (ja)
BR (1) BRPI0520729B1 (ja)
WO (1) WO2007052088A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
CA2704807A1 (en) 2007-11-06 2009-05-14 Nokia Corporation Audio coding apparatus and method thereof
US20100250260A1 (en) * 2007-11-06 2010-09-30 Lasse Laaksonen Encoder
KR101238239B1 (ko) 2007-11-06 2013-03-04 노키아 코포레이션 인코더
WO2009078681A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
WO2009093466A1 (ja) * 2008-01-25 2009-07-30 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
EP3985666B1 (en) * 2009-01-28 2022-08-17 Dolby International AB Improved harmonic transposition
MX2011008685A (es) 2009-02-26 2011-09-06 Panasonic Corp Codificador, decodificador y metodo para los mismos.
KR101924192B1 (ko) * 2009-05-19 2018-11-30 한국전자통신연구원 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
WO2011035813A1 (en) * 2009-09-25 2011-03-31 Nokia Corporation Audio coding
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
PL3723090T3 (pl) 2009-10-21 2022-03-21 Dolby International Ab Nadrpóbkowanie w połączonym banku modułu transpozycji
US8898057B2 (en) 2009-10-23 2014-11-25 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus and methods thereof
EP2495721B1 (en) 2009-10-26 2018-05-30 III Holdings 12, LLC Tone determination device and method
EP2500901B1 (en) 2009-11-12 2018-09-19 III Holdings 12, LLC Audio encoder apparatus and audio encoding method
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
WO2011114192A1 (en) * 2010-03-19 2011-09-22 Nokia Corporation Method and apparatus for audio coding
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
MX2012001696A (es) 2010-06-09 2012-02-22 Panasonic Corp Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio.
KR20130088756A (ko) 2010-06-21 2013-08-08 파나소닉 주식회사 복호 장치, 부호화 장치 및 이러한 방법
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012052802A1 (en) * 2010-10-18 2012-04-26 Nokia Corporation An audio encoder/decoder apparatus
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP5942358B2 (ja) * 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN106847295B (zh) * 2011-09-09 2021-03-23 松下电器(美国)知识产权公司 编码装置和编码方法
WO2013057895A1 (ja) * 2011-10-19 2013-04-25 パナソニック株式会社 符号化装置及び符号化方法
EP3624119B1 (en) 2011-10-28 2022-02-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding apparatus and encoding method
RU2610293C2 (ru) 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
EP2717263B1 (en) 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
CN103971694B (zh) 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
CN110867190B (zh) 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
KR102315920B1 (ko) 2013-09-16 2021-10-21 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
MX2016008172A (es) 2013-12-27 2016-10-21 Sony Corp Metodo y aparato de decodificacion, y programa.
WO2015147434A1 (ko) * 2014-03-25 2015-10-01 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
US10020002B2 (en) * 2015-04-05 2018-07-10 Qualcomm Incorporated Gain parameter estimation based on energy saturation and signal scaling
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
DE102017200320A1 (de) * 2017-01-11 2018-07-12 Sivantos Pte. Ltd. Verfahren zur Frequenzverzerrung eines Audiosignals
JP2020105231A (ja) * 2017-03-22 2020-07-09 Spiber株式会社 モールド成形体及びモールド成形体の製造方法
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN110111800B (zh) * 2019-04-04 2021-05-07 深圳信息职业技术学院 一种电子耳蜗的频带划分方法、装置及电子耳蜗设备
CN113192523B (zh) * 2020-01-13 2024-07-16 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808597B (zh) * 2020-05-30 2024-10-29 华为技术有限公司 一种音频编码方法和音频编码装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7447639B2 (en) * 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
EP1444688B1 (en) * 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
KR100949232B1 (ko) * 2002-01-30 2010-03-24 파나소닉 주식회사 인코딩 장치, 디코딩 장치 및 그 방법
CN1328707C (zh) * 2002-07-19 2007-07-25 日本电气株式会社 音频解码设备以及解码方法
KR100524065B1 (ko) * 2002-12-23 2005-10-26 삼성전자주식회사 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Also Published As

Publication number Publication date
KR100958144B1 (ko) 2010-05-18
BRPI0520729B1 (pt) 2019-04-02
BRPI0520729A2 (pt) 2009-05-26
WO2007052088A1 (en) 2007-05-10
US8326638B2 (en) 2012-12-04
EP1943643B1 (en) 2019-10-09
CN101297356A (zh) 2008-10-29
AU2005337961B2 (en) 2011-04-21
CN101297356B (zh) 2011-11-09
KR20080059279A (ko) 2008-06-26
BRPI0520729A8 (pt) 2016-03-22
EP1943643A1 (en) 2008-07-16
AU2005337961A1 (en) 2007-05-10
US20090271204A1 (en) 2009-10-29
JP2009515212A (ja) 2009-04-09

Similar Documents

Publication Publication Date Title
JP4950210B2 (ja) オーディオ圧縮
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
US8121850B2 (en) Encoding apparatus and encoding method
US9177569B2 (en) Apparatus, medium and method to encode and decode high frequency signal
CN103366750B (zh) 一种声音编解码装置及其方法
US20130226598A1 (en) Audio encoder or decoder apparatus
JP2012527637A (ja) 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
CN103366751B (zh) 一种声音编解码装置及其方法
WO2009125588A1 (ja) 符号化装置および符号化方法
WO2013062201A1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
RU2409874C2 (ru) Сжатие звуковых сигналов
US20100280830A1 (en) Decoder

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110303

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4950210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250