JP2010540990A - 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置 - Google Patents

埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置 Download PDF

Info

Publication number
JP2010540990A
JP2010540990A JP2010526119A JP2010526119A JP2010540990A JP 2010540990 A JP2010540990 A JP 2010540990A JP 2010526119 A JP2010526119 A JP 2010526119A JP 2010526119 A JP2010526119 A JP 2010526119A JP 2010540990 A JP2010540990 A JP 2010540990A
Authority
JP
Japan
Prior art keywords
encoding
speech signal
input speech
spectrum
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010526119A
Other languages
English (en)
Inventor
トミー・ヴェヤンクール
レドワン・サラミ
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2010540990A publication Critical patent/JP2010540990A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

量子化ノイズを低減しつつ埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する方法および装置が示される。少なくとも1つの下位層において、前記入力音声信号を符号化して符号化パラメータが生成され、前記入力音声信号を符号化することは、合成音声信号を生成することを含む。誤差信号が入力音声信号と合成信号との間の差として計算され、スペクトルマスクが入力音声信号に関するスペクトルの関数として計算される。少なくとも1つの上位層において、誤差信号を符号化して符号化係数を生成し、符号化係数にスペクトルマスクを施し、マスクされた符号化係数を量子化する。スペクトルマスクを符号化係数に施すことで、符号化係数を量子化する際に生ずる量子化ノイズが低減される。

Description

本発明は、埋め込み符号化(階層符号化ともいう)構造を用いた音声信号(例えば話声信号とオーディオ信号)の符号化に関する。より具体的には、下位層(コア層ともいう)では線形予測符号化が用いられ、上位層では変換符号化が用いられる埋め込みコーデックにおいて、変換ベースの上位層の量子化ノイズを低減するために、入力音声信号に関するスペクトルに基づいてスペクトルマスクを計算し、それを変換係数に適用することであるが、これに限定されるものではない。
階層符号化とも呼ばれる埋め込み符号化においては、音声信号を第1層において符号化し、第1のビットストリームを作り出し、それから、元の音声信号と、第1層からの符号化された信号(合成音声信号)との間の誤差を符号化して第2ビットストリームを作り出す。これは、元の音声信号と、先行するすべての層からの合成音声信号との間の誤差を符号化することによって、より多くの層について繰り返すことができる。すべての層のビットストリームは、伝送に向けて連結される。階層符号化の利点は、ビットストリームの一部(上位層に対応する部分)が、(例えば混雑状態において)ネットワーク内でドロップすることがあっても、受信側で、受信された層の数によって符号化された音声信号を復号することができることである。階層符号化は、エンコーダがすべての層のビットストリームを生成し、ネットワークが、各リンク内の利用可能ビットレートに応じて、異なるビットレートを異なる終点に送るように決定するマルチキャストに用いるのに有用である。
埋め込み符号化または階層符号化は、広く用いられている現行のコーデックを、これらの相互接続性を維持しつつ、その質を高めるのに有用でもある。標準的なコーデック下位層(またはコア層)に層を追加することで、質を高めることができ、符号化されたオーディオ信号の帯域幅を広げることもできる。最近標準化されたITU−T勧告G.729.1が、その一例であり、ここにおいては、下位層(またはコア層)が、8kbit/sで作動する広く使用されている狭帯域ITU−T勧告G.729と相互接続可能である。ITU−T勧告G.729.1の上位層は、(14kbit/sから開始する広帯域で)最高32kbit/sのビットレートを作り出す。現在の標準化作業は、モード層を追加して超広帯域(14kHzの帯域幅)とステレオ拡張とを達成することを目指している。もう1つの例は、最近ITU−Tにより認定された、8kbit、12kbit、16kbit、24kbit、32kbit/sの広帯域信号の符号化のためのITU−T勧告G.718(文献1参照)である。このコーデックは、以前はEV−VBRコーデックと呼ばれていたもので、ITU−TにおいてQ9/16によって規格化された。以下の記載において、EV−VBRコーデックといった場合、これはITU−T勧告G.718を指しているものとする。またEV−VBRコーデックは、超広帯域信号およびステレオ信号をより高いビットレートで符号化するために拡張されることが想定されている。本明細書に開示する技術は、ITU−T勧告G.718の一部を成すので、非限定的一例として、EV−VBRコーデックが、本発明の方法の非制限的実施例において用いられる。
埋め込みコーデックの要件は、通常、話声信号およびオーディオ信号のいずれにも良好な品質を備えている。スピーチ信号は、モデルベースの方式を用いて比較的低いビットレートで符号化できるので、下位層(または下から1番目と2番目の層)が、話声に特化した技術を用いて符号化され、そして、上位層のための誤差信号は、より一般的なオーディオ符号化技術を用いて符号化される。このような方式は、低いビットレートで良質な話声信号を提供し、ビットレートが上がるにつれ、オーディオ信号の質が上がる。EV−VBRコーデックにおいては(またITU−T勧告G.729.1においても)、2つの下位層は、話声信号の符号化に適したACELP(代数符号励振線形予測)技術に基づいている。上位層では、オーディオ信号の符号化に適した変換ベースの符号化が、誤差信号(入力音声信号と、2つの下位層からの出力つまり合成音声信号との間の差)の符号化に用いられる。上位層では、周知のMDCT変換が用いられ、そこでは、50%のオーバーラップ率の窓を用いて誤差信号が周波数領域に変換される。MDCT係数は、例えば、ホフマン符号化を用いるスカラー量子化、ベクトル量子化、あるいはその他のいくつかの技術を用いて量子化することができる。EV−VBRコーデックにおいては、なかでも、代数ベクトル量子化(AVQ)が、MDCT係数を量子化するのに用いられる。
スペクトル量子化法では、最大限のビット数で周波数範囲を量子化しなければならない。通常、ビット数は、すべての周波数ビンを完全に量子化できるほど高くない。そこで、先ず最も高いエネルギーの(つまり重み付けスペクトル誤差がより高い範囲の)周波数ビンが量子化され、次に、可能であれば、残りの周波数ビンが量子化される。利用可能なビット数が十分でない場合、最も低いエネルギー周波数ビンは大まかに量子化されるに過ぎず、これらの最も低いエネルギー周波数ビンの量子化は、フレーム毎に異なることがある。このような大まかな量子化の結果、特に2kHz〜4kHzの間で聴覚的量子化ノイズが生じる。したがって、スペクトルのすべての周波数ビンを量子化するにはビット数が足りないかまたは量子化段階が多すぎることにより生ずる量子化ノイズを低減するための技術が必要とされている。
本発明によれば、埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する方法が提供される。前記方法は、前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化するステップと、前記入力音声信号と前記合成信号との間の差として誤差信号を計算するステップと、前記入力音声信号に関するスペクトルからスペクトルマスクを計算するステップとを含み、前記少なくとも1つの上位層において、(a)前記誤差信号を符号化して符号化係数を生成するステップと、(b)前記符号化係数に前記スペクトルマスクを施すステップと、(c)前記マスクされた符号化係数を量子化するステップとを含み、前記入力音声信号を符号化するステップは合成音声信号を生成するステップを含み、前記スペクトルマスクを前記符号化係数に施すステップは前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。
また本発明は、埋め込みコーデックの少なくとも1つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための方法に関する。この方法において、前記誤差信号の符号化は符号化係数を生成して前記符号化係数を量子化するステップを含み、かつ、前記方法は、スペクトルマスクを提供するステップと、少なくとも1つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すステップを含む。
さらに本発明によれば、埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する装置が提供される。前記装置は、前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化する入力音声信号符号化手段と、前記入力音声信号と前記合成信号との間の差として誤差信号を計算する手段と、前記入力音声信号に関するスペクトルからスペクトルマスクを計算する手段と、前記少なくとも1つの上位層において、(a)符号化係数を生成するために前記誤差信号を符号化する手段と、(b)前記符号化係数に前記スペクトルマスクを施す手段と、(c)前記マスクされた符号化係数を量子化する手段とを含み、前記音声信号符号化手段は合成音声信号を生成し、前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。
本発明は更に、埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する装置に関する。前記装置は、前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化する音声信号コーデックと、前記入力音声信号と前記合成信号との間の差として誤差信号を計算する減算器と、前記入力音声信号に関するスペクトルからスペクトルマスクを計算する計算器と、前記少なくとも1つの上位層において、(a)符号化係数を生成するための前記誤差信号の符号化器と、(b)前記符号化係数に前記スペクトルマスクを施す前記符号化係数の修正器と、(c)前記マスクされた符号化係数の量子化器とを含み、前記音声信号コーデックは合成音声信号を生成し、前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する。
さらにまた、本発明によれば、埋め込みコーデックの少なくとも1つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための装置が提供され、ここにおいて、前記誤差信号の符号化には、符号化係数を生成して前記符号化係数を量子化することが含まれ、かつ、前記装置は、スペクトルマスクと、少なくとも1つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すことにより前記符号化係数を修正する修正器とを含む。
上記およびその他の本発明の目的、利点および特長が、以下に説明する本発明の非制限的な、単なる例として示す実施例を、添付の図面を参照して読むことでより明らかになる。
本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する方法および装置の非制限的実施例の概略ブロック図である。 本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を、EV−VBRコーデックとの関連において符号化する方法および装置の非制限的実施例の概略ブロック図であり、ここにおいて、12.8kHzの内部サンプリング周波数が下位層の符号化に用いられる。 スペクトル分析において50%のオーバーラップ率で窓を掛ける一例を示すグラフである。 低域通過フィルタ処理の前と後の対数パワースペクトルの一例を示すグラフである。 パワースペクトルの最大値と最小値の選定を説明するグラフである。 スペクトルマスクの計算を説明するグラフである。 上位層における変換係数に対してスペクトルマスクを計算し適用するための技術の第1の実施例の概略ブロック図である。 上位層における変換係数に対してスペクトルマスクを計算し適用するための技術の第2の実施例の概略ブロック図である。
以下の非制限的記載において、スペクトルのすべての周波数ビンを量子化するにはビット数が足りない、または量子化段階が多すぎることにより生ずる量子化ノイズを低減するための技術を開示する。より具体的には、量子化ノイズを低減するために、スペクトルマスクを計算し、それを量子化の前に変換係数に適用する。スペクトルマスクは、入力音声信号に関するスペクトルに関連して生成される。スペクトルマスクは、量子化プロセスに先だって変換係数に用いられる一組のスケーリングファクタ(倍率)に対応する。スペクトルマスクは、スケーリングファクタが、入力音声信号のスペクトルの最大値の領域では大きく(つまり1に近く)なり、入力音声信号のスペクトルの最小値の領域では小さく(0.15まで低く)なるように計算されている。なぜなら、上位層に起因する量子化ノイズが、入力話声信号の場合、通常はフォルマント間に在るからである。適切なスペクトルマスクを作り出すためには、これらのフォルマントを特定する必要がある。入力音声信号のスペクトルの最小値に対応する領域(話声信号の場合はフォルマント間)の周波数ビンのエネルギーの値を低くすることで、利用可能なビット数が、全体を量子化するには足りない場合に生ずる量子化ノイズが低減される。
この処理により、下位層(コア層)が話声に特化した符号化技術を用いて量子化され且つ上位層は変換ベースの技術を用いて量子化される場合、話声信号の音質が向上する。
要するに、本明細書に開示する技術は、量子化器が、量子化に利用可能なビットを、フォルマント間ではなくフォルマントの領域に使うように仕向けるのである。この目標を達成するため、第1ステップでは、フォルマントの形状を特定するために、エンコーダで下位層に利用できる入力音声信号のスペクトル、または、例えば、やはりエンコーダで下位層に利用できるLP(線形予測)パラメータから導き出されるマスクフィルタのスペクトル応答を用いる。第2ステップで、入力音声信号のスペクトル内の最大値と最小値(スペクトルの頂点と谷間に対応する)が特定される。第3ステップで、最大値と最小値の位置情報を用いてスペクトルマスクが生成される。第4ステップで、現在算定されたスペクトルマスク(これは新たに計算されたスペクトルマスクであっても、以前計算された1つまたは複数のスペクトルマスクを更新したものであってもよい)を変換係数(例えばMDCT係数)、つまり量子化すべきスペクトル誤差に施して、フォルマント間のスペクトル誤差による量子化ノイズを低減する。
図1は、本発明による、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも1つの下位層および少なくとも1つの上位層で入力音声信号を符号化するための方法および装置の非制限的実施例の概略ブロック図である。
図1において、入力音声信号101は2つ以上の層に符号化される。なお、音声信号101は、前処理された入力信号であってもよい。
下位の1つまたは複数の層、つまり少なくとも1つの下位層において、スペクトル、例えば対数領域における入力音声信号101のパワースペクトルが、対数パワースペクトル計算器102によって計算される。入力音声信号101は、また、符号化パラメータ113を生成するために話声に特化したコーデック103を介して符号化される。さらに話声に特化したコーデック103は、合成音声信号105も生成する。
次に減算器104が、入力音声信号101と下位層からの、より具体的には話声に特化したコーデック103からの合成音声信号105との間の差として誤差信号106を計算する。
上位の1つまたは複数の層、つまり少なくとも1つの上位層において、変換が用いられる。より具体的には、変換計算器107が誤差信号106を変換処理する。
次にスペクトルマスク計算器108が、対数パワースペクトル計算器102で計算された対数領域における入力音声信号101のパワースペクトルに基づいてスペクトルマスク110を計算する。
変換修正・量子化器111は、(a)スペクトルマスク110を、変換計算器107により計算された変換係数109に施し、それから(b)マスクされた変換係数を量子化する。
最終的に、ビットストリーム112が、例えばマルチプレクサによって構築される。ビットストリーム112は、話声に特化したコーデック103からの符号化パラメータ113を含む下位層と、変換修正・量子化器111によりマスクされ量子化された変換係数109を含む上位層を有する。
図2は、本発明による、量子化ノイズを低減しつつ、埋め込みコーデックの少なくとも1つの下位層および少なくとも1つの上位層で、入力音声信号をEV−VBRコーデックとの関連において符号化するための方法および装置の非制限的実施例の概略ブロック図であり、ここにおいて、12.8kHzの内部サンプリング周波数が下位層の符号化に用いられる。
図2において、入力音声信号201は2つ以上の層に符号化される。下位の1つまたは複数の層、つまり少なくとも1つの下位層において、再標本化器202が、最初に通常16kHzの第1入力サンプリング周波数でサンプリング(標本化)された入力音声信号201を、12.8kHzの第2サンプリング周波数で再標本化する。再標本化された音声信号203のスペクトル、例えば対数領域におけるパワースペクトルが、対数パワースペクトル計算器204によって計算される。また再標本化された音声信号203は、話声に特化したACELPコーデック205によって符号化されて符号化パラメータ219を生成する。
話声特化ACELPコーデック205は、合成音声信号206も生成する。この下位層からの、つまり話声特化ACELPコーデック205からの合成音声信号206は、再標本化器207によって、(通常16kHzの)第1入力サンプリング周波数に戻るよう再標本化される。
次に減算器208が、元の音声信号201と、下位層からの再標本化され合成された音声信号、より詳しくは話声特化ACELPコーデック205と再標本化器207から得られた音声信号の間の差に対応する誤差信号209を計算する。
上位層では、誤差信号209が先ず、(ACELPで用いられる知覚的重み付けフィルタと同様の)知覚的重み付けフィルタ211で重み付けされ、それから、計算器212でMDCT(修正離散コサイン変換)を用いて変換されて、MDCT係数を生成する。
次にスペクトルマスク計算器213が、対数パワースペクトル計算機204によって計算された対数領域における再標本化された音声信号203のパワースペクトル214に基づいてスペクトルマスク216を計算する。
MDCT修正・量子化器217は、スペクトルマスク計算器213によって計算されたスペクトルマスク216をMDCT計算器212から得られたMDCT係数215に施し、マスクされたMDCT係数215を量子化する。
最終的に、ビットストリーム218が、例えばマルチプレクサによって、構築される。ビットストリーム218は、話声特化ACELPコーデック205からの符号化パラメータ219を含む下位層と、MDCT修正・量子化器217によりマスクされ量子化されたMDCT係数215を含む上位層を有する。
以下に、量子化前に周波数ビンに施されるスペクトルマスクの計算法の説明のために、2つの非制限的実施例を開示する。本発明の範囲を逸脱することなく他の適当なスペクトルマスク計算法を用いることは、本発明の範囲に含まれる。以下に説明する2つの実施例は、EV−VBRコーデックを基本としている。ACELPによる2つの下位層において、EV−VBRコーデックが、12.8kHzの内部サンプリング周波数で作動する。またこのEV−VBRコーデックは、12.8kHzのサンプリング周波数での256サンプル(標本値)に相当する20msのフレームを用いる。
§元入力音声信号のスペクトルに基づくマスクの計算
図7は、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも1つの下位層および少なくとも1つの上位層で入力音声信号を符号化するための、上位層における変換係数に対するスペクトルマスクの計算と適用を含む方法および装置の非制限的実施例の概略ブロック図である。図7のブロック図において、図2の構成要素に対応する構成要素には同じ参照符号を用いた。
図7に示す実施例では、スペクトルマスクは、スペクトル、例えば入力音声信号701のパワースペクトルに基づいて計算される。EV−VBRコーデックでは、スペクトル分析器702が、プリプロセッサ703によってノイズ低減のために前処理(文献1参照)された後の入力音声信号701についてスペクトル解析を行う。スペクトル解析結果が、スペクトルマスクの計算に使われる。
スペクトル分析器702では、入力音声信号701のパワースペクトルを計算するために、離散的フーリエ変換を用いて、スペクトル解析とスペクトルエネルギー評価が行われる。周波数分析は、図3に示すような50%のオーバーラップ率で、256点での高速フーリエ変換を用いて、フレーム毎に2回ずつ行われる。ハン窓関数(Hanning window)の平方根(サイン窓関数に等しい)を用いて、周波数分析のために入力音声信号が重み付けされる。この窓関数は、オーバーラップ−アド方式に特に適している。平方根ハン窓関数は、次の関係式により表される。
Figure 2010540990
ここで、LFFT=256は、FFT(高速フーリエ変換)分析のサイズである。なお、窓関数は対称であるため、その半分だけ(0〜LFFT/2)が計算され記憶される。
第1標本値に対応する、指数0の入力音声信号をs’(n)で表すものとする。両スペクトル解析のために窓関数を掛けて信号を切り出すには、次の関係式が用いられる。
Figure 2010540990
ここで、s’(n)は現フレームの第1標本化値である。
両窓で切り出された信号に高速フーリエ変換(FFT)が以下のようにして行われて、フレーム毎に2組のスペクトルパラメータが得られる。
Figure 2010540990
ここで、Nはフレーム毎の標本化値の数である。
FFTの出力によって、X(k)、k=0〜128、XI(k)、k=1〜127で表されるパワースペクトルの実部と虚部が得られる。なお、X(0)は、0Hz(DC)でのスペクトルに相当し、X(128)は6400Hz(EV−VBRでは12.8kHzの内部周波数を用いる)のパワースペクトルに相当する。これらの点でのパワースペクトルは、実数値化されるに過ぎず、通常はそれ以降の分析で無視される。
FFT分析後、その結果得られたスペクトルを、対数領域における臨界帯域当たりのエネルギーを計算する計算器703が、次のような上限値を有する周期(文献2参照)を用いて臨界周波数帯域に分割する(すなわち0〜6400Hzの周波数範囲において20帯域に分割する)。臨界帯域={100.0、200.0、300.0、400.0、510.0、630.0、770.0、920.0、1080.0、1270.0、1480.0、1720.0、2000.0、2320.0、2700.0、3150.0、3700.0、4400.0、5300.0、6350.0}Hz
256点でのFFTにより、50Hz(6400/128)の周波数分解能が得られる。このようにして、スペクトルの直流成分を無視した後の臨界帯域当たりの周波数ビンの数は、それぞれ、MCB={2、2、2、2、2、3、3、3、4、4、5、6、6、8、9、11、14、18、21}となる。
計算器703は、臨界帯域の平均エネルギーを次の関係式を用いて計算する。
Figure 2010540990
ここで、X(k)およびX(k)は、それぞれ、k番目の周波数ビンの実部と虚部であり、jは、i番目の臨界帯域における1番目のビンの指数であり、次の式で与えられる:j={1、3、5、7、9、11、13、16、19、22、26、30、35、41、47、55、64、75、89、107}。
計算器704は、対数領域における周波数ビンのエネルギーEBIN(k)を、次の関係式を用いて計算する。
Figure 2010540990
スペクトルマスクを計算するために、スペクトル中のフォルマントの位置を特定する必要がある。この位置特定のために、先ず、対数領域における入力音声信号701のパワースペクトルの最大値と最小値を特定する。
計算器704は、対数領域における各周波数ビンのエネルギーを次の関係式を用いて検出する。
Figure 2010540990
ここで、EBIN (0)(k)およびEBIN (1)(k)は、両スペクトル解析により得られる周波数当たりのエネルギーである。同様に、計算器703は、スペクトル解析により得られ対数領域に変換された各臨界帯域のエネルギーの平均を取る。
フォルマントを簡単に見つけ出せるように、スペクトルマスク計算器213は低域通過フィルタ705を備えており、次の関係式を用いて対数領域における周波数ビンのエネルギーの低域通過フィルタ処理を行う。
Figure 2010540990
図4は、低域通過フィルタ処理前後の対数パワースペクトルの一例を示すグラフである。
スペクトルマスク計算器213は、対数領域における臨界帯域間の最大変動量を計算する最大値最小値検出部706も備えている。この臨界帯域間の最大変動量の変化が、後に、最大値または最小値が存在するかどうかを検出するための閾値の一部として用いられる。
Figure 2010540990
ここで、max(lg_band(n)n=0 n=20)は、ある臨界周波数帯域における最大平均エネルギーであり、min(lg_band(n)n=0 n=20)は、ある臨界周波数帯域における最小平均エネルギーである。
1.5kHzから開始して、最大値最小値検出部706で用いられるアルゴリズムによって、入力音声信号701のパワースペクトルにおける、つまり低域通過フィルタ705からの周波数ビンの低域通過フィルタ処理されたエネルギーにおける最大値と最小値の異なる複数の位置を検出する試みがなされる。最大値(または最小値)の位置は、最大値最小値検出部706によって、ビンが2つ前のビンと2つ後のビンよりも大きいときに検出される。この前提条件は、局所的変動が最大値(または最小値)として検出されるのを防ぐのに役立つ。
Figure 2010540990
最大値と最小値を検出したら、最大値最小値検出部706で使用されているアルゴリズムによって、この最大値と最小値の間の差が、臨界帯域間で観察された上記の最大変動量の15%より大きいかどうか評価する。差が15%より大きい場合、2つの異なるスペクトルマスクが、図5に示すように最大値位置と最小値位置に施される。
Figure 2010540990
スペクトルマスク計算器213は、スペクトルマスクサブ計算器707を備えており、これによって、最終的に、最大値に対応するスペクトル領域のスペクトルマスクを、最大値の位置で1.0となり、そこを中心として次の値となるように決定する。
Figure 2010540990
またスペクトルマスクサブ計算器707は、最小値に対応するスペクトル領域のスペクトルマスクを、最小値の位置で0.15となり、そこを中心として次の値となるように決定する。
Figure 2010540990
他の周波数ビンのスペクトルマスクは変更されず、先行するフレームと同じままとなる。スペクトルマスク全体を変化させるのではないことで、量子化された周波数ビンを安定させることができる。エネルギーが低い周波数ビンのスペクトルマスクは、それらのスペクトル領域に新たな最大値が現れるまで低いままである。
上記の演算後、MDCT修正器217によってスペクトルマスクがMDCT係数に施され、最大値付近のスペクトル誤差はほぼ減衰せず、最小値付近のスペクトル誤差は抑え込まれるようにされる。
FFTの分解能は50Hzしかないので、MDCT修正器217は、1つのFFTビン用のスペクトルマスクを、次のようにして2つのMDCT係数に適用する。
Figure 2010540990
より多くのビットを利用できる場合、MDCTcoeff入力から量子化された周波数ビンを取り除き、MDCT量子化器217で新たな信号を量子化することができる。あるいは単に、量子化されていない周波数ビンを量子化することもできる。この量子化の第2段階に利用できるビットレートによっては、先行するスペクトルマスクに基づく第2のスペクトルマスクを用いることが必要となる可能性がある。第2の重み付け段階は、次のように定義される。
Figure 2010540990
多くの誤った周波数ビンを抑え込むことで、利用可能なビットを、重み付けされた入力音声信号中のフォルマントが存在する所に重点的に用いることができる。主観的試聴において、この技術により、平均的評価点(MOS:mean opinion score)が0.15ポイント上昇した。これは、著しい改善である。
§合成フィルタに関するインパルス応答に基づくスペクトルマスクの計算
図8は、本発明による、量子化ノイズを低減しつつ埋め込みコーデックの少なくとも1つの下位層および少なくとも1つの上位層で、入力音声信号を符号化するための、上位層における変換係数に対するスペクトルマスクの計算と適用のための技術を含む方法および装置の別の実施例の概略ブロック図である。図8のブロック図において、図2および図7の構成要素に対応する構成要素には同じ参照符号を用いた。また図8のブロック図では、知覚的重み付けフィルタ806が、LPC(線形予測符号化)分析・量子化・補間器801においてプリプロセッサ703からの前処理された音声信号に応答して算定されるLPC係数に応じて、この前処理された音声信号をフィルタ処理して、ACELPコーデック205に、前処理され知覚的重み付けされた音声信号を、ACELP符号化のために供給する(文献1参照)。
図7の実施例に示すように、スペクトルマスクは、スペクトルマスク計算器213において、フォルマントの領域で値が約1となり且つフォルマント間の領域で値が約0.15となるように算定される。しかしEV−VBRコーデックにおいては、LPC分析量子化補間器801が、既にACELPの下位層(つまりコア層)で用いられるLP(線形予測)合成フィルタを算定しており、その合成フィルタは、既にフォルマント構造に関する情報を含んでいる。なぜなら、その合成フィルタは、入力音声信号701のスペクトル包絡線をモデルとしているからである。
図8の実施例において、スペクトルマスクはマスク計算器213で次のようにして計算される。
― 計算器802が、図8のLPC分析・量子化・補間器801で算定されたLPパラメータにより導き出されたマスクフィルタのインパルス応答を導き出す。CELPコーデックで用いられる重み付けされた合成フィルタと同様のマスクフィルタを用いることができる。
― 次にFFT計算器803が、計算器802により得られたマスクフィルタのインパルス応答のFFTを計算することでマスクフィルタのパワースペクトルを算定する。
― それから計算器804が、図7を参照して上述した手順を用いて対数領域における周波数ビンのエネルギーを算定する。
― サブ計算器805で、FFT計算器803からのマスクフィルタのパワースペクトルと計算器804からの対数領域における周波数ビンの算定されたエネルギーとに応じて、マスクフィルタのパワースペクトルの最大値と最小値を探し出すことによる上記と同様の方法(図6)で、スペクトルマスクを計算することができる。
より簡単な方法として、マスクフィルタのパワースペクトルを縮尺したものとしてスペクトルマスクを計算する方法がある。これは、対数領域におけるマスクフィルタのパワースペクトルの最大値を見つけ出し、その最大値が1となるように縮尺することで行える。これにより、対数領域におけるマスクフィルタの縮尺されたパワースペクトルによってスペクトルマスクが得られる。入力音声信号701に基づいて決定されるLPフィルタパラメータからマスクフィルタが導き出されるので、マスクフィルタのパワースペクトルは入力音声信号701のパワースペクトルを表してもいる。
スペクトルマスクが導き出されるマスクフィルタを設計するために、先ず、このフィルタのスペクトルが大きな傾きを呈していないことが確かめられる。その理由は、すべてのフォルマントを1の近似値で重み付けするためである。EV−VBRコーデックでは、LPフィルタが予め強調された信号に基づいて計算される。これにより、フィルタはもはや目立ったスペクトルの傾きを有することはない。一例において、マスクフィルタは合成フィルタを重み付けしたものであり、次の関係式により表される。
Figure 2010540990
ここで、γは、1より小さい値を有する因数である。別の例において、マスクフィルタは次の関係式による表される。
Figure 2010540990
上記のように、フィルタH(z)のパワースペクトルは、マスクフィルタのインパルス応答のFFTを計算することによって見出すことができる。
EV−VBRコーデックにおけるLPフィルタは、20msのフレーム毎に4回(補間を用いて)計算される。この場合、インパする応答を、計算器802で、フレームの中心に対応するLPフィルタに基づいて計算することができる。これに代わる実施形態として、5msのサブフレームに対してインパルス応答を計算し、それからすべてのインパルス応答の平均を取ってもよい。
上記の2つの選択可能な実施形態は、話声コンテンツにおいて、より効果的である。これらの実施形態を音楽コンテンツに用いることもできるが、フレームを話声フレームと音楽フレームとに分類するコーデックで用いられるメカニズムの場合には、これら2つの選択肢は、音楽フレームのときには不作動としてもよい。
以上本発明を、その非制限的例示的実施形態を用いて説明してきたが、これらの実施形態は、添付の特許請求項の範囲内で本発明の主旨および性質から逸脱することなく適宜変更可能である。
§参考文献
1. ITU-T Recommendation G.718、Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s、2008年9月認定
2. J.D.Johnston著、Transform coding of audio signal using perceptual noise criteria、IEEE J.Select.Areas Commun、第6号、314〜323頁、1988年2月
101 入力音声信号
102 対数パワースペクトル計算器
103 話声に特化したコーデック
104 減算器
105 合成音声信号
106 誤差信号
107 変換計算器
108 スペクトルマスク計算器
109 変換係数
111 変換修正・量子化器
112 ビットストリーム
113 符号化パラメータ

Claims (45)

  1. 埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する方法であって、
    前記方法は、
    前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化するステップと、
    前記入力音声信号と前記合成信号との間の差として誤差信号を計算するステップと、
    前記入力音声信号に関するスペクトルからスペクトルマスクを計算するステップと、
    前記少なくとも1つの上位層において、(a)符号化係数を生成するために前記誤差信号を符号化するステップと、(b)前記符号化係数に前記スペクトルマスクを施すステップと、(c)前記マスクされた符号化係数を量子化するステップと
    を含み、
    前記入力音声信号を符号化するステップは合成音声信号を生成するステップを含み、
    前記符号化係数に前記スペクトルマスクを施すステップは、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化方法。
  2. 前記スペクトルは、前記入力音声信号との関連において計算され、かつ、最大値と最小値を含み、
    前記符号化係数に前記スペクトルマスクを施すステップは、前記パワースペクトル最小値に対応するスペクトル領域における符号化された誤差信号のエネルギーを低下させて前記量子化ノイズを低減する、請求項1に記載の入力音声信号符号化方法。
  3. 前記計算されるスペクトルはパワースペクトルである、請求項2に記載の入力音声信号符号化方法。
  4. 前記少なくとも1つの下位層において、
    前記入力音声信号を符号化するステップは、線形予測符号化パラメータを生成するために前記入力音声信号を線形予測符号化するステップを含む、請求項1に記載の入力音声信号符号化方法。
  5. 前記少なくとも1つの上位層において、
    前記誤差信号を号化するステップは、変換係数を生成するために前記誤差信号を変換符号化するステップを含む、請求項1に記載の入力音声信号符号化方法。
  6. 前記少なくとも1つの上位層において、
    前記誤差信号を変換符号化するステップは、修正離散コサイン変換係数を生成するために前記誤差信号に修正離散コサイン変換を施すステップを含む、請求項5に記載の入力音声信号符号化方法。
  7. 前記入力音声信号の符号化の間に生成された前記符号化パラメータを含む少なくとも1つの下位層と、前記量子化されマスクされた符号化係数を含む少なくとも1つの上位層とを有するビットストリームを構成するステップを含む、請求項1に記載の入力音声信号符号化方法。
  8. 前記入力音声信号は、先ず第1サンプリング周波数で標本化され、かつ、
    前記方法は、更に、少なくとも1つの下位層において、
    前記入力音声信号を符号化するステップに先だって、前記入力音声信号を第2サンプリング周波数で再標本化するステップと、
    前記入力音声信号を符号化するステップ後に、前記誤差信号を計算するステップに先立って、前記合成音声信号を第1サンプリング周波数に戻すよう再標本化するステップを含む、請求項1に記載の入力音声信号符号化方法。
  9. 前記スペクトルは、対数領域で計算される、請求項2に記載の入力音声信号符号化方法。
  10. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項1に記載の入力音声信号符号化方法。
  11. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含み、
    前記スケーリングファクタは、前記スペクトル最大値に対応するスペクトル領域でより大きく、前記スペクトル最小値に対応するスペクトル領域でより小さい、請求項2に記載の入力音声信号符号化方法。
  12. 前記スペクトルの計算は、前記スペクトルを生成するために前記入力音声信号に離散的フーリエ変換を施すステップを含む、請求項2に記載の入力音声信号符号化方法。
  13. 前記入力音声信号に離散的フーリエ変換を施すステップ後に、前記スペクトルを、各々複数の周波数ビンを含む臨界周波数帯域に分割するステップを含む、請求項12に記載の入力音声信号符号化方法。
  14. 前記周波数ビンのエネルギーを特定するステップを含む、請求項13に記載の入力音声信号符号化方法。
  15. 前記特定された周波数ビンのエネルギーを低域通過フィルタ処理するステップを更に含む、請求項14に記載の入力音声信号符号化方法。
  16. 前記臨界周波数帯域の平均エネルギーを計算するステップと、
    前記臨界周波数帯域の前記平均エネルギーから臨界帯域間の最大変動量を計算するステップと、
    前記周波数ビンの前記低域通過フィルタ処理されたエネルギーおよび前記最大変動量に応じて前記スペクトルの最大値および最小値を見つけ出すステップと
    を含む、請求項15に記載の入力音声信号符号化方法。
  17. 前記スペクトルマスクを計算するステップは、前記スペクトル最大値に対応するスペクトル領域用の比較的大きなスケーリングファクタと、前記スペクトル最小値に対応するスペクトル領域用の比較的小さなスケーリングファクタを決定するステップを含む、請求項16に記載の入力音声信号符号化方法。
  18. 前記スペクトルマスクを計算するステップは、
    マスクフィルタを定義するステップと、
    前記マスクフィルタのスペクトルを計算するステップと、
    前記マスクフィルタの前記スペクトルの周波数ビンのエネルギーを計算するステップと、
    前記マスクフィルタの前記スペクトルと前記周波数ビンの前記エネルギーとに応じて前記スペクトルマスクを計算するステップとを含む、請求項1に記載の入力音声信号符号化方法。
  19. 埋め込みコーデックの少なくとも1つの上位層において、誤差信号を符号化するステップ中に生じる量子化ノイズを低減するための方法であって、
    前記誤差信号を符号化するステップは、符号化係数を生成するステップと、前記符号化係数を量子化するステップとを含み、かつ、
    前記方法は、
    スペクトルマスクを提供するステップと、
    少なくとも1つの上位層において、前記符号化係数を量子化するステップに先立って、前記符号化係数に前記スペクトルマスクを施すステップと
    を含む、量子化ノイズ低減方法。
  20. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項19に記載の量子化ノイズ低減方法。
  21. 前記スケーリングファクタは、前記埋め込みコーデックの前記入力音声信号に関するスペクトルの最大値に対応するスペクトル領域でより大きく、前記埋め込みコーデックの前記入力音声信号に関する前記スペクトルの最小値に対応するスペクトル領域でより小さい、請求項20に記載の量子化ノイズ低減方法。
  22. 埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する装置であって、
    前記装置は、
    前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化する手段と、
    前記入力音声信号と前記合成信号との間の差として誤差信号を計算する手段と、
    前記入力音声信号に関するスペクトルからスペクトルマスクを計算する手段と、
    前記少なくとも1つの上位層において、(a)符号化係数を生成するために前記誤差信号を符号化する手段と、(b)前記符号化係数に前記スペクトルマスクを施す手段と、(c)前記マスクされた符号化係数を量子化する手段と
    を含み、
    前記音声信号符号化手段は合成音声信号を生成し、
    前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化装置。
  23. 埋め込みコーデックの少なくとも1つの下位層と少なくとも1つの上位層で入力音声信号を符号化する装置であって、
    前記装置は、
    前記少なくとも1つの下位層において、(a)符号化パラメータを生成するために前記入力音声信号を符号化する音声信号コーデックと、
    前記入力音声信号と前記合成信号との間の差として誤差信号を計算する減算器と、
    前記入力音声信号に関するスペクトルからスペクトルマスクを計算する計算器と、
    前記少なくとも1つの上位層において、(a)符号化係数を生成するための前記誤差信号の符号化器と、(b)前記符号化係数に前記スペクトルマスクを施す前記符号化係数の修正器と、(c)前記マスクされた符号化係数の量子化器とを含み、
    前記音声信号コーデックは合成音声信号を生成し、
    前記符号化係数に前記スペクトルマスクを施すことで、前記符号化係数の量子化に際して生ずる量子化ノイズを低減する、入力音声信号符号化装置。
  24. 前記入力音声信号との関連において前記スペクトルを計算する計算器を含み、
    前記計算されたスペクトルは最大値と最小値を含み、
    前記スペクトルマスクを符号化係数に施すことにより、前記パワースペクトル最小値に対応するスペクトル領域における符号化された誤差信号のエネルギーを低下させて前記量子化ノイズを低減する、請求項23に記載の入力音声信号符号化装置。
  25. 前記計算されたスペクトルはパワースペクトルである、請求項24に記載の入力音声信号符号化装置。
  26. 前記少なくとも1つの下位層において、前記入力音声信号の符号化のための前記音声信号コーデックは、線形予測符号化パラメータを生成するための線形予測音声信号コーデックを含む、請求項23に記載の入力音声信号符号化装置。
  27. 前記少なくとも1つの上位層において、前記誤差信号の符号化器は、変換係数を生成する変換計算器を含む、請求項23に記載の入力音声信号符号化装置。
  28. 前記少なくとも1つの上位層において、前記変換計算器は、修正離散コサイン変換係数を生成するために前記誤差信号に修正離散コサイン変換を施す、請求項27に記載の入力音声信号符号化装置。
  29. 前記入力音声信号の符号化の間に生成された前記符号化パラメータを含む少なくとも1つの下位層と、前記量子化されマスクされた符号化係数を含む少なくとも1つの上位層とを有するビットストリームを構成するためのマルチプレクサを含む、請求項23に記載の入力音声信号符号化装置。
  30. 前記入力音声信号は先ず第1サンプリング周波数で標本化され、かつ、
    前記装置は、少なくとも1つの下位層において、
    前記入力音声信号を符号化に先だって、前記入力音声信号を第2サンプリング周波数で再標本化する再標本化器と、
    前記入力音声信号の符号化後に、前記誤差信号の計算に先立って、前記合成音声信号を再標本化して第1サンプリング周波数に戻す再標本化器とを含む、請求項23に記載の入力音声信号符号化装置。
  31. 前記スペクトル計算器は、前記スペクトルを対数領域で計算する、請求項24に記載の入力音声信号符号化装置。
  32. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項23に記載の入力音声信号符号化装置。
  33. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含み、
    前記スケーリングファクタは、前記スペクトル最大値に対応するスペクトル領域でより大きく、前記スペクトル最小値に対応するスペクトル領域でより小さい、請求項24に記載の入力音声信号符号化装置。
  34. 前記スペクトル計算器は、前記スペクトルを生成するために前記入力音声信号に離散的フーリエ変換を施す、請求項24に記載の入力音声信号符号化装置。
  35. 前記スペクトル計算器は、前記入力音声信号に離散的フーリエ変換を施した後に、前記スペクトルを、各々複数の周波数ビンを含む臨界周波数帯域に分割することを含む、請求項34に記載の入力音声信号符号化装置。
  36. 前記周波数ビンのエネルギーの計算器を含む、請求項35に記載の入力音声信号符号化装置。
  37. 前記スペクトルマスク計算器は、前記周波数ビンのエネルギーを低域通過フィルタ処理するための低域通過フィルタを含む、請求項36に記載の入力音声信号符号化装置。
  38. 前記臨界周波数帯域の平均エネルギーの計算器と、前記臨界周波数帯域の前記平均エネルギーから臨界帯域間の最大変動量を計算する計算器とを含み、
    前記スペクトルマスク計算器は、前記周波数ビンの前記低域通過フィルタ処理されたエネルギーおよび前記最大変動量に応じて前記スペクトルの最大値および最小値を見つけ出す手段を含む、請求項37に記載の入力音声信号符号化装置。
  39. 前記スペクトルマスク計算器は、前記スペクトル最大値に対応するスペクトル領域用の比較的大きなスケーリングファクタと、前記スペクトル最小値に対応するスペクトル領域用の比較的小さなスケーリングファクタとを計算するサブ計算器を含む、請求項38に記載の入力音声信号符号化装置。
  40. 前記スペクトルマスク計算器は、
    予め定義されたマスクフィルタのスペクトルの計算器と、
    前記マスクフィルタの前記スペクトルの周波数ビンのエネルギーの計算器と、
    前記マスクフィルタの前記スペクトルと前記周波数ビンの前記エネルギーとに応じて前記スペクトルマスクを計算するサブ計算器とを含む、請求項35に記載の入力音声信号符号化装置。
  41. 埋め込みコーデックの少なくとも1つの上位層において誤差信号の符号化の間に生じる量子化ノイズを低減するための装置であって、
    前記誤差信号の符号化には、符号化係数を生成して前記符号化係数を量子化することが含まれ、前記装置は、
    スペクトルマスクと、
    少なくとも1つの上位層において、前記符号化係数の量子化に先立って前記符号化係数に前記スペクトルマスクを施すことにより前記符号化係数を修正する修正器とを含む、量子化ノイズ低減装置。
  42. 前記スペクトルマスクは、前記符号化係数に適用される一組のスケーリングファクタを含む、請求項41に記載の量子化ノイズ低減装置。
  43. 前記スケーリングファクタは、前記埋め込みコーデックの入力音声信号に関するスペクトルの最大値に対応するスペクトル領域でより大きく、前記埋め込みコーデックの前記入力音声信号に関する前記スペクトルの最小値に対応するスペクトル領域でより小さい、請求項42に記載の量子化ノイズ低減装置。
  44. スペクトルマスクを計算するステップは、少なくとも1つの先に計算されたスペクトルマスクを更新したものを計算するステップを含む、請求項1に記載の入力音声信号符号化方法。
  45. 前記スペクトルマスクの前記計算器は、少なくとも1つの先に計算されたスペクトルマスクを更新したものを計算する、請求項23に記載の入力音声信号符号化装置。
JP2010526119A 2007-09-28 2008-09-25 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置 Pending JP2010540990A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US96043107P 2007-09-28 2007-09-28
PCT/CA2008/001700 WO2009039645A1 (en) 2007-09-28 2008-09-25 Method and device for efficient quantization of transform information in an embedded speech and audio codec

Publications (1)

Publication Number Publication Date
JP2010540990A true JP2010540990A (ja) 2010-12-24

Family

ID=40510707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010526119A Pending JP2010540990A (ja) 2007-09-28 2008-09-25 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置

Country Status (6)

Country Link
US (1) US8396707B2 (ja)
EP (1) EP2193348A1 (ja)
JP (1) JP2010540990A (ja)
CA (1) CA2697604A1 (ja)
RU (1) RU2010116748A (ja)
WO (1) WO2009039645A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015504179A (ja) * 2012-01-09 2015-02-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応型低周波数補償によってオーディオ・データを符号化するための方法及びシステム
JP7271080B2 (ja) 2017-10-11 2023-05-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 通信装置、通信システム、通信方法、及びプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US8188901B1 (en) * 2008-08-15 2012-05-29 Hypres, Inc. Superconductor analog to digital converter
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
EP2357726B1 (en) * 2010-02-10 2016-07-06 Nxp B.V. System and method for adapting a loudspeaker signal
US8879676B2 (en) * 2011-11-01 2014-11-04 Intel Corporation Channel response noise reduction at digital receivers
US11888919B2 (en) 2013-11-20 2024-01-30 International Business Machines Corporation Determining quality of experience for communication sessions
US10148526B2 (en) * 2013-11-20 2018-12-04 International Business Machines Corporation Determining quality of experience for communication sessions
US10146500B2 (en) 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法
JP2005043761A (ja) * 2003-07-24 2005-02-17 Mitsubishi Electric Corp 情報量変換装置及び情報量変換システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0692881B1 (en) * 1993-11-09 2005-06-15 Sony Corporation Quantization apparatus, quantization method, high efficiency encoder, high efficiency encoding method, decoder, high efficiency encoder and recording media
US6449596B1 (en) * 1996-02-08 2002-09-10 Matsushita Electric Industrial Co., Ltd. Wideband audio signal encoding apparatus that divides wide band audio data into a number of sub-bands of numbers of bits for quantization based on noise floor information
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1047047B1 (en) * 1999-03-23 2005-02-02 Nippon Telegraph and Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US20020116177A1 (en) * 2000-07-13 2002-08-22 Linkai Bu Robust perceptual speech processing system and method
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7110941B2 (en) 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7752052B2 (en) 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7835904B2 (en) 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法
JP2005043761A (ja) * 2003-07-24 2005-02-17 Mitsubishi Electric Corp 情報量変換装置及び情報量変換システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015504179A (ja) * 2012-01-09 2015-02-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応型低周波数補償によってオーディオ・データを符号化するための方法及びシステム
JP7271080B2 (ja) 2017-10-11 2023-05-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 通信装置、通信システム、通信方法、及びプログラム

Also Published As

Publication number Publication date
US20100292993A1 (en) 2010-11-18
RU2010116748A (ru) 2011-11-10
CA2697604A1 (en) 2009-04-02
WO2009039645A1 (en) 2009-04-02
EP2193348A1 (en) 2010-06-09
US8396707B2 (en) 2013-03-12

Similar Documents

Publication Publication Date Title
JP2010540990A (ja) 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
JP5395066B2 (ja) 音声区間検出および音声信号分類ための方法および装置
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
KR102070432B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
KR100962681B1 (ko) 오디오신호들의 분류
US8856049B2 (en) Audio signal classification by shape parameter estimation for a plurality of audio signal samples
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
JP6470857B2 (ja) 音声処理のための無声/有声判定
TWI576832B (zh) 產生帶寬延伸訊號的裝置與方法
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP2011527448A (ja) 帯域幅拡張出力データを生成するための装置および方法
KR20150127041A (ko) 시간 영역 디코더에서 양자화 잡음을 감소시키기 위한 디바이스 및 방법
JP2011501216A (ja) 信号処理方法及び装置
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
Kulesza et al. High Quality Speech Coding using Combined Parametric and Perceptual Modules
JP2004046238A (ja) 広帯域音声復元装置及び広帯域音声復元方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121009