JP2003515178A - フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ - Google Patents
フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダInfo
- Publication number
- JP2003515178A JP2003515178A JP2001534143A JP2001534143A JP2003515178A JP 2003515178 A JP2003515178 A JP 2003515178A JP 2001534143 A JP2001534143 A JP 2001534143A JP 2001534143 A JP2001534143 A JP 2001534143A JP 2003515178 A JP2003515178 A JP 2003515178A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- coding mode
- pattern
- predictive coding
- coder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035945 sensitivity Effects 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 description 13
- 238000013139 quantization Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000255925 Diptera Species 0.000 description 1
- 101100219325 Phaseolus vulgaris BA13 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Description
状態に対する感度を減らすための方法と装置に関係する。 II.背景技術 デジタル技術による音声の伝送は、特に長距離およびデジタル無線電話応用で
広範囲に展開されるようになった。これは再構成された音声の知覚された品質を
維持すると共に、チャンネルを通じて送ることが可能である最小の情報量を決定
することに関心を引き起こした。音声が単にサンプリングおよびデジタル化によ
り送信される場合、64キロビット/秒(kbps)の程度のデータレートが従来の
アナログ電話の音声品質を達成するために必要である。しかし、適当な符号化、
伝送および受信機での再合成に続く音声分析の使用によって、データレートの重
大な低減が起る。
縮する技術を採用する装置は音声コーダと呼ばれている。音声コーダは入来音声
信号を時間のブロックまたは分析フレームに分割する。音声コーダは典型的にエ
ンコーダおよびデコーダを含む。エンコーダは一定の関連したパラメタを抽出す
るために入来音声フレームを分析し、パラメタを2進表示、即ち、一組のビット
または2進データパケットに量子化する。データパケットはチャンネルを通じて
受信機およびデコーダに伝送される。デコーダはデータパケットを処理し、パラ
メタを生成するためそれらを非量子化し、非量子化されたパラメタを使用して音
声フレームを再合成する。
、デジタル化された音声信号を低ビットレート信号に圧縮することである。デジ
タル圧縮は一組のパラメタを有する入力音声フレームを表すことおよび一組のビ
ットでパラメタを表すために量子化を採用することにより達成される。入力音声
フレームがビット数Niを有し、音声コーダによって生成されるデータパケット
がビット数Noを有するなら、音声コーダによって達成される圧縮係数はCr=
Ni/Noである。目標圧縮係数を達成しながら復号化された音声の高音声品質
を保持することが挑戦である。音声コーダの性能は以下に依存する:(1) いか
にして良い音声モデルまたは上述された分析および合成処理を実行するか、(2)
いかにして良いパラメタ量子化処理がフレーム毎のNoビットの目標ビットレ
ートで実行されるか。音声モデルの目標は、各フレームについてパラメタの小さ
い組で音声信号または目標音声品質の本質を捕らえることである。
するパラメタ(ベクトルを含む)の良好な組の検索である。パラメタの良好な組
は、知覚的に正確な音声信号の再構成のために低システム帯域幅を要求する。ピ
ッチ、信号パワー、スペクトル包絡線(またはフォルマント)、振幅および位相
スペクトルは音声符号化パラメタの例である。
メント(典型的に5ミリ秒(ms)のサブフレーム)を符号化するために高い時
間分解処理を採用することにより時間領域音声波形を捕らえようとする。各々の
サブフレームのために、コードブックスペースからの高精度標本が、公知技術の
さまざまな検索アルゴリズムの手段により見出される。代わりに音声コーダは周
波数領域コーダとして実行されることができ、それは一組のパラメタ(分析)を
伴う入力音声フレームの短期音声スペクトルを捕らえて、スペクトルのパラメタ
から音声波形を再現するために対応する合成処理を採用しようとする。パラメタ
量子化器は、A.Gersho&R.M.Gray著「ベクトル量子化および信号
圧縮(1992)」で説明さてた公知の量子化技術に従ってコードベクトルの記憶
された表現でそれらを表すことによってパラメタを保存する。
著の「音声信号のデジタル処理396-453(1978)」に記述された「符号
励起線形予測(CELP) コーダ」であり、それは引用文献としてここに完全に
組み込まれる。CELPコーダでは、音声信号の短期間相関関係、または冗長が
線形予測(LP)分析によって取り除かれ、それは短期的なフォルマントフィルタ
の係数を見つける。短期的な予測フィルタを入来音声フレームに適用するとLP
残余信号が発生し、それは長期予測フィルタパラメタとその後の確率的なコード
ブックでさらにモデル化されかつ量子化される。したがって、CELP符号化は
時間領域音声波形を符号化するタスクをLPの短期的フィルタ係数に符号化する
ことおよびLP残余に符号化することの別々のタスクに分割する。時間領域符号
化は固定レート(即ち、各フレームに同じ数のビット、Noを使用する)または可
変レート(異なった型のフレーム内容に対し異なるビットレートが使用される)で
実行することができる。可変レートコーダは、コーデックパラメタを目標品質を
得るために適切なレベルに符号化するために必要とされるビットの量だけを使用
するように試みる。例示的可変レートCELPコーダは米国特許No.5,414
,796に記述され、それは本発明の譲受人に譲渡され引用文献としてここに組
みこまれる。
るためにフレームにつき大きい数のビットNoを通常当てにする。そのようなコ
ーダは、比較的大きいフレーム(例えば、8kbps以上)につきNoビットの数
を提供された優れた音声品質を通常引渡す。しかしながら、低ビットレート(4
kbps以下)で、時間領域コーダは有効なビットの有限な数による高品質かつ
ロバスト(robust)性能を保有しない。低ビットレートでは、限られたコ
ードブックスペースは、より高いレートの商業応用であまりに首尾よく配備され
た通常の時間領域コーダの波形一致能力を切り取る。したがって、時間がたつに
つれての改良にもかかわらず、低ビットレートで作動する多くのCELP符号化
システムは雑音として通常特徴付けられる知覚的に重要なひずみに悩まされる。
質な音声コーダを開発する研究関心と強い商業的必要性のうねりが現に存在する
。応用領域は無線電話、衛星通信、インターネット電話、様々なマルチメディア
および音声ストリーミング応用、ボイスメール、および他の音声記憶システムを
含んでいる。原動力は高い容量の必要性とパケット損失状況の下でのロバスト性
能の要請である。様々な最近の音声符号化標準化の努力は低レート音声符号化ア
ルゴリズムの研究開発を推進する別の直接な原動力である。低レート音声コーダ
が許容できる応用帯域幅あたりのより多くのチャンネル、またはユーザを創造し
て、適当なチャンネル符号化の付加的な層と結びつけられた低レート音声コーダ
はコーダ仕様の総合的なビットバジェット(budget)に適合でき、チャン
ネルエラー状態の下でロバスト性能を引渡すことができる。低ビットレート音声
コーダの例はプロトタイプピッチ周期(PPP)音声コーダであり、1998年
12月21日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完
全に組みこまれる「可変レート音声符号化」と題する米国出願シリーズNo.0
9/217,341で説明される。
予測音声コーダにおいて、符号化体系は重く過去の出力に依存する。それゆえに
、フレームエラーまたはフレーム消去がデコーダで受信される場合、デコーダは
問題のフレームのためにそれ自身の最高の置換を作らなければならない。デコー
ダは典型的に前の出力の知的フレーム反復を使用する。デコーダがそれ自身の置
換を作らなければならないので、デコーダおよびエンコーダは互いに同期を失う
。それ故次のフレームがデコーダに到達するとき、そのフレームが予測的に符号
化されるなら、デコーダはエンコーダが使用したのとは異なる前の出力を参照す
る。これは音声品質または音声コーダ性能の低減を生じる。音声コーダはより重
く予測符号化技術(即ち、音声コーダのより多くのフレームが予測的に符号化さ
れる)に依存し、性能の低減がひどくなる。このように、予測音声コーダのフレ
ームエラー状態に対する感度を減らす方法の必要がある。
向けられる。したがって、本発明の一態様において音声コーダが提供される。音
声コーダは都合よく少なくとも1つの予測符号化モード、少なくとも1つの非予
測符号化モード、および少なくとも1つの予測符号化モードおよび少なくとも1
つの非予測符号化モードに結合されたプロセッサを含み、そのプロセッサは連続
した音声フレームを符号化された音声フレームのパターンに従って選択された符
号化モードにより符号化させるように構成され、そのパターンは非予測符号化モ
ードで符号化された少なくとも1つの音声フレームを含んでいる。
、予測符号化モードで連続した音声フレームの予め定義された数を符号化し、予
測符号化モードで連続した音声フレームの予め定義された数を符号化するステッ
プの後に非予測符号化モードで少なくとも1つの音声フレームを符号化し、パタ
ーンに従って符号化された複数の音声フレームを生成するために2つの符号化ス
テップを繰り返すステップを都合よく含む。
号化モードで連続した音声フレームの予め定義された数を符号化する手段と、予
め定義された数の連続した音声フレームが予測符号化モードで符号化された後に
非予測符号化モードで少なくとも1つの音声フレームを符号化する手段と、パタ
ーンに従って符号化される複数の音声フレームを生成するための手段とを都合よ
く含み、パターンは非予測符号化モードで符号化された少なくとも1つの音声フ
レームを含んでいる。
、複数の音声フレームをパターンで符号化するステップを都合よく含み、パター
ンは少なくとも1つの予測的に符号化された音声フレームおよび少なくとも1つ
の非予測的に符号化された音声フレームを含んでいる。
、複数の音声フレームをパターンで符号化するステップを都合よく含み、パター
ンは少なくとも1つの重く予測的に符号化された音声フレームと少なくとも1つ
の僅かに予測的に符号化された音声フレームを含んでいる。
n)を受信し、伝送媒体102、即ち通信チャンネル102上で第1のデコーダ
104に伝送するためサンプルs(n)を符号化する。伝送媒体102は例えば
地上の通信回線、基地局および人工衛星間のリンク、セルラーまたはPCS電話
および基地局間の無線通信チャンネル、またはセルラーまたはPCS電話および
人工衛星間の無線通信チャンネルであり得る。音声サンプルs(n)は、さまざ
まなコードブックインデックスの形で都合よく符号化されて、下記のようにノイ
ズを量子化する。デコーダ104は符号化された音声サンプルを復号し、出力さ
れた音声信号SSYNTH(n)を合成する。復号化過程は、下記のように出力
音声信号SSYNTH(n)の合成に使用するため適当な値を決定する種々のコ
ードブックを捜すための伝送されたコードブックインデックスの使用を含む。反
対方向の伝送のために、第2のエンコーダ106はデジタル化された音声サンプ
ルs(n)を符号化し、それは通信チャンネル108上で伝送される。第2のデ
コーダ110は符号化された音声サンプルを受信して、符号化された音声サンプ
ルを復号し、合成された出力音声信号SSYNTH(n)を生成する。
法、またはA−法を含んでいる公知技術のさまざまな方法のいずれかに従ってデ
ジタル化され量子化された音声信号を表す。技術において知られているように、
音声サンプルs(n)は各々のフレームがデジタル化された音声サンプルs(n
)の予め定められた数を含む入力データのフレームに編制される。フレームはサ
ブフレームにさらに再分割されることができる。例示的な実施例において、各々
のフレームは4つのサブフレームを含む。例示的な実施例において、8Khzの
サンプリングレートが各々160のサンプルからなる20ミリ秒フレームを有し
て使われる。後述する実施例において、データ伝送のレートはフレーム対フレー
ム基準で都合よく変えられる。例えば、データ伝送のレートは完全なレートから
半分のレート、4分の1のレート、8分の1のレートに変えられ得る。下位ビッ
トレートが比較的少ない音声情報を含んでいるフレームのために選択的に使うこ
とができるので、データレートを変化させることは有利である。当業者によく理
解されている様に、さまざまなサンプリングレート、フレームサイズおよびデー
タ伝送レートが使用されるかもしれない。
ダまたは音声コーデックを含む。音声コーダは、例えばセルラーまたはPCS電
話、基地局および/または基地局コントローラを含む伝送している音声信号の任
意の通信装置に使用されることができる。同様に、第2のエンコーダ106およ
び第1のデコーダ104は一緒に第2の音声コーダ含む。音声コーダがデジタル
信号処理装置(DSP)、特定用途向け集積回路(ASIC)、ディスクリート
ゲートロジック、ファームウェアまたは任意な通常のプログラム可能なソフトウ
ェアモジュールおよびマイクロプロセッサで実行されてもよいことは当業者によ
りよく理解される。ソフトウェアモジュールは、RAMメモリー、フラッシュメ
モリ、レジスタまたは公知技術の他のいかなる形の書き込み可能な記憶媒体でも
あることができる。代わりにいかなる従来のプロセッサ、コントローラまたは状
態マシンもマイクロプロセッサと置換されることができる。音声符号化のために
設計される例示的なASICは本発明の譲受人に譲渡され、引用文献として完全
にここに組み込まれた米国特許番号5,727,123、および1994年2月1
6日に申請され本発明の譲受人に譲渡され、ここに引用文献として完全に組み込
まれた「VOCODER ASIC」と題する米国出願番号08/197,417
に記述されている。
ード決定モジュール202、ピッチ推定モジュール204、LP分析モジュール
206、LP分析フィルタ208、LP量子化モジュール210および残余量子
化モジュール212を含む。入力音声フレームs(n)は、モード決定モジュー
ル202、ピッチ推定モジュール204、LP分析モジュール206およびLP
分析フィルタ208に提供される。モード決定モジュール202はモードインデ
ックスIMおよび周期性に基づくモードM、エネルギー、信号対雑音比(SNR
)、または各入力音声フレームs(n)の他の特徴の中でゼロ交差率を提供する
。周期性に従う音声フレームを分類するさまざまな方法は、本発明の譲受人に譲
渡されここに引用文献として完全に組み込まれた米国特許番号5,911,128
に記述されている。この種の方法は、また、米国電気通信工業会 暫定標準 TI
A/EIA IS-127およびTIA/EIA IS-733に組み込まれてい
る。例示的なモード決定案はまた、上述した米国出願番号09/217,341に
記述されている。
ームs(n)に基づいた遅れ値P0を生じる。LP分析モジュール206は、L
Pパラメタaを生成するために各々の入力音声フレームs(n)に線形予測の分
析を実行する。LPパラメタaはLP量子化モジュール210に与えられる。L
P量子化モジュール210はまたモードMを受け、それによって、モード依存方
法で量子化過程を実行する。LP量子化モジュール210はLPインデックスI LP および量子化されたLPパラメタa―を生じる。LP分析フィルタ208は
入力音声フレームs(n)に加えて量子化されたLPパラメタa―を受信する。
LP分析フィルタ208はLP残余信号R[n]を生成し、それは入力音声フレー
ムs(n)および線形予測されたパラメタa―に基づいた再構成された音声間の
誤差を表す。LP残余R[n]、モードMおよび量子化されたLPパラメタa―が
残余量子化モジュール212に提供される。これらの値に基づいて、残余量子化
モジュール212は残余インデックスIRおよび量子化残余信号R[n]―を生成
する。
パラメタ復号モジュール302、残余復号モジュール304、モード復号モジュ
ール306およびLP合成フィルタ308を含む。モード復号モジュール306
はそこからモードMを生成するモードインデックスIMを受信して復号する。L
Pパラメタ復号モジュール302はモードMおよびLPインデックスILPを受
信する。LPパラメタ復号モジュール302は量子化されたLPパラメタ[x]を
生じるために受け取られた値を復号する。残余復号モジュール304は残余イン
デックスIR、ピッチインデックスIP、およびモードインデックスIMを受信
する。残余復号モジュール304は量子化された残余信号[X]を生成するために
受け取られた値を復号する。量子化された残余信号[X]および量子化されたLP
パラメタ[x]はLP合成フィルタ308に提供され、それはそれらから復号化出
力音声信号[X]を合成する。
まざまな作動および実施技術は、上述した米国特許番号5,414,796および
米国出願番号09/217,341に記述されている。
めの処理音声サンプルの一組のステップに従う。ステップ400において、音声
コーダは連続したフレームの音声信号のデジタルサンプルを受信する。与えられ
たフレームを受信すると、音声コーダはステップ402へ進む。ステップ402
において、音声コーダはフレームのエネルギーを検出する。エネルギーはフレー
ムの音声活力の基準である。音声検出はデジタル化された音声サンプルの振幅の
平方を合計し、閾値に対して結果として生じるエネルギーを比較することにより
実行される。実施例において、閾値はバックグラウンドノイズの変更レベルに基
づいて適応する。例示的な可変の閾値音声活力検出回路は上述した米国特許番号
5,414,796に記述されている。声に出されない若干の音声音は、バックグ
ラウンドノイズとして誤って符号化されることができる極めて低エネルギーサン
プルであり得る。これが起こるのを防止するために、上述した米国特許番号5,
414,796に記述したように、低エネルギーサンプルのスペクトルの傾斜は
バックグラウンドノイズから無声音声を区別するために用いることができる。
テップ404において、音声コーダは、検出されたフレームエネルギーが音声情
報を含むとしてフレームを分類するのに十分かどうか決定する。検出されたフレ
ームエネルギーが予め定義された閾値以下に低下する場合、音声コーダはステッ
プ406へ進む。ステップ406において、音声コーダはバックグラウンドノイ
ズ(即ち、音声なし、即ち沈黙)としてフレームを符号化する。一実施例におい
て、バックグラウンドノイズフレームは8分の1のレートで符号化される。ステ
ップ404において検出フレームエネルギーが予め定義された閾値を満たすかま
たは超える場合、フレームは音声として分類され、音声コーダはステップ408
へ進む。
がフレームの周期性を試験するかどうかを決定する。周期性判定のさまざまな既
知の方法は、例えばゼロ交差の使用および正規化自己相関関数(NACF)の使
用を含む。特に、周期性を検出するためにゼロ交差およびNACFを使用するこ
とは、上述した米国特許番号5,911,128および米国出願番号09/21,7
341に記述されている。加えて、有声音声と無声音声を区別するために用いる
上記の方法は、米国電気通信工業会 暫定標準TIA/EIA IS-127およ
びTIA/EIA IS-733に取り込まれている。フレームがステップ408
の無声音声であると決定される場合、音声コーダはステップ410へ進む。ステ
ップ410において、音声コーダは無声音声としてフレームを符号化する。一実
施例において、無声音声フレームは4分の1のレートで符号化される。ステップ
408においてフレームが無声音声であると決定されない場合、音声コーダはス
テップ412へ進む。
11,128に記述されたように従来技術である周期性検出方法を用いて、フレ
ームが遷移音声であるかどうか決定する。フレームが遷移音声であると決定され
る場合、音声コーダはステップ414へ進む。ステップ414において、フレー
ムは遷移音声、(即ち、無声音声から有声音声への遷移)として符号化される。
一実施例において遷移音声フレームは、本発明の譲受人に譲渡され、ここに引用
文献として完全に組み込まれた、1999年5月7日に申請された米国出願番号
09/30,7294、題名「遷移音声フレームの多重パルス補間符号化」に記述
されている多重パルス補間符号化方法に従って符号化される。もう一つの実施例
では、遷移音声フレームは完全なレートで符号化される。
合、音声コーダはステップ416へ進む。ステップ416において、音声コーダ
は有声音声としてフレームを符号化する。一実施例において、有声音声フレーム
は半分のレートで符号化されてもよい。また、有声音声フレームを完全なレート
で符号化することが可能である。しかし、半分のレートで有声フレームを符号化
することは、有声フレームの定常状態の特質を活用することによりコーダが価値
あるバンド幅を保存できることを当業者は認識するであろう。さらに、有声音声
を符号化するために用いるレートに関係なく、有声音声が過去のフレームから情
報を使用して都合よく符号化され、それゆえに、前記を予測的に符号化されるよ
うにする。
テップに従うことによって符号化されることができることを認識するであろう。
ノイズ、無声、遷移および有声音声の波形特性が図5Aのグラフで時間の関数と
して示されることができる。ノイズ、無声、遷移および有声LP残余の波形特性
が図5Bのグラフで時間の関数として示されることができる。
図6に示すように、決定論的なコード体系選択パターンを用いてフレームエラー
状態に対する感度を減少するために構成される。音声コーダ500は初期パラメ
ータ算出モジュール502、分類モジュール504、制御プロセッサ506、複
数Nの予測符号化モード508、510(簡単のため、2つの予測符号化モード
508、510だけが点線により象徴されている残留予測符号化モードとして示
される)および少なくとも1つの非予測符号化モード512を含む。初期パラメ
ータ算出モジュール502は、分類モジュール504に連結される。分類モジュ
ール506は、制御プロセッサ506に、そして、さまざまな符号化モード50
8、510、512に連結される。制御プロセッサはまた、さまざまな符号化モ
ード508、510、512に連結される。
初期パラメータ算出モジュール502に入力される。初期パラメータ算出モジュ
ール502は、例えば線形予測係数(LPC係数)、正規化自己相関関数(NA
CF)、開ループ遅れパラメタ、帯域エネルギー、ゼロ交差レートおよびフォル
マント残留信号を含んでいる音声サンプルs(n)からさまざまな初期パラメー
タを引き出す。種々の初期パラメータの算出および使用は公知技術であり、上述
した米国特許番号5,414,796および米国出願番号09/217,341に記
述されている。
づいて、分類モジュール504は図4に関して上記した分類ステップに従って音
声フレームを分類する。フレーム分類は制御プロセッサ506に提供され、音声
フレームはさまざまな符号化モード508、510、512に提供される。
当な与えられた特性であるかに依存して、フレームからフレームへ複合の符号化
モード508、510、512の間で動的に切り換えるために都合よく構成され
る。特定の符号化モード508、510、512は、デコーダ(図示せず)で受
け入れ可能な信号再生を維持すると共に、得られる最も低いビットレートを達成
するために各々のフレームについて選択される。音声コーダ500のビットレー
トはこのように音声信号s(n)の特性変化、可変音声符号化として参照される
過程として、時間とともに変化する。
く特定の予測符号化モード508、510の応用を指向する。予測符号化モード
508、510のうちの1つは、上述した米国特許番号5,414,796に記述
されているCELP符号化モードである。予測符号化モード508、510のも
う1つは、上述した米国出願番号0/217,341に記述されているPPP符号
化モードである。さらに別の予測符号化モード508、510はWI符号化モー
ドであってもよい。
メモリ符号化体系である。予測符号化モード508、510は、都合よく重い予
測符号化体系であってもよい。代替実施例において、非予測符号化モード512
は全体的に非予測、またはメモリのない符号化体系である。全体的に非予測符号
化モード512は、例えば音声サンプルs(n)のPCM符号化、音声サンプル
s(n)の複合されたμ−法符号化、または音声サンプルs(n)のA−法符号
化であってもよい。
れるが、1つ以上の非予測符号化モジュールが使われることができることは熟練
者により理解されるであろう。1つ以上の非予測符号化モジュールが使われる場
合、非予測符号化モジュールの型が異なることができる。さらに、1つ以上の非
予測符号化モジュールが使われる代替実施例において、いくつかまたは全ての非
予測符号化モジュールは、僅かな予測符号化モジュールである。そして他の実施
例において、非予測符号化モジュールのいくつかまたは全ては全体的に非予測符
号化モジュールである。
サ506により都合よく挿入される。制御プロセッサ506はフレームの長さF
を有するパターンを作る。一実施例において、長さFはフレームエラーの影響の
最も長く我慢できる持続に基づいている。最も長く我慢できる持続は聴取者の主
観的な見地から予め都合よく決定されることができる。もう一つの実施例では、
長さFは制御プロセッサ506によって周期的に変化する。他の実施例において
、長さFは制御プロセッサ506によって乱数的にまたは疑似乱数的に変化され
る。例示的な繰り返されているパターンは、PPPNであり、ここにPは予測符
号化モード508、510のためにあり、Nは非予測または僅かな予測符号化モ
ード512を示す。代替実施例において、複数の非予測符号化モードが挿入され
る。例示的なパターンはPPNPPNである。パターン長さFが変化するある実
施例において、パターンPPPNはパターンPPPNPN等により続けられるか
もしれないパターンPPNにより続けられるかもしれない。
隔で少ないメモリまたはメモリのない符号化体系に知的に挿入するため、図7の
フローチャートに示されたアルゴリズムステップを実行する。ステップ600に
おいて、制御プロセッサ(示されない)は計数変数iをゼロに等しく設定する。
制御プロセッサは次にステップ602へ進む。ステップ602において制御プロ
セッサは現フレームの音声内容の分類に基づいて現音声フレームのための予測符
号化モードを選択する。制御プロセッサは次にステップ604に進む。ステップ
604において、制御プロセッサは選択された予測符号化モードで現フレームを
符号化する。制御プロセッサは次にステップ606へ進む。ステップ606にお
いて、制御プロセッサは計数変数iを増加させる。制御プロセッサは次にステッ
プ608へ進む。
Tより大きいか否かを決定する。予め定義された閾値Tは聴取者の主観的な観点
から予め決定されるように、フレームエラーの影響の最も長い我慢できる持続に
基づいている。特定の実施例において、予め定義された閾値Tはフローチャート
で繰返しの予め定義された数として固定したままであり、次に制御プロセッサに
よって異なる予め定義された値に変更される。計数変数iが予め定義された閾値
Tより大きくない場合、制御プロセッサは次の音声フレームのための予測符号化
モードを選ぶためにステップ602に戻る。他方、計数変数iが予め定義された
閾値Tより大きい場合、制御プロセッサはステップ610へ進む。ステップ61
0において、制御プロセッサは非予測または僅かな予測符号化モードで次の音声
フレームを符号化する。制御プロセッサはそれからステップ600に戻り、再び
計数変数iをゼロに等しく設定する。
は僅かに予測的に符号化される音声フレームの異なる繰り返しパターンを組み入
れるために修正されることができると認識するであろう。例えば、計数変数iは
フローチャートを通して各々の繰返しで、またはフローチャートを通して繰返し
の予め定義された数の後に、あるいは疑似乱数的または乱数的に変化されてもよ
い。または、例えば次の2つのフレームは、ステップ610において非予測符号
化モードまたは僅かな予測符号化モードによって符号化されることができる。ま
たは、例えばフレームの任意の予め定義された数またはフレームの乱数的に選択
された数、フレームの疑似乱数的に選択された数、またはフローチャートで各々
の繰返しを有する予め定義された方法で変化するフレームの数は、ステップ61
0で非予測符号化モードまたは僅かな予測符号化モードで符号化されることがで
きる。
音声コーダ500の平均ビットレートは都合よく維持される。特定の実施例にお
いて、パターンに使用される各々の予測符号化モード508、510が他の各々
より異なるレートで符号化され、非予測符号化モード512が予測符号化モード
508、510のいずれかのために使用されるより異なるレートで符号化される
。他の特定の実施例において、予測符号化モード508、510は比較的低いビ
ットレートで符号化され、非予測符号化モード512は比較的高いビットレート
で符号化される。それゆえに、高品質の少ないメモリかメモリのない符号化体系
が一旦各Fフレームに挿入され、高品質、重い予測、低ビットレートの符号化体
系が減少された平均符号化レートを生じる連続した高ビットレートフレーム間で
使用される。いかなる予測音声コーダにおいても有利であるけれども、この技術
は特に低ビットレート音声コーダで有効であり、そこにおいて良好な音声品質は
重い予測符号化体系を使用することによってのみ達成されることができる。それ
らの予測特性によるこの種の低ビットレート音声コーダは、フレームエラーによ
って生じる退行により影響されやすい。高ビットレート、非予測符号化モード5
12を周期的に挿入することによって、予測符号化モード508、510をさま
ざまな低ビットレートに維持すると共に、所望の良好な音声品質および低平均符
号化レートが達成される。
ターンで音声のセグメントの全フレームを符号化することにより、平均符号化レ
ートは予め定義された平均レートRに一定または略一定に都合よく保たれる。例
示的なパターンはPPNであり、Pは予測的に符号化されたフレームを表してお
り、Nは非予測的あるいは僅かに予測的に符号化されたフレームを表している。
このパターンにおいて、第1のフレームはR/2で予測的に符号化され、第2の
フレームはR/2のレートで予測的に符号化され、第3のフレームは2Rのレー
トで非予測的にまたは僅かに予測的に符号化される。パターンはそれから繰り返
す。平均符号化レートはこのようにRである。
ームがR/2のレートで予測的に符号化され、第2のフレームはRのレートで予
測的に符号化され、第3のフレームはR/2のレートで予測的に符号化され、そ
して、第4のフレームは2Rのレートで非予測的にまたは僅かに予測的に符号化
される。パターンはそれから繰り返す。平均符号化レートはこのようにRである
。
フレームはR/2のレートで符号化され、第2のフレームはR/2のレートで符号
化され、第3フレームは2Rレートで符号化され、第4のフレームはR/3のレ
ートで符号化され、第5のフレームはR/3のレートで符号化され、そして、第
6のフレームは7R/3のレートで符号化される。パターンはそれから繰り返す
。平均符号化レートはこのようにRである。
フレームがR/3のレートで符号化され、第2のフレームはR/3のレートで符号
化され、第3のフレームはR/3のレートで符号化され、第4のフレームが3R
レートで符号化され、第5のフレームがR/2のレートで符号化され、そして第
6のフレームが3R/2のレートで符号化される。パターンはそれから繰り返す
。平均符号化レートはこのようにRである。
のフレームがR/3のレートで符号化され、第2のフレームはR/3のレートで符
号化され、第3のフレームが2Rのレートで符号化され、第4のフレームが2R
のレートで符号化され、第5のフレームがR/2のレートで符号化され、第6の
フレームはR/2のレートで符号化され、そして第7のフレームは4R/3のレー
トで符号化される。パターンはそれから繰り返す。平均符号化レートはこのよう
にRである。
用されることがでると理解するであろう。熟練者はまた、上記のパターンおよび
その他が乱数的または疑似乱数的に選択されるかまたは事実上周期的であるか否
かで、いかなる順序にも継ぎ合わせることができることを認識するであろう。当
業者は、符号化レートのいかなる組も使うことができ、符号化レート平均をパタ
ーンの持続(Fフレーム)に亘って所望の平均符号化レートRに提供できること
をさらに認識するであろう。
るフレームを強制することは、音声のセグメントについてRの所望の平均符号化
レートを維持する間に、フレームエラーの影響がパターンと同じ長さだけ続けさ
せられる。実際、音声のセグメントがFフレームパターン長の正確な倍数を含ま
ない場合、制御プロセッサはわずかに最低の平均レートを達成するために知的に
パターンを回転させるように構成されることができる。音声セグメントのための
所望の有効平均符号化レートRがRの固定レートでセグメントの全フレームを符
号化することによって代わりに達成され、レートRが予測の使用をさせる比較的
低レートである場合、音声コーダはフレームエラーの続いている影響に極めて弱
いであろう。
記したそれらのようなパターンに基づく体系がまた、固定レート、予測音声コー
ダの利点に採用されることができると理解するであろう。固定レート、予測音声
コーダが低ビットレート音声コーダである場合、フレームエラー状態は音声コー
ダに不利な影響を与えるだろう。非予測的に符号化されたまたは僅かに予測的に
符号化されたフレームは同じ低レートで符号化された予測的符号化フレームより
低い品質であるかもしれない。それにもかかわらず、あらゆるFフレームの1つ
の非予測的に符号化されたまたは僅かに予測的に符号化されたフレームを導入す
ることは、あらゆるFフレームのフレームエラーの影響を排除する。
のコード体系選択パターンを使用する新規な方法と装置が記述された。熟練者は
、ここに開示された実施例と関連して記述されたさまざまな図解論理ブロックお
よびアルゴリズムステップが、電子的ハードウエア、コンピューターソフトウェ
アまたは両方の組合わせとして実行されることができることを理解するであろう
。さまざまな図示する構成要素、ブロックおよびステップは、それらの機能性の
用語で一般に記述された。機能性がハードウエアまたはソフトウェアとして実施
されるか否かは、全体的なシステムに課せられた特定の応用および設計拘束に依
存する。熟練者は、これらの状況の下でハードウェアおよびソフトウェアの互換
性、および各々の特定の応用のために記述された機能性を最もよく実施する方法
を認識する。実施例としてさまざまな図解論理ブロックおよびここに開示された
実施例と関連して記述されたアルゴリズムステップは、デジタル信号処理装置(
DSP)、特定用途向けIC(ASIC)、ディスクリートゲートまたはトラン
ジスタ論理、例えばレジスタおよびFIFOのようなディスクリートハードウエ
ア構成要素、一組のファームウェア指令を実行しているプロセッサ、またはあら
ゆる通常のプログラム可能なソフトウェアモジュールおよびプロセッサで実施ま
たは実行されることができる。プロセッサは都合よくマイクロプロセッサであっ
てもよいが、代わりにプロセッサはいかなる通常のプロセッサも、コントローラ
、マイクロコントローラまたは状態マシンであってもよい。ソフトウェアモジュ
ールはRAMメモリー、フラッシュメモリ、レジスタまたは公知技術の書き込み
可能な記憶媒体の他のいかなる形でもあることができる。熟練者は、上記の説明
を通して参照されたデータ、指令、命令、情報、信号、ビット、記号およびチッ
プが電圧、電流、電磁波、磁場または粒子、光学場または粒子、またはそれのい
かなる組合わせでも都合よく表されることをさらに認識するであろう。
更が発明の精神または範囲から逸脱することなく、ここに開示された実施例にな
されるかもしれないことは技術に普通に熟練した者には明らかである。したがっ
て、本発明は以下の請求項に従う以外に制限されるべきではない。
ムである。
ヤグラムである。
グラムである。
ダイヤグラムである。
より実行される方法ステップを示しているフローチャートである。
ジュール 506…制御プロセッサ 508、510…予測符号化モード 51
2…非予測符号化モード
Claims (34)
- 【請求項1】 少なくとも1つの予測符号化モードと、 少なくとも1つの非予測符号化モードと、 少なくとも1つの予測符号化モードおよび少なくとも1つの非予測符号化モー
ドに結合されたプロセッサとを含み、 前記プロセッサは符号化された音声フレームのパターンに従って選択された符
号化モードにより連続した音声フレームを符号化させるように構成され、そのパ
ターンは非予測符号化モードで符号化された少なくとも1つの音声フレームを含
んでいる音声コーダ。 - 【請求項2】 少なくとも1つの非予測符号化モードが1つの非予測符号化
モードを含む請求項1の音声コーダ。 - 【請求項3】 少なくとも1つの非予測符号化モードが僅かな予測符号化モ
ードである請求項1の音声コーダ。 - 【請求項4】 少なくとも1つの非予測符号化モードが全体的に非予測符号
化モードである請求項1の音声コーダ。 - 【請求項5】 プロセッサが符号化された音声フレームのパターンのために
平均符号化レートを維持するようにさらに構成される請求項1の音声コーダ。 - 【請求項6】 符号化された音声フレームのパターンは少なくとも1つの予
測符号化モードで符号化される複数の音声フレームを含み、少なくとも1つの予
測符号化モードで符号化される音声フレームの数が聴取者により予め定められて
いる請求項1の音声コーダ。 - 【請求項7】 パターンは繰り返しパターンである請求項1の音声コーダ。
- 【請求項8】 パターンは様々なパターンである請求項1の音声コーダ。
- 【請求項9】 予測符号化モードで予め定義された数の連続した音声フレー
ムを符号化し、 予測符号化モードで予め定義された数の連続した音声フレームを符号化するス
テップを実行した後に非予測符号化モードで少なくとも1つの音声フレームを符
号化し、 パターンに従って符号化される複数の音声フレームを生成するために2つの符
号化ステップを繰り返す ステップを含む音声フレームを符号化する方法。 - 【請求項10】 パターンが繰り返しパターンである請求項9の方法。
- 【請求項11】 パターンが様々なパターンである請求項9の方法。
- 【請求項12】 非予測符号化モードが僅かな予測符号化モードである請求
項9の方法。 - 【請求項13】 非予測符号化モードが全体的に非予測符号化モードである
請求項9の方法。 - 【請求項14】 符号化された音声フレームのパターンのための平均符号化
レートを維持するステップを更に含む請求項9の方法。 - 【請求項15】 連続した音声フレームの予め定義された数が聴取者によっ
て予め定められる請求項9の方法。 - 【請求項16】 連続した音声フレームの予め定義された数を変化させるス
テップを更に含む請求項9の方法。 - 【請求項17】 変化させるステップが連続した音声フレームの予め定義さ
れた数を周期的に変化させることを含む請求項16の方法。 - 【請求項18】 変化させるステップが連続した音声フレームの予め定義さ
れた数を乱数的に変化させることを含む請求項16の方法。 - 【請求項19】 予測符号化モードで連続した音声フレームの予め定義され
た数を符号化する手段、 予め定義された数の連続した音声フレームが予測符号化モードで符号化された
後、非予測符号化モードで少なくとも1つの音声フレームを符号化する手段、 パターンが非予測符号化モードで符号化される少なくとも1つの音声フレーム
を含み、パターンに従って符号化される複数の音声フレームを生成する手段 を含む音声コーダ。 - 【請求項20】 パターンが繰り返しパターンである請求項19の音声コー
ダ。 - 【請求項21】 パターンが様々なパターンである請求項19の音声コーダ
。 - 【請求項22】 非予測符号化モードが僅かな予測符号化モードである請求
項19の音声コーダ。 - 【請求項23】 非予測符号化モードが全体的に非予測符号化モードである
請求項19の音声コーダ。 - 【請求項24】 符号化された音声フレームのパターンの平均符号化レート
を維持する手段をさらに含む請求項19の音声コーダ。 - 【請求項25】 連続した音声フレームの予め定義された数は聴取者よって
予め定められる請求項19の音声コーダ。 - 【請求項26】 予め定義された数の連続した音声フレームを変化させる手
段をさらに含む請求項19の音声コーダ。 - 【請求項27】 変化させる手段が連続した音声フレームの予め定義された
数を周期的に変化させる手段を含む請求項26の音声コーダ。 - 【請求項28】 変化させる手段が連続した音声フレームの予め定義された
数を乱数的に変化させる手段を含む請求項26の音声コーダ。 - 【請求項29】 複数の音声フレームをパターンで符号化するステップ含み
、パターンが少なくとも1つの予測的に符号化された音声フレームおよび少なく
とも1つの非予測的に符号化された音声フレームを含む音声フレームの符号化方
法。 - 【請求項30】 パターンが繰り返しパターンである請求項29の方法。
- 【請求項31】 パターンが様々なパターンである請求項29の方法。
- 【請求項32】 複数の音声フレームをパターンで符号化するステップ含み
、パターンが少なくとも1つの重く予測的に符号化された音声フレームおよび少
なくとも1つの僅かに予測的に符号化された音声フレームを含む音声フレームの
符号化方法。 - 【請求項33】 パターンが繰り返しパターンである請求項32の方法。
- 【請求項34】 パターンが様々なパターンである請求項32の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/429,754 US6438518B1 (en) | 1999-10-28 | 1999-10-28 | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
US09/429,754 | 1999-10-28 | ||
PCT/US2000/029710 WO2001031639A1 (en) | 1999-10-28 | 2000-10-26 | A predictive speech coder using coding scheme selection patterns to reduce sensitivity to frame errors |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011128162A Division JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003515178A true JP2003515178A (ja) | 2003-04-22 |
JP4805506B2 JP4805506B2 (ja) | 2011-11-02 |
Family
ID=23704610
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001534143A Expired - Fee Related JP4805506B2 (ja) | 1999-10-28 | 2000-10-26 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
JP2011128162A Expired - Fee Related JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011128162A Expired - Fee Related JP5543405B2 (ja) | 1999-10-28 | 2011-06-08 | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ |
Country Status (13)
Country | Link |
---|---|
US (1) | US6438518B1 (ja) |
EP (1) | EP1224663B1 (ja) |
JP (2) | JP4805506B2 (ja) |
KR (2) | KR100827896B1 (ja) |
CN (1) | CN1212607C (ja) |
AT (1) | ATE346357T1 (ja) |
AU (1) | AU1576001A (ja) |
BR (1) | BRPI0015070B1 (ja) |
DE (1) | DE60032006T2 (ja) |
ES (1) | ES2274812T3 (ja) |
HK (1) | HK1051735A1 (ja) |
TW (1) | TW530296B (ja) |
WO (1) | WO2001031639A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002247137A (ja) * | 2000-04-25 | 2002-08-30 | Canon Inc | 通信装置及び通信方法 |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US7487083B1 (en) * | 2000-07-13 | 2009-02-03 | Alcatel-Lucent Usa Inc. | Method and apparatus for discriminating speech from voice-band data in a communication network |
WO2002097796A1 (en) * | 2001-05-28 | 2002-12-05 | Intel Corporation | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7542899B2 (en) * | 2003-09-30 | 2009-06-02 | Alcatel-Lucent Usa Inc. | Method and apparatus for adjusting the level of a speech signal in its encoded format |
US8111663B2 (en) | 2004-07-20 | 2012-02-07 | Qualcomm Incorporated | Methods and systems for variable rate broadcast with soft handoff |
SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
US20070005347A1 (en) * | 2005-06-30 | 2007-01-04 | Kotzin Michael D | Method and apparatus for data frame construction |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
CA2663904C (en) * | 2006-10-10 | 2014-05-27 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
US8171380B2 (en) * | 2006-10-10 | 2012-05-01 | Marvell World Trade Ltd. | Adaptive systems and methods for storing and retrieving data to and from memory cells |
US7813922B2 (en) * | 2007-01-30 | 2010-10-12 | Nokia Corporation | Audio quantization |
EP2301015B1 (en) * | 2008-06-13 | 2019-09-04 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
US20130268265A1 (en) * | 2010-07-01 | 2013-10-10 | Gyuhyeok Jeong | Method and device for processing audio signal |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
TWI557727B (zh) * | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
JP2017009663A (ja) * | 2015-06-17 | 2017-01-12 | ソニー株式会社 | 録音装置、録音システム、および、録音方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS637042A (ja) * | 1986-06-27 | 1988-01-12 | Fujitsu Ltd | 符号化伝送装置 |
JPS6444499A (en) * | 1987-08-12 | 1989-02-16 | Fujitsu Ltd | Forecast encoding system for voice |
JPH01293028A (ja) * | 1988-05-20 | 1989-11-27 | Fujitsu Ltd | 音声符号化モード切り替え方式 |
JPH0646409A (ja) * | 1992-07-23 | 1994-02-18 | Sony Corp | 画像信号符号化装置及び画像信号符号化方法 |
JPH07131793A (ja) * | 1993-11-01 | 1995-05-19 | Toshiba Corp | 映像信号高能率符号化装置 |
JPH0818543A (ja) * | 1994-07-01 | 1996-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 可変ビットレート符号化復号化方法、その符号化器及び復号化器 |
JPH0869298A (ja) * | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JPH0884329A (ja) * | 1994-09-13 | 1996-03-26 | Canon Inc | 画像通信端末装置 |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
WO1998041000A1 (en) * | 1997-03-10 | 1998-09-17 | Ericsson Inc. | Mobile telephone having continuous recording capability |
JPH1169355A (ja) * | 1997-08-20 | 1999-03-09 | Sharp Corp | 画像伝送装置 |
JPH1188874A (ja) * | 1997-09-02 | 1999-03-30 | Toshiba Corp | 符号化装置における編集可能点挿入方法および符号化装置 |
JPH11220711A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 多地点会議システム及び会議端末装置 |
JPH11259096A (ja) * | 1998-03-09 | 1999-09-24 | Sony Corp | 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5568483A (en) * | 1990-06-25 | 1996-10-22 | Qualcomm Incorporated | Method and apparatus for the formatting of data for transmission |
DK0588932T3 (da) | 1991-06-11 | 2002-03-11 | Qualcomm Inc | Vokoder med variabel hastighed |
GB9205932D0 (en) * | 1992-03-18 | 1992-04-29 | Philips Electronics Uk Ltd | Method and apparatus for editing an audio signal |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5659659A (en) * | 1993-07-26 | 1997-08-19 | Alaris, Inc. | Speech compressor using trellis encoding and linear prediction |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JPH0816200A (ja) * | 1994-06-30 | 1996-01-19 | Olympus Optical Co Ltd | 音声記録装置 |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5774846A (en) | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US6064954A (en) * | 1997-04-03 | 2000-05-16 | International Business Machines Corp. | Digital audio signal coding |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
WO2000030075A1 (en) * | 1998-11-13 | 2000-05-25 | Qualcomm Incorporated | Closed-loop variable-rate multimode predictive speech coder |
US6324503B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
ES2269112T3 (es) * | 2000-02-29 | 2007-04-01 | Qualcomm Incorporated | Codificador de voz multimodal en bucle cerrado de dominio mixto. |
-
1999
- 1999-10-28 US US09/429,754 patent/US6438518B1/en not_active Expired - Lifetime
-
2000
- 2000-10-26 JP JP2001534143A patent/JP4805506B2/ja not_active Expired - Fee Related
- 2000-10-26 KR KR1020027005199A patent/KR100827896B1/ko not_active IP Right Cessation
- 2000-10-26 ES ES00978283T patent/ES2274812T3/es not_active Expired - Lifetime
- 2000-10-26 EP EP00978283A patent/EP1224663B1/en not_active Expired - Lifetime
- 2000-10-26 DE DE60032006T patent/DE60032006T2/de not_active Expired - Lifetime
- 2000-10-26 CN CNB008149712A patent/CN1212607C/zh not_active Expired - Lifetime
- 2000-10-26 AU AU15760/01A patent/AU1576001A/en not_active Abandoned
- 2000-10-26 BR BRPI0015070A patent/BRPI0015070B1/pt active IP Right Grant
- 2000-10-26 AT AT00978283T patent/ATE346357T1/de not_active IP Right Cessation
- 2000-10-26 KR KR1020077025873A patent/KR100804888B1/ko not_active IP Right Cessation
- 2000-10-26 WO PCT/US2000/029710 patent/WO2001031639A1/en active IP Right Grant
-
2001
- 2001-02-14 TW TW089122669A patent/TW530296B/zh not_active IP Right Cessation
-
2003
- 2003-06-06 HK HK03103998A patent/HK1051735A1/xx not_active IP Right Cessation
-
2011
- 2011-06-08 JP JP2011128162A patent/JP5543405B2/ja not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS637042A (ja) * | 1986-06-27 | 1988-01-12 | Fujitsu Ltd | 符号化伝送装置 |
JPS6444499A (en) * | 1987-08-12 | 1989-02-16 | Fujitsu Ltd | Forecast encoding system for voice |
JPH01293028A (ja) * | 1988-05-20 | 1989-11-27 | Fujitsu Ltd | 音声符号化モード切り替え方式 |
JPH0646409A (ja) * | 1992-07-23 | 1994-02-18 | Sony Corp | 画像信号符号化装置及び画像信号符号化方法 |
JPH07131793A (ja) * | 1993-11-01 | 1995-05-19 | Toshiba Corp | 映像信号高能率符号化装置 |
JPH0818543A (ja) * | 1994-07-01 | 1996-01-19 | Nippon Telegr & Teleph Corp <Ntt> | 可変ビットレート符号化復号化方法、その符号化器及び復号化器 |
JPH0869298A (ja) * | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JPH0884329A (ja) * | 1994-09-13 | 1996-03-26 | Canon Inc | 画像通信端末装置 |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
WO1998041000A1 (en) * | 1997-03-10 | 1998-09-17 | Ericsson Inc. | Mobile telephone having continuous recording capability |
JPH1169355A (ja) * | 1997-08-20 | 1999-03-09 | Sharp Corp | 画像伝送装置 |
JPH1188874A (ja) * | 1997-09-02 | 1999-03-30 | Toshiba Corp | 符号化装置における編集可能点挿入方法および符号化装置 |
JPH11220711A (ja) * | 1998-02-03 | 1999-08-10 | Fujitsu Ltd | 多地点会議システム及び会議端末装置 |
JPH11259096A (ja) * | 1998-03-09 | 1999-09-24 | Sony Corp | 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法 |
Non-Patent Citations (1)
Title |
---|
杉山賢二: ""蓄積系メディアに適した動画像符号化の一手法"", 画像符号化シンポジウム予稿集, JPN6011005644, 13 October 1989 (1989-10-13), pages 71 - 72, ISSN: 0001839818 * |
Also Published As
Publication number | Publication date |
---|---|
DE60032006D1 (de) | 2007-01-04 |
DE60032006T2 (de) | 2007-06-21 |
EP1224663A1 (en) | 2002-07-24 |
CN1402869A (zh) | 2003-03-12 |
JP5543405B2 (ja) | 2014-07-09 |
AU1576001A (en) | 2001-05-08 |
EP1224663B1 (en) | 2006-11-22 |
KR100804888B1 (ko) | 2008-02-20 |
ATE346357T1 (de) | 2006-12-15 |
HK1051735A1 (en) | 2003-08-15 |
KR20070112894A (ko) | 2007-11-27 |
TW530296B (en) | 2003-05-01 |
JP4805506B2 (ja) | 2011-11-02 |
CN1212607C (zh) | 2005-07-27 |
JP2011237809A (ja) | 2011-11-24 |
WO2001031639A1 (en) | 2001-05-03 |
BR0015070A (pt) | 2002-12-24 |
KR100827896B1 (ko) | 2008-05-07 |
US6438518B1 (en) | 2002-08-20 |
ES2274812T3 (es) | 2007-06-01 |
BRPI0015070B1 (pt) | 2016-10-11 |
KR20020040910A (ko) | 2002-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
EP1340223B1 (en) | Method and apparatus for robust speech classification | |
FI120327B (fi) | Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi | |
EP1214705B1 (en) | Method and apparatus for maintaining a target bit rate in a speech coder | |
US6324503B1 (en) | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions | |
WO2001082289A2 (en) | Frame erasure compensation method in a variable rate speech coder | |
JP2003525473A (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ | |
JP2002530705A (ja) | 音声の無声セグメントの低ビットレート符号化 | |
EP1204968B1 (en) | Method and apparatus for subsampling phase spectrum information | |
JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
EP1181687B1 (en) | Multipulse interpolative coding of transition speech frames | |
JP2003524796A (ja) | 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置 | |
US6434519B1 (en) | Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder | |
JP2002536694A (ja) | 音声コーダのための、1/8レート乱数発生のための方法と手段 | |
WO2000030075A1 (en) | Closed-loop variable-rate multimode predictive speech coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110608 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110811 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4805506 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |