JP3824706B2 - Speech encoding / decoding device - Google Patents
Speech encoding / decoding device Download PDFInfo
- Publication number
- JP3824706B2 JP3824706B2 JP11397596A JP11397596A JP3824706B2 JP 3824706 B2 JP3824706 B2 JP 3824706B2 JP 11397596 A JP11397596 A JP 11397596A JP 11397596 A JP11397596 A JP 11397596A JP 3824706 B2 JP3824706 B2 JP 3824706B2
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- adaptive
- code vector
- transmission path
- search range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、CELP型の音声符号化/復号化装置に関するものである。
【0002】
【従来の技術】
近年、ディジタル移動通信の需要の増加により音声符号化の低ビットレート化が必要とされており、数々の音声符号化装置が開発されている。その中で、CELP方式は、音声信号を声道情報と音源情報に分離し、声道情報を線形予測係数から構成されるディジタルフィルタにより表現し、音源情報を数百〜千種類程度の波形パターンから構成されている音源符号帳を用いてベクトル量子化するもので、低ビットレート(4kb/s〜8kb/s)においても高品質の音声を実現できる方式として広く用いられている。
【0003】
CELP方式の音源は、適応符号帳と固定符号帳(確率的符号帳と雑音符号帳)の2種類の符号帳から選ばれる音源ベクトルから構成される。このうち、適応符号帳は、音源信号(特に母音部)に含まれる周期的成分を表現するもので、過去に合成した音源信号波形を蓄えたものである。一方、固定符号帳は、音源信号から周期的成分を取り除いた後のランダムな波形(音源信号のランダム成分)を表現するために予め容易されるものである。固定符号帳は、乱数によって作成されたものや、多数の音声データを用いて学習して作成したもの、パルス列によって構成されるものなど、多くの種類のものが提案され、用いられているが、CELP方式の音声符号化装置においては、過去に生成した音源信号を適応符号帳として用いるため、伝送路誤りが生じると誤りから復帰した後も、誤り時に生成した音源信号が適応符号帳として保存されているため、誤りの影響が伝播するという問題を有する。
【0004】
以下にCELP方式に基づく従来の音声符号化装置における適応符号帳探索部について説明する。図5は一般的なCELP型音声符号化装置を示したものである。図5において、入力音声信号1は、前処理器2によって波形整形された後、線形予測分析器3および加算器4に出力される。線形予測分析器3は、前処理後の入力音声信号を用いて線形予測分析を行い、線形予測係数を合成フィルタ5に出力する。合成フィルタ5は、加算器6から入力した音源信号と線形予測分析器3から入力した線形予測係数とを用いて音声合成を行い、加算器4に出力する。加算器4は、合成フィルタから入力した合成信号と前処理器2から入力した前処理後の入力音声信号との誤差を算出し、聴覚重み付け器7に出力する。聴覚重み付け器7は、誤差信号に聴覚重み付けを行い、誤差最小化手段8に出力する。誤差最小化手段8は、聴覚重み付け器7から入力した聴覚重み付け誤差が最小となるように、固定符号ベクトル、適応符号ベクトル、固定符号ベクトル利得、適応符号ベクトル利得を決定する。固定符号ベクトルは、固定符号帳9の中から選択され、固定符号ベクトル利得乗算器10に出力される。固定符号ベクトル利得乗算器10は、固定符号帳9から出力された固定符号ベクトルに固定符号ベクトル利得を乗じて、加算器6に出力する。適応符号ベクトルは、適応符号帳11の中から選択され、適応符号ベクトル利得乗算器12に出力される。適応符号ベクトル利得乗算器12は、適応符号帳11から出力された適応符号ベクトルに適応符号ベクトル利得を乗じて、加算器6に出力する。加算器6は、固定符号ベクトル利得乗算器10と適応符号ベクトル利得乗算器12から出力されたそれぞれのベクトルの加算を行い、音源ベクトルとして合成フィルタ5に出力する。誤差最小となる固定符号ベクトル、適応符号ベクトル、固定符号ベクトル利得、適応符号ベクトル利得の組み合わせによって加算器6によって生成された音源ベクトルは、過去の音源信号をバッファリングしている適応符号帳に新しく付け加えられる。そして、この誤差最小となる音源ベクトルを生成する適応符号ベクトル、固定符号ベクトル、適応符号ベクトル利得、固定符号ベクトル利得の情報が復号器側に伝送される。
【0005】
【発明が解決しようとする課題】
しかしながら、上記従来のCELP型音声符号化装置では、伝送路誤りが生じた場合、適応符号帳にバッファリングされている内容が、符号器側と復号器側で異なってしまい、伝送路誤りから復帰した後も誤りの影響を大きく受けてしまうという問題を有していた。
【0006】
本発明は、上記従来の問題を解決するものであり、伝送路誤りから復帰した直後でも符号器側と復号器側で同一の音源ベクトルを得られるようにし、また伝送路誤りから復帰した直後に生じる符号器側と復号器側で生成される音源ベクトルの誤差を緩和することのできる音声符号化/復号化装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、上記目的を達成するために、伝送路誤りの発生を監視するための情報が復号器側から符号器側に送られ、伝送路誤りが発生したと判定される場合には、誤りの発生した次のフレームまたサブフレームにおける適応符号帳探索の探索範囲を制限するようにしたものである。また、連続して伝送路誤りが発生した場合は、適応帳を用いずに、固定符号帳のみによる符号化処理を伝送路誤りが解消されるまで続けるようにしたものである。さらに、伝送路誤りを生じたときに生成された適応符号帳の使用を回避し、伝送路誤りがないときに生成された適応符号帳を用いるようにしたものである。
【0008】
【発明の実施の形態】
本発明の請求項1に記載の発明は、過去に生成した音源ベクトルのバッファである適応符号帳と、音声復号化装置から受信した伝送路誤り監視信号に基づいて伝送路誤りが生じたかどうかを判定し、直前のフレームまたはサブフレームに伝送路誤りが生じたと判断した場合には、直前のフレームまたはサブフレームで生成した部分を適応符号帳の探索範囲から除外して適応符号帳探索を行う探索範囲限定手段とを有する音声符号化装置を備えた音声符号化/復号化装置であり、伝送路誤り解消直後のフレームまたはサブフレームにおいても、符号器側と復号器側で同一の音源ベクトルを生成することが可能となる。
【0009】
本発明の請求項2に記載の発明は、前記探索範囲限定手段は、直前の数フレームまたは数サブフレームに渡って伝送路誤りが生じていると判断した場合、その連続して伝送路誤りが生じたフレームまたはサブフレームで生成した適応符号ベクトルの利得を零にして、音源ベクトルを固定符号帳のみから生成するものであり、伝送路誤り解消直後のフレームまたはサブフレームにおいても、符号器側と復号器側で同一の音源ベクトルを生成することが可能となる。
【0010】
本発明の請求項3に記載の発明は、前記探索範囲限定手段から探索範囲情報を入力して適応符号帳と固定符号帳のいずれか一方を選択する符号帳選択手段を有し、前記探索範囲限定手段が、直前の数フレームまたは数サブフレームに渡って伝送路誤りが生じて前記適応符号帳に格納されている音源ベクトルの全てが探索範囲から除外されてしまうと判断した場合は、前記探索範囲情報を前記符号帳選択手段に出力し、前記符号帳選択手段は、前記適応符号符号帳を固定符号帳に切り替えて、音源ベクトルを固定符号帳のみから生成するものであり、伝送路誤り解消直後のフレームまたはサブフレームにおいても、符号器側と復号器側で同一の音源ベクトルを生成することが可能となる。
【0011】
本発明の請求項4に記載の発明は、前記音声符号化装置が、前記適応符号帳と固定符号帳のどちらの符号帳を用いるかを示す情報を前記音声復号化装置へ送信する手段を有し、前記音声復号化装置が、前記適応符号帳と固定符号帳のどちらの符号帳を用いるかを示す情報を基に前記適応符号帳と固定符号帳のいずれか一方を選択する手段を有するものであり、伝送路誤り解消直後のフレームまたはサブフレームにおいても、符号器側と復号器側で同一の音源ベクトルを生成することが可能となる。
【0012】
本発明の請求項5に記載の発明は、前記音声復号化装置が、受信したピッチ情報を用いて復号される適応符号ベクトルが、伝送路誤りによって正しく復号されなかったフレームの音源ベクトルを利用して復号されるかどうかを判定し、正しく復号されなかったフレームを利用して前記適応符号ベクトルが生成される場合は、受信したピッチ情報をそのまま用いて前記適応符号ベクトルを生成するものであり、符号器側と復号器側で得られる音源ベクトルの誤差が大きくなることを避けることが可能となる。
【0013】
(実施の形態1)
以下、本発明の実施の形態について、図面を参照しながら説明する。図1は本発明の第1の実施の形態におけるCELP型音声符号化装置の構成を示すものである。図1において、101は入力音声信号、102は入力音声信号101を入力として前処理後の入力音声信号を線形予測器103と加算器104に出力する前処理器、103は前処理後の入力音声信号を入力として線形予測分析を行い、線形予測係数を合成フィルタ105に出力する線形予測分析器、104は前処理後の音声信号と合成フィルタ105の出力信号とを入力として差分信号を算出し、聴覚重み付け器107に出力する加算器、105は加算器106から出力された音源ベクトルと線形予測分析器103から出力された線形予測係数とを入力として音声信号の合成を行なう合成フィルタ、106は固定符号ベクトル利得乗算器112と適応符号ベクトル利得乗算器114から出力されるそれぞれのベクトルを加算して合成フィルタ105に出力する加算器、107は加算器104から出力された誤差信号を入力として聴覚的な重み付けを行い、誤差最小化手段108に出力する聴覚重み付け器、108は聴覚重み付け器107から出力された聴覚重み付けの誤差パワーが最小となるような固定符号ベクトル、適応符号ベクトル利得、適応符号ベクトル利得の組み合わせを、探索範囲限定器109から出力された探索範囲に基づいて決定する誤差最小化手段、109は伝送路誤り監視信号を入力とし、誤差最小化手段108による適応符号等の探索範囲を決定して誤差最小化手段108に出力する探索範囲限定器、110は伝送路誤りの発生を検出するための伝送路誤り監視信号、111は固定符号ベクトル利得乗算器112に出力する予め定められた数の固定符号ベクトルを格納する固定符号帳、112は固定符号帳111から出力された固定符号ベクトルに固定ベクトル利得を乗じて加算器106に出力する固定符号ベクトル利得乗算器、113は加算器106から出力された過去の音源ベクトル(誤差最小化手段108によって最終的に決定されたもの)のバッファからなり、バッファに格納された信号列の一部を切り出して適応符号ベクトルとして適応符号ベクトル利得乗算器114に出力する適応符号帳、114は適応符号帳113から出力された適応符号ベクトルに適応符号ベクトル利得を乗じて加算器106に出力する適応符号ベクトル利得乗算器である。
【0014】
以上のように構成されたCELP型音声符号化ー装置について、以下にその動作を説明する。図1において、入力音声信号101は、定められたサンプル数からなるディジタル信号であり、音声符号化処理は、この定められたサンプル数の音声信号毎に行なわれる。この定められたサンプル数の音声信号ブロックをフレームまたはサブフレームと呼ぶ。入力音声信号101は、前処理器102により帯域制限や利得調整が行なわれる。この前処理後の音声信号を用いて、線形予測分析器103は、公知の線形予測分析を行い、線形予測係数を算出する。合成フィルタ105は、線形予測分析器103で算出された線形予測係数を用いてフィルタを構成し、加算器6から出力されてくる音源ベクトルにフィルタ処理を行なって音声を行なう。加算器104は、前処理後の入力音声信号と合成フィルタ105によって合成された音声信号との差分信号を計算する。聴覚重み付け器107は、加算器104によって算出された差分信号に聴覚的な重み付けを行い、誤差最小化手段108に出力する。この聴覚的な重み付けは、一般的には、線形予測分析器103で算出された線形予測係数と聴覚重み付け係数を用いた線形予測フィルタを縦続接続したフィルタを用いて行なわれる。誤差最小化手段108は、聴覚重み付け後の差分信号(誤差信号)のパワーが最小となるように、合成フィルタ105に入力される音源ベクトルを、固定符号ベクトルと固定符号ベクトル利得と適応符号ベクトルと適応符号ベクトル利得の組み合わせを変えることによって調整する。一般的には、初めに適応符号帳113から最適な適応符号ベクトルを取り出して、乗算器114で適応符号ベクトル利得と乗算して加算器106への出力を決定し、続いて固定符号帳111の中から適応符号ベクトルと組み合わせた時に最適となる固定符号ベクトルを取り出して、乗算器112で固定符号ベクトル利得と乗算して加算器106への出力を決定する。探索範囲限定器109は、適応符号帳113の中から最適な適応符号ベクトルを取り出すときに、適応符号帳113の探索範囲を限定するものである。探索範囲限定器109は、探索範囲限定器109に入力される伝送路誤り監視信号110から、直前のフレームまたはサブフレームに伝送路誤りが生じたかを判定する。そして、直前のフレームまたはサブフレームで伝送路誤りが生じたと判定した場合には、適応符号帳113に格納されている過去に生成した音源信号のうち、直前のフレームで生成した部分を探索範囲から外して適応符号帳探索を行い、最適な符号ベクトルを選択するように、適応符号帳113の探索範囲を誤差最小化手段108に出力する。連続して直前のフレームまたはサブフレームに伝送路誤りが生じたと判定されている場合は、適応符号帳113に格納されている過去に生成した音源信号のうち、連続した直前のフレームで生成した部分を探索範囲から外して適応符号帳探索を行なうように適応符号帳探索範囲を決定し、誤差最小化手段108に出力する。しかしながら、伝送路誤りの連続が長時間に渡ることによって、適応符号帳113に格納されている音源符号帳の全てが探索範囲から除外されてしまうような場合は、適応符号ベクトル利得を零にして、音源ベクトルを固定符号ベクトルのみから生成するように、誤差最小化手段108の探索範囲を決定する。
【0015】
音声符号化装置を以上のように構成した場合、復号化装置には、符号化装置に伝送路誤り監視信号110を伝送する手段を付加する必要があるが、復号化装置における復号処理は従来のものと全く同じものになるため、従来のものをそのまま用いることが可能である。なお、伝送路誤り監視信号110としては、予め定められた信号を一定時間間隔(1フレーム分の符号化パラメータを伝送する時間間隔より短い)で送信するものなどが考えられ、この場合、探索範囲限定器109では、予め定められた信号と異なる信号を受け取った場合に、その時送信したフレームの符号化情報に伝送路誤りが発生したと判断する。
【0016】
このように、上記第1の実施の形態によれば、復号器側から伝送路誤り情報を受け取った符号器が、直前のフレームまたはサブフレームに伝送路誤りが生じたかを判断し、伝送路誤りが生じた場合には、直前のフレームまたはサブフレームで生成した部分を適応符号帳の探索範囲から除外する探索範囲限定器109を備えたものであり、伝送路誤り解消直後のフレームまたはサブフレームにおいても、符号器側と復号器側で同一の音源ベクトルを生成することが可能となる。
【0017】
(実施の形態2)
次に、本発明の第2の実施の形態について図2を参照しながら説明する。図2において、201は入力音声信号、202は入力音声信号201を入力として前処理後の入力音声信号を線形予測分析器203と加算器204に出力する前処理器、203は前処理後の入力音声信号を入力として線形予測分析を行い、線形予測係数を合成フィルタ205に出力する線形予測分析器、204は前処理後の音声信号と合成フィルタ205の出力信号とを入力として差分信号を算出し、聴覚重み付け器207に出力する加算器、205は加算器206から出力された音源ベクトルと線形予測分析器203から出力された線形予測係数とを入力として音声信号の合成を行なう合成フィルタ、206は固定符号ベクトル利得乗算器212と適応符号ベクトル利得乗算器216から出力されるそれぞれのベクトルを加算して合成フィルタ205に出力する加算器、207は加算器204から出力された誤差信号を入力として聴覚的な重み付けを行い、誤差最小化手段208に出力する聴覚重み付け器、208は聴覚重み付け器207から出力された聴覚重み付け後の誤差パワーが最小となるような固定符号ベクトル、適応符号ベクトル、固定符号ベクトル利得、適応符号ベクトル利得の組み合わせを、探索範囲限定器209から出力された探索範囲に基づいて決定する誤差最小化手段、209は伝送路誤り監視信号210を入力とし、誤差最小化手段208による適応符号帳214の探索範囲を決定して誤差最小化手段208および符号帳選択器215に出力する探索範囲限定器、210は伝送路誤りの発生を検出するための伝送路誤り監視信号、211は固定符号ベクトルを固定符号ベクトル利得乗算器212に出力する予め定められた数の固定符号ベクトルを格納する固定符号帳、212は固定符号帳211から出力された固定符号ベクトルに固定符号ベクトル利得を乗じて加算器206に出力する固定符号ベクトル利得乗算器、213は固定符号ベクトルを符号帳選択器215に出力する予め定められた数の固定符号ベクトルを格納する固定符号帳、214は加算器206から出力された過去の音源ベクトル(誤差最小化手段208によって最終的に決定されたもの)のバッファからなり、バッファに格納された信号列の一部を切り出して適応符号ベクトルとして符号帳選択器215に出力する適応符号帳、215は探索範囲限定器209から探索範囲情報を入力し、固定符号帳213と適応符号帳214からそれぞれ入力したベクトルのうち一方のみを選択して符号ベクトル利得乗算器216へ出力する符号帳選択器、216は符号帳選択器215から出力された符号ベクトルに符号ベクトル利得を乗算して加算器206に出力する符号ベクトル利得乗算器である。
【0018】
以上のように構成されたCELP型音声符号化装置について、以下にその動作を説明する。図2において、入力音声信号201は、定められたサンプル数からなるディジタル信号であり、音声符号化処理は、この定められたサンプル数の音声信号毎に行なわれる。この定められたサンプル数の音声信号ブロックをフレームまたはサブフレームと呼ぶ。入力音声信号201は、前処理器202により帯域制限や利得調整が行なわれる。この前処理後の音声信号を用いて、線形予測分析器203は、公知の線形予測分析を行い、線形予測係数を算出する。合成フィルタ205は、線形予測分析器203で算出された線形予測係数を用いてフィルタを構成し、加算器206から出力されてくる音源ベクトルにフィルタ処理を行なって音声合成を行なう。加算器204は、前処理後の入力音声信号と合成フィルタ205によって合成された音声信号との差分信号を計算する。聴覚重み付け器207は、加算器204によって算出された差分信号に聴覚的な重み付けを行ない、誤差最小化手段208に出力する。この聴覚的な重み付けは、一般的には、線形予測分析器203で算出された線形予測係数と聴覚重み付け係数を用いた線形予測フィルタを縦続接続したフィルタを用いて行なわれる。誤差最小化手段208は、聴覚重み付けの後の差分信号(誤差信号)のパワーが最小となるように、合成フィルタ205に入力される音源ベクトルを、固定符号ベクトルと固定符号ベクトル利得と適応符号ベクトルと適応符号ベクトル利得の組み合わせを変えることによって調整する。一般的には、初めに適応符号帳214から最適な適応符号ベクトルを取り出して、乗算器216で適応符号ベクトル利得と乗算して加算器206への出力を決定し、続いて固定符号帳211の中から適応ベクトルと組合わせた時に最適となる固定符号ベクトルを取り出して、乗算器212で固定符号ベクトル利得と乗算して加算器206への出力を決定する。探索範囲限定器209は、適応符号帳214の中から最適な適応符号ベクトルを取り出すときに、適応符号帳214の探索範囲を限定するものである。探索範囲限定器209は、探索範囲限定器209に入力される伝送路誤り監視信号210から直前のフレームまたはサブフレームに伝送路誤りが生じたかを判定する。そして、直前のフレームまたはサブフレームで伝送路誤りが生じたと判定した場合には、適応符号帳214に格納されている過去に生成した音源信号のうち、直前のフレームで生成した部分を探索範囲から外して適応符号帳探索を行ない、最適な符号ベクトルを選択するように、適応符号帳214の探索範囲を誤差最小化手段208および符号帳選択器215に出力する。連続して直前のフレームまたはサブフレームに伝送路誤りが生じたと判定した場合には、適応符号帳214に格納されている過去に生成した音源信号のうち、連続した直前のフレームで生成した部分を探索範囲から外して適応符号帳探索を行なうように適応符号帳探索範囲を決定し、誤差最小化手段208に出力する。しかしながら、伝送誤りの連続が長時間に渡ることによって適応符号帳214に格納されている音源符号帳の全てが探索範囲から除外されてしまう場合は、適応符号帳214を用いずに固定符号帳213を用いて音源ベクトルを生成するように、符号帳選択器215と誤差最小化手段208に探索範囲を出力する。符号帳選択器215は、入力された探索範囲が固定符号帳探索を示す内容となっている場合には、固定符号帳213からの入力される符号ベクトルを符号ベクトル利得乗算器216に出力する。
【0019】
音声符号化装置を以上のように構成した場合、復号化装置には、適応符号帳と固定符号帳のどちらか一方を選択する手段が必要となる。簡単な方法としては、どちらの符号帳を用いているのかを示す情報を符号化装置側で付加して復号化装置側へ伝送すればよい。このためにビットを割くことが不可能な場合には、伝送路誤り監視手段を付加して、過去に連続した伝送路誤りが発生していた場合に、固定符号帳と適応符号帳の切り替えを行なう必要がある。
【0020】
なお、伝送路誤り監視信号210としては、予め定められた信号を一定時間間隔(1フレーム分の符号化パラメータを伝送する時間間隔より短い)で送信するものなどが考えられ、この場合、探索範囲限定器209では、予め定められた信号と異なる信号を受け取った場合に、その時送信したフレームの符号化情報に伝送路誤りが発生したと判断する。
【0021】
このように、上記第2の実施の形態によれば、誤りフレーム後の正常フレームにおいて、符号化装置の音源ベクトルと復号化装置の音源ベクトルとの間に歪みを生じることなく、同一の音源ベクトルが得られるようにすることができる。また、適応符号帳をキャンセルして、適応符号ベクトルに割り当てられた情報量を使用しない上記第1の実施の形態よりも音質を向上させることができる。
【0022】
(実施の形態3)
次に、本発明の第3の実施の形態における音声復号化装置について説明する。図3は音声復号化装置の適応符号帳に格納されている音源波形を示したものであり、301は適応符号帳に格納されている音源波形、302は伝送路誤りによって正しく復号されなかったフレームで生成された音源波形の部分、Piは伝送路誤りのあったフレームの直後に符号化装置から伝送された正常フレームのラグ値、Vpiはラグ値Piに基づいて適応符号帳から切り出された適応符号ベクトルの区間、NVpiはこれから音源波形を生成する区間(現在のフレームまたはサブフレーム)を示している。
【0023】
図3において、符号化装置から伝送されたラグ値Piによって表される適応符号ベクトル(区間Vpi)は、伝送路誤りによって正しく復号されなかったフレームの音源ベクトルを含んでしまうため、波形歪みが大きくなる。そこで、このように直前のフレームに伝送路誤りなどがあった場合には、符号化装置から伝送されたラグ値Piの整数倍のピッチ(nPi)を用いて適応符号ベクトルを生成する。このときの整数nは、誤った情報によって生成された音源部分302を含まないために必要な整数の最小値であり、図3においては、n=3となり、Vp3が適応符号ベクトルとして切り出される。
【0024】
また、図4は図3の直後のフレームまたはサブフレームにおける復号化装置の適応符号帳の音源波形を示している。このとき、符号化装置から伝送されたラグ値Pi+1に基づいて切り出される適応符号ベクトルVpi+1は、まだ誤りフレームにおいて生成した音源波形を含んでいる。これを避けるためには、nPi+1のn=4として、Vp4を適応符号ベクトルとして用いればよい。ただし、図4に示すような場合には、Vpi+1に含まれる誤りフレームにおいて生成した音源波形を含む割合が低いため、Vp4を用いずにVpi+1を用いても良いが、その場合はVpi+1に含まれる誤りフレームにおいて生成した音源波形を含む割合による場合分けを行なう必要がある。
【0025】
なお、このような整数倍ピッチを用いる手法が有効となるのは、ピッチ周期がはっきりした有声部においてであり、符号化装置から伝送された適応符号ベクトル利得が1.0に近い値の時、または誤りフレームより前の数フレームにおけるラグ値の変化が小さく、誤りフレーム直後の正常フレームにおけるラグ値と等しいかほぼ等しい場合である。また、過去の誤り発生時に生成した部分を避けて適応符号ベクトルを適応符号帳から切り出すため、復号化装置の適応符号帳に格納される音源波形は、符号化装置の適応符号帳よりも長時間格納する必要がある。
【0026】
このように、上記第3の実施の形態によれば、適応符号ベクトルが有効に働く部分において、誤りフレーム後の正常フレームにおける適応符号ベクトルの歪みを抑えることが可能となる。
【0027】
【発明の効果】
以上のように、本発明は、CELP型音声符号化/復号化装置において、伝送路誤りから復帰した直後でも、符号器側と復号器側で同一の音源ベクトルが得られ、また、伝送路誤りから復帰した直後に生じる符号器側と復号器側で生成される音源ベクトルの誤差を緩和することができる優れた音声符号化/復号化装置を実現できるものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声符号化装置の構成を示すブロック図
【図2】本発明の第2の実施の形態における音声符号化装置の構成を示すブロック図
【図3】本発明の第3の実施の形態における音声符号化装置の適応符号帳の模式図
【図4】本発明の第3の実施の形態における音声符号化装置の適応符号帳の模式図
【図5】一般的なCELP音声符号化装置の構成を示すブロック図
【符号の説明】
104 加算器
106 加算器
112 固定符号ベクトル利得乗算器
114 適応符号ベクトル利得乗算器
204 加算器
206 加算器
212 固定符号ベクトル利得乗算器
216 符号ベクトル利得乗算器
301 適応符号等音源波形
302 誤り発生フレームにおいて生成された適応符号帳音源波形区間[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a CELP speech encoding / decoding device.
[0002]
[Prior art]
In recent years, due to an increase in demand for digital mobile communication, it is necessary to reduce the bit rate of speech coding, and a number of speech coding devices have been developed. Among them, the CELP method separates a voice signal into vocal tract information and sound source information, expresses the vocal tract information by a digital filter composed of linear prediction coefficients, and the sound source information has about hundreds to thousands of waveform patterns. It is vector-quantized using the excitation codebook composed of the above, and is widely used as a method capable of realizing high-quality speech even at a low bit rate (4 kb / s to 8 kb / s).
[0003]
A CELP excitation source is composed of excitation vectors selected from two types of codebooks: an adaptive codebook and a fixed codebook (stochastic codebook and noise codebook). Among these, the adaptive codebook expresses a periodic component included in a sound source signal (particularly a vowel part), and stores sound source signal waveforms synthesized in the past. On the other hand, the fixed codebook is facilitated in advance to represent a random waveform (random component of the sound source signal) after removing the periodic component from the sound source signal. Many types of fixed codebooks have been proposed and used, such as those created with random numbers, those created by learning using a large number of audio data, and those composed of pulse trains. In the CELP speech coding apparatus, since the excitation signal generated in the past is used as the adaptive codebook, the excitation signal generated at the time of error is stored as the adaptive codebook even after recovery from the error when a transmission path error occurs. Therefore, there is a problem that the influence of errors propagates.
[0004]
The adaptive codebook search unit in the conventional speech encoding apparatus based on the CELP method will be described below. FIG. 5 shows a general CELP speech coding apparatus. In FIG. 5, the
[0005]
[Problems to be solved by the invention]
However, in the above-described conventional CELP speech coding apparatus, when a transmission line error occurs, the contents buffered in the adaptive codebook differ between the encoder side and the decoder side, and recovery from the transmission line error occurs. After that, there was a problem of being greatly affected by errors.
[0006]
The present invention solves the above-mentioned conventional problem, and enables the same excitation vector to be obtained on the encoder side and the decoder side even immediately after returning from a transmission path error, and immediately after returning from a transmission path error. It is an object of the present invention to provide a speech encoding / decoding device that can mitigate an error between excitation vectors generated on the encoder side and the decoder side.
[0007]
[Means for Solving the Problems]
In order to achieve the above object, the present invention sends information for monitoring the occurrence of a transmission path error from the decoder side to the encoder side, and determines that a transmission path error has occurred. This limits the search range of the adaptive codebook search in the next frame or subframe in which occurrence occurs. In addition, when transmission path errors occur continuously, the encoding process using only the fixed codebook is continued until the transmission path error is eliminated without using the adaptive book. Furthermore, the use of the adaptive codebook generated when a transmission path error occurs is avoided, and the adaptive codebook generated when there is no transmission path error is used.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
The invention described in
[0009]
The invention according to
[0010]
The invention according to claim 3 of the present invention is It has codebook selection means for inputting search range information from the search range limitation means and selecting either an adaptive codebook or a fixed codebook, and the search range limitation means, A transmission path error occurred over the previous few frames or subframes. All the excitation vectors stored in the adaptive codebook are excluded from the search range. If you decide The search range information is output to the codebook selection means, and the codebook selection means Switch adaptive codebook to fixed codebook and generate excitation vector from fixed codebook only Rumo Thus, the same excitation vector can be generated on the encoder side and the decoder side even in the frame or subframe immediately after the transmission path error is eliminated.
[0011]
The invention according to claim 4 of the present invention is The speech coding apparatus has means for transmitting to the speech decoding apparatus information indicating which of the adaptive codebook and the fixed codebook is used, and the speech decoding apparatus comprises the adaptive codebook A means for selecting one of the adaptive codebook and the fixed codebook based on information indicating which codebook to use. Thus, even in a frame or subframe immediately after the transmission channel error is eliminated, the same excitation vector can be generated on the encoder side and the decoder side.
[0012]
The invention according to
[0013]
(Embodiment 1)
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows the configuration of a CELP speech coding apparatus according to the first embodiment of the present invention. In FIG. 1, 101 is an input speech signal, 102 is a preprocessor that receives the
[0014]
The operation of the CELP speech coding apparatus configured as described above will be described below. In FIG. 1, an
[0015]
When the speech encoding apparatus is configured as described above, it is necessary to add a means for transmitting the transmission path
[0016]
As described above, according to the first embodiment, the encoder that has received the transmission path error information from the decoder side determines whether or not a transmission path error has occurred in the immediately preceding frame or subframe. In the case where the error occurs, a
[0017]
(Embodiment 2)
Next, a second embodiment of the present invention will be described with reference to FIG. In FIG. 2, 201 is an input speech signal, 202 is a preprocessor that receives the
[0018]
The operation of the CELP speech coding apparatus configured as described above will be described below. In FIG. 2, an
[0019]
When the speech encoding apparatus is configured as described above, the decoding apparatus requires means for selecting either the adaptive codebook or the fixed codebook. As a simple method, information indicating which codebook is used may be added on the encoding device side and transmitted to the decoding device side. For this reason, when it is impossible to divide bits, a transmission path error monitoring means is added to switch between a fixed codebook and an adaptive codebook when a continuous transmission path error has occurred in the past. Need to do.
[0020]
Note that the transmission path
[0021]
Thus, according to the second embodiment, in the normal frame after the error frame, the same excitation vector is generated without causing distortion between the excitation vector of the encoding device and the excitation vector of the decoding device. Can be obtained. In addition, it is possible to cancel the adaptive codebook and improve the sound quality as compared with the first embodiment in which the amount of information assigned to the adaptive code vector is not used.
[0022]
(Embodiment 3)
Next, a speech decoding apparatus according to the third embodiment of the present invention will be described. FIG. 3 shows the excitation waveform stored in the adaptive codebook of the speech decoding apparatus, 301 is the excitation waveform stored in the adaptive codebook, and 302 is a frame that has not been correctly decoded due to a transmission path error. , Pi is a lag value of a normal frame transmitted from the encoding device immediately after a frame having a transmission path error, and Vpi is an adaptation extracted from the adaptive codebook based on the lag value Pi A code vector section, NVpi, indicates a section (current frame or subframe) in which a sound source waveform is to be generated.
[0023]
In FIG. 3, since the adaptive code vector (section Vpi) represented by the lag value Pi transmitted from the encoding device includes a sound source vector of a frame that has not been correctly decoded due to a transmission path error, the waveform distortion is large. Become. Thus, when there is a transmission path error in the immediately preceding frame in this way, an adaptive code vector is generated using a pitch (nPi) that is an integral multiple of the lag value Pi transmitted from the encoding device. The integer n at this time is the minimum value of the integer necessary for not including the
[0024]
FIG. 4 shows the excitation waveform of the adaptive codebook of the decoding apparatus in the frame or subframe immediately after FIG. At this time, the adaptive code vector Vpi + 1 cut out based on the lag value Pi + 1 transmitted from the encoding device still includes the excitation waveform generated in the error frame. In order to avoid this, it is only necessary to use Vp4 as an adaptive code vector with n = 4 of
[0025]
Note that the method using such an integer multiple pitch is effective in a voiced part with a clear pitch period, and when the adaptive code vector gain transmitted from the encoding device is a value close to 1.0, Alternatively, the change in the lag value in several frames before the error frame is small and is equal to or approximately equal to the lag value in the normal frame immediately after the error frame. In addition, since the adaptive code vector is cut out from the adaptive codebook while avoiding the part generated when the past error occurs, the excitation waveform stored in the adaptive codebook of the decoding device is longer than the adaptive codebook of the coding device. Must be stored.
[0026]
As described above, according to the third embodiment, it is possible to suppress distortion of the adaptive code vector in a normal frame after an error frame in a portion where the adaptive code vector works effectively.
[0027]
【The invention's effect】
As described above, according to the present invention, in the CELP speech coding / decoding device, the same excitation vector can be obtained on the encoder side and the decoder side even immediately after returning from the transmission path error, and the transmission path error can be obtained. Therefore, it is possible to realize an excellent speech encoding / decoding device that can alleviate an error between excitation vectors generated on the encoder side and the decoder side that occurs immediately after returning from the above.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a speech encoding apparatus according to a second embodiment of the present invention.
FIG. 3 is a schematic diagram of an adaptive codebook of a speech coding apparatus according to a third embodiment of the present invention.
FIG. 4 is a schematic diagram of an adaptive codebook of a speech encoding device according to a third embodiment of the present invention.
FIG. 5 is a block diagram showing a configuration of a general CELP speech encoding apparatus.
[Explanation of symbols]
104 adder
106 Adder
112 Fixed Code Vector Gain Multiplier
114 Adaptive Code Vector Gain Multiplier
204 Adder
206 Adder
212 Fixed Code Vector Gain Multiplier
216 Code vector gain multiplier
301 Excitation source waveform such as adaptive code
302 Adaptive codebook excitation waveform section generated in error occurrence frame
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11397596A JP3824706B2 (en) | 1996-05-08 | 1996-05-08 | Speech encoding / decoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11397596A JP3824706B2 (en) | 1996-05-08 | 1996-05-08 | Speech encoding / decoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09297598A JPH09297598A (en) | 1997-11-18 |
JP3824706B2 true JP3824706B2 (en) | 2006-09-20 |
Family
ID=14625913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11397596A Expired - Lifetime JP3824706B2 (en) | 1996-05-08 | 1996-05-08 | Speech encoding / decoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3824706B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
EP3903308A4 (en) * | 2019-01-13 | 2022-02-23 | Huawei Technologies Co., Ltd. | High resolution audio coding |
-
1996
- 1996-05-08 JP JP11397596A patent/JP3824706B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09297598A (en) | 1997-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6594626B2 (en) | Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook | |
JP7209032B2 (en) | Speech encoding device and speech encoding method | |
JP4263412B2 (en) | Speech code conversion method | |
EP1881488A1 (en) | Encoder, decoder, and their methods | |
EP1750254A1 (en) | Audio/music decoding device and audio/music decoding method | |
EP1768105B1 (en) | Speech coding | |
JP3628268B2 (en) | Acoustic signal encoding method, decoding method and apparatus, program, and recording medium | |
JP3416331B2 (en) | Audio decoding device | |
JP3063668B2 (en) | Voice encoding device and decoding device | |
WO2002071394A1 (en) | Sound encoding apparatus and method, and sound decoding apparatus and method | |
JP3824706B2 (en) | Speech encoding / decoding device | |
JP4236675B2 (en) | Speech code conversion method and apparatus | |
EP1204094A2 (en) | Frequency dependent long term prediction analysis for speech coding | |
JP3490325B2 (en) | Audio signal encoding method and decoding method, and encoder and decoder thereof | |
JP3754819B2 (en) | Voice communication method and voice communication apparatus | |
RU2792658C1 (en) | Audio encoding device, audio encoding method, audio encoding program, audio decoding device, audio decoding method and audio decoding program | |
JPH11259098A (en) | Method of speech encoding/decoding | |
JPH06130994A (en) | Voice encoding method | |
JP2004020676A (en) | Speech coding/decoding method, and speech coding/decoding apparatus | |
JP2000089797A (en) | Speech encoding apparatus | |
JP2001265390A (en) | Voice coding and decoding device and method including silent voice coding operating with plural rates | |
JPH09134198A (en) | Voice decoding device | |
JP2817196B2 (en) | Audio coding method | |
JPH034300A (en) | Voice encoding and decoding system | |
JPH043878B2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060628 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090707 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100707 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110707 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110707 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120707 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120707 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130707 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |