WO2013061584A1

WO2013061584A1 - 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法

Info

Publication number: WO2013061584A1
Application number: PCT/JP2012/006802
Authority: WO
Inventors: 石川　智一; 則松　武志; コックセンチョン; ダンザオ
Original assignee: パナソニック株式会社
Priority date: 2011-10-28
Filing date: 2012-10-24
Publication date: 2013-05-02
Also published as: EP2772914A1; JPWO2013061584A1; CN103477388A; US20140058737A1; EP2772914A4

Abstract

　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、復号対象フレームが、音響フレームから音声フレームに切り替えられた最初の音声フレームである第ｉフレームであるとき、第ｉフレームを復号することで得られる、符号化前の第ｉ－１フレームの信号を用いて生成された信号であるサブフレーム（１００１）を用いて符号化前の第ｉ－１フレームに対応する信号であるサブフレーム（１１０１）及びサブフレーム（１１０２）を生成する。

Description

音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法

　本発明は、音声コーデックと音響コーデックとを切替可能な音信号ハイブリッドデコーダ及び音信号ハイブリッドエンコーダに関する。

　ハイブリッドコーデック（例えば、特許文献１参照）は、音響コーデックと音声コーデック（例えば、非特許文献１参照）の利点を組み合わせたコーデックである。ハイブリッドコーデックによれば、音声信号主体のコンテンツと音響信号主体のコンテンツが混合した音信号を、音響コーデックと音声コーデックとを切替えることによりそれぞれに適した符号化方法により符号化することができる。したがって、ハイブリッドコーデックによれば、低ビットレートで安定した音信号の圧縮符号化が実現される。

Ｆｕｃｈｓ，　Ｇｕｉｌｌａｕｍｅ　「Ａｐｐａｒａｔｕｓ　ａｎｄ　ｍｅｔｈｏｄ　ｆｏｒ　ｅｎｃｏｄｉｎｇ／ｄｅｃｏｄｉｎｇ　ａｎｄ　ａｕｄｉｏ　ｓｉｇｎａｌ　ｕｓｉｎｇ　ａｎ　ａｌｉａｓｉｎｇ　ｓｗｉｔｃｈ　ｓｃｈｅｍｅ」、国際公開第２０１０／００３５３２　Ａ１号

Ｍｉｌａｎ　Ｊｅｌｉｎｅｋ，「Ｗｉｄｅｂａｎｄ　Ｓｐｅｅｃｈ　Ｃｏｄｉｎｇ　Ａｄｖａｎｃｅｓ　ｉｎ　ＶＭＲ－ＷＢ　Ｓｔａｎｄａｒｄ」，ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｕｄｉｏ，Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，１５　（４），１１６７－１１７９（２００７）Ｃｈｉ－Ｍｉｎ　Ｌｉｕ　ａｎｄ　Ｗｅｎ－Ｃｈｉｅｈ　Ｌｅｅ，「Ａ　ｕｎｉｆｉｅｄ　ｆａｓｔ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ｃｏｓｉｎｅ　ｍｏｄｕｌａｔｅｄ　ｆｉｌｔｅｒｂａｎｋｓ　ｉｎ　ｃｕｒｒｅｎｔ　ａｕｄｉｏ　ｓｔａｎｄａｒｄｓ」，Ｊ．　Ａｕｄｉｏ　Ｅｎｇｉｎｅｅｒｉｎｇ　４７（１２），１０６１－１０７５（１９９９）

　ハイブリッドコーデックの音質を向上させるために、音響コーデックとして、例えば、ＡＡＣ－ＥＬＤ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ　－　Ｅｎｈａｎｃｅｄ　Ｌｏｗ　Ｄｅｌａｙ）モードを用いることで音質向上が期待できる。

　しかしながら、ＡＡＣ－ＥＬＤモードのような符号化方式では、先行フレームとオーバーラップしたサンプルを用いて符号化を行うために、対象フレーム内のサンプルだけで符号化が完結する音声コーデックに切り替わるときにエイリアシングが生じ、不自然な音が発生する。特許文献１では、このように符号化モードが切り替わる箇所における信号処理について開示されているが、このような処理は、ＡＡＣ－ＥＬＤモードのような複数の先行フレームによるオーバーラップ処理が必要な符号化方式に対応しておらず、特許文献１の方法では、上記エイリアシングを低減することができない。

　本発明の目的は、音響コーデックとしてＡＡＣ－ＥＬＤモードのような複数の先行フレームによるオーバーラップ処理が必要な符号化方式を用いた場合に、音声コーデックと音響コーデックとの切替部分において発生するエイリアシングを低減するハイブリッドコーデック（音信号ハイブリッドデコーダ及び音信号ハイブリッドエンコーダ）を提供することである。

　本発明の一態様に係る音信号ハイブリッドデコーダは、低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコーダと、前記音声フレームを復号する音声信号デコーダと、前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームである第ｉフレームであるとき、前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、前記ブロック切替部は、（１）前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコーダによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコーダによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または（２）前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成することを特徴とする。

　なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本発明によれば、ＡＡＣ－ＥＬＤモードのように複数の先行フレームによるオーバーラップ処理が必要な符号化方式の音響コーデックを用いたハイブリッドコーデック（音信号ハイブリッドデコーダ及び音信号ハイブリッドエンコーダ）において、音声コーデックと音響コーデックとの切替部分において発生するエイリアシングを低減することができる。

図１は、ＡＡＣ－ＥＬＤのエンコーダにおける分析窓を示す図である。図２は、ＡＡＣ－ＥＬＤのデコーダにおける復号処理を示す図である。図３は、ＡＡＣ－ＥＬＤのデコーダにおける合成窓を示す図である。図４は、ＡＡＣ－ＥＬＤの符号化・復号処理の遅延量を示す図である。図５は、遷移フレームを説明するための図である。図６は、実施の形態１に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。図７は、符号化モードがＦＤ符号化モードからＡＣＥＬＰ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。図８Ａは、成分Ｘの生成方法の一例を示す図である。図８Ｂは、成分Ｘの生成方法のフローチャートである。図９は、ＴＣＸエンコーダを備える音信号ハイブリッドエンコーダの構成を示すブロック図である。図１０は、実施の形態１に係る音信号ハイブリッドデコーダの構成を示すブロック図である。図１１は、ＦＤ符号化モードで符号化された信号がＡＣＥＬＰ符号化モードで符号化された信号に切り替わるときの、ブロック切替部の切替制御を示す模式図である。図１２Ａは、フレームｉ－１の信号を再構成する方法を示す図である。図１２Ｂは、フレームｉ－１の信号を再構成する方法のフローチャートである。図１３は、実施の形態１に係る符号化・復号処理の遅延量を示す図である。図１４は、ＴＣＸデコーダを備える音信号ハイブリッドデコーダの構成を示すブロック図である。図１５は、合成エラー補償装置を用いてフレームｉ－１の信号を再構成する方法を示す図である。図１６は、合成エラー情報の復号処理を示す図である。図１７は、符号化モードがＡＣＥＬＰ符号化モードからＦＤ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。図１８は、ＡＣＥＬＰ符号化モードで符号化された信号がＦＤ符号化モードで符号化された信号に切り替わるときの、ブロック切替部の切替制御を示す模式図である。図１９は、実施の形態２に係るフレームｉ－１の信号を再構成する方法のフローチャートである。図２０Ａは、実施の形態２に係るフレームｉ－１の信号を再構成する方法の一例を示す図である。図２０Ｂは、実施の形態２に係るフレームｉ－１の信号を再構成する方法の一例を示すもう一つの図である。図２１は、実施の形態２に係るフレームｉの信号を再構成する方法の一例を示す図である。図２２は、実施の形態２に係るフレームｉ＋１の信号を再構成する方法の一例を示す図である。図２３は、実施の形態２に係る符号化・復号処理の遅延量を示す図である。図２４は、ＳＥＣ装置を用いてフレームｉ－１の信号を再構成する方法を示す図である。図２５は、ＳＥＣ装置を用いてフレームｉの信号を再構成する方法を示す図である。図２６は、ＳＥＣ装置を用いてフレームｉ－１の信号を再構成する方法を示す図である。図２７は、符号化モードがＦＤ符号化モードがＴＣＸ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。図２８は、ＦＤ符号化モードで符号化された信号がＴＣＸ符号モードで符号化された信号に切り替わるときの、ブロック切替部の切替制御を示す模式図である。図２９は、実施の形態３に係る符号化・復号処理の遅延量を示す図である。図３０は、符号化モードがＴＣＸ符号化モードからＦＤ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。図３１は、符号化モードがＴＣＸ符号化モードからＦＤ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。図３２は、実施の形態４に係るフレームｉ－１の信号を再構成する方法の一例を示す図である。図３３は、実施の形態４に係る符号化・復号処理の遅延量を示す図である。

　（発明の基礎となった知見）
　音声コーデックは、特に、音声信号の特徴に応じて音声信号を符号化するためのコーデックである（非特許文献１参照）。音声コーデックは、音声信号を低ビットレートで符号化した場合、低遅延で良好な音質が実現される。しかしながら、音声コーデックは、音響信号の符号化には適していない。したがって、音声コーデックによって音響信号を符号化した場合、例えば、ＡＡＣなどの音響コーデックで符号化した場合に比べて音質は低下する。

　現在では、ＡＣＥＬＰ符号化モード（Ａｌｇｅｂｒａｉｃ　Ｃｏｄｅ　Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ）、またはＴＣＸ符号化モード（Ｔｒａｎｓｆｏｒｍ　Ｃｏｄｅｄ　Ｅｘｃｉｔａｔｉｏｎ）などの一般的な音声コーデックは、線形予測領域符号化に基づいている（特許文献１参照）。ＡＣＥＬＰ符号化モードにおいては、線形予測分析の後、代数コードブックが励振信号の符号化に適用される。ＴＣＸ符号化モードにおいては、線形予測分析の後、変換符号化が励振信号に対して用いられる。

　一方、音響コーデックは、音響信号の符号化に適したコーデックである。しかしながら、音響コーデックが音声信号に用いられた場合、音声コーデックのように安定した音質を実現するためには、通常、高いビットレートを要する。

　ハイブリッドコーデックは、音響コーデックと音声コーデックの利点を組み合わせるものである。ハイブリッドコーデックでは、符号化モードは、２つの系統に分かれている。１つは、上記音響コーデックに相当する、ＡＡＣなどの周波数領域（ＦＤ：Ｆｒｅｑｕｅｎｃｙ　Ｄｏｍａｉｎ）符号化モードである。もう１つは、上記音声コーデックに相当する、線形予測領域（ＬＰＤ：Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ　Ｄｏｍａｉｎ）符号化モードである。

　ＦＤ符号化モードとして、一般的には、ＡＡＣ－ＬＤ符号化モードやＡＡＣ符号化モードなどの直行変換符号化が用いられる。また、ＬＰＤ符号化モードとしては、一般的にＬＰＣ（Ｌｅｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ　Ｃｏｅｆｆｉｃｉｅｎｔ）残差の周波数領域表示であるＴＣＸ符号化モードと、ＬＰＣ残差の時間領域表示であるＡＣＥＬＰ符号化モードとが用いられる。

　ハイブリッドコーデックでは、符号化対象の信号が音声信号であるか音響信号であるかに応じて、符号化モードを切替える（特許文献１参照）。なお、ＡＣＥＬＰ符号化モードと、ＴＣＸ符号化モードとのどちらを選択するかは、例えば、閉ループ分析合成技術に基づき選択される。

　ここで、ＶｏＩＰ（Ｖｏｉｃｅ　ｏｖｅｒ　Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）やビデオ会議などのリアルタイム通信を行う場合、低遅延のハイブリッドコーデックがより望ましい。ここで低遅延を実現するために、上記ＦＤ符号化モードとして、ＡＡＣ及びＡＡＣ－ＬＤを拡張したＡＡＣ－ＥＬＤ符号化方式（以下、単にＡＡＣ－ＥＬＤとも記載する）が用いられる。ＡＡＣ－ＥＬＤ符号化方式は、十分な低遅延を実現するために、下記の特徴を有する。

　１．ＡＡＣ－ＥＬＤの１つのフレームにおけるサンプル数（フレームサイズＮ、以下本明細書中においても同様である）が、５１２時間領域サンプル及び４８０時間領域サンプルと少ない。

　２．先読み処理及びブロック切り替え処理が無効とされている。

　３．低遅延フィルタバンクを採用するために、分析及び合成フィルタバンクが変更される。具体的には、長さ４Ｎのロングウィンドウが、過去とのオーバーラップを多く、未来とのオーバーラップを少なくして用いられる（値Ｎ／４は、実際はゼロである）。

　４．ビットリザーバが最小化される、またはビットリザーバが一切使用されない。

　５．時間領域ノイズ整形及び長期予測機能が低遅延のフレームサイズに応じて適応される。

　ここで、ＡＡＣ－ＥＬＤ低遅延フィルタバンクの変換及び逆変換について説明する。なお、以下で説明される背景知識は、後続の記載においてもそのまま用いられる。

　既に述べたように、ＡＡＣ－ＥＬＤにおいては、低遅延分析及び合成フィルタバンクが用いられる。低遅延フィルタバンクは、以下のように定義される。

　ここで、ｘ_ｎは、窓処理された入力信号（符号化対象）である。一方、ＡＡＣ－ＥＬＤの低遅延逆フィルタバンクは、以下のように定義される。

　ここで、Ｘ_ｋは、復号された変換係数である。

　まず、ＡＡＣ－ＥＬＤのエンコーダにおける変換処理（ＡＡＣ－ＥＬＤの符号化処理）を説明する。

　ＡＡＣ－ＥＬＤにおいては、１つのフレームに対応して４フレームが符号化される。具体的には、フレームｉ－１が符号化される場合、当該フレームｉ－１に先行する３つのフレームｉ－４、ｉ－３、ｉ－２が連結された長さ４Ｎの拡張フレームが形成され、この拡張フレームが符号化される。１つのフレームサイズがＮである場合、符号化されるフレームサイズは、４Ｎである。

　図１は、ＡＡＣ－ＥＬＤのエンコーダにおける分析窓（エンコーダ窓）を示し、これはｗ_ｅｎｃと示される。なお、上述のように分析窓の長さは、４Ｎである。

　なお、便宜上、１つのフレームは、２つのサブフレームに分割される。例えば、フレームｉ－１は分割され、［ａ_ｉ－１，ｂ_ｉ－１］のようにベクトルの形式で表される。ａ_ｉ－１、ｂ_ｉ－１の長さは、それぞれＮ／２サンプルである。これに対応して、長さが４Ｎのエンコーダ窓は８分割され、図１に示されるように、これらは［ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５，ｗ_６，ｗ_７，ｗ_８］である。一方、拡張フレームは、［ａ_ｉ－４，ｂ_ｉ－４，ａ_ｉ－３，ｂ_ｉ－３，ａ_ｉ－２，ｂ_ｉ－２，ａ_ｉ－１，ｂ_ｉ－１］と示される。エンコーダ窓が拡張フレームに適用されて、窓処理された信号であるｘ_ｎ＝［ａ_ｉ－４ｗ_１，ｂ_ｉ－４ｗ_２，ａ_ｉ－３ｗ_３，ｂ_ｉ－３ｗ_４，ａ_ｉ－２ｗ_５，ｂ_ｉ－２ｗ_６，ａ_ｉ－１ｗ_７，ｂ_ｉ－１ｗ_８］が得られる。

　ここで、式（１）で定義された低遅延フィルタバンクが、窓処理された信号ｘ_ｎを変換するために用いられる。上記低遅延フィルタバンクにしたがって、フレームサイズ４Ｎの窓処理された信号ｘ_ｎから、フレームサイズＮの変換スペクトル係数が生成される。

　なお、低遅延フィルタバンクの基本的なアルゴリズムは、ＭＤＣＴ（Ｍｏｄｉｆｉｅｄ　Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ）と同様である。ここで、ＭＤＣＴは、ＤＣＴ－ＩＶに基づくフーリエ変換の類似形であるので、低遅延フィルタバンクとＤＣＴ－ＩＶとの間には、基本的に等価な関係性が存在することとなる（非特許文献２参照）。ＤＣＴ－ＩＶは、以下のように定義される。

　ＤＣＴ－ＩＶは、以下のような偶数／奇数交互の境界条件を有する。

　これらの境界条件を用いて、低遅延フィルタバンクによって変換されたフレームｉ－１の信号は、ＤＣＴ－ＩＶでは以下のように表される。

　式中の、（ａ_ｉ－４ｗ_１）_Ｒ、（ａ_ｉ－２ｗ_５）_Ｒ、（ｂ_ｉ－３ｗ_４）_Ｒ、（ｂ_ｉ－１ｗ_８）_Ｒは、それぞれ、ベクトルａ_ｉ－４ｗ_１、ａ_ｉ－２ｗ_５、ｂ_ｉ－３ｗ_４、ｂ_ｉ－１ｗ_８の逆順である。

　次に、ＡＡＣ－ＥＬＤのデコーダにおける逆変換処理（ＡＡＣ－ＥＬＤの復号処理）について説明する。

　図２は、ＡＡＣ－ＥＬＤのデコーダにおける復号処理を示す図である。復号後の出力信号の長さ（フレームサイズ）は、４Ｎである。同様に、逆ＭＤＣＴとＤＣＴ－ＩＶとの関係性が等価であることを考慮すると（非特許文献２参照）、フレームｉ－１に対する逆変換信号は以下の通りである。

　ｙ_ｉ－１にＡＡＣ－ＥＬＤのデコーダにおける合成窓が適用されることで、

が得られる。図３は、ＡＡＣ－ＥＬＤのデコーダにおける合成窓を示し、これはｗ_ｄｅｃと示される。合成窓は、ＡＡＣ－ＥＬＤのエンコーダにおける分析窓をそのまま逆順にしたものである。また、ＡＡＣ－ＥＬＤのエンコーダにおける分析窓と同様に、便宜上、図３に示されるように合成窓は８分割される。合成窓は、以下のようにベクトルの形式で表される。

　したがって、窓処理された逆変換信号である

は、以下の通りである。

　ＡＡＣ－ＥＬＤの復号処理では、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成するために復号対象フレームｉを復号処理する。すなわち、フレームｉとこれに先行する３つのフレームの窓処理された逆変換信号をそれぞれ用いて重複加算処理を行う。よって、図２に示す重複加算処理は、以下の式で表される。

　再構成された信号の長さはＮである。

　エイリアシングの低減は、上記重複加算式に基づき導き出される。

については、以下の通りである。

また、

については、以下の通りである。

　さらに、以下の窓の特性から、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］が、重複加算処理により再構成される。

　ここで、ＡＡＣ－ＥＬＤの符号化・復号処理の遅延量について説明する。

　図４は、ＡＡＣ－ＥＬＤの符号化・復号処理の遅延量を示す図である。図４において、フレームｉ－１に対する符号化処理は、時間ｔにおいて開始されるものとする。

　図１に示されるように、ＡＡＣ－ＥＬＤのエンコーダにおける分析窓のｗ_８の後半Ｎ／４個のサンプルに相当する部分は、ゼロである。したがって、図４に示すように、時間ｔ＋３＊Ｎ／４サンプルの時には、ｘ_ｉ－１は、ＭＤＣＴ変換できる状態でありＩＭＤＣＴ変換された信号ｙ_ｉ－１が得られる。

　同様に、図４に示すように、時間ｔ＋７＊Ｎ／４サンプルの時には、ＩＭＤＣＴ変換された信号ｙ_ｉが得られる。

　続いて、窓処理及び重複加算処理がｙ_ｉ－１、ｙ_ｉに適用されて、ｏｕｔ_ｉ，ｎが得られる。ここでも、図３に示されるように、ＡＡＣ－ＥＬＤのデコーダにおける合成窓ｗ_Ｒ，８の前半Ｎ／４個のサンプルに相当する部分は、ゼロであるので、

が利用可能になるＮ／４サンプル前に音の出力を開始することができる。つまり、音の出力は（ｔ＋７＊Ｎ／４）－Ｎ／４＝ｔ＋３＊Ｎ／２サンプルにおいて開始される。すなわち、ＡＡＣ－ＥＬＤ符号化・復号処理の遅延量は、３＊Ｎ／２サンプルであり、低遅延である。

　以上説明したように、ＡＡＣ－ＥＬＤでは、ＭＤＣＴが４つの連続したフレームに対して行われ、４つのフレームは、図２に示されるように重複加算処理される。このようなＡＡＣ－ＥＬＤをハイブリッドコーデックに用いることで、音質を向上させ、遅延量をさらに低減させることができる。なお、ＭＤＣＴ変換は、ＴＣＸ符号化モードにおいても用いられるが、ＴＣＸ符号化モードでは、ＭＤＣＴ変換は、１つのフレーム内に１つ以上の複数のブロックが存在し、その連続するブロックに対して行われ、１つのブロックの後半が、次のブロックの前半と一致するように後続のブロックが重複される。

　ＡＡＣ－ＥＬＤでは、上述のように重複加算処理により先行フレーム及び後続フレームを用いて復号を行うために、符号化モードをＬＰＤ符号化モードからＡＡＣ－ＥＬＤ、またはＡＡＣ－ＥＬＤからＬＰＤ符号化モードに切替えた最初のフレームである遷移フレームを復号する場合にエイリアシングが発生する。

　図５は、遷移フレームを説明するための図である。図５中のフレームｉが遷移フレームである。例えば、モード１がＡＡＣ－ＥＬＤであり、モード２がＬＰＤ符号化モードであるとき、フレームｉを復号する場合にエイリアシングが発生する。同様に、モード１がＬＰＤ符号化モードであり、モード２がＡＡＣ－ＥＬＤであるとき、フレームｉを復号する場合にエイリアシングが発生する。

　遷移フレームにおいて発生したエイリアシングによって、通常、可聴のアーチファクトが発生する。しかしながら、特許文献１に記載のような方法は、ＡＡＣ－ＥＬＤのような複数の先行フレームによるオーバーラップ処理が必要な符号化方式に対応していないため、発生したエイリアシングを低減することができない。

　このような課題を解決するために、本発明の一態様に係る音信号ハイブリッドデコーダは、低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコーダと、前記音声フレームを復号する音声信号デコーダと、前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームである第ｉフレームであるとき、前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、前記ブロック切替部は、（１）前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコーダによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコーダによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または（２）前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成することを特徴とする。

　つまり、ブロック切替部は、図１２Ａに示される処理を行う。これにより、符号化モードがＦＤ符号化モードからＬＰＤ符号化モードに切り替えられた最初のフレームを復号する場合に発生するエイリアシングを低減することができる。したがって、ＦＤ復号技術とＬＰＤ復号技術とのシームレスな切替が実現される。

　また、本発明の一態様において、低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、前記音響フレームを低遅延逆フィルタバンク処理によって復号する低遅延変換デコーダと、前記音声フレームを復号する音声信号デコーダと、前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、前記ブロック切替部は、前記復号対象フレームが、前記音声フレームから前記音響フレームに切り替わった最初の音響フレームである第ｉフレームであるとき、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームを前記音声信号デコーダによって復号することで得られる信号を窓処理した第４信号に、当該第４信号を畳み込み処理した信号を加算し、窓処理を行った第５信号と、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームを前記音声信号デコーダによって復号することで得られる信号を窓処理した第６信号に、当該第６信号を畳み込み処理した信号を加算し、窓処理を行った第７信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第８信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームに対応する信号である再構成信号を生成してもよい。

　つまり、ブロック切替部は、図２０Ａ及び図２０Ｂに示される処理を行う。これにより、符号化モードがＬＰＤ符号化モードからＦＤ符号化モードに切り替えられた最初のフレームを復号する場合に発生するエイリアシングを低減することができる。したがって、ＦＤ復号技術とＬＰＤ復号技術とのシームレスな切替が実現される。

　また、本発明の一態様において、前記ブロック切替部は、前記復号対象フレームが、前記第ｉフレームの１フレーム後のフレームである第ｉ＋１フレームであるとき、前記第ｉ＋１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号のうちの、前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームに対応する部分である第９信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－２フレームに対応する部分である第１０信号と、前記第ｉ－２フレームを前記音声信号デコーダによって復号することで得られる第１１信号に第１の窓処理を行なった信号のフレームの前半部分に相当する信号に、前記第１１信号に前記第１の窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第１２信号に、当該第１２信号を畳み込み処理した信号を連結し、窓処理を行った第１３信号と、前記第１１信号に前記第１の窓処理とは異なる第２の窓処理を行った信号のフレームの前半部分に相当する信号に、前記第１１信号に前記第２の窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第１４信号に、当該第１４信号を畳み込み処理して符号を反転させた信号を連結し、窓処理を行った第１５信号と、を加算する処理を行って、符号化前の前記第ｉフレームに対応する信号を生成してもよい。

　つまり、ブロック切替部は、図２１に示される処理を行う。これにより、符号化モードがＬＰＤ符号化モードからＦＤ符号化モードに切り替えられた最初のフレームの１フレーム後のフレームを復号する場合に発生するエイリアシングを低減することができる。

　また、本発明の一態様において、前記ブロック切替部は、前記復号対象フレームが、前記第ｉフレームの２フレーム後のフレームである第ｉ＋２フレームであるとき、前記ｉ＋２フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１６信号と、前記第ｉ＋１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１７信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１８信号と、前記第ｉ－３フレームを前記音声信号デコーダによって復号することで得られる第１９信号に窓処理を行なった信号のフレームの前半部分に相当する信号に、前記第１９信号に窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第２０信号に、当該第２０信号を畳み込み処理した信号を連結し、窓処理を行った第２１信号と、前記再構成信号に窓処理を行った信号のフレームの前半部分に相当する信号に、前記再構成信号に窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第２２信号に、当該第２２信号を畳み込み処理して符号を反転させた信号を連結し、窓処理を行った第２３信号と、を加算する処理を行って、符号化前の前記第ｉ＋１フレームに対応する信号を生成してもよい。

　つまり、ブロック切替部は、図２２に示される処理を行う。これにより、符号化モードがＬＰＤ符号化モードからＦＤ符号化モードに切り替えられた最初のフレームの２フレーム後のフレームを復号する場合に発生するエイリアシングを低減することができる。

　また、本発明の一態様において、低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコーダと、ＴＣＸ（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）方式によって符号化された前記音声フレームを復号するＴＣＸデコーダと、前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームであって、過渡信号が符号化されたフレームである第ｉフレームであるとき、前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、前記ブロック切替部は、（１）前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコーダによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコーダによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または（２）前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成してもよい。

　つまり、ブロック切替部は、ＦＤ符号化モードにおいて過渡信号（過渡フレーム）が発生した場合の符号化信号の復号において、図１２Ａに示される処理を行う。これにより、過渡フレームを復号した場合の音の音質を向上させることができる。

　また、本発明の一態様において、前記低遅延変換デコーダは、前記音響フレーム及び当該音響フレームに時間的に連続して先行する３つのフレームのそれぞれについて低遅延逆フィルタバンク処理及び窓処理を行った信号のそれぞれを重複加算処理することによって、当該音響フレームを復号するＡＡＣ－ＥＬＤ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ－ＥｎｈａｎｃｅｄＬｏｗＤｅｌａｙ）デコーダであってもよい。

　また、本発明の一態様において、前記音声信号デコーダは、ＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）係数を用いて符号化された前記音声フレームを復号するＡＣＥＬＰデコーダであってもよい。

　また、本発明の一態様において、前記音声信号デコーダは、ＴＣＸ方式によって符号化された前記音声フレームを復号するＴＣＸデコーダであってもよい。

　また、本発明の一態様において、さらに、前記復号対象フレームとともに符号化された合成エラー情報を復号する合成エラー補償装置を備え、前記合成エラー情報は、前記ビットストリームが符号化される前の信号と、前記ビットストリームを復号した信号との差分を表す情報であり、前記合成エラー補償装置は、前記ブロック切替部が生成した前記符号化前の前記第ｉ－１フレームの信号、前記ブロック切替部が生成した前記符号化前の前記第ｉフレームの信号、または前記ブロック切替部が生成した前記符号化前の前記第ｉ＋１フレームの信号を、復号した前記合成エラー情報を用いて修正してもよい。

　これにより、符号化モードが切り替えられることによって、音信号ハイブリッドデコーダにおいて発生する合成エラーが低減され、音質を向上することができる。

　また、本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する信号分類部と、低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化する音声信号エンコーダと、前記信号分類部が前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコーダによって符号化し、前記信号分類部が前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコーダによって符号化する制御を行うブロック切替部とを備え、前記ブロック切替部は、（１）前記符号化対象フレームが、前記信号分類部が前記音声信号であると判断したフレームである第ｉ－１フレームの１フレーム後のフレームであって、前記信号分類部が前記音響信号であると判断したフレームである第ｉフレームであるとき、前記第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する、または（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化することを特徴とする。

　つまり、ブロック切替部は、図７及び図８Ａに示される処理を行う。これにより、符号化モードがＦＤ符号化モードからＬＰＤ符号化モードに切り替えられた最初のフレームを復号する場合に発生するエイリアシングを低減することができる。したがって、ＦＤ復号技術とＬＰＤ復号技術とのシームレスな切替が実現される。

　また、本発明の一態様において、音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する信号分類部と、低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコーダと、前記フレームの線形予測係数の残差をＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）処理したＴＣＸ方式によって前記フレームを符号化するＴＣＸエンコーダと、前記信号分類部が前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコーダによって符号化し、前記信号分類部が前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコーダによって符号化する制御を行うブロック切替部とを備え、前記ブロック切替部は、前記符号化対象フレームである第ｉフレームが、前記信号分類部が前記音響信号であり、なおかつエネルギーが急激に変化する過渡信号であると判断したフレームであるとき、（１）前記第ｉフレームの１フレーム前のフレームである第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する、または（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化してもよい。

　つまり、ブロック切替部は、ＦＤ符号化モードにおいて過渡信号（過渡フレーム）が発生した場合の符号化において、図７及び図８Ａに示される処理を行う。これにより、過渡フレームを復号した場合の音の音質を向上させることができる。

　また、本発明の一態様において、前記低遅延変換エンコーダは、前記フレームと、当該フレームに時間的に連続して先行する３つのフレームとを連結した拡張フレームについて窓処理及び低遅延フィルタバンク処理をすることによって、前記フレームを符号化するＡＡＣ－ＥＬＤエンコーダであってもよい。

　また、本発明の一態様において、前記音声信号エンコーダは、ＡＣＥＬＰ係数を生成することによって前記フレームを符号化するＡＣＥＬＰエンコーダであってもよい。

　また、本発明の一態様において、前記音声信号エンコーダは、前記線形予測係数の残差をＭＤＣＴ処理して前記フレームを符号化するＴＣＸエンコーダであってもよい。

　また、本発明の一態様において、さらに、符号化した前記音信号を復号するローカルデコーダと、前記音信号と、前記ローカルデコーダが復号した前記音信号との差分である合成エラー情報を符号化するローカルエンコーダとを備えてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　以下の各実施の形態では、以下の５通りの符号化モードの遷移において、エイリアシングの影響を低減し、シームレスな符号化モードの切替を実現する音信号ハイブリッドエンコーダ及び音信号ハイブリッドデコーダについて説明する。

　　・ＦＤ符号化モードからＡＣＥＬＰ符号化モードへの遷移（実施の形態１）
　　・ＡＣＥＬＰ符号化モードからＦＤ符号化モードへの遷移（実施の形態２）
　　・ＦＤ符号化モードからＴＣＸ符号化モードへの遷移（実施の形態３）
　　・ＴＣＸ符号化モードからＦＤ符号化モードへの遷移（実施の形態４）
　　・ＦＤ符号化モードから過渡信号符号化モードへの遷移（実施の形態５）

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　実施の形態１では、符号化モードをＦＤ符号化モードからＡＣＥＬＰ符号化モードに切り替える場合の音信号ハイブリッドエンコーダの符号化方法及び音信号ハイブリッドデコーダの復号方法について説明する。なお、以下の実施の形態の説明においては、特に断りのない限り、ＦＤ符号化モードとはＡＡＣ－ＥＬＤを意味するものとする。

　［１－１．符号化方法］
　図６は、実施の形態１に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。

　音信号ハイブリッドエンコーダ５００は、高周波エンコーダ５０１と、ブロック切替部５０２と、信号分類部５０３と、ＡＣＥＬＰエンコーダ５０４と、ＦＤエンコーダ５０５と、ビットマルチプレクサ５０６とを備える。

　入力信号は、高周波エンコーダ５０１と信号分類部５０３とにそれぞれ送信される。

　高周波エンコーダ５０１は、入力信号のうちの高周波帯域を抽出して符号化した信号である高周波パラメータと、入力信号のうちの低周波帯域を抽出した信号である低周波信号とを生成する。高周波パラメータは、ビットマルチプレクサ５０６に送信される。低周波信号は、ブロック切替部５０２に送信される。

　信号分類部５０３は、上記低周波信号の音響特性を分析し、低周波信号をサンプル数Ｎごと（フレームごと）に当該フレームが音響信号であるか音声信号であるか判断する。具体的には、信号分類部５０３は、当該フレームの３ｋＨｚ以上の帯域のスペクトル強度と、当該フレームの３ｋＨｚ以下の帯域のスペクトル強度とを算出する。３ｋＨｚ以下のスペクトル強度がそれ以外の帯域のスペクトル強度よりも大きい場合、信号分類部５０３は、当該フレームが音声信号主体の信号である、すなわち音声信号であると判断し、判断結果を表すモード指標をブロック切替部５０２及びビットマルチプレクサ５０６に送信する。同様に、３ｋＨｚ以下のスペクトル強度がそれ以外の帯域のスペクトル強度よりも小さい場合、信号分類部５０３は、当該フレームが音響信号主体の信号である、すなわち音響信号であると判断し、モード指標をブロック切替部５０２及びビットマルチプレクサ５０６に送信する。

　ブロック切替部５０２は、モード指標が音響信号であることを表すフレームをＦＤエンコーダ５０５によって符号化し、モード指標が音声信号であることを表すフレームをＡＣＥＬＰエンコーダ５０４によって符号化する切替制御を行う。すなわち、ブロック切替部５０２は、高周波エンコーダから受信した低周波信号をモード指標に従ってＦＤエンコーダ５０５とＡＣＥＬＰエンコーダ５０４とにフレームごとに送信する。

　ＦＤエンコーダ５０５は、ブロック切替部５０２の制御に基づき、フレームをＡＡＣ－ＥＬＤ符号化モードで符号化し、当該符号化によって生成されたＦＤ変換係数をビットマルチプレクサ５０６に送信する。

　ＡＣＥＬＰエンコーダ５０４は、ブロック切替部５０２の制御に基づき、フレームをＡＣＥＬＰ符号化モードによって符号化し、当該符号化によって生成されたＡＣＥＬＰ係数をビットマルチプレクサ５０６に送信する。

　ビットマルチプレクサ５０６は、符号化モード指標と、高帯域パラメータと、ＦＤ変換係数と、ＡＣＥＬＰ係数とを合成したビットストリームを生成する。

　なお、図示しないが、音信号ハイブリッドエンコーダ５００は、フレーム（信号）を一時的に記憶する記憶部を備えてもよい。

　次に、符号化モードがＦＤ符号化モードからＡＣＥＬＰ符号化モードに切り替えられる場合のブロック切替部５０２の制御について説明する。

　図７は、符号化モードがＦＤ符号化モードがＡＣＥＬＰ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。

　この場合、フレームｉを符号化するときに、先行するフレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］から生成される成分Ｘを加えた信号が符号化される。具体的には、ブロック切替部５０２は、成分Ｘと、フレームｉの信号［ａ_ｉ，ｂ_ｉ］とを合わせた拡張フレームを生成する。拡張フレームは、（Ｎ＋Ｎ／２）の長さである。拡張フレームは、ブロック切替部５０２によりＡＣＥＬＰエンコーダ５０４に送信され、ＡＣＥＬＰ符号化モードで符号化される。

　成分Ｘは、具体的には、次のように生成される。

　図８Ａは、成分Ｘの生成方法の一例を示す図である。図８Ｂは、成分Ｘの生成方法のフローチャートである。

　まず、フレームｉ－１の信号の前半部分である入力部分ａ_ｉ－１に窓ｗ_５を適用することで、成分ａ_ｉ－１ｗ_５が得られる（図８ＢのＳ１０１）。同様に、フレームｉ－１の信号の後半部分である入力部分ｂ_ｉ－１に窓ｗ_６を適用することで、ｂ_ｉ－１ｗ_６が得られる（図８ＢのＳ１０２）。次に、ｂ_ｉ－１ｗ_６に、さらに畳み込み処理（折り畳み処理）を適用する（図８ＢのＳ１０３）。

　なお、本明細書中では、「信号に畳み込み処理をする」とは、当該信号ベクトル毎に信号ベクトルを構成するサンプルを時間的に逆順に並べ変えることを意味する。

　これにより、ｂ_ｉ－１ｗ_６の逆順（ｂ_ｉ－１ｗ_６）_Ｒが得られる。最後に、ａ_ｉ－１ｗ_５と（ｂ_ｉ－１ｗ_６）_Ｒとが加算された成分Ｘが得られる（図８ＢのＳ１０４）。

　得られた成分Ｘは、デコーダにおいて、複数の先行フレームとともに復号に用いられる。これにより、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］が適切に再構成される。

　なお、以上の説明では、ｂ_ｉ－１ｗ_６に、さらに畳み込み処理を適用したが、ａ_ｉ－１ｗ_５にさらに畳み込み処理を適用してもよい。すなわち、成分Ｘは、（ａ_ｉ－１ｗ_５）_Ｒ＋ｂ_ｉ－１ｗ_６であってもよい。

　なお、図９に示されるように、音信号ハイブリッドエンコーダ５００は、さらに、ＴＣＸエンコーダ５０７を備えてもよい。

　ＴＣＸエンコーダ５０７は、ブロック切替部５０２の制御に基づき、フレームをＴＣＸ符号化モードによって符号化し、当該符号化によって生成されたＴＣＸ係数をビットマルチプレクサ５０６に送信する。

　［１－２．復号方法］
　以下、音信号ハイブリッドエンコーダ５００によって図８Ａに示されるように符号化された符号化信号を復号する音信号ハイブリッドデコーダについて説明する。

　図１０は、実施の形態１に係る音信号ハイブリッドデコーダの構成を示すブロック図である。

　音信号ハイブリッドデコーダ９００は、デマルチプレクサ９０１と、ＦＤデコーダ９０２と、ＡＣＥＬＰデコーダ９０３と、ブロック切替部９０４と、高周波デコーダ９０５とを備える。

　デマルチプレクサ９０１は、ビットストリームを逆多重化する。具体的には、デマルチプレクサ９０１は、ビットストリームをモード指標と、高帯域パラメータと、符号化信号とに分割する。モード指標は、ブロック切替部９０４に送信され、高周波パラメータは、高周波デコーダ９０５に送信され、符号化信号（ＦＤ変換係数、及びＡＣＥＬＰ係数）は、フレームごとに対応するＦＤデコーダ９０２とＡＣＥＬＰデコーダ９０３とに送信される。

　ＦＤデコーダ９０２は、図２を用いて説明したＡＡＣ－ＥＬＤ復号処理によってＦＤ変換係数からＦＤ逆変換信号を生成する。すなわち、ＦＤデコーダ９０２は、ＦＤ符号化モードによって符号化されたフレームを復号する。

　ＡＣＥＬＰデコーダ９０３は、ＡＣＥＬＰ復号処理によってＡＣＥＬＰ係数からＡＣＥＬＰ合成信号を生成する。すなわち、ＡＣＥＬＰデコーダ９０３は、ＡＣＥＬＰ符号化モードによって符号化されたフレームを復号する。

　ＦＤ逆変換信号とＡＣＥＬＰ合成信号とは、ブロック切替部９０４に送信される。

　ブロック切替部９０４は、モード指標が音響信号であることを表すフレームをＦＤデコーダ９０２によって復号してＦＤ逆変換信号を受信し、モード指標が音声信号であることを表すフレームをＡＣＥＬＰデコーダ９０３によって復号してＡＣＥＬＰ合成信号を受信する。

　高周波デコーダ９０５は、デマルチプレクサから送信される高周波パラメータとブロック切替部９０４から送信される低周波帯域の時間領域信号とを用いて入力信号を再構成する。

　なお、図示しないが、音信号ハイブリッドデコーダ９００は、フレーム（信号）を一時的に記憶する記憶部を備えてもよい。

　次に、ＦＤ符号化モードで符号化された信号がＡＣＥＬＰ符号化モードで符号化された信号に切り替わるときの、ブロック切替部９０４の切替制御（復号方法）について説明する。

　図１１は、ＦＤ符号化モードで符号化された信号がＡＣＥＬＰ符号モードで符号化された信号に切り替わるときの、ブロック切替部９０４の切替制御（復号方法）を示す模式図である。図１１に示されるようにフレームｉ－１はＦＤ符号化モードによって符号化されたフレームであり、復号対象フレームであるフレームｉは、ＡＣＥＬＰ符号化モードで符号化されたフレームである。

　上述のように、ＦＤ符号化モードで符号化された信号が連続する場合は、復号対象フレームｉを復号してフレームｉ－１の信号を再構成することができる。つまり、図１１に示される場合、フレームｉ－２の信号までは通常のＦＤ復号処理によって再構成できる。しかしながら、フレームｉ－１の信号は、復号対象フレームｉがＡＣＥＬＰ符号化モードで符号化されているため、通常の方法で再構成すると、エイリアシング成分による不自然な音が発生してしまう。すなわち、フレームｉ－１の信号は、図１１に示されるようにエイリアシング部分となる。

　エイリアシング成分を低減するために、ブロック切替部９０４は、次の３つの信号を用いて復号処理を行う。

　第１に、復号対象フレームｉをＡＣＥＬＰ復号処理することで得られるＡＣＥＬＰ合成信号の成分Ｘの信号（第１信号）がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。この信号は、図１１においてサブフレーム１００１と示される信号であり、図８Ａを用いて説明した成分Ｘである。

　復号対象フレームｉは、ＡＣＥＬＰ符号化モードで符号化された長さ３Ｎ／２のフレームである。すなわち、フレームｉをＡＣＥＬＰ復号処理することで得られるＡＣＥＬＰ合成信号は、ｙ_ｉ，ｎ ^{ａｃｅｌｐ}と示され、

である。したがって、成分Ｘに相当する拡張部分は、以下のようになる。

　図８Ａを用いて説明したように、成分Ｘは、具体的には、ａ_ｉ－１ｗ_５＋（ｂ_ｉ－１ｗ_６）_Ｒである。

　第２に、復号対象フレームｉ－１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－３に対応する部分の信号（第３信号）がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。この信号は、図１１においてサブフレーム１００２及びサブフレーム１００３と示される。

　より具体的には、この信号は、フレームｉ－１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって、通常フレームとして長さ４Ｎで逆変換し、さらに窓処理することによって得られる。逆変換信号は、

と示される。このうち、フレームｉ－３に対応する部分の信号（図１１においてサブフレーム１００２及びサブフレーム１００３と示される２つのエイリアシング部分）は、上記逆変換信号から以下のように抽出される。すなわち、

及び

がサブフレーム１００２とサブフレーム１００３にそれぞれ対応する信号である。

　第３に、復号対象フレームｉ－２をＦＤ復号処理することによって得られるフレームｉ－３の信号［ａ_ｉ－３，ｂ_ｉ－３］（第２信号）がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。フレームｉ－３の信号は、図１１においてサブフレーム１００４及びサブフレーム１００５と示される。

　以上、説明したように、図１１においてサブフレーム１００１と示される信号ａ_ｉ－１ｗ_５＋（ｂ_ｉ－１ｗ_６）_Ｒと、サブフレーム１００２と示される信号［ｃ_－３］_ｉ－１と、サブフレーム１００３と示される信号［ｄ_－３］_ｉ－１と、サブフレーム１００４、１００５と示される信号［ａ_ｉ－３、ｂ_ｉ－３］とが、エイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。

　上記の信号を用いたエイリアシング成分を低減したフレームｉ－１の信号を再構成する方法について具体的に説明する。

　図１２Ａの（ａ）は、フレームｉ－１の信号の前半のサンプル部分であるａ_ｉ－１を再構成する方法を示す図である。図１２Ｂは、フレームｉ－１の信号の前半のサンプル部分であるａ_ｉ－１を再構成する方法のフローチャートである。

　まず、サブフレーム１００４（第２信号のフレーム前半部分）であるａ_ｉ－３に窓ｗ_３を適用することで、ａ_ｉ－３ｗ_３が得られる（図１２ＢのＳ２０１）。次に、サブフレーム１００５（第２信号のフレーム後半部分）であるｂ_ｉ－３に窓ｗ_４を適用することで、ｂ_ｉ－３ｗ_４が得られ、さらに、畳み込み処理を適用することで、ｂ_ｉ－３ｗ_４の逆順である（ｂ_ｉ－３ｗ_４）_Ｒが得られる（図１２ＢのＳ２０２）。

　次に、ａ_ｉ－３ｗ_３と及び（ｂ_ｉ－３ｗ_４）_Ｒとが加算処理された信号に、窓処理が適用されることで、ａ_ｉ－３ｗ_３ｗ_Ｒ，６－（ｂ_ｉ－３ｗ_４）_Ｒｗ_Ｒ，６が得られる（図１２ＢのＳ２０３）。

　サブフレーム１００１（成分Ｘ、第１信号）であるａ_ｉ－１ｗ_５＋（ｂ_ｉ－１ｗ_６）_Ｒには、合成窓ｗ_Ｒ，８が適用されて、ａ_ｉ－１ｗ_５ｗ_Ｒ，８＋（ｂ_ｉ－１ｗ_６）_Ｒｗ_Ｒ，８が得られる（図１２ＢのＳ２０４）。

　これに加えて、逆変換信号であるサブフレーム１００２（第３信号のフレーム前半部分）は、

となる。上記それぞれの信号は、加算され、ａ_ｉ－１（ｗ_５ｗ_Ｒ，８＋ｗ_７ｗ_Ｒ，６）が得られる（図１２ＢのＳ２０５）。

　上述の窓の特性を考慮すると、

であることから、エイリアシング成分を低減したフレームｉ－１の信号の前半部分であるサブフレーム１１０１が得られる。

　同様に、図１２Ａの（ｂ）は、フレームｉ－１の信号の後半のサンプル部分であるｂ_ｉ－１を再構成する方法を示す図である。図１２Ａの（ａ）とは、サブフレーム１００１に畳み込み処理を行う点で異なるが、その他の処理は、同様である。これにより、エイリアシング成分を低減したフレームｉ－１の信号の後半部分であるサブフレーム１１０２が得られる。

　したがって、復号対象フレームｉを復号することで、サブフレーム１１０１とサブフレーム１１０２とを連結した信号フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］が得られる。

　なお、以上の説明では、図１２Ａの（ａ）に示されるサブフレーム１００１に窓処理を適用した、図１２Ａの（ｂ）に示されるサブフレーム１００１には、畳み込み処理と窓処理とを適用した。これは、上述のように成分Ｘがａ_ｉ－１ｗ_５＋（ｂ_ｉ－１ｗ_６）_Ｒと表される場合の処理である。成分Ｘが、（ａ_ｉ－１ｗ_５）_Ｒ＋ｂ_ｉ－１ｗ_６である場合、図１２Ａの（ａ）に示されるサブフレーム１００１には畳み込み処理と窓処理とが適用され、図１２Ａの（ｂ）に示されるサブフレーム１００１には、窓処理が適用される。

　［１－３．遅延量］
　次に、以上説明した実施の形態１に係る符号化・復号処理の遅延量について説明する。

　図１３は、実施の形態１に係る符号化・復号処理の遅延量を示す図である。なお、図１３において、フレームｉ－１に対する符号化処理は、時間ｔにおいて開始されるものとする。

　既に述べたように、ＡＡＣ－ＥＬＤにおける低遅延フィルタバンクの窓の特徴により、フレームｉ－１のＩＭＤＣＴ変換された出力

は、時間ｔ＋３＊Ｎ／４サンプルにおいて得られる。すなわち、サブフレーム１００２、及び１００３は、時間ｔ＋３＊Ｎ／４サンプルにおいて得られる。

　サブフレーム１００４及びサブフレーム１００５は、先行フレームを復号して再構成された信号であるため、既に取得されている。

　また、時間ｔ＋２Ｎサンプルにおいて、フレームｉのＡＣＥＬＰ合成信号が得られる。すなわち、サブフレーム１００１（成分Ｘ）は、時間ｔ＋２Ｎサンプルにおいて得られる。しかしながら、サブフレーム１００１には、前半Ｎ／４個のサンプルに相当する部分がゼロである合成窓ｗ_Ｒ，８が適用されることから、サブフレーム１００１を完全に取得するＮ／４サンプル前に音の出力を開始することができる。

　このため、上述のようにサブフレーム１００１～１００５を用いた信号［ａ_ｉ－１，ｂ_ｉ－１］が再構成されて出力される場合の遅延量は、２Ｎ－Ｎ／４＝７＊Ｎ／４サンプルである。

　［１－４．まとめ］
　以上、説明したように、音信号ハイブリッドエンコーダ５００及び音信号ハイブリッドデコーダ９００によれば、符号化モードがＦＤ符号化モードからＡＣＥＬＰ符号化モードに切り替えられた最初のフレームである遷移フレームを復号する場合に発生するエイリアシングを低減することができ、ＦＤ復号技術とＡＣＥＬＰ復号技術とのシームレスな切替が実現される。

　なお、図１４に示されるように、音信号ハイブリッドデコーダ９００は、さらに、ＴＣＸデコーダ９０６を備えてもよい。

　図１４に示されるＴＣＸデコーダ９０６は、ＴＣＸ復号処理によってＴＣＸ係数からＴＣＸ合成信号を生成する。すなわち、ＴＣＸデコーダ９０６は、ＴＣＸ符号化モードによって符号化されたフレームを復号する。

　なお、さらなる高音質を実現するために、音信号ハイブリッドデコーダ９００は、さらに合成エラー補償（ＳＥＣ：Ｓｙｎｔｈｅｓｉｓ　Ｅｒｒｏｒ　Ｃｏｍｐｅｎｓａｔｉｏｎ）装置を備えてもよい。

　ＳＥＣ処理は、最終的な合成信号を生成するために復号対象フレームｉを復号する時点において行われる。ＳＥＣ装置を追加する目的は、音質を向上させるために、音信号ハイブリッドデコーダ９００において符号化モードが切り替えられることによって発生する合成エラーを低減（除去）することである。

　図１５は、合成エラー補償装置を用いてフレームｉ－１の信号を再構成する方法を示す図である。ここでは、時間領域のエイリアシングの影響を効率的に補償するために、再構成後の信号［ａ_ｉ－１，ｂ_ｉ－１］にＳＥＣ処理が行われる。

　ＳＥＣ装置は、復号対象フレームにおいて、符号化処理時にＤＣＴ－ＩＶ、ＡＶＱ方式などで変換して算出した合成エラー情報を復号する。復号された合成エラー情報は、ＳＥＣ処理により再構成後の信号［ａ_ｉ－１，ｂ_ｉ－１］に加算され、再構成後の信号は修正される。具体的には、図１５の（ａ）に示されるようにサブフレーム１１０１は、サブフレーム２９０１に修正され、図１５の（ｂ）に示されるようにサブフレーム１１０２は、サブフレーム２９０２に修正される。

　音信号ハイブリッドデコーダ９００側でＳＥＣ処理を行うためには、上記合成エラー情報を音信号ハイブリッドエンコーダ５００側で符号化しておくことが必要である。

　図１６は、合成エラー情報の符号化、復号方法を示す図である。

　図１６に示されるように、合成エラー情報を符号化する場合、音信号ハイブリッドエンコーダ５００は、ローカルデコーダ５０８と、ローカルエンコーダとを備える。

　ローカルデコーダ５０８は、エンコーダ（ＡＣＥＬＰエンコーダ５０４、ＦＤエンコーダ５０５、またはＴＣＸエンコーダ５０７）で符号化された元の信号（符号化前の信号）を復号する。再構成された信号（復号された元の信号）と、元の信号との差分が合成エラー情報である。

　ローカルエンコーダ５０９は、ＤＣＴ－ＩＶ、ＡＶＱ（Ａｄａｐｔｉｖｅ　Ｖｅｃｔｏｒ　Ｑｕａｎｔｉｚａｔｉｏｎ）などを用いて合成エラー情報を符号化（変換）する。符号化された合成エラー情報は、音信号ハイブリッドデコーダ９００が備えるＳＥＣ装置９０７によって復号（逆変換）され、図１５を用いて説明したようなＳＥＣ処理による再構成後の信号の修正に用いられる。

　（実施の形態２）
　実施の形態２では、符号化モードをＡＣＥＬＰ符号化モードからがＦＤ符号化モードに切り替える場合の音信号ハイブリッドエンコーダ５００の符号化方法及び音信号ハイブリッドデコーダ９００の復号方法について説明する。なお、音信号ハイブリッドエンコーダ５００及び音信号ハイブリッドデコーダ９００の構成は、実施の形態１と同じである。

　［２－１．符号化方法］
　図１７は、符号化モードがＡＣＥＬＰ符号化モードからＦＤ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。

　フレームｉ－１は、ＡＣＥＬＰ符号化モードによって符号化される。フレームｉは、ＦＤ符号化モードによって先行する３つのフレームｉ－３、ｉ－２、ｉ－１と連結されて符号化される。

　［２－２．復号方法］
　以下、音信号ハイブリッドエンコーダ５００によって図１７に示されるように符号化された符号化信号を復号する音信号ハイブリッドデコーダ９００の復号方法について説明する。

　通常、復号対象フレームｉを復号する場合、上述のように先行する３つのフレームｉ－３、ｉ－２、ｉ－１と重複加算処理を行うことでフレームｉ－１の信号が得られる。

　しかしながら、上記重複加算処理は、連続するフレームが全てＦＤ符号化モードによって符号化されていることが前提の処理である。ここで、フレームｉが、符号化モードがＡＣＥＬＰ符号化モードからＦＤ符号化モードに切り替えられた場合の遷移フレームである場合、先行する３つのフレームである、フレームｉ－３、ｉ－２、ｉ－１はＡＣＥＬＰ符号化モードで符号化されている。このため、復号対象フレームｉを通常のＦＤ復号処理した場合、エイリアシングが発生することとなる。同様に、フレームｉ＋１、フレームｉ＋２においても先行する３つのフレームにＡＣＥＬＰ符号化モードで符号化されたフレームが含まれるため、エイリアシングが発生することとなる。

　　［２－２－１．復号対象フレームｉの復号方法］
　図１８は、ＡＣＥＬＰ符号化モードで符号化された信号がＦＤ符号化モードで符号化された信号に切り替わるときの、ブロック切替部９０４の切替制御（復号方法）を示す模式図である。

　復号対象フレームｉを復号してフレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の３つの信号を用いて復号処理を行う。

　第１に、復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－３に対応する部分の信号が用いられる。この信号は、図１８においてサブフレーム１４０１及びサブフレーム１４０２と示される。

　第２に、復号対象フレームｉ－１をＡＣＥＬＰ復号処理することで得られるＡＣＥＬＰ合成信号［ａ_ｉ－１，ｂ_ｉ－１］が用いられる。この信号は、図１８においてサブフレーム１４０３及び１４０４と示される信号である。

　第３に、復号対象フレームｉ－３をＡＣＥＬＰ復号処理することによって得られるフレームｉ－３の信号［ａ_ｉ－３、ｂ_ｉ－３］が用いられる。フレームｉ－３の信号は、図１８においてサブフレーム１４０７及びサブフレーム１４０８と示される。

　次に、上記３つの信号を用いた復号処理についてより詳細に説明する。

　図１９は、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成する方法のフローチャートである。

　復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号（第８信号）を生成する（図１９のＳ３０１）。第８信号は、以下の式で示される。

　このうち、フレームｉ－３に対応する部分の信号（図１８においてサブフレーム１４０１及びサブフレーム１４０２と示される信号）は、それぞれ以下の式で示される。

　図２０Ａは、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成する方法の一例を示す図である。第ｉ－１フレームをＡＣＥＬＰ復号処理によって復号することで得られる信号を窓処理した窓処理した信号（第４信号）に、当該第４信号を畳み込み処理した信号を加算した信号は、

のように示される。窓［ｗ_Ｒ，６，ｗ_Ｒ，５］を

に適用し、信号

（第５信号）が生成される（図１９のＳ３０２）。第５信号は、図２０Ａにおいてサブフレーム１５０１及びサブフレーム１５０２と示される。

　図２０Ｂは、フレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成する方法の一例を示すもう一つの図である。第ｉ－３フレームをＡＣＥＬＰ復号処理によって復号することで得られる信号を窓処理した第６信号に、当該第６信号を畳み込み処理した信号を加算した信号は、

のように示される。この信号に窓［ｗ_Ｒ，８，ｗ_Ｒ，７］を適用することで、

（第７信号）が得られる（図１９のＳ３０３）。

　図２０Ｂに示されるように、この第７信号と、第６信号（サブフレーム１５０１及びサブフレーム１５０２）、ならびにフレームｉから拡張されたエイリアシング成分である第８信号（サブフレーム１４０１及びサブフレーム１４０２）とが加算されることにより、フレームｉ－１の再構成信号［ａ_ｉ－１，ｂ_ｉ－１］が生成される（図１９のＳ３０４）。

　　［２－２－２．復号対象フレームｉ＋１の復号方法］
　復号対象フレームｉ＋１を復号してフレームｉの信号［ａ_ｉ，ｂ_ｉ］を再構成する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の３つの信号を用いて復号処理を行う。

　第１に、復号対象フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－２に対応する部分の信号（第９信号）が用いられる。復号対象フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換し、窓処理した信号は、

と示される。

から抽出される、フレームｉ－２に対応する部分（エイリアシング部分）は、以下の通りである。

　第２に、復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－２に対応する部分の信号（第１０信号）が用いられる。復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換し、窓処理した信号は、

と示され、この式から抽出される、フレームｉ－２に対応する部分は、以下の通りである。

　第３に、

から抽出される上記フレームｉ－２に対応する部分と、

から抽出されるフレームｉ－２に対応する部分に加えて、復号対象フレームｉ－２をＡＣＥＬＰ復号処理することによって得られるフレームｉ－２の信号［ａ_ｉ－２、ｂ_ｉ－２］が用いられる。この信号は、図１８において、サブフレーム１４０５及びサブフレーム１４０６と示される。

　図２１は、フレームｉの信号を再構成する方法の一例を示す図である。

　フレームｉ－２の信号［ａ_ｉ－２，ｂ_ｉ－２］（第１１信号）に窓処理［ｗ_１，ｗ_２］（第１の窓処理）をした信号のうちフレーム前半に相当する信号は、ａ_ｉ－２Ｗ_１と示される。この信号にフレームｉ－２の信号に窓処理をした信号のうちフレーム後半に相当する信号であるｂ_ｉ－２Ｗ_２を畳み込み処理した信号（ｂ_ｉ－２Ｗ_２）_Ｒが加算されることにより第１２信号が生成される。

　さらに、この第１２信号に、当該第１２信号を畳み込み処理した信号を組み合わせる（連結する）ことによって、信号

が得られる。ここで、窓［ｗ_Ｒ，８，ｗ_Ｒ，７］が

に適用されて、第１３信号（エイリアシング成分）

が得られる。

　一方、フレームｉ－２の信号に窓処理［ｗ_３，ｗ_４］（第２の窓処理）をした信号のうちフレーム前半に相当する信号は、ａ_ｉ－２Ｗ_３と示される。この信号にフレームｉ－２の信号に窓処理をした信号のうちフレーム後半に相当する信号であるｂ_ｉ－２Ｗ_４を畳み込み処理した信号（ｂ_ｉ－２Ｗ_４）_Ｒが加算されることにより第１４信号が生成される。

　さらに、この第１４信号に、当該１５信号を畳み込み処理し、なおかつ符号を反転させた（－１を掛け合わせた）信号を組み合わせる（連結する）ことによって、信号

が得られる。ここで、窓［ｗ_Ｒ，６，ｗ_Ｒ，５］が

に適用されて、第１５信号（エイリアシング成分）

が得られる。

　最後に、図２１に示されるように、エイリアシングが低減されたフレームｉの信号［ａ_ｉ，ｂ_ｉ］を取得するために、

及び

から抽出された第９信号及び第１０信号に第１５信号が加算される。

　ここで、上述の窓の特性を考慮すると、復号対象フレームｉ＋１からフレームｉの信号［ａ_ｉ，ｂ_ｉ］（サブフレーム１７０１及び１７０２）が再構成される。

　　［２－２－３．復号対象フレームｉ＋２の復号方法］
　復号対象フレームｉ＋２を復号してフレームｉ＋１の信号［ａ_ｉ＋１，ｂ_ｉ＋１］を再構成する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の５つの信号を用いて復号処理を行う。

　第１に、フレームｉ＋２をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１６信号）が用いられる。フレームｉ＋２をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換し、窓処理した信号は、

と示される。

から抽出される、フレームｉ－１に対応する部分（エイリアシング部分）は、以下の通りである。

　第２に、フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１８信号）が用いられる。フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換し、窓処理した信号は、

と示される。

　第３に、フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１７信号）が用いられる。フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換し、窓処理した信号は、

と示される。上記第１８信号は、以下の通りである。

また、上記第１７信号は、以下の通りである。

　第４に、

から抽出される上記第１８信号と、

から抽出される上記第１７信号と、

から抽出される上記第１６信号に加えて、図１８においてサブフレーム１４０７及びサブフレーム１４０８と示される信号（第１９信号）が用いられる。サブフレーム１４０７及びサブフレーム１４０８は、フレームｉ－３をＡＣＥＬＰ復号処理によって復号した信号［ａ_ｉ－３，ｂ_ｉ－３］である。

　第５に、図２０Ｂにおいてサブフレーム１６０１及びサブフレーム１６０２と示されるフレームｉ－１の再構成信号［ａ_ｉ－１，ｂ_ｉ－１］が用いられる。

　図２２は、フレームｉ＋１の信号を再構成する方法の一例を示す図である。

　フレームｉ－３の信号［ａ_ｉ－３，ｂ_ｉ－３］（第１９信号）に窓処理［ｗ_１，ｗ_２］をした信号のうちフレーム前半に相当する信号は、ａ_ｉ－３Ｗ_１と示される。この信号にフレームｉ－３の信号に窓処理をした信号のうちフレーム後半に相当する信号であるｂ_ｉ－３Ｗ_２を畳み込み処理した信号（ｂ_ｉ－３Ｗ_２）_Ｒが加算されることにより第２０信号が生成される。

　さらに、この第２０信号に、当該第２０信号を畳み込み処理した信号を組み合わせる（連結する）ことによって、信号

が得られる。ここで、窓［ｗ_Ｒ，４，ｗ_Ｒ，３］が

に適用されて、第２１信号（エイリアシング成分）

が得られる。

　一方、フレームｉ－１の再構成信号［ａ_ｉ－１，ｂ_ｉ－１］に窓処理［ｗ_７，ｗ_８］をした信号のうちフレーム前半に相当する信号は、ａ_ｉ－１Ｗ_７と示される。この信号にフレームｉ－１の再構成信号に窓処理をした信号のうちフレーム後半に相当する信号であるｂ_ｉ－１Ｗ_８を畳み込み処理した信号（ｂ_ｉ－１Ｗ_８）_Ｒが加算されることにより第２２信号が生成される。

　さらに、この第２２信号に、当該第２２信号を畳み込み処理し、なおかつ符号を反転させた（－１を掛け合わせた）信号を組み合わせる（連結する）ことによって、信号

が得られる。ここで、窓［ｗ_Ｒ，２，ｗ_Ｒ，１］が

に適用されて、第２３信号（エイリアシング成分）

が得られる。

　最後に、図２２に示されるように、エイリアシングが低減されたフレームｉ＋１の信号［ａ_ｉ，ｂ_ｉ］を取得するために、

及び

から抽出された第１６信号、第１７信号、及び第１８信号と、上記第２１信号と、上記第２３信号とが加算される。

　ここで、上述の窓の特性を考慮すると、復号対象フレームｉ＋２からフレームｉ＋１の信号［ａ_ｉ＋１，ｂ_ｉ＋１］（サブフレーム１８０１及び１８０２）が再構成される。

　［２－３．遅延量］
　次に、以上説明した実施の形態２に係る符号化・復号処理の遅延量について説明する。

　図２３は、実施の形態２に係る符号化・復号処理の遅延量を示す図である。なお、図２３において、フレームｉ－１に対する符号化処理は、時間ｔにおいて開始されるものとする。

　フレームｉ－１のＡＣＥＬＰ合成信号は、時間ｔ＋Ｎサンプルにおいて得られる。すなわち、サブフレーム１５０１、及び１５０２（サブフレーム１４０３、及び１４０４）は、時間ｔ＋Ｎサンプルにおいて得られる。

　サブフレーム１４０７及びサブフレーム１４０８は、先行フレームを復号して再構成された信号であるため、既に取得されている。

　また、既に述べたように、ＡＡＣ－ＥＬＤにおける低遅延フィルタバンクの窓の特徴により、フレームｉのＩＭＤＣＴ変換された出力は、時間ｔ＋７＊Ｎ／４サンプルにおいて得られる。すなわち、サブフレーム１４０１、及び１４０２は、時間ｔ＋７＊Ｎ／４サンプルにおいて得られる。しかしながら、サブフレーム１４０１には、前半Ｎ／４個のサンプルに相当する部分がゼロである合成窓ｗ_Ｒ，８が適用されることから、サブフレーム１４０１を完全に取得するＮ／４サンプル前に音の出力を開始することができる。

　このため、上述のように再構成された信号［ａ_ｉ－１，ｂ_ｉ－１］は、時間ｔ＋３＊Ｎ／２サンプルにおいて出力が開始され、遅延量は、（ｔ＋３＊Ｎ／２）－ｔ＝３＊Ｎ／２サンプルである。

　［２－４．まとめ］
　以上、実施の形態２において説明したように、音信号ハイブリッドエンコーダ５００及び音信号ハイブリッドデコーダ９００によれば、符号化モードがＡＣＥＬＰ符号化モードからＦＤ符号化モードに切り替えられた最初のフレームである遷移フレームを復号する場合に発生するエイリアシングを低減することができ、ＡＣＥＬＰ復号処理とＦＤ復号処理とのシームレスな切替が実現される。

　なお、実施の形態１と同様に、実施の形態２に係る音信号ハイブリッドデコーダ９００は、さらに、図１４に示されるようなＴＣＸデコーダ９０６を備えてもよい。

　なお、実施の形態１と同様に、さらなる高音質を実現するために、実施の形態２に係る音信号ハイブリッドデコーダ９００は、さらに合成エラー補償（ＳＥＣ）装置を備えてもよい。

　図２４は、ＳＥＣ装置を用いてフレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］を再構成する方法を示す図である。図２４に示される構成は、図２０Ｂに示される構成にＳＥＣ装置を追加したものである。図２４に示されるようにサブフレーム１６０１及び１６０２は、ＳＥＣ処理によってそれぞれサブフレーム３１０１及び３１０２に修正される。

　図２５は、ＳＥＣ装置を用いてフレームｉの信号［ａ_ｉ，ｂ_ｉ］を再構成する方法を示す図である。図２５に示される構成は、図２１に示される構成にＳＥＣ装置を追加したものである。図２５に示されるようにサブフレーム１７０１及び１７０２は、ＳＥＣ処理によってそれぞれサブフレーム３２０１及び３２０２に修正される。

　図２６は、ＳＥＣ装置を用いてフレームｉ－１の信号［ａ_ｉ＋１，ｂ_ｉ＋１］を再構成する方法を示す図である。図２６に示される構成は、図２２に示される構成にＳＥＣ装置を追加したものである。図２６に示されるようにサブフレーム１８０１及び１８０２は、ＳＥＣ処理によってそれぞれサブフレーム３３０１及び３３０２に修正される。

　このように、再構成された信号含まれる合成エラーをデコーダに設けられたＳＥＣ装置により補償することで、さらに音質を向上させることができる。

　（実施の形態３）
　実施の形態３では、符号化モードをＦＤ符号化モードからＴＣＸ符号化モードに切り替える場合の音信号ハイブリッドエンコーダ５００の符号化方法及び音信号ハイブリッドデコーダ９００の復号方法について説明する。

　音信号ハイブリッドエンコーダ５００の構成は、図９に示される構成と同様であるが、図９中のＡＣＥＬＰエンコーダ５０４は、省略可能である。また、音信号ハイブリッドデコーダ９００の構成は、図１４に示される構成と同様であるが、図１４中のＡＣＥＬＰデコーダ９０３は、省略可能である。

　［３－１．符号化方法］
　まず、符号化モードがＦＤ符号化モードからＴＣＸ符号化モードに切り替えられる場合のブロック切替部５０２の制御について説明する。

　図２７は、符号化モードがＦＤ符号化モードがＴＣＸ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。

　この場合、フレームｉを符号化するときに、先行するフレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］から生成される成分Ｘを加えた信号が符号化される。具体的には、ブロック切替部５０２は、成分Ｘと、フレームｉの信号［ａ_ｉ，ｂ_ｉ］とを合わせた拡張フレームを生成する。拡張フレームは、（Ｎ＋Ｎ／２）の長さである。拡張フレームは、ブロック切替部５０２によりＴＣＸエンコーダ５０７に送信され、ＴＣＸ符号化モードで符号化される。また、成分Ｘは、図８Ａ及び図８Ｂを用いて説明した方法と同じ方法で生成される。

　［３－２．復号方法］
　次に、ＦＤ符号化モードで符号化された信号がＴＣＸ符号化モードで符号化された信号に切り替わるときの、ブロック切替部９０４の切替制御（復号方法）について説明する。

　図２８は、ＦＤ符号化モードで符号化された信号がＴＣＸ符号モードで符号化された信号に切り替わるときの、ブロック切替部９０４の切替制御（復号方法）を示す模式図である。図２８に示されるようにフレームｉ－１はＦＤ符号化モードによって符号化されたフレームであり、復号対象フレームであるフレームｉは、ＴＣＸ符号化モードで符号化されたフレームである。

　第１に、復号対象フレームｉをＴＣＸ復号処理することで得られるＴＣＸ合成信号の成分Ｘの信号がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。この信号は、図１１においてサブフレーム２００１と示される信号であり、図８Ａを用いて説明した成分Ｘである。

　第２に、復号対象フレームｉ－１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－３に対応する部分の信号がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。この信号は、図２８においてサブフレーム２００２及びサブフレーム２００３と示される。

と示される。このうち、フレームｉ－３に対応する部分の信号（図２８においてサブフレーム２００２及びサブフレーム２００３と示されるエイリアシング部分）は、上記逆変換信号から以下のように抽出される。すなわち、

及び

がサブフレーム２００２とサブフレーム２００３にそれぞれ対応する信号である。

　第３に、復号対象フレームｉ－２をＦＤ復号処理することによって得られるフレームｉ－３の信号［ａ_ｉ－３，ｂ_ｉ－３］がエイリアシング成分を低減したフレームｉ－１の信号を再構成するために用いられる。フレームｉ－３の信号は、図２８においてサブフレーム２００４及びサブフレーム２００５と示される。

　上記の信号を用いたエイリアシング成分を低減したフレームｉ－１の信号を再構成する方法は、図１２Ａ及び図１２Ｂを用いて説明した方法と同じである。具体的には、図１２Ａにおけるサブフレーム１００１、１００２、１００３、１００４、１００５が、図２８のサブフレーム２００１、２００２、２００３、２００４、２００５にそれぞれ置き換えたと考えればよい。これにより、フレームｉの信号［ａ_ｉ－１，ｂ_ｉ－１］が再構成される。

　［３－３．遅延量］
　次に、以上説明した実施の形態１に係る符号化・復号処理の遅延量について説明する。

　図２９は、実施の形態３に係る符号化・復号処理の遅延量を示す図である。なお、図２９において、フレームｉ－１に対する符号化処理は、時間ｔにおいて開始されるものとする。

は、時間ｔ＋３＊Ｎ／４サンプルにおいて得られる。すなわち、サブフレーム２００２、及び２００３は、時間ｔ＋３＊Ｎ／４サンプルにおいて得られる。

　サブフレーム２００４及びサブフレーム２００５は、先行フレームを復号して再構成された信号であるため、既に取得されている。

　また、時間ｔ＋２Ｎサンプルにおいて、フレームｉのＴＣＸ合成信号が得られる。すなわち、サブフレーム２００１（成分Ｘ）は、時間ｔ＋２Ｎサンプルにおいて得られる。しかしながら、サブフレーム２００１には、前半Ｎ／４個のサンプルに相当する部分がゼロである合成窓ｗ_Ｒ，８が適用されることから、サブフレーム２００１を完全に取得するＮ／４サンプル前に音の出力を開始することができる。

　このため、上述のようにサブフレーム２００１～２００５を用いて信号［ａ_ｉ－１，ｂ_ｉ－１］が再構成されて出力される場合の遅延量は、２Ｎ／４－Ｎ／４＝７＊Ｎ／４サンプルである。

　［３－４．まとめ］
　以上、説明したように、音信号ハイブリッドエンコーダ５００及び音信号ハイブリッドデコーダ９００によれば、符号化モードがＦＤ符号化モードからＴＣＸ符号化モードに切り替えられた最初のフレームである遷移フレームを復号する場合に発生するエイリアシングを低減することができ、ＦＤ復号技術とＴＣＸ復号技術とのシームレスな切替が実現される。

　なお、さらなる高音質を実現するために、音信号ハイブリッドデコーダ９００は、さらに合成エラー補償（ＳＥＣ）装置を備えてもよい。この場合の信号の再構成方法は、図１５に示されるものと同様である。

　（実施の形態４）
　実施の形態４では、符号化モードをＴＣＸ符号化モードからＦＤ符号化モードに切り替える場合の音信号ハイブリッドエンコーダ５００符号化方法及び音信号ハイブリッドデコーダ９００の復号方法について説明する。

　［４－１．符号化方法］
　図３０は、符号化モードがＴＣＸ符号化モードからＦＤ符号化モードに切り替えられる場合の符号化されたフレームを示す図である。

　フレームｉ－１は、ＴＣＸ符号化モードによって符号化される。フレームｉは、ＦＤ符号化モードによって先行する３つのフレームｉ－３、ｉ－２、ｉ－１と連結されて符号化される。

　［４－２．復号方法］
　以下、音信号ハイブリッドエンコーダ５００によって図３１に示されるように符号化された符号化信号を復号する音信号ハイブリッドデコーダ９００の復号方法について説明する。

　　［４－２－１．復号対象フレームｉの復号方法］
　復号対象フレームｉを復号する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の３つの信号を用いて復号処理を行う。

　第１に、復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－３に対応する部分の信号が用いられる。この信号は、図３１において、サブフレーム２３０１及びサブフレーム２３０２と示される。

　第２に、復号対象フレームｉ－１をＴＣＸ復号処理することで得られるＴＣＸ合成信号［ａ_ｉ－１，ｂ_ｉ－１］が用いられる。この信号は、図３１においてサブフレーム２３０３及び２３０４と示される信号である。

　第３に、復号対象フレームｉ－３をＴＣＸ復号処理することによって得られるフレームｉ－３の信号［ａ_ｉ－３、ｂ_ｉ－３］が用いられる。フレームｉ－３の信号は、図３１においてサブフレーム２３０７及びサブフレーム２３０８と示される。

　復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号（第８信号）のフレームｉ－３に対応する部分の信号（図３１においてサブフレーム２３０１及びサブフレーム２３０２と示される信号）は、それぞれ以下の式で示される。

　ここで、復号対象フレームｉ－１をＴＣＸ復号処理することで得られるＴＣＸ合成信号［ａ_ｉ－１，ｂ_ｉ－１］は、説明の便宜上、

のように分割される。これに対応して、窓［ｗ_７，ｗ_８］は、

に分割される。サブフレーム２３０３及び２３０４と示されるＴＣＸ合成信号は、後続するフレームがＴＣＸ符号化モードで符号化されていないため、エイリアシング成分を含み、

と示される。ここで、分析窓ｗ_８の特性、すなわちｗ_８，２＝０を考慮して窓［ｗ_７，ｗ_８］をＴＣＸ合成信号

に適用すると、

が得られる。これは、図３２に示される

と実際には等価である。

　したがって、図３２に示されるサブフレーム２４０１、２４０２を生成する方法は、図２０Ａに示される方法と同じである。

　つまり、以降の処理は、図２０Ｂを用いて説明した方法と同様である。具体的には、図２０Ｂにおいて、サブフレーム１４０１、１４０２、１４０７、１４０８、１５０１、及び１５０２が、それぞれ、サブフレーム２３０１、２３０２、２３０７，２３０８、２４０１、及び２４０２に置き換えられたと考えればよい。

　　［４－２－２．復号対象フレームｉ＋１の復号方法］
　復号対象フレームｉ＋１を復号する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の３つの信号を用いて復号処理を行う。

　第１に、復号対象フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－２に対応する部分の信号（第９信号）が用いられる。

　第２に、復号対象フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－２に対応する部分の信号（第１０信号）が用いられる。

　以上の第９信号及び第１０信号については、図２１を用いて説明したものと同様である。

　第３に、復号対象フレームｉ－２をＴＣＸ復号処理することによって得られるフレームｉ－２の信号［ａ_ｉ－２、ｂ_ｉ－２］が用いられる。この信号は、図３１において、サブフレーム２３０５及びサブフレーム２３０６と示される。

　上記の３つの信号を用いた、復号対象フレームｉ＋１の復号方法は、図２１を用いて説明した方法と同様である。具体的には、図２１において、サブフレーム１４０５、１４０６が、それぞれ、サブフレーム２３０５、及び２３０６に置き換えられたと考えればよい。

　　［４－２－３．復号対象フレームｉ＋２の復号方法］
　復号対象フレームｉ＋２を復号する場合、エイリアシング成分を低減するために、ブロック切替部９０４は、次の５つの信号を用いて復号処理を行う。

　第１に、フレームｉ＋２をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１６信号）が用いられる。

　第２に、フレームｉをＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１８信号）が用いられる。

　第３に、フレームｉ＋１をＡＡＣ－ＥＬＤ低遅延フィルタバンクによって逆変換した後、窓処理した信号のうちのフレームｉ－１に対応する部分（エイリアシング部分）の信号（第１７信号）が用いられる。

　これら第１６信号、第１７信号、及び第１８信号の３つの信号は、図２２を用いて説明したものと同様である。

　第４に、フレームｉ－３をＴＣＸ復号処理によって復号した信号［ａ_ｉ－３，ｂ_ｉ－３］が用いられる。

　第５に、フレームｉ－１をＴＣＸ復号処理によって復号した信号［ａ_ｉ－１，ｂ_ｉ－１］が用いられる。

　上記の５つの信号を用いた、復号対象フレームｉ＋２の復号方法は、図２２を用いて説明した方法と同様である。具体的には、図２２において、サブフレーム１４０７、１４０８が、それぞれ、サブフレーム２３０７、及び２３０８に置き換えられたと考えればよい。また、図２２に示されるサブフレーム１６０１、及び１６０２は、復号対象フレームｉの復号方法で説明した方法（図２０ＢにおいてフレームをＴＣＸ符号化モードのフレームに置き換える方法）で生成されたフレームに置き換えられたと考えればよい。

　［４－３．遅延量］
　次に、以上説明した実施の形態４に係る符号化・復号処理の遅延量について説明する。

　図３３は、実施の形態４に係る符号化・復号処理の遅延量を示す図である。なお、図３３において、フレームｉ－１に対する符号化処理は、時間ｔにおいて開始されるものとする。

　フレームｉ－１のＴＣＸ合成信号は、時間ｔ＋Ｎサンプルにおいて得られる。すなわち、サブフレーム２４０１、及び２４０２（サブフレーム２３０３、及び２３０４）は、時間ｔ＋Ｎサンプルにおいて得られる。

　サブフレーム２３０７及びサブフレーム２３０８は、先行フレームを復号して再構成された信号であるため、既に取得されている。

　また、既に述べたように、ＡＡＣ－ＥＬＤにおける低遅延フィルタバンクの窓の特徴により、フレームｉのＩＭＤＣＴ変換された出力は、時間ｔ＋７＊Ｎ／４サンプルにおいて得られる。すなわち、サブフレーム２３０１、及びサブフレーム２３０２は、時間ｔ＋７＊Ｎ／４サンプルにおいて得られる。しかしながら、サブフレーム２３０１には、前半Ｎ／４個のサンプルに相当する部分がゼロである合成窓ｗ_Ｒ，８が適用されることから、サブフレーム２３０１を完全に取得するＮ／４サンプル前に音の出力を開始することができる。

　［４－４．まとめ］
　以上、説明したように、音信号ハイブリッドエンコーダ５００及び音信号ハイブリッドデコーダ９００によれば、符号化モードがＴＣＸ符号化モードからＦＤ符号化モードに切り替えられた最初のフレームである遷移フレームを復号する場合に発生するエイリアシングを低減することができ、ＴＣＸ復号技術とＦＤ復号技術とのシームレスな切替が実現される。

　なお、さらなる高音質を実現するために、音信号ハイブリッドデコーダ９００は、さらに合成エラー補償（ＳＥＣ）装置を備えてもよい。この場合の信号の再構成方法は、図２４～図２６に示されるものと同様である。

　（実施の形態５）
　実施の形態５では、過渡信号を符号化する場合の音信号ハイブリッドエンコーダの符号化方法、及び過渡信号を復号する場合の音信号ハイブリッドデコーダの復号方法について説明する。実施の形態５において、音信号ハイブリッドエンコーダ５００の構成は、図９に示される構成と同様であるが、図９中のＡＣＥＬＰエンコーダ５０４は、省略可能である。また、音信号ハイブリッドデコーダ９００の構成は、図１４に示される構成と同様であるが、図１４中のＡＣＥＬＰデコーダ９０３は、省略可能である。

　ＦＤ符号化モードでは、ロングウィンドウが用いられる（時間幅が大きい窓が用いられる）ため、エネルギー（＝信号電力、すなわち符号化フレームにおける音信号の振幅の自乗和に比例する値）が急激に変化する過渡信号の符号化には適していない。すなわち、過渡信号を処理するときに、ショートウィンドウ（時間幅が小さい窓）を用いてもよい。

　［５－１．符号化方法］
　まず、符号化対象フレームｉが過渡信号（過渡フレーム）である場合、符号化対象フレームｉを符号化するときには、先行するフレームｉ－１の信号［ａ_ｉ－１，ｂ_ｉ－１］から生成される成分Ｘを加えた信号が符号化される。具体的には、ブロック切替部５０２は、成分Ｘと、フレームｉの信号［ａ_ｉ，ｂ_ｉ］とを合わせた拡張フレームを生成する。拡張フレームは、（Ｎ＋Ｎ／２）の長さである。拡張フレームは、ブロック切替部５０２によりＴＣＸエンコーダ５０７に送信され、ＴＣＸ符号化モードで符号化される。なお、このとき、ＴＣＸエンコーダ５０７は、ＭＤＣＴフィルタバンクのショートウィンドウモードを用いたＴＣＸ符号化を行う。このとき、符号化されたフレームは、図２７を用いて説明したものと同様である。また、成分Ｘは、図８Ａ及び図８Ｂを用いて説明した方法と同じ方法で生成される。

　なお、符号化対象フレームｉが過渡信号であるか否かの判断は、例えば、符号化対象フレームにおけるエネルギーが所定の閾値を越えるか否かによってなされるが、このような方法に限定されるものではない。

　［５－２．復号方法］
　上記のように符号化された過渡フレームの復号方法は、ＦＤ符号化モードで符号化された信号がＴＣＸ符号化モードで符号化された信号に切り替わるときの復号方法と同様である。すなわち、図１２Ａまたは図２８を用いて説明した方法と同様である。

　なお、実施の形態５の符号化・復号処理の遅延量は、実施の形態１及び３と同じであり、７＊Ｎ／４サンプルである。

　［５－３．まとめ］
　以上、説明したように、音信号ハイブリッドデコーダ９００によれば、ＦＤ符号化モードで符号化を行っているときの過渡フレームにおいて、ＴＣＸ符号化モードで符号化し、復号することによって、より音質を向上させることができる。

　（変形例）
　以上、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。

　例えば、例えば、ＬＰＤ符号化モードとしてＶＳＥＬＰ（Ｖｅｃｔｏｒ　Ｓｕｍ　Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ）符号化モード等、ＡＣＥＬＰ以外のＣＥＬＰ方式を用いてもよい。復号処理についても同様に、ＡＣＥＬＰ以外のＣＥＬＰ方式を用いてもよい。

　また、本実施の形態では、ＦＤ符号化モードの一例としてＡＡＣ－ＥＬＤモードについて主に説明したが、本発明は、ＡＡＣ－ＥＬＤモードのみならず、複数の先行フレームによるオーバーラップ処理が必要な符号化方式に適用可能である。

　また、以下のような場合も本発明に含まれる。

　（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ＲＯＭからＲＡＭにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールには、上記の超多機能ＬＳＩが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有してもよい。

　（４）本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。

　また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ　Ｄｉｓｃ）、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。

　また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。

　また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。

　また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

　なお、本発明は、これらの実施の形態またはその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態またはその変形例に施したもの、あるいは異なる実施の形態またはその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

　本発明の音信号ハイブリッドデコーダ及び音信号ハイブリッドエンコーダは、高音質で低遅延な音信号の符号化及び復号が可能であり、放送システム、携帯用テレビ、携帯電話通信、テレビ会議などに用いることができる。

　５００　音信号ハイブリッドエンコーダ
　５０１　高周波エンコーダ
　５０２　ブロック切替部
　５０３　信号分類部
　５０４　ＡＣＥＬＰエンコーダ
　５０５　ＦＤエンコーダ
　５０６　ビットマルチプレクサ
　５０７　ＴＣＸエンコーダ
　５０８　ローカルデコーダ
　５０９　ローカルエンコーダ
　９００　音信号ハイブリッドデコーダ
　９０１　デマルチプレクサ
　９０２　ＦＤデコーダ
　９０３　ＡＣＥＬＰデコーダ
　９０４　ブロック切替部
　９０５　高周波デコーダ
　９０６　ＴＣＸデコーダ
　９０７　ＳＥＣ装置
　１００１～１００５、１１０１、１１０２　サブフレーム
　１４０１～１４０８、１５０１、１５０２、１６０１、１６０２　サブフレーム
　１７０１、１７０２、１８０１、１８０２　サブフレーム
　２００１～２００５、２３０１～２３０８、２４０１、２４０２　サブフレーム
　２９０１、２９０２、３１０１、３１０２、３２０１、３２０２　サブフレーム
　３３０１、３３０２　サブフレーム

Claims

　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、
　前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコーダと、
　前記音声フレームを復号する音声信号デコーダと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、
　前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームである第ｉフレームであるとき、
　前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、
　前記ブロック切替部は、
　（１）
　前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコーダによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコーダによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または
　（２）
　前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する
　音信号ハイブリッドデコーダ。
　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、
　前記音響フレームを低遅延逆フィルタバンク処理によって復号する低遅延変換デコーダと、
　前記音声フレームを復号する音声信号デコーダと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、
　前記ブロック切替部は、
　前記復号対象フレームが、前記音声フレームから前記音響フレームに切り替わった最初の音響フレームである第ｉフレームであるとき、
　前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームを前記音声信号デコーダによって復号することで得られる信号を窓処理した第４信号に、当該第４信号を畳み込み処理した信号を加算し、窓処理を行った第５信号と、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームを前記音声信号デコーダによって復号することで得られる信号を窓処理した第６信号に、当該第６信号を畳み込み処理した信号を加算し、窓処理を行った第７信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第８信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームに対応する信号である再構成信号を生成する
　音信号ハイブリッドデコーダ。
　前記ブロック切替部は、
　前記復号対象フレームが、前記第ｉフレームの１フレーム後のフレームである第ｉ＋１フレームであるとき、
　前記第ｉ＋１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号のうちの、前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームに対応する部分である第９信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－２フレームに対応する部分である第１０信号と、前記第ｉ－２フレームを前記音声信号デコーダによって復号することで得られる第１１信号に第１の窓処理を行なった信号のフレームの前半部分に相当する信号に、前記第１１信号に前記第１の窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第１２信号に、当該第１２信号を畳み込み処理した信号を連結し、窓処理を行った第１３信号と、前記第１１信号に前記第１の窓処理とは異なる第２の窓処理を行った信号のフレームの前半部分に相当する信号に、前記第１１信号に前記第２の窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第１４信号に、当該第１４信号を畳み込み処理して符号を反転させた信号を連結し、窓処理を行った第１５信号と、を加算する処理を行って、符号化前の前記第ｉフレームに対応する信号を生成する
　請求項２に記載の音信号ハイブリッドデコーダ。
　前記ブロック切替部は、
　前記復号対象フレームが、前記第ｉフレームの２フレーム後のフレームである第ｉ＋２フレームであるとき、
　前記ｉ＋２フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１６信号と、前記第ｉ＋１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１７信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－１フレームに対応する部分である第１８信号と、前記第ｉ－３フレームを前記音声信号デコーダによって復号することで得られる第１９信号に窓処理を行なった信号のフレームの前半部分に相当する信号に、前記第１９信号に窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第２０信号に、当該第２０信号を畳み込み処理した信号を連結し、窓処理を行った第２１信号と、前記再構成信号に窓処理を行った信号のフレームの前半部分に相当する信号に、前記再構成信号に窓処理を行った信号のフレームの後半部分に相当する信号に畳み込み処理した信号を加算することで得られる第２２信号に、当該第２２信号を畳み込み処理して符号を反転させた信号を連結し、窓処理を行った第２３信号と、を加算する処理を行って、符号化前の前記第ｉ＋１フレームに対応する信号を生成する
　請求項３に記載の音信号ハイブリッドデコーダ。
　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号ハイブリッドデコーダであって、
　前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコーダと、
　ＴＣＸ（Ｔｒａｎｓｆｏｒｍ　Ｃｏｄｅｄ　Ｅｘｃｉｔａｔｉｏｎ）方式によって符号化された前記音声フレームを復号するＴＣＸデコーダと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコーダによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコーダによって復号する制御を行うブロック切替部とを備え、
　前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームであって、過渡信号が符号化されたフレームである第ｉフレームであるとき、
　前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、
　前記ブロック切替部は、
　（１）
　前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコーダによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコーダによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または
　（２）
　前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する
　音信号ハイブリッドデコーダ。
　前記低遅延変換デコーダは、前記音響フレーム及び当該音響フレームに時間的に連続して先行する３つのフレームのそれぞれについて低遅延逆フィルタバンク処理及び窓処理を行った信号のそれぞれを重複加算処理することによって、当該音響フレームを復号するＡＡＣ－ＥＬＤ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ　－　Ｅｎｈａｎｃｅｄ　Ｌｏｗ　Ｄｅｌａｙ）デコーダである
　請求項１～５のいずれか１項に記載の音信号ハイブリッドデコーダ。
　前記音声信号デコーダは、ＡＣＥＬＰ（Ａｌｇｅｂｒａｉｃ　Ｃｏｄｅ　Ｅｘｃｉｔｅｄ　Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏｎ）係数を用いて符号化された前記音声フレームを復号するＡＣＥＬＰデコーダである
　請求項１～４のいずれか１項に記載の音信号ハイブリッドデコーダ。
　前記音声信号デコーダは、ＴＣＸ方式によって符号化された前記音声フレームを復号するＴＣＸデコーダである
　請求項１～４のいずれか１項に記載の音信号ハイブリッドデコーダ。
　さらに、前記復号対象フレームとともに符号化された合成エラー情報を復号する合成エラー補償装置を備え、
　前記合成エラー情報は、前記ビットストリームが符号化される前の信号と、前記ビットストリームを復号した信号との差分を表す情報であり、
　前記合成エラー補償装置は、前記ブロック切替部が生成した前記符号化前の前記第ｉ－１フレームの信号、前記ブロック切替部が生成した前記符号化前の前記第ｉフレームの信号、または前記ブロック切替部が生成した前記符号化前の前記第ｉ＋１フレームの信号を、復号した前記合成エラー情報を用いて修正する
　請求項１～８のいずれか１項に記載の音信号ハイブリッドデコーダ。
　音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する信号分類部と、
　低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコーダと、
　前記フレームの線形予測係数を算出することによって当該フレームを符号化する音声信号エンコーダと、
　前記信号分類部が前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコーダによって符号化し、前記信号分類部が前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコーダによって符号化する制御を行うブロック切替部とを備え、
　前記ブロック切替部は、
　（１）前記符号化対象フレームが、前記信号分類部が前記音声信号であると判断したフレームである第ｉ－１フレームの１フレーム後のフレームであって、前記信号分類部が前記音響信号であると判断したフレームである第ｉフレームであるとき、
　前記第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する、または
　（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する
　音信号ハイブリッドエンコーダ。
　音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する信号分類部と、
　低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコーダと、
　前記フレームの線形予測係数の残差をＭＤＣＴ（Ｍｏｄｉｆｉｅｄ　Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ）処理したＴＣＸ方式によって前記フレームを符号化するＴＣＸエンコーダと、
　前記信号分類部が前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコーダによって符号化し、前記信号分類部が前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコーダによって符号化する制御を行うブロック切替部とを備え、
　前記ブロック切替部は、
　前記符号化対象フレームである第ｉフレームが、前記信号分類部が前記音響信号であり、なおかつエネルギーが急激に変化する過渡信号であると判断したフレームであるとき、
　（１）前記第ｉフレームの１フレーム前のフレームである第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する、または
　（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコーダによって符号化する
　音信号ハイブリッドエンコーダ。
　前記低遅延変換エンコーダは、前記フレームと、当該フレームに時間的に連続して先行する３つのフレームとを連結した拡張フレームについて窓処理及び低遅延フィルタバンク処理をすることによって、前記フレームを符号化するＡＡＣ－ＥＬＤエンコーダである
　請求項１０または１１に記載の音信号ハイブリッドエンコーダ。
　前記音声信号エンコーダは、ＡＣＥＬＰ係数を生成することによって前記フレームを符号化するＡＣＥＬＰエンコーダである
　請求項１０～１２のいずれか１項に記載の音信号ハイブリッドエンコーダ。
　前記音声信号エンコーダは、前記線形予測係数の残差をＭＤＣＴ処理して前記フレームを符号化するＴＣＸエンコーダである
　請求項１０～１２のいずれか１項に記載の音信号ハイブリッドエンコーダ。
　さらに、
　符号化した前記音信号を復号するローカルデコーダと、
　前記音信号と、前記ローカルデコーダが復号した前記音信号との差分である合成エラー情報を符号化するローカルエンコーダとを備える
　請求項１０～１４のいずれか１項に記載の音信号ハイブリッドエンコーダ。
　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号復号方法であって、
　前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコードステップと、
　前記音声フレームを復号する音声信号デコードステップと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコードステップによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコードステップによって復号する制御を行う制御ステップとを含み、
　前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームである第ｉフレームであるとき、
　前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、
　前記制御ステップでは、
　（１）
　前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコードステップによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコードステップによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または
　（２）
　前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する
　音信号復号方法。
　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号復号方法であって、
　前記音響フレームを低遅延逆フィルタバンク処理によって復号する低遅延変換デコードステップと、
　前記音声フレームを復号する音声信号デコードステップと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコードステップによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコードステップによって復号する制御を行う制御ステップとを含み、
　前記制御ステップは、
　前記復号対象フレームが、前記音声フレームから前記音響フレームに切り替わった最初の音響フレームである第ｉフレームであるとき、
　前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームを前記音声信号デコードステップによって復号することで得られる信号を窓処理した第４信号に、当該第４信号を畳み込み処理した信号を加算し、窓処理を行った第５信号と、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームを前記音声信号デコードステップによって復号することで得られる信号を窓処理した第６信号に、当該第６信号を畳み込み処理した信号を加算し、窓処理を行った第７信号と、前記第ｉフレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第８信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームに対応する信号である再構成信号を生成する
　音信号復号方法。
　低遅延フィルタバンクを用いた音響符号化処理で符号化された音響フレームと、線形予測係数を用いた音声符号化処理で符号化された音声フレームとが含まれるビットストリームを復号する音信号復号方法であって、
　前記音響フレームを低遅延逆フィルタバンク処理を用いて復号する低遅延変換デコードステップと、
　ＴＣＸ方式によって符号化された前記音声フレームを復号するＴＣＸデコードステップと、
　前記ビットストリームのうちの復号対象フレームが前記音響フレームである場合、当該復号対象フレームを前記低遅延変換デコードステップによって復号し、前記復号対象フレームが前記音声フレームである場合、当該復号対象フレームを前記音声信号デコードステップによって復号する制御を行う制御ステップとを含み、
　前記復号対象フレームが、前記音響フレームから前記音声フレームに切り替わった最初の前記音声フレームであって、エネルギーが急激に変化する過渡信号が符号化されたフレームである第ｉフレームであるとき、
　前記第ｉフレームには、前記第ｉフレームよりも１フレーム先行するフレームである第ｉ－１フレームの符号化前の信号を用いて生成された第１信号が符号化された状態で含まれ、
　前記制御ステップでは、
　（１）
　前記第ｉフレームよりも２フレーム先行するフレームである第ｉ－２フレームを前記低遅延変換デコードステップによって復号することで得られる、前記第ｉフレームよりも３フレーム先行するフレームである第ｉ－３フレームの再構成された信号を窓処理した信号である第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第ｉフレームを前記音声信号デコードステップによって復号することで得られる、前記第１信号に窓処理を行った信号と、前記第ｉ－１フレームを前記低遅延逆フィルタバンク処理及び窓処理した信号の前記第ｉ－３フレームに対応する部分である第３信号のフレームの前半部分の信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する、または
　（２）
　前記第２信号のフレームの前半部分に相当する信号に、前記第２信号のフレームの後半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に畳み込み処理及び窓処理を行った信号と、前記第３信号のフレームの前半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの前半部分に対応する信号を生成し、
　前記第２信号のフレームの後半部分に相当する信号に、前記第２信号のフレームの前半部分に相当する信号を畳み込み処理した信号を加算して窓処理を行った信号と、前記第１信号に窓処理を行った信号と、前記第３信号のフレームの後半部分に相当する信号と、を加算する処理を行って符号化前の前記第ｉ－１フレームの後半部分に対応する信号を生成する
　音信号復号方法。
　音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する判断ステップと、
　低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコードステップと、
　前記フレームの線形予測係数を算出することによって当該フレームを符号化する音声信号エンコードステップと、
　前記判断ステップにおいて前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコードステップによって符号化し、前記判断ステップにおいて前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコードステップによって符号化する制御を行う制御ステップとを含み、
　前記制御ステップでは、
　（１）前記符号化対象フレームが、前記判断ステップにおいて前記音声信号であると判断したフレームである第ｉ－１フレームの１フレーム後のフレームであって、前記判断ステップにおいて前記音響信号であると判断したフレームである第ｉフレームであるとき、
　前記第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコードステップによって符号化する、または
　（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコードステップによって符号化する
　音信号符号化方法。
　音信号の音響特性を分析し、前記音信号に含まれるフレームが音響信号であるか音声信号であるかを判断する判断ステップと、
　低遅延フィルタバンクを用いて前記フレームを符号化する低遅延変換エンコードステップと、
　前記フレームの線形予測係数の残差をＭＤＣＴ処理したＴＣＸ方式によって前記フレームを符号化するＴＣＸエンコードステップと、
　前記判断ステップにおいて前記音響信号であると判断した符号化対象フレームを前記低遅延変換エンコードステップによって符号化し、前記判断ステップにおいて前記音声信号であると判断した前記符号化対象フレームを前記音声信号エンコードステップによって符号化する制御を行う制御ステップとを含み、
　前記制御ステップでは、
　前記符号化対象フレームである第ｉフレームが、前記判断ステップにおいて前記音響信号であり、なおかつエネルギーが急激に変化する過渡信号であると判断したフレームであるとき、
　（１）前記第ｉフレームの１フレーム前のフレームである第ｉ－１フレームの前半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの後半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコードステップによって符号化する、または
　（２）前記第ｉ－１フレームの後半部分に相当する信号を窓処理した信号に前記第ｉ－１フレームの前半部分に相当する信号を窓処理して畳み込み処理した信号を加算した信号と、前記第ｉフレームとを前記音声信号エンコードステップによって符号化する
　音信号符号化方法。