JP4476355B2 - Echo and noise cancellation - Google Patents
Echo and noise cancellation Download PDFInfo
- Publication number
- JP4476355B2 JP4476355B2 JP2009509908A JP2009509908A JP4476355B2 JP 4476355 B2 JP4476355 B2 JP 4476355B2 JP 2009509908 A JP2009509908 A JP 2009509908A JP 2009509908 A JP2009509908 A JP 2009509908A JP 4476355 B2 JP4476355 B2 JP 4476355B2
- Authority
- JP
- Japan
- Prior art keywords
- echo
- signal
- output
- filter
- adaptive filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003044 adaptive effect Effects 0.000 claims description 95
- 238000000034 method Methods 0.000 claims description 54
- 238000001914 filtration Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 17
- 230000000295 complement effect Effects 0.000 claims description 14
- 238000010219 correlation analysis Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000006978 adaptation Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241000699670 Mus sp. Species 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
[優先権の主張]
本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献1の恩恵を主張し、その開示内容全体をここに援用する。本出願は、本出願と譲受人が共通であって本出願と同時に係属する特許文献2の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献3の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献4の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献5の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献6の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献7の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献8の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献9の恩恵を主張し、その開示内容全体をここに援用する。本出願はまた、本出願と譲受人が共通であって本出願と同時に係属する特許文献10の恩恵を主張し、その開示内容全体をここに援用する。
This application claims the benefit of
[本発明の技術分野]
本発明は、音響信号処理に関し、とくに、音響信号処理におけるエコーおよびキャンセリングに関する。
[Technical Field of the Invention]
The present invention relates to acoustic signal processing, and more particularly to echo and canceling in acoustic signal processing.
インタラクティブテレビゲームコントローラなどのような多くの携帯電子装置は、双方向音響信号を扱うことができる。このような装置は、典型的にはその装置のユーザからのローカルスピーチ信号s(t)を受けるマイクロフォンと、ユーザが聞くことができるスピーカ信号x(t)を発信するスピーカとを備える。テレビゲームコントローラをより小型化するために、マイクロフォンとスピーカは、比較的近く(例えば20cm以内など)に設置することが望ましい。これに対してユーザは、マイクロフォンからより離れたところ(例えば3メートルから5メートルなど)に位置するかもしれない。マイクロフォンはローカルスピーチ信号s(t)とスピーカエコー信号x1(t)との両方を含む信号d(t)を生成する。これに加えて、マイクロフォンはバックグランドノイズn(t)を受けるかもしれない。そのため、全体のマイクロフォン信号は、d(t)=s(t)+x1(t)+n(t)となる。比較的スピーカの近傍にあるため、マイクロフォン信号d(t)は、スピーカエコー信号x1(t)によって、占められるかもしれない。 Many portable electronic devices, such as interactive video game controllers, can handle bidirectional acoustic signals. Such devices typically include a microphone that receives a local speech signal s (t) from a user of the device and a speaker that emits a speaker signal x (t) that the user can hear. In order to further reduce the size of the video game controller, it is desirable to install the microphone and the speaker relatively close to each other (for example, within 20 cm). In contrast, the user may be located further away from the microphone (eg, 3 to 5 meters). The microphone generates a signal d (t) that includes both the local speech signal s (t) and the speaker echo signal x 1 (t). In addition to this, the microphone may experience background noise n (t). Therefore, the entire microphone signal is d (t) = s (t) + x 1 (t) + n (t). Because it is relatively near the speaker, the microphone signal d (t) may be occupied by the speaker echo signal x 1 (t).
電気通信の応用例において、スピーカエコーは広くみられる現象であり、エコーサプレッションとエコーキャンセレーションは比較的成熟した手法である。エコーサプレッサは、回線において1方向に向かう音声信号の存在を検出した場合に作動し、他の方向に大きな損失を挿入する。通常、回線の遠端にあるエコーサプレッサが回線の近端からの音声を検出した場合に、そのエコーサプレッサがこの損失を加える。この加えられた損失により、スピーカ信号x(t)が、ローカルスピーチ信号d(t)へと再送出されることを阻止することができる。 Speaker echo is a common phenomenon in telecommunications applications, and echo suppression and echo cancellation are relatively mature techniques. The echo suppressor operates when it detects the presence of a voice signal going in one direction on the line and inserts a large loss in the other direction. Normally, when an echo suppressor at the far end of the line detects voice from the near end of the line, the echo suppressor adds this loss. This added loss can prevent the speaker signal x (t) from being retransmitted into the local speech signal d (t).
エコーサプレッションは効果的ではあるが、多くの場合、いくつかの問題につながる。例えば、ローカルスピーチ信号s(t)とリモートスピーカ信号x(t)は、少なくとも短時間に限れば、同時に生ずることがよくある。この状況はダブルトークとも呼ばれる。リモートスピーカ信号のみが存在するような状況は、リモートシングルトークとも呼ばれる。各エコーサプレッサが回路の遠端(far-end)からの音声エネルギを検出するため、その結果、通常、同時に双方向に損失が挿入されることとなり、両側の通話がブロックされる。これを防止するため、エコーサプレッサを、近端のスピーカからの音声アクティビティのみを検出するように設定することができる。これにより、近端話者と遠端話者が同時に話しているときには、損失が挿入されなくなる(または、より小さい損失のみ挿入される)。残念ながら、これは、当初のエコーサプレッサの効果まで、一時的にうち消してしまう。 While echo suppression is effective, it often leads to several problems. For example, the local speech signal s (t) and the remote speaker signal x (t) are often generated at least at the same time. This situation is also called double talk. The situation where only the remote speaker signal exists is also called remote single talk. Since each echo suppressor detects voice energy from the far-end of the circuit, this usually results in loss being inserted in both directions at the same time, blocking both-side calls. To prevent this, the echo suppressor can be set to detect only voice activity from the near-end speaker. This ensures that no loss is inserted (or only a smaller loss is inserted) when the near-end speaker and the far-end speaker are speaking at the same time. Unfortunately, this temporarily disappears until the original echo suppressor effect.
さらに、エコーサプレッサは、交互に、損失を挿入し、除去するため、新たな話者が話し始めたときにしばしば小さな遅延が生じ、その話者のスピーチの初めの方の音がクリッピングされてしまう。さらに、遠端の相手方の周囲がうるさいときには、遠端話者が話しているときには、近端話者にそのバックグラウンド音が聞こえるが、近端話者が話し始めるとエコーサプレッサがそのバックグラウンド音を抑制する。これにより、バックグラウンド音が突然無くなるため、近端のユーザは回線が切れたかのような印象を受けることになる。 In addition, the echo suppressor alternately inserts and removes losses, so there is often a small delay when a new speaker begins speaking, and the sound at the beginning of the speaker's speech is clipped. . In addition, when the far-end party is noisy, when the far-end speaker is speaking, the near-end speaker can hear the background sound, but when the near-end speaker starts speaking, the echo suppressor Suppress. As a result, the background sound suddenly disappears, so that the user at the near end receives the impression that the line is disconnected.
上述の問題に対処するため、エコーキャンセレーション手法が開発された。エコーキャンセレーションは、アナログまたはデジタルフィルタを用いて、望ましくないノイズやエコーを入力信号から取り除き、フィルタリング処理された信号e(t)を生成する。エコーキャンセレーションにおいては、スピーチモデルを計算するために複雑なアルゴリズム手順が用いられる。この手順は、マイクロフォン信号d(t)と、リモート信号x(t)の一部を、エコーキャンセレーションプロセッサに入力するステップと、スピーカエコー信号x1(t)を予測するステップと、そしてこれをマイクロフォン信号d(t)から差し引ステップとを含む。エコー予測方式は、適用(adaptation)として知られるプロセスにおいて、エコーキャンセレーションプロセッサにより学習されなければならない。 An echo cancellation technique has been developed to address the above problems. Echo cancellation uses an analog or digital filter to remove unwanted noise and echo from the input signal and produces a filtered signal e (t). In echo cancellation, complex algorithm procedures are used to calculate the speech model. The procedure includes inputting a microphone signal d (t) and a portion of a remote signal x (t) into an echo cancellation processor, predicting a speaker echo signal x 1 (t), and Subtracting from the microphone signal d (t). Echo prediction schemes must be learned by an echo cancellation processor in a process known as adaptation.
このような手法の効果は、エコー抑制比(ESR:echo supression ratio)によって測定される。これは単に、マイクロフォンが受ける真のエコーエネルギと、フィルタリング処理された信号x1(t)に残る残余エコーエネルギとの比である(典型的にはデシベルで表される)。国際電気通信ユニオン(ITC)が定めた基準によると、リモートシングルトークの場合、エコーレベルについて、少なくとも45デシベルの減衰が必要である。ダブルトークの最中(または強いバックグラウンドノイズの最中)には、この減衰レベルは30デシベルまで低くなってもよい。しかしながら、これらの推奨基準は、ローカルスピーチ信号を発生するユーザが、マイクロフォンに、より近いようなシステムにおいて開発されたものである。したがって録音されたSN比(ターゲット音声エネルギのエコーノイズエネルギに対する比)は、大抵、5デシベルよりも良い。例えばテレビゲームコントローラのような、ユーザが3メートルから5メートルも離れており、オープンマイクロフォンから0.5メートルよりも近傍にあるラウドスピーカが大きなエコーを発生するようなアプリケーションにおいては、これらの推奨基準はあてはまらない。このようなアプリケーションにおいては、SN比は−15デシベルから−30デシベル未満であろう。リモートシングルトークにおいては60デシベル以上のESR、ダブルトークについては35デシベル以上ESRが要求されるかもしれない。現存のエコーキャンセレーション手法ではこのような高いESRレベルを達成することができない。 The effect of such a technique is measured by an echo suppression ratio (ESR). This is simply the ratio of the true echo energy received by the microphone to the residual echo energy remaining in the filtered signal x 1 (t) (typically expressed in decibels). According to the standards established by the International Telecommunications Union (ITC), for remote single talk, an attenuation of at least 45 decibels is required for the echo level. During double talk (or during strong background noise), this attenuation level may be as low as 30 dB. However, these recommended criteria were developed in a system where the user generating the local speech signal is closer to the microphone. Thus, the recorded signal-to-noise ratio (ratio of target speech energy to echo noise energy) is often better than 5 decibels. For applications where the user is 3 to 5 meters away, such as a video game controller, and a loudspeaker that is closer than 0.5 meters from the open microphone produces a large echo, these recommended criteria Does not apply. In such an application, the signal-to-noise ratio will be from -15 dB to less than -30 dB. Remote single talk may require an ESR of 60 dB or more, and double talk may require an ESR of 35 dB or more. Existing echo cancellation techniques cannot achieve such high ESR levels.
したがって、当該技術分野においては前述の不利な点を克服するエコーキャンセレーションシステムおよび方法が必要とされている。 Accordingly, there is a need in the art for an echo cancellation system and method that overcomes the aforementioned disadvantages.
[発明の概要]
前述の不利な点を克服するため、本発明の実施形態は、スピーカとマイクロフォンを有するシステムにおけるエコーキャンセレーション方法および装置に照準を合わせる。スピーカはスピーカ信号x(t)を受信する。マイクロフォンは、ローカル信号s(t)とエコー信号x1(t)を含むマイクロフォン信号d(t)を受け取る。エコー信号x1(t)は、スピーカ信号x(t)に依存する。マイクロフォン信号d(t)は、互いに相補的なエコーキャンセレーション特性を有する第1適応フィルタ、および第2適応フィルタによって、パラレルにフィルタリング処理される。最小エコー出力e3(t)は、第1適応フィルタからの出力e1(t)と、第2適応フィルタからの出力e2(t)か決定される。最小エコー出力のエネルギはより小さく、最小エコー出力とスピーカ信号x(t)との間の相関はより小さい。そして、マイクロフォン出力が、最小エコー出力e3(t)を用いて生成される。オプションとして、残差エコーキャンセレーション、かつ/または、ノイズキャンセレーションが、最小エコー出力に適用されてもよい。
[Summary of Invention]
To overcome the aforementioned disadvantages, embodiments of the present invention are aimed at echo cancellation methods and apparatus in a system having a speaker and a microphone. The speaker receives a speaker signal x (t). The microphone receives a microphone signal d (t) that includes a local signal s (t) and an echo signal x 1 (t). The echo signal x 1 (t) depends on the speaker signal x (t). The microphone signal d (t) is filtered in parallel by a first adaptive filter and a second adaptive filter having mutually complementary echo cancellation characteristics. The minimum echo output e 3 (t) is determined as the output e 1 (t) from the first adaptive filter and the output e 2 (t) from the second adaptive filter. The energy of the minimum echo output is smaller and the correlation between the minimum echo output and the speaker signal x (t) is smaller. A microphone output is then generated using the minimum echo output e 3 (t). Optionally, residual echo cancellation and / or noise cancellation may be applied to the minimum echo output.
[具体的な実施形態の説明]
以下の詳細な説明は、説明の目的のため、具体的な細部を含むが、本発明の範囲内において、後述の細部について多くの変形や変更が可能であることは、当該技術分野において通常の知識を有する者に理解されるところである。したがって、以下に記述される本発明の実施例の説明により、特許請求の範囲に記載されている発明が一般性を失うことなく、また、以下の説明は、特許請求の範囲に記載されている発明について制限を課すものではない。
[Description of Specific Embodiment]
The following detailed description includes specific details for purposes of explanation, but it is common in the art that many variations and modifications of the details described below are possible within the scope of the invention. It will be understood by those who have knowledge. Accordingly, the description of the embodiments of the present invention described below does not lose the generality of the invention described in the claims, and the following description is described in the claims. It does not impose any restrictions on the invention.
本発明の実施形態によると、機能的に同一である二つのフィルタを有する一体型のエコーおよびノイズキャンセラの新しい構成が提案される。これらのフィルタは、直交制御と表現(orthogonal controls and representations)を伴う。このような構成においては、雑音のあるハンドフリー音声通信において、システム全体のロバスト性(robustness)を引き上げるように、二つの直交フィルタは互いに補完し合う。 According to an embodiment of the invention, a new configuration of an integrated echo and noise canceller with two functionally identical filters is proposed. These filters involve orthogonal control and representations (orthogonal controls and representations). In such a configuration, the two orthogonal filters complement each other so as to increase the robustness of the entire system in noisy hands-free voice communication.
特に、一体型のエコーノイズキャンセラは、別個に制御される二つのサブシステムを並行に用いる。これらのサブシステムはそれぞれ、直行制御メカニズムを伴う。エコーノイズキャンセラは、フロント・エコーキャンセラと、バックアップ・エコーキャンセラとを含む。フロント・エコーキャンセラは、ダブルトーク検出を用いる。ローカル音声に対して確実にロバストであるようにするために、フロント・エコーキャンセラは、保守的な適応アプローチをとりながらも、提供するエコーサプレッションはより小さく、スピーチ、エコーの変化への適応は遅い。バックアップ・エコーキャンセラは、相互相関を用いて、エラー信号とエコー信号との間の類似性を測定する。バックアップ・エコーキャンセラは、フィルタが迅速に更新されるように、積極的な戦略をとる。バックアップ・エコーキャンセラは、大きなエコーサプレッションを提供しながらも、過剰に適応してしまう可能性があるため、ローカル音声/ノイズに対して不安定である。これらの二つのエコーキャンセラの出力の統合は、どちらのエコーキャンセラとエコー信号との差が大きいかを測定する相互相関解析に基づいて実行される。この統合においてはまた、両方のエコーキャンセラのフィルタ安定性がチェックされる。一のフィルタが過大予測または過小予測されている場合、そのフィルタは他方のフィルタによって補完される。このようなシステムは、いかなるときでも確実に一のフィルタが正しく動作するように設計される。 In particular, the integrated echo noise canceller uses two subsystems that are controlled separately in parallel. Each of these subsystems has a direct control mechanism. The echo noise canceller includes a front echo canceller and a backup echo canceller. The front echo canceller uses double talk detection. To ensure robustness to local speech, the front echo canceller takes a conservative adaptation approach but offers smaller echo suppression and slower adaptation to speech and echo changes . The backup echo canceller uses cross-correlation to measure the similarity between the error signal and the echo signal. The backup echo canceller takes an aggressive strategy so that the filter is updated quickly. Backup echo cancellers are unstable to local speech / noise because they may over-adapt while providing large echo suppression. Integration of the outputs of these two echo cancellers is performed based on a cross-correlation analysis that measures which echo canceller and the difference between the echo signals are large. This integration also checks the filter stability of both echo cancellers. If one filter is over-predicted or under-predicted, it is complemented by the other filter. Such a system is designed to ensure that one filter operates correctly at any time.
本システムはオプションで、同様のアプローチをとるエコー残差ノイズ予測部を含んでもよい。エコー残差ノイズ予測部は、直行制御を伴う二つの独立なサブ予測部を並行に用いる。第1予測部は、ロバストなダブルトーク検出部に依存するエコー距離ミスマッチ(echo−distance−mismatch)に基づく。第1予測部は、比較的正確でありながら、ダブルトーク検出エラーのために不安定である。第2予測部は相互スペクトル解析(cross−spectrum−analysis)に基づく。第2予測部の予測にはバイアスがかかっているが安定であり、ローカル音声検出に依存せず、一貫性がある。これらの二つの残差エコーの予測の統合においては、遠端通話のみの場合、またはダブルトークの場合にそれぞれ、最小/最大アプローチがとられる。 The system may optionally include an echo residual noise predictor that takes a similar approach. The echo residual noise prediction unit uses two independent sub prediction units with direct control in parallel. The first prediction unit is based on an echo-distance-missmatch that relies on a robust double-talk detection unit. The first predictor is relatively accurate but unstable due to double-talk detection errors. The second predictor is based on cross-spectrum-analysis. The prediction of the second predictor is biased but stable, independent of local speech detection and consistent. In integrating these two residual echo predictions, a min / max approach is taken for far-end calls only or double-talk, respectively.
図1Aは、本発明の一実施形態にかかるエコーキャンセレーション装置100を用いたオーディオシステム99を示す図である。装置100の動作は、図2Aに示される方法200のフローチャート、および図2Bに示される方法220を参照することによって理解されるであろう。オーディオシステム99は一般的に、リモート信号x(t)を受け取るスピーカ102とマイクロフォン104とを含む。ローカル音源101は、ローカルスピーチ信号s(t)を発する。マイクロフォン104は、ローカルスピーチ信号s(t)と、スピーカ信号x(t)に関連するエコー信号x1(t)の両方を受け取る。マイクロフォン104はまた、マイクロフォン104が位置する環境から発生するノイズn(t)をも受け取る。そして、マイクロフォン104は、マイクロフォン信号d(t)を生成する。マイクロフォン信号d(t)は、d(t)=s(t)+x1(t)+n(t)によって与えられるだろう。
FIG. 1A is a diagram showing an
エコーキャンセレーション装置100は、一般的に、第1適応エコーキャンセレーションフィルタEC(1)と第2適応エコーキャンセレーションフィルタEC(2)とを含む。それぞれの適応フィルタは、マイクロフォン信号d(t)とスピーカ信号x(t)とを受け取る。図2A−2Bに示されるように、フィルタEC(1)はステップ202に示されるようにマイクロフォン信号d(t)を適応フィルタリング処理し、フィルタEC(2)は、ステップ204に示されるように、第1フィルタEC(1)と並行してマイクロフォン信号d(t)を適応フィルタリング処理する。ここで用いられているように、フィルタが「並行にオペレーションする」とは、実質的に同じ入力d(t)を受け取ることをいう。並行オペレーションは、一のフィルタの出力が、他方のフィルタの入力となるシリアルオペレーションとは、区別される。二つのフィルタEC(1)、EC(2)の状態によって、一のフィルタが、主要な「フロント」フィルタの役目を果たし、他方のフィルタが「バックアップ」フィルタの役目を果たす。一のフィルタは、エコーキャンセレーションに対して慎重なアプローチをとる一方、他方のフィルタはより積極的なアプローチをとる。
The echo cancellation apparatus 100 generally includes a first adaptive echo cancellation filter EC (1) and a second adaptive echo cancellation filter EC (2). Each adaptive filter receives a microphone signal d (t) and a speaker signal x (t). 2A-2B, filter EC (1) adaptively filters the microphone signal d (t) as shown in
フィルタEC(1)、EC(2)の状態は、以下の信号モデルに関連して理解されるであろう。
y(t)=x(t)*h(n)
d(t)=y0(t)+s(t)
e(t)=d(t)−y(t)
ここで、y(t)は、エコーキャンセラフィルタによって合成されたエコーである。
x(t)は、ラウドスピーカにおいてプレイするエコーである。
h(n)は、エコーキャンセラフィルタの適応フィルタ関数である。
d(t)は、マイクロフォンが受けた雑音の多い信号である。
y0(t)は、マイクロフォンにおいて現れる、真のエコーである。
s(t)は、ローカル音声である。
そして、e(t)は、エコーキャンセラフィルタによって生成されたエコーキャンセル済み残差信号である。
The state of the filters EC (1), EC (2) will be understood in connection with the following signal model.
y (t) = x (t) * h (n)
d (t) = y 0 (t) + s (t)
e (t) = d (t) -y (t)
Here, y (t) is an echo synthesized by the echo canceller filter.
x (t) is an echo played in the loudspeaker.
h (n) is an adaptive filter function of the echo canceller filter.
d (t) is a noisy signal received by the microphone.
y 0 (t) is the true echo that appears at the microphone.
s (t) is local voice.
E (t) is an echo-cancelled residual signal generated by the echo canceller filter.
二つのフィルタEC(1)、EC(2)は、相補的なエコーキャンセレーション特質を有する。ここで用いられるように、「相補的エコーキャンセレーションを有する」とは、同じ入力を受け取る二つの適応フィルタにおいて、一のフィルタが入力にうまく適応していないときに、他方のフィルタが入力にうまく適応しているような場合をいう。本アプリケーションの文脈において、フィルタ関数h(n)が、「うまく適応している」とは、そのフィルタ関数h(n)が安定であり、真のエコーパスフィルタ(echo−path−filter)に収束しており、過大予測でもなく過小予測でもないときをいう。 The two filters EC (1), EC (2) have complementary echo cancellation characteristics. As used herein, “having complementary echo cancellation” means that in two adaptive filters that receive the same input, when one filter is not well adapted to the input, the other filter is The case where it is adapted. In the context of this application, the filter function h (n) is “adapted well” that the filter function h (n) is stable and converges to a true echo-path filter. This is when it is neither an overestimation nor underestimation.
h(n)が真のエコーパスフィルタに収束している(y(t)〜=y0(t))場合、すなわち、予測されたエコーが真のエコーと近似的に等しい場合、コヒーレンス関数αを用いて、エコーキャンセラフィルタEC(1)、EC(2)の状態が定量化されるだろう。αは、y(t)とe(t)の間の相互相関に関連し、式1が成り立つ。
(式1)
ここで”E”は、統計的期待値である。
式2に示す演算子は、相互相関演算を表す。
(式2)
離散的な関数fiとgiについて、相互相関は式3で定義される。
(式3)
ここで、和は適切な値の整数jについてとられており、アスタリスクは、複数共役を表す。連続関数f(x)とg(x)について、相互相関は式4で定義される。
(式4)
ここで積分は適切なtの値についてとられる。
If h (n) has converged to a true echo path filter (y (t) ˜ = y 0 (t)), that is, if the predicted echo is approximately equal to the true echo, the coherence function α , The state of the echo canceller filters EC (1), EC (2) will be quantified. α is related to the cross-correlation between y (t) and e (t), and
(Formula 1)
Here, “E” is a statistical expectation value.
The operator shown in
(Formula 2)
For the discrete functions f i and g i , the cross-correlation is defined by Equation 3.
(Formula 3)
Here, the sum is taken for an integer j of an appropriate value, and the asterisk represents a plurality of conjugates. For continuous functions f (x) and g (x), the cross-correlation is defined by Equation 4.
(Formula 4)
Here, the integral is taken for the appropriate value of t.
コヒーレンス関数αにおいて、分子は、e(t)とy(t)の相互相関を表す。分母は、y(t)の自己相関を表し、正規化項の役目を果たす。 In the coherence function α, the numerator represents the cross-correlation between e (t) and y (t). The denominator represents the autocorrelation of y (t) and serves as a normalization term.
理想的には、h(n)が収束するならば、αは「0」に近いはずである(残差信号e(t)はy(t)を含まないからである)。h(n)が収束しないならば、αは「1」に近いはずである(e(t)はy(t)の強いエコーを含むからである)。h(n)がおかしな挙動をし、または発散するならば、αは負であるはずである(フィルタの発散のため、e(t)は、位相が180度シフトした強いエコーを含むからである)。 Ideally, if h (n) converges, α should be close to “0” (since the residual signal e (t) does not include y (t)). If h (n) does not converge, α should be close to “1” (since e (t) contains a strong echo of y (t)). If h (n) behaves strangely or diverges, α should be negative (because of the divergence of the filter, e (t) contains a strong echo whose phase is shifted by 180 degrees. ).
したがって、例えば、コヒーレンス関数αの値は、フィルタEC(1)、EC(2)の状態について、四つの可能な状態を定義するために用いられてもよい。ただしこれに制限されるものではない。
(1)フィルタh(n)が安定であり、収束し、過大予測でも過小予測でもない場合には、0<=α<=0.1
(2)フィルタh(n)が安定ではあるが、過小予測されているときには(まだ収束していない)α>0.2
(3)フィルタh(n)が過大予測されているときは、α<−0.1
(4)フィルタh(n)が発散するときには、α<−0.25
これらの異なる状態について、異なるαの値の範囲が決定されうることは当業者には理解されるであろう。
Thus, for example, the value of the coherence function α may be used to define four possible states for the states of the filters EC (1), EC (2). However, it is not limited to this.
(1) If the filter h (n) is stable and converges and is neither overpredicted nor underpredicted, then 0 <= α <= 0.1
(2) When the filter h (n) is stable but underestimated (not yet converged) α> 0.2
(3) When the filter h (n) is overestimated, α <−0.1
(4) When the filter h (n) diverges, α <−0.25.
One skilled in the art will appreciate that for these different states, different α value ranges can be determined.
フィルタの状態がよいならば(例えば状態(1))、その後に発散したときのリカバリのために、その設定が保存されてもよい。フィルタが発散し、または過小予測され、または過大予測されている場合には、フロントおよびバックアップ・エコーキャンセラはその役割を交換する。フロントフィルタがバックアップとなる一方、バックアップフィルタがフロントフィルタの役割を担う。一のフィルタが慎重な適応アプローチをとり、他方が積極的な適応アプローチをとるため、この交換により、最終的には、両方のフィルタがより早く収束し、よりダイナミックに安定する。 If the filter is in good condition (e.g., state (1)), the setting may be saved for recovery when it subsequently diverges. If the filter is diverging, underestimated, or overpredicted, the front and backup echo cancellers exchange their roles. While the front filter serves as a backup, the backup filter serves as a front filter. Since one filter takes a careful adaptive approach and the other takes a positive adaptive approach, this exchange eventually causes both filters to converge faster and more dynamically stable.
さらにフィルタが過小予測または過大予測されている場合、より早い収束、またはトラッキングのよりよい安定のために、適応スピードを加速させ、または減速させるように、適応ステップサイズが小さなデルタ値で増加または減少されてもよい。通常、収束を速くするためにはより大きなステップサイズが必要である。これにより、細部に関するよいトラッキングは犠牲となり、エコーサプレッション比ESRは、低くなる。小さなステップサイズを用いてよりゆっくりと収束させる場合は、より安定的であり、わずかな変化もトラックする機能を有するが、エコーディスロケーションを速くトラッキングするには適さない。 In addition, if the filter is under-predicted or over-predicted, the adaptation step size will increase or decrease with a small delta value to accelerate or decelerate the adaptation speed for faster convergence or better tracking stability. May be. Usually, a larger step size is required for faster convergence. This sacrifices good tracking of details and lowers the echo suppression ratio ESR. Converging more slowly with a small step size is more stable and has the ability to track even small changes, but is not suitable for tracking echo dislocation fast.
動的なステップサイズと、フロント/バックアップでのフィルタ交換を組み合わせることにより、速いトラッキング対詳細なトラッキング、安定性対収束の観点において、システム全体のバランスが良くなる。この二つが、適応システム設計において本当に重要な双子の課題である。 The combination of dynamic step size and front / backup filter exchange improves the overall balance of the system in terms of fast tracking versus detailed tracking and stability versus convergence. These are the twin issues that are really important in adaptive system design.
フィルタの一が発散した場合において、他方のフィルタがよい状態にあるならば、発散したフィルタを再初期化するために、その他方のフィルタの設定が複製されてもよい。別の方法では、発散したフィルタは、以前に保存された、よい状態のフィルタ設定を用いて復旧されて(recovered)もよい。 If one filter diverges and the other filter is in good condition, the settings of the other filter may be replicated to reinitialize the divergence filter. Alternatively, the diverged filter may be recovered using a previously saved, good state filter setting.
例えば、エコーキャンセリング適応フィルタEC(1)とEC(2)は、周波数領域正規化最小二乗適応フィルタに基づいてもよい。ただし、これに制限されるものではない。各フィルタは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせとして実装されうる。 For example, the echo canceling adaptive filters EC (1) and EC (2) may be based on a frequency domain normalized least squares adaptive filter. However, it is not limited to this. Each filter may be implemented as hardware, software, or a combination of hardware and software.
図1Bと図1Cは、適切な相補適応フィルタの例を示す。具体的には、図1Bは、音声アクティビティ検出を伴う適応エコーキャンセレーションフィルタ120を示す。フィルタ120は、第1適応フィルタEC(1)として用いることができる。フィルタ120は、フィルタ係数wtによって特徴付けられる有限インパルス応答(FIR)フィルタを有する可変フィルタ122を含む。可変フィルタ122は、マイクロフォン信号d(t)を受け取り、フィルタ係数wtの値に従ってフィルタリング処理し、フィルタリング処理された信号d’(t)を生成する。可変フィルタ124は、入力信号を、係数wt1によって決定されるインパルス応答で畳み込むことにより、望ましい信号を予測する。各フィルタ係数wt1は、更新アルゴリズム124にしたがって、量Δwtの規則的な間隔で更新される。一例として、フィルタ信号d’(t)が、望ましい信号としてスピーカエコー信号x1(t)を予測しようと試みるように、フィルタ係数wtが選択されてもよい。差分ユニット126は、マイクロフォン信号d(t)からフィルタリング処理された信号d’(t)を差し引いて、予測信号e1(t)を供給する。予測信号e1(t)は、ローカルスピーチ信号s(t)を予測する。フィルタリング処理された信号d’(t)をリモート信号x(t)から差し引いて、誤差信号e(t)を生成してもよい。誤差信号e(t)は、更新アルゴリズム124によってフィルタ係数wtを調整するために用いられる。適応アルゴリズム124は、リモート信号x(t)と誤差信号に基づいて、補正因子(correction factor)を生成する。係数更新アルゴリズムの例には、最小2乗法(LMS)と再帰最小2乗法(RLS: recursive least squares)が含まれる。LMS更新アルゴリズムにおいては、例えば、フィルタ係数は、式wt1+1=wt1+μe(t)x(t)に基づいて更新される。ここで、μはステップサイズである。初めは、すべてのwt1について、wt1=0である。この例において、量μe(t)x(t)は、量Δwtであることに注意されたい。上述のように、ステップサイズμは、適応フィルタの状態によって、動的に調整されてもよい。具体的には、フィルタが過小予測されている場合には、早く収束するように適応スピードを加速するために、ステップサイズμを、小さなデルタ量増加させてもよい。フィルタが過大予測されている場合には、この代わりに、トラッキングがよりよく安定するように適応スピードを減速させるために、適応ステップサイズμが、小さなデルタ量でそれぞれ引き下げられてもよい。
1B and 1C show examples of suitable complementary adaptive filters. Specifically, FIG. 1B shows an adaptive
時間領域表現e(t)x(t)は、乗算である。この計算は、以下のように周波数領域において実装されてもよい。初めに、e(t)、x(t)、およびh(n)は、時間領域から周波数領域に、例えば高速フーリエ変換(FFT)によって変換されてもよい。
E(k)=fft(e(t))
X(k)=fft(x(t))
H(k)=fft(h(n))
The time domain representation e (t) x (t) is a multiplication. This calculation may be implemented in the frequency domain as follows. Initially, e (t), x (t), and h (n) may be transformed from the time domain to the frequency domain, for example, by Fast Fourier Transform (FFT).
E (k) = fft (e (t))
X (k) = fft (x (t))
H (k) = fft (h (n))
実際の周波数領域におけるLMS更新アルゴリズムは、以下のようになる。
H(k)=H(k)+(μ*conj(X(k)).*E(k))/(Δ+X(k)*conj(X(k))
ここで、μはフィルタ適応ステップサイズであり、動的である。
conj(a)は、複素数aの複素共役を示す。
*は、複素乗算(complex multiplication)を示す。
そして、Δは、分母が数量的に不安定になるのを防ぐレギュレータ(regulator)である。
The LMS update algorithm in the actual frequency domain is as follows.
H (k) = H (k) + (μ * conj (X (k)). * E (k)) / (Δ + X (k) * conj (X (k))
Where μ is the filter adaptation step size and is dynamic.
conj (a) represents a complex conjugate of the complex number a.
* Indicates a complex multiplication.
Δ is a regulator that prevents the denominator from becoming quantitatively unstable.
上の方程式において、「conj(X(k)).*E(k)」は、「e(t)x(t)」タスクを実行する。分母において、「X(k)*conj(X(k))」は、安定性を高める目的で正規化する役割を果たす。 In the above equation, “conj (X (k)). * E (k)” performs the “e (t) x (t)” task. In the denominator, “X (k) * conj (X (k))” serves to normalize for the purpose of increasing stability.
音声アクティブ化された検出VADは、更新アルゴリズム124を調整して、リモート信号x(t)が存在するときに(例えば所定の閾値以上であるならば)、可変フィルタ122が、マイクロフォン信号d(t)のみを適応的にフィルタリング処理するようにしてもよい。図1Bに示される音声アクティブ化された検出(ダブルトーク検出と呼ばれることもある)を用いる適応フィルタは、比較的ゆっくりと適応するフィルタである。しかし、このフィルタはまた、擬陽性をほとんど生じないという点において、非常に正確である。フィルタ120に対する相補適応フィルタは、例えば、比較的早く適応するが、しばしば擬陽性を生じる傾向があるフィルタであるかもしれない。
The voice activated detection VAD adjusts the
一例として、図1Cは、図1Bのフィルタ120に対して相補的な適応フィルタ130を示す。適応フィルタ130は、フィルタ係数wt2と更新アルゴリズム134(例えば上述のLMS更新アルゴリズム)によって特徴づけられる可変フィルタを含む。フィルタ132は、スピーカエコー信号x1(t)を望ましい信号として予測しようと試みる。差分ユニット136は、フィルタリング処理された信号d’(t)をマイクロフォン信号d(t)から差し引いて、ローカルスピーチ信号s(t)を予測する予測信号e2(t)を提供する。フィルタリング処理された信号d’(t)をリモート信号x(t)から差し引いて、誤差信号e(t)を発生させてもよい。誤差信号e(t)はフィルタ係数wt2を調整するために更新アルゴリズム134によって用いられる。フィルタ130において相互相関解析CCAは、可変フィルタ132が、予測信号e2(t)とスピーカエコー信号x(t)との間の相互相関を低減させようとするように、更新アルゴリズム134を調整する。
As an example, FIG. 1C shows an
e2(t)とx(t)が非常に強く相関しているとき、フィルタリング処理は過小予測されているといわれ、更新アルゴリズム134は、Δwt2を増加させるように調整される。e2(t)とx(t)との間の相互相関が閾値未満であるとき、フィルタリング処理は過大予測されているといわれ、更新アルゴリズム134は、Δwt2を減少させるように調整される。
When e 2 (t) and x (t) are very strongly correlated, the filtering process is said to be underestimated and the
図1Cに示されるタイプの相互相関解析(クロススペクトラム解析ともいわれる)を用いる適応フィルタは、比較的速くフィルタを適応させる。しかし、このフィルタはまた、しばしば擬陽性を生じるという点において、不安定である。したがって、フィルタ120とフィルタ130は、相補フィルタの例となる。
An adaptive filter using the type of cross-correlation analysis (also referred to as cross-spectrum analysis) shown in FIG. 1C adapts the filter relatively quickly. However, this filter is also unstable in that it often produces false positives. Therefore, the
再び図1Aを参照する。インテグレータ106は、第1適応フィルタEC(1)と第2適応フィルタEC(2)に接続される。インテグレータ106は、第1および第2適応フィルタのそれぞれの出力e1(t)、e2(t)から、最小エコー出力e3(t)を決定するように構成されている。最小エコー出力e3(t)は、e1(t)とe2(t)のいずれかであり、エネルギがより小さく、スピーカ信号x(t)との相関がより小さい方である。e1(t)とe2(t)のうちの一方のエネルギの方がより小さいが、x(t)との相関は、他方がより小さい場合には、相関がより小さい方を最小エコー出力e3(t)として用いる。例えば、フィルタのうちの一が過大予測されている(すなわち目標音声をキャンセルしがちであるためにエネルギ出力が小さい)とき、エネルギにかかわらず相関が小さいほうがよい。最小エネルギは、E{e1(t)}とE{e2(t)}との最小値を決定することにより決定されてもよい。ここで、E{}はカッコ内の量の期待値を決定する演算を示す。再び図2A−2Bを参照する。ステップ206において、e1(t)とe2(t)のどちらがスピーカ信号x1(t)との相互相関が小さいか決定するために、e1(t)とe2(t)について相互相関解析が実行されてもよい。相互相関解析は、下記の式5と式6の最小値を決定するステップを含んでもよい。
(式5)
(式6)
ここで、式7の演算子
(式7)
は、例えば、上で定義されたように演算子の両側の量について、その間の相互相関をとる演算を表現する。最小エコー出力e3(t)は、マイクロフォン104のフィルタリング処理された出力として用いられてもよい。
Reference is again made to FIG. 1A. The integrator 106 is connected to the first adaptive filter EC (1) and the second adaptive filter EC (2). The integrator 106 is configured to determine the minimum echo output e 3 (t) from the respective outputs e 1 (t), e 2 (t) of the first and second adaptive filters. The minimum echo output e 3 (t) is either e 1 (t) or e 2 (t), and has the smaller energy and the smaller correlation with the speaker signal x (t). The energy of one of e 1 (t) and e 2 (t) is smaller, but when the correlation with x (t) is smaller, the smaller correlation is the smallest echo output. Used as e 3 (t). For example, when one of the filters is overestimated (ie, the energy output is small because the target speech tends to be canceled), the correlation should be small regardless of the energy. The minimum energy may be determined by determining the minimum value of E {e 1 (t)} and E {e 2 (t)}. Here, E {} represents an operation for determining the expected value of the quantity in parentheses. Reference is again made to FIGS. 2A-2B. In step 206, cross-correlation to either e 1 (t) and e 2 (t) to determine whether the cross-correlation is small between the
(Formula 5)
(Formula 6)
Here, the operator of Expression 7 (Expression 7)
Represents, for example, an operation that takes the cross-correlation between the quantities on both sides of the operator as defined above. The minimum echo output e 3 (t) may be used as the filtered output of the
いくつかの状況においては、フィルタEC(1)、EC(2)のうちの一が、ローカル信号を過度にフィルタリング処理するかもしれない。そのような状況においては、そのフィルタは「発散した」といわれる。これは、特にEC(2)が、例えば図1Cに示されるようなタイプの相互相関フィルタであるときに実際に起こりうる。この可能性に対処するために、ステップ208においてEC(2)が発散するかどうか、決定される。一例としてインテグレータ106は、第2適応エコーキャンセレーションフィルタが、過度にフィルタリング処理することにより、ローカル信号s(t)を除去していないか、決定するように構成されてもよい。これはe2(t)とスピーカエコー信号x1(t)との間の相互相関の期待値を調べることにより実行することができる。すなわち、式8で表される。
(式8)
典型的には、式9が成り立つ。
(式9)
しかしながら、式10が、ある閾値(例えば約0.2)未満であるときには、EC(2)が過度にフィルタリング処理することにより、ローカル信号s(t)が除去されている。
(式10)
このような状況において、インテグレータ106は、e1(t)を最小エコー出力e3(t)として選択してもよい。適応フィルタリング処理を安定させるために、ステップ212において、EC(2)のフィルタ係数wt2 が、EC(1)のフィルタ係数wt1 として設定されてもよい。そしてステップ215において、EC(2)は、0、または、以前のうまく適応したことが知られている状態に、再初期化されてもよい。例えば、フィルタ係数は、規則的な間隔で(例えば約10秒から20秒ごとに)保存されて、EC(2)が発散したときにこれを再初期化するために用いられてもよい。
In some situations, one of the filters EC (1), EC (2) may over-filter the local signal. In such a situation, the filter is said to be “divergent”. This can happen in particular when EC (2) is a cross-correlation filter of the type shown for example in FIG. 1C. To address this possibility, it is determined in
(Formula 8)
Typically, Equation 9 holds.
(Formula 9)
However, when Equation 10 is less than a certain threshold (eg, about 0.2), EC (2) is excessively filtered to remove the local signal s (t).
(Formula 10)
In such a situation, the integrator 106 may select e 1 (t) as the minimum echo output e 3 (t). To stabilize the adaptive filtering process, in
通常、相互相関フィルタが発散しないときに、そのフィルタはうまく適応していると言われる。EC(2)とEC(1)は相補的なフィルタリング特性を有するため、EC(2)がうまく適応しているとき、EC(1)は過小予測されていることになる。適応フィルタリング処理を安定化させるため、ステップ214に示されるように、第1適応フィルタEC(1)のフィルタ係数wt1が、第2適応フィルタEC(2)のフィルタ係数wt2と交換される。フィルタをソフトウェアに実装する際には、係数wt1、wt2は、メモリにおいてポインタによって特定される位置に格納されてもよい。係数wt1、wt2は、例えば、wt1およびwt2へのポインタを切り替えることによって、交換されてもよい。
Usually, when a cross-correlation filter does not diverge, it is said to be well adapted. Since EC (2) and EC (1) have complementary filtering characteristics, when EC (2) is well adapted, EC (1) will be underestimated. In order to stabilize the adaptive filtering process, the filter coefficient w t1 of the first adaptive filter EC (1) is exchanged with the filter coefficient w t2 of the second adaptive filter EC (2), as shown in
最小エコー出力e3(t)は、いくばくかの、スピーカ信号x(t)からの残差エコーxe(t)を含むかもしれない。装置100は、オプションで、インテグレータ106に接続された第1および第2エコー残差予測部ER(1)とER(2)、および、エコー残差予測部ER(1)とER(2)に接続された残差エコーキャンセレーションモジュール108を含んでもよい。
The minimum echo output e 3 (t) may include some residual echo xe (t) from the speaker signal x (t). The apparatus 100 is optionally connected to first and second echo residual prediction units ER (1) and ER (2) and echo residual prediction units ER (1) and ER (2) connected to the integrator 106. A connected residual
第1エコー残差予測部ER(1)は、最小エコー出力e3(t)とスピーカ信号x(t)との間の相互相関解析を含む第1残差エコー予測ER1(t)を生成するように構成されてもよい。図2Bのステップ222に示されるように、最小エコー出力e3(t)とスピーカ信号x(t)との間の相互相関解析から、例えば、式11の値を決定することにより、第1残差エコー予測ER1(t)が決定されてもよい。
(式11)
ここで、式11の値は、e3(t)が式12の相互相関の期待値を最小化するときに、真である。
(式12)
この最小化問題は、本質的に、適応により実現されるであろう。例えば、エコー残差予測部ER(1)が、初期状態においては単位フィルタ(すべて値”1”)であると仮定されたい。すべてのフレームにおいて、サーチサーフェス(search surphace)の接線方向(tangent direction)に向かうにつれて、第1残差エコー予測ER1(t)は、増加するかもしれない。これは、ニュートンソルバ(Newton solver)アルゴリズムによって実現されてもよい。第2残差エコー予測部ER(2)は、最小エコー出力e3(t)とスピーカ信号x(t)との間のエコー距離ミスマッチ(echo−distance mismatch)を含む第2残差エコー予測ER2(t)を決定するように構成されてもよい。図2Bのステップ224に示されるように、最小エコー出力e3(t)とスピーカ信号x(t)との間のエコー距離ミスマッチから、例えば、argmin(E{(e3(t))2/(x(t))2})を決定することにより、第2残差エコー予測ER2(t)が決定されてもよい。ここで、e3(t)が商(e3(t))2/(x(t))2の期待値を最小化するとき、argmin(E{(e3(t))2/(x(t))2})は真である。ここでも再び、最小化は、ニュートンソルバアルゴリズムを用いて実現されてもよい。
The first echo residual prediction unit ER (1) generates a first residual echo prediction ER 1 (t) including a cross-correlation analysis between the minimum echo output e 3 (t) and the speaker signal x (t). It may be configured to. As shown in
(Formula 11)
Here, the value of Equation 11 is true when e 3 (t) minimizes the expected cross-correlation value of Equation 12.
(Formula 12)
This minimization problem will essentially be realized by adaptation. For example, assume that the echo residual prediction unit ER (1) is a unit filter (all values “1”) in the initial state. In all frames, the first residual echo prediction ER 1 (t) may increase as it goes toward the tangent direction of the search surface. This may be realized by a Newton solver algorithm. The second residual echo prediction unit ER (2) includes a second residual echo prediction ER including an echo distance mismatch (echo-distance mismatch) between the minimum echo output e 3 (t) and the speaker signal x (t). 2 (t) may be determined. As shown in
残差エコーキャンセレーションモジュール108は、二つの残差エコー予測ER1(t)とER2(t)の最小残差エコー予測ER3(t)を決定して、その最小値ER3(t)に従ってフィルタリング処理された信号e3(t)を調整してもよい。一例として、最小残差エコー予測ER3(t)は、ER1(t)とER2(t)のうち、エネルギが最小であり、x(t)に対する相関が最小であるものであってもよい。例えば図2Bのステップ226に示されるように、ER1(t)とER2(t)のうちの最小値に設定され、ステップ228に示されるように、その結果であるER3の値がe3(t)から差しひかれて、残差エコーキャンセルフィルタリング処理された信号e3’(t)が生成される。ER3がER1(t)に等しいならば、残差エコーxe(t)は、ローカルスピーチ信号s(t)の強度が0でないときに、最小限に除去される。ER3(t)がER2(t)に等しいならば、残差エコーxe(t)は、遠端のエコーx(t)のみが存在するとき(遠端発話のみの期間)最大限に除去される。
The residual
一例として、2次のノルムN(1)とN(2)が、二つのエコー残差予測部ER(1)とER(2)のためにそれぞれ計算されてもよい。
N(1)=‖ER(1)‖
N(2)=‖ER(2)‖
As an example, second-order norms N (1) and N (2) may be calculated for the two echo residual prediction units ER (1) and ER (2), respectively.
N (1) = ‖ER (1) ‖
N (2) = ‖ER (2) ‖
ダブルトーク状況下においては、より小さいノルムを有するエコー残差予測部が、エコー残差ノイズを取り除くために、e3(t)に適用されてもよい。シングルトーク状況下においては、より大きいノルムを有するエコー残差予測部が、エコー残差ノイズを取り除くために、e3(t)に適用されてもよい。 Under double-talk situations, an echo residual prediction unit with a smaller norm may be applied to e 3 (t) to remove echo residual noise. Under a single talk situation, an echo residual predictor with a larger norm may be applied to e 3 (t) to remove echo residual noise.
エコーキャンセレーションにおいては、フィルタリング処理された信号e3(t)、または、残差エコーキャンセルフィルタリング処理された信号e3’(t)から、ノイズn(t)が除去されてもよい。ただし、このようなノイズキャンセレーションは、望ましくないかもしれない。なぜならば、信号e3(t)またはe3’(t)のリモート受信者は、ノイズがない状態を、マイクロフォン104からのすべての通信が失われた徴候であると解釈するかもしれないからである。この問題に対処するために、装置100はオプションで、ノイズキャンセラユニット110を含んでもよい。ノイズキャンセレーションモジュール110は、例えば図2A−2Bのステップ217に示されるように、マイクロフォン信号d(t)から予測ノイズ信号n’(t)を計算するように構成されてもよい。予測ノイズ信号n’(t)は、減衰係数αで減衰されて、低減されたノイズ信号n”(t)=αn’(t)を形成してもよい。減衰されたノイズ信号n”(t)は、図2Aのステップ218に示されるようにe3(t)に加算されることにより、または、図2Bのステップ230に示されるようにe3’(t)に加算されることにより、マイクロフォン出力信号s’(t)に組み込まれてもよい。
In the echo cancellation, noise n (t) may be removed from the filtered signal e 3 (t) or the residual echo cancellation filtered signal e 3 ′ (t). However, such noise cancellation may not be desirable. This is because the remote recipient of signal e 3 (t) or e 3 ′ (t) may interpret the noise-free condition as an indication that all communication from
本発明の実施形態においては、図1A−1Cに関連して説明された装置、および図2A−2Cに関連して説明された方法は、プログラマブルなプロセッサとメモリを有するシステム上のソフトウェアとして実装されてもよい。 In an embodiment of the invention, the apparatus described in connection with FIGS. 1A-1C and the method described in connection with FIGS. 2A-2C are implemented as software on a system having a programmable processor and memory. May be.
本発明の実施形態によると、図1および図2A−Bに関連して説明されたタイプの、前述のように動作する信号処理方法は、図3に示されるように、信号処理装置300の一部として実装されてもよい。システム300は、プロセッサ301とメモリ302(例えば、RAM、DRAM、ROMなど)を含んでもよい。信号処理装置300はさらに、並行処理が実装される場合には、複数のプロセッサ301を有してもよい。メモリ302は前述のように構成されたデータおよびコードを含む。具体的には、メモリ302には、プログラムコード304と信号データ306が格納されてもよい。コード304は、上述の、エコーキャンセリング適応フィルタEC(1)、ER(2)、インテグレータ106、エコー残差フィルタER(1)、ER(2)、残差エコーキャンセレーションモジュール108、ノイズキャンセラ110を実装してもよい。信号データ306は、マイクロフォン信号d(t)、かつ/または、スピーカ信号x(t)のデジタル表現を含んでもよい。
According to an embodiment of the present invention, a signal processing method of the type described in connection with FIGS. 1 and 2A-B and operating as described above is shown in FIG. It may be implemented as a part. The
装置300はまた、入出力(I/O)エレメント311、電源(P/S)312、クロック(CLK)313、キャッシュメモリ314といった、周知のサポート機能310を含んでもよい。装置300は、プログラム、かつ/または、データを格納するためのディスクドライブ、CD−ROMドライブ、テープドライブといった大容量記憶装置315をオプションで含んでもよい。コントローラは、また、オプションで、コントローラ300とユーザの間の対話を手助けするためのディスプレイユニット316と、ユーザインタフェイスユニット318を含んでもよい。ディスプレイユニット316は、ブラウン管型でもよく、またフラットパネルスクリーンでもよい。これらはテキスト、数値、グラフィックシンボル、画像を表示する。ユーザインタフェイス318は、キーボード、マウス、ジョイスティック、ライトペン(light pen)やそのほかの装置を含んでもよい。さらに、スピーカ322とマイクロフォン324は、入出力構成エレメント311を介してプロセッサ301に接続されていてもよい。プロセッサ301、メモリ302、そしてシステム300のほかの構成要素は、図3に示されるようにシステムバス320を介して互いに信号(例えば、コード・インストラクションとデータ)を交換してもよい。
The
ここで用いられるように、入出力という言葉は、一般的に、システム300への、またはシステム300からの、および周辺装置への、または周辺装置からのデータを転送する任意のプログラム、オペレーション、または装置を指す。すべてのデータ転送が、一の装置からの出力であり、他の一の装置への入力であると見なすことができるであろう。周辺装置は、キーボードやマウスなどの入力のみの装置や、プリンタなどの出力のみの装置、そして上書き可能CD−ROMなどの入力および出力装置として動作する装置を含む。周辺装置という言葉には、マウス、キーボード、プリンタ、モニタ、マイクロフォン、ゲームコントローラ、カメラ、外部Zipドライブ、スキャナなどの外部装置と、CD−ROMドライブ、CD−Rドライブ、内部モデムなどの内部装置、および、フラッシュメモリ用リーダ/ライタ、ハードドライブなどのそのほかの周辺装置を含む。
As used herein, the term input / output generally refers to any program, operation, or that transfers data to or from
プロセッサ301は、信号データ306およびメモリ302によって格納され、獲得されプロセッサモジュール301によって実行されるプログラム304のプログラムコード命令に応えて、信号データ306にデジタル信号処理を実行する。プログラム304のコードの一部はアセンブリ、C++、Java(登録商標)またはそのほかの多くの言語のような様々な異なるプログラミング言語のうちの一であってよい。プロセッサモジュール301は、プログラムコード304のようなプログラムを実行するときには特別な目的のコンピュータとなる汎用コンピュータを構成する。プログラムコード304は、ここでは、汎用コンピューター上で実行されるソフトウェアとして実装されるものとして説明されたが、これに代えて、アプリケーション特定集積回路(ASIC)のようなハードウェアを用いて、タスク管理方法が実現されることは当業者には理解されるであろう。そのように、本発明の実施形態は、全体的にまたは部分的に、ソフトウェア、ハードウェア、またはこれらの組合せによって実現されることは理解されるであろう。
The
ある実施形態においては、とりわけプログラムコード304は、図2Aの方法200や図2Bの方法220に共通な特徴を有する方法を実現するためのプロセッサ可読命令のセットを含んでもよい。プログラムコード304は、一般的に、以下のような命令を含んでもよい。すなわち、プロセッサ301に、相補的エコーキャンセレーション特性を有する第1および第2適応フィルタによって並行にマイクロフォン信号d(t)をフィルタリング処理させ、エコーキャンセル処理された出力e1(t)とe2(t)を生成させる命令、e1(t)とe2(t)から最小エコー出力e3(t)を決定する命令、最小エコー出力を用いてマイクロフォン出力を生成する命令である。
In some embodiments, among other things, the
本発明の実施形態によると、相互相関解析のみ、または音声アクティビティ検出(ダブルトーク検出)のみで可能な、よりロバストでありながら正確なエコーキャンセレーションが可能となる。このような改良されたエコーキャンセレーションによると、スピーカエコーx(t)に大部分を占められているマイクロフォン信号d(t)からローカルスピーチをs(t)を抽出することが可能となる。 According to the embodiment of the present invention, more robust yet accurate echo cancellation is possible, which is possible only by cross-correlation analysis or voice activity detection (double talk detection). According to such an improved echo cancellation, it is possible to extract local speech s (t) from the microphone signal d (t) that is mostly occupied by the speaker echo x (t).
本発明の実施形態は、ここで提示されたように用いられてもよく、また他のユーザ入力メカニズムと共に用いられてもよい。方位角方向や音声のボリュームを追跡したり測定したりするメカニズム、かつ/または、能動的または受動的にオブジェクトの位置を追跡するメカニズム、マシン・ビジョンを用いるメカニズム、これらの組み合わせなどである。追跡されるオブジェクトは、システムへのフィードバックを操作する補助的なコントロール装置やボタンを含んでもよい。そのようなフィードバックには、光源からの光の放射、音質の歪曲手段、その他の適切な送信機、変調器、コントロール装置、ボタン、圧力パッドなどが含まれてもよいが、これらに制限されるものではない。それは、同じ符号化状態の転送や変調に影響を及ぼしてもよく、かつ/または、システムによって追跡されている装置への命令や、その装置からの命令を転送してもよい。そのような装置は、本発明の実施形態に関連して用いられるシステムの一部であったり、またはシステムと相互作用したり、またはシステムに影響を与えたりする。 Embodiments of the present invention may be used as presented herein and may be used with other user input mechanisms. A mechanism for tracking and measuring the azimuth direction and volume of sound, and / or a mechanism for actively or passively tracking the position of an object, a mechanism using machine vision, a combination thereof, and the like. The tracked object may include auxiliary controls and buttons that manipulate feedback to the system. Such feedback may include, but is not limited to, emission of light from the light source, sound quality distortion means, other suitable transmitters, modulators, control devices, buttons, pressure pads, etc. It is not a thing. It may affect the transfer and modulation of the same coding state and / or transfer instructions to and from the device being tracked by the system. Such devices are part of, or interact with, or affect the system used in connection with embodiments of the present invention.
上記は、本発明の好ましい実施形態の完全な記述であるが、他の様々な変形、変更、等価物への置換が可能である。それゆえ、本発明の範囲は、上記の記述によって決定されるのではなく、以下の請求項によって決定されるべきであり、その完全な等価物もその範囲に含まれる。ここで記述された特徴は、好ましいものであるか否かに関わらず、ここで述べたいずれの特徴と組み合わされてもよい。以下の請求項においては、特に明示的に断らない限りは、各要素の数量は一以上である。ここに、添付される請求項は、所与の請求項において、「〜ための手段」との語句を用いて明示的に示される場合の他は、ミーンズ・プラス・ファンクションの制限を含むと解されてはならない。 While the above is a complete description of the preferred embodiment of the present invention, it is possible to make various other variations, modifications, and equivalents. The scope of the invention should, therefore, be determined not by the above description, but should be determined by the following claims, including their full equivalents. The features described herein may be combined with any of the features described herein, whether or not they are preferred. In the following claims, unless expressly stated otherwise, the quantity of each element is one or more. The claims appended hereto are understood to include means plus function limitations in the given claims, except where explicitly indicated using the phrase “means for”. Must not be done.
Claims (30)
前記マイクロフォン信号d(t)を、第2適応フィルタに対して相補的なキャンセレーション特性を有する第1適応フィルタと、前記第2適応フィルタとで並行にフィルタリング処理するステップとを備え、
前記第1および第2適応フィルタのフィルタリング特性は、該第1および第2適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はその入力にうまく適応するような特性であり、
前記第1および第2適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数h(n)が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記第1適応フィルタは、音声アクティビティ検出フィルタであり、
前記第2適応フィルタは、相互相関解析フィルタであり、
本方法はさらに、
前記第1適応フィルタからの出力e1(t)と、前記第2適応フィルタからの出力e2(t)とから、前記スピーカ信号x(t)との相関がより小さい最小エコー出力e3(t)を決定するステップと、
前記最小エコー出力e3(t)を用いてマイクロフォン出力を生成するステップと、
を備える方法。An echo cancellation method in a system having a speaker receiving a speaker signal x (t) and a microphone receiving a microphone signal d (t) including a local signal s (t) and an echo signal x 1 (t), The echo signal x 1 (t) depends on the speaker signal x (t),
Filtering the microphone signal d (t) in parallel with a first adaptive filter having a cancellation characteristic complementary to a second adaptive filter and the second adaptive filter;
The filtering characteristics of the first and second adaptive filters are such that when one of the first and second adaptive filters is not well adapted to the input, the other is well adapted to the input. ,
One of the first and second adaptive filters is well adapted because its filter function h (n) is stable, converges to a true echo path filter, and is neither overpredicted nor underpredicted When
The first adaptive filter is a voice activity detection filter;
The second adaptive filter is a cross-correlation analysis filter;
The method further includes
From the output e 1 (t) from the first adaptive filter and the output e 2 (t) from the second adaptive filter, the minimum echo output e 3 () having a smaller correlation with the speaker signal x (t). determining t);
Generating a microphone output using the minimum echo output e 3 (t);
A method comprising:
x(t)の強度が閾値を超えた場合に、前記第1適応フィルタのフィルタ係数の組を適応させるステップと、
前記第2適応フィルタで、e2(t)とx(t)の相互相関を解析するステップを含む請求項1に記載の方法。Filtering the microphone signal d (t) in parallel with the first adaptive filter and the second adaptive filter,
adapting a set of filter coefficients of the first adaptive filter when the intensity of x (t) exceeds a threshold;
The method of claim 1, comprising analyzing a cross-correlation between e 2 (t) and x (t) with the second adaptive filter.
前記第2適応フィルタが前記ローカル信号s(t)をフィルタリング処理により過度に除去している場合に、前記第1適応フィルタの出力を前記最小エコー出力として用いるステップとを含む請求項2に記載の方法。Determining the minimum echo output e 3 (t) determining whether the second adaptive filter has not excessively removed the local signal s (t) by a filtering process;
The output of the first adaptive filter is used as the minimum echo output when the second adaptive filter excessively removes the local signal s (t) by a filtering process. Method.
前記第2適応フィルタの出力e2(t)と、前記スピーカ信号x(t)との間の相互相関をとるステップと、
前記第2適応フィルタの出力e2(t)と前記スピーカ信号x(t)との間の相互相関の期待値が所定の閾値未満であるか判定するステップと、
前記相互相関の期待値が前記閾値未満である場合に、前記第2適応フィルタが前記ローカル信号s(t)をフィルタリング処理により過度に除去していることを決定するステップとを含む請求項3に記載の方法。Determining whether the second adaptive filter has not excessively removed the local signal s (t) by a filtering process;
Taking a cross-correlation between the output e 2 (t) of the second adaptive filter and the speaker signal x (t);
Determining whether an expected value of cross-correlation between the output e 2 (t) of the second adaptive filter and the speaker signal x (t) is less than a predetermined threshold;
Determining that the second adaptive filter excessively removes the local signal s (t) by a filtering process when the expected value of the cross-correlation is less than the threshold value. The method described.
前記第2残差予測ER2(t)を決定するステップは、第2残差予測部ER(2)の2次ノルムN(2)を計算するステップを含み、
本方法はさらに、ダブルトークの間、e3(t)に、対応するノルムN(1)またはN(2)がより小さい前記エコー残差予測部ER(1)またはER(2)を適用するステップを含む請求項6に記載の方法。Determining the first residual prediction ER 1 (t) includes calculating a second-order norm N (1) of the first residual prediction unit ER (1);
Determining the second residual prediction ER 2 (t) includes calculating a second-order norm N (2) of the second residual prediction unit ER (2);
The method further applies the echo residual predictor ER (1) or ER (2) with a smaller corresponding norm N (1) or N (2) to e 3 (t) during double talk. the method according to steps including claim 6.
前記第2残差予測ER2(t)を決定するステップは、第2残差予測部ER(2)の2次ノルムN(2)を計算するステップを含み、
本方法はさらに、シングルトークの間、e3(t)に、対応するノルムN(1)またはN(2)がより大きい前記エコー残差予測部ER(1)またはER(2)を適用するステップを含む請求項6に記載の方法。Determining the first residual prediction ER 1 (t) includes calculating a second-order norm N (1) of the first residual prediction unit ER (1);
Determining the second residual prediction ER 2 (t) includes calculating a second-order norm N (2) of the second residual prediction unit ER (2);
The method further applies the echo residual predictor ER (1) or ER (2) with a larger corresponding norm N (1) or N (2) to e 3 (t) during a single talk. the method according to steps including claim 6.
前記最小残差エコー予測ER3(t)は、ER1(t)とER2(t)のうちの一で、エネルギが最小でありx(t)との相関が最小である請求項6に記載の方法。Using the minimum echo output e 3 (t) to generate a microphone output further includes determining a minimum residual echo prediction ER 3 (t);
The minimum residual echo prediction ER 3 (t) is one of ER 1 (t) and ER 2 (t) and has a minimum energy and a minimum correlation with x (t). The method described.
前記予測ノイズ信号n’(t)のレベルを低減させて、低減ノイズ信号n”(t)を形成するステップと、
前記マイクロフォン出力信号に、前記低減ノイズ信号n”(t)を組み込むステップとをさらに含む請求項1に記載の方法。Calculating a predicted noise signal n ′ (t) from the microphone signal d (t);
Reducing the level of the predicted noise signal n ′ (t) to form a reduced noise signal n ″ (t);
The method of claim 1, further comprising incorporating the reduced noise signal n "(t) into the microphone output signal.
本装置は、
前記スピーカと前記マイクロフォンに接続された第1適応フィルタと、
前記第1適応フィルタと並行に前記スピーカと前記マイクロフォンに接続された第2適応フィルタとを備え、
前記第2適応フィルタは、前記第1適応フィルタに対して相補的なエコーキャンセレーション特性を有し、
前記第1および第2適応フィルタのフィルタリング特性は、該第1および第2適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第1および第2適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数h(n)が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記第1適応フィルタは、音声アクティビティ検出フィルタであり、
前記第2適応フィルタは、相互相関解析フィルタであり、
本装置はさらに、
前記第1適応フィルタと前記第2適応フィルタに接続されたインテグレータとを備え、
前記インテグレータは、前記第1適応フィルタからの出力e1(t)と、前記第2適応フィルタからの出力e2(t)から、最小エコー出力e3(t)を決定するように構成されており、
前記最小エコー出力e3(t)と前記スピーカ信号x(t)との相関はより小さい装置。An echo cancellation device used in a system having a speaker and a microphone, the speaker being adapted to receive a speaker signal x (t), wherein the microphone is a local signal s (t) and an echo signal x 1 (t). The echo signal x 1 (t) is dependent on the speaker signal x (t), and is adapted to receive a microphone signal d (t) comprising
This device
A first adaptive filter connected to the speaker and the microphone;
A second adaptive filter connected to the speaker and the microphone in parallel with the first adaptive filter;
The second adaptive filter has an echo cancellation characteristic complementary to the first adaptive filter;
The filtering characteristics of the first and second adaptive filters are such that when one of the first and second adaptive filters is not well adapted to its input, the other is well adapted;
One of the first and second adaptive filters is well adapted because its filter function h (n) is stable, converges to a true echo path filter, and is neither overpredicted nor underpredicted When
The first adaptive filter is a voice activity detection filter;
The second adaptive filter is a cross-correlation analysis filter;
The device further includes
An integrator connected to the first adaptive filter and the second adaptive filter;
The integrator is configured to determine a minimum echo output e 3 (t) from the output e 1 (t) from the first adaptive filter and the output e 2 (t) from the second adaptive filter. And
An apparatus in which the correlation between the minimum echo output e 3 (t) and the speaker signal x (t) is smaller.
前記インテグレータに接続された第2エコー残差予測部ER(2)とをさらに備える請求項16に記載の装置。A first echo residual prediction unit ER (1) connected to the integrator;
The apparatus according to claim 16, further comprising a second echo residual prediction unit ER (2) connected to the integrator.
前記第2エコー残差予測部ER(2)は、前記最小エコー出力e3(t)と前記スピーカ信号x(t)との間のエコー距離ミスマッチを含む第2残差予測ER2(t)を決定するように構成されている請求項18に記載の装置。The first echo residual prediction unit ER (1) performs a first residual prediction ER 1 (t) including analysis of a cross correlation between the minimum echo output e 3 (t) and the speaker signal x (t). Configured to generate,
The second echo residual prediction unit ER (2) includes a second residual prediction ER 2 (t) including an echo distance mismatch between the minimum echo output e 3 (t) and the speaker signal x (t). The apparatus of claim 18 , wherein the apparatus is configured to determine
前記残差エコーキャンセレーションモジュールは、
第1残差予測部ER(1)の2次ノルムN(1)を計算し、第2残差予測ER(2)の2次ノルムN(2)を計算するように構成され、
前記残差エコーキャンセレーションモジュールは、ダブルトークの間、対応するノルムN(1)またはN(2)がより小さい前記エコー残差予測部ER(1)またはER(2)を、e3(t)に適用するように構成されている請求項19に記載の装置。An apparatus further comprising a residual echo cancellation module connected to the first and second echo residual prediction units,
The residual echo cancellation module is
Calculating a secondary norm N (1) of the first residual prediction unit ER (1) and calculating a secondary norm N (2) of the second residual prediction ER (2);
The residual echo cancellation module performs the echo residual prediction unit ER (1) or ER (2) having a smaller norm N (1) or N (2) corresponding to the e 3 (t 20. The apparatus of claim 19 , wherein the apparatus is configured to apply to:
前記残差エコーキャンセレーションモジュールは、
第1残差予測部ER(1)の2次ノルムN(1)を計算し、第2残差予測ER(2)の2次ノルムN(2)を計算するように構成され、
前記残差エコーキャンセレーションモジュールは、シングルトークの間、対応するノルムN(1)またはN(2)がより大きい前記エコー残差予測部ER(1)またはER(2)を、e3(t)に適用するように構成されている請求項19に記載の装置。An apparatus further comprising a residual echo cancellation module connected to the first and second echo residual prediction units,
The residual echo cancellation module is
Calculating a secondary norm N (1) of the first residual prediction unit ER (1) and calculating a secondary norm N (2) of the second residual prediction ER (2);
The residual echo cancellation module performs the echo residual prediction unit ER (1) or ER (2) having a larger corresponding norm N (1) or N (2) during a single talk, e 3 (t 20. The apparatus of claim 19 , wherein the apparatus is configured to apply to:
前記残差エコーキャンセレーションモジュールは、最小残差エコー予測ER3(t)を決定するように構成されており、
前記最小残差エコー予測ER3(t)は、ER1(t)とER2(t)のうちの一で、エネルギが最小でありx(t)との相関が最小である請求項19に記載の装置。An apparatus further comprising a residual echo cancellation module connected to the first and second echo residual prediction units,
The residual echo cancellation module is configured to determine a minimum residual echo prediction ER 3 (t);
The minimum residual echo prediction ER 3 (t), in one of the ER 1 (t) and ER 2 (t), in claim 19 correlation is minimum, and is x (t) the energy is minimum The device described.
マイクロフォン信号d(t)から予測ノイズ信号n’(t)を計算し、
予測ノイズ信号n’(t)レベルを減少させて、低減ノイズ信号n”(t)を形成し、
マイクロフォン出力信号に、その低減ノイズ信号n”(t)を取り入れるように構成されている請求項16に記載の装置。A noise cancellation module connected to the microphone; and the noise cancellation module includes:
Calculating a predicted noise signal n ′ (t) from the microphone signal d (t);
Reducing the predicted noise signal n ′ (t) level to form a reduced noise signal n ″ (t);
The apparatus of claim 16, wherein the apparatus is configured to incorporate the reduced noise signal n "(t) into the microphone output signal.
スピーカと、
前記マイクロフォンとスピーカとに接続されているプロセッサと、
前記プロセッサに接続されているメモリとを備える音響信号処理システムであって、
前記メモリは、
スピーカ信号x(t)を受け取るスピーカと、
ローカル信号s(t)と、前記スピーカ信号x(t)に依存するエコー信号x1(t)とを含むマイクロフォン信号d(t)を受け取るマイクロフォンを有するシステムにおけるエコーキャンセレーション方法を実装するためのプロセッサ可読命令の組を格納し、
前記プロセッサ可読命令は、
前記マイクロフォン信号d(t)を、第2適応フィルタに対して相補的なキャンセレーション特性を有する第1適応フィルタと、前記第2適応フィルタとで並行にフィルタリング処理するための命令を含み、
前記第1および第2適応フィルタのフィルタリング特性は、該第1および第2適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第1および第2適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数h(n)が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記第1適応フィルタは、音声アクティビティ検出フィルタであり、
前記第2適応フィルタは、相互相関解析フィルタであり、
前記プロセッサ可読命令はさらに、
前記第1適応フィルタからの出力e1(t)と前記第2適応フィルタからの出力e2(t)から、スピーカ信号x(t)との相関がより少ない最小エコー出力e3(t)を決定するための命令と、
前記最小エコー出力e3(t)を用いて、マイクロフォン出力を生成するための命令と、
を含む音響信号処理システム。A microphone,
Speakers,
A processor connected to the microphone and a speaker;
An acoustic signal processing system comprising a memory connected to the processor,
The memory is
A speaker receiving a speaker signal x (t);
For implementing an echo cancellation method in a system having a microphone receiving a microphone signal d (t) including a local signal s (t) and an echo signal x 1 (t) that depends on the speaker signal x (t) Stores a set of processor-readable instructions;
The processor readable instructions are:
Instructions for filtering the microphone signal d (t) in parallel with a first adaptive filter having a cancellation characteristic complementary to a second adaptive filter and the second adaptive filter;
The filtering characteristics of the first and second adaptive filters are such that when one of the first and second adaptive filters is not well adapted to its input, the other is well adapted;
One of the first and second adaptive filters is well adapted because its filter function h (n) is stable, converges to a true echo path filter, and is neither overpredicted nor underpredicted When
The first adaptive filter is a voice activity detection filter;
The second adaptive filter is a cross-correlation analysis filter;
The processor readable instructions further include:
From the output e 1 (t) from the first adaptive filter and the output e 2 (t) from the second adaptive filter, a minimum echo output e 3 (t) with less correlation with the speaker signal x (t) is obtained. Instructions to decide,
Instructions for generating a microphone output using the minimum echo output e 3 (t);
An acoustic signal processing system.
前記メモリは、
スピーカ信号x(t)を受け取るスピーカと、
ローカル信号s(t)と、スピーカ信号x(t)に依存するエコー信号x1(t)とを含むマイクロフォン信号d(t)を受け取るマイクロフォンを有するシステムにおけるエコーキャンセレーション方法を実装するためのプロセッサ可読命令の組を格納し、
前記プロセッサ可読命令は、
前記マイクロフォン信号d(t)を、第2適応フィルタに対して相補的なキャンセレーション特性を有する第1適応フィルタと、前記第2適応フィルタとで並行にフィルタリング処理するための命令を含み、
前記第1および第2適応フィルタのフィルタリング特性は、該第1および第2適応フィルタのうちの一方がその入力にうまく適応していないときに、他方はうまく適応するような特性であり、
前記第1および第2適応フィルタのうちの一方がうまく適応するのは、そのフィルタ関数h(n)が安定しており、真のエコーパスフィルタに収束し、過大予測も過小予測もされていないときであり、
前記第1適応フィルタは、音声アクティビティ検出フィルタであり、
前記第2適応フィルタは、相互相関解析フィルタであり、
前記プロセッサ可読命令はさらに、
前記第1適応フィルタからの出力e1(t)と前記第2適応フィルタからの出力e2(t)から、スピーカ信号x(t)との相関がより小さい最小エコー出力e3(t)を決定するための命令と、
前記最小エコー出力e3(t)を用いてマイクロフォン出力を生成するための命令と、
を含む媒体。A processor readable medium comprising a memory connected to a processor comprising:
The memory is
A speaker receiving a speaker signal x (t);
A processor for implementing an echo cancellation method in a system having a microphone that receives a microphone signal d (t) including a local signal s (t) and an echo signal x 1 (t) that depends on a speaker signal x (t) Stores a set of readable instructions,
The processor readable instructions are:
Instructions for filtering the microphone signal d (t) in parallel with a first adaptive filter having a cancellation characteristic complementary to a second adaptive filter and the second adaptive filter;
The filtering characteristics of the first and second adaptive filters are such that when one of the first and second adaptive filters is not well adapted to its input, the other is well adapted;
One of the first and second adaptive filters is well adapted because its filter function h (n) is stable, converges to a true echo path filter, and is neither overpredicted nor underpredicted When
The first adaptive filter is a voice activity detection filter;
The second adaptive filter is a cross-correlation analysis filter;
The processor readable instructions further include:
From the output e 1 (t) from the first adaptive filter and the output e 2 (t) from the second adaptive filter, a minimum echo output e 3 (t) having a smaller correlation with the speaker signal x (t) is obtained. Instructions to decide,
Instructions for generating a microphone output using the minimum echo output e 3 (t);
Media containing.
Applications Claiming Priority (21)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/381,728 US7545926B2 (en) | 2006-05-04 | 2006-05-04 | Echo and noise cancellation |
US11/381,721 | 2006-05-04 | ||
US11/418,988 US8160269B2 (en) | 2003-08-27 | 2006-05-04 | Methods and apparatuses for adjusting a listening area for capturing sounds |
US11/381,728 | 2006-05-04 | ||
US11/429,047 | 2006-05-04 | ||
US11/381,729 US7809145B2 (en) | 2006-05-04 | 2006-05-04 | Ultra small microphone array |
USPCT/US2006/017483 | 2006-05-04 | ||
US11/429,047 US8233642B2 (en) | 2003-08-27 | 2006-05-04 | Methods and apparatuses for capturing an audio signal based on a location of the signal |
US11/381,727 | 2006-05-04 | ||
US11/381,727 US7697700B2 (en) | 2006-05-04 | 2006-05-04 | Noise removal for electronic device with far field microphone on console |
US11/381,725 US7783061B2 (en) | 2003-08-27 | 2006-05-04 | Methods and apparatus for the targeted sound detection |
US11/381,721 US8947347B2 (en) | 2003-08-27 | 2006-05-04 | Controlling actions in a video game unit |
US11/381,724 | 2006-05-04 | ||
US11/381,724 US8073157B2 (en) | 2003-08-27 | 2006-05-04 | Methods and apparatus for targeted sound detection and characterization |
PCT/US2006/017483 WO2006121896A2 (en) | 2005-05-05 | 2006-05-04 | Microphone array based selective sound source listening and video game control |
US11/418,989 | 2006-05-04 | ||
US11/381,725 | 2006-05-04 | ||
US11/418,988 | 2006-05-04 | ||
US11/418,989 US8139793B2 (en) | 2003-08-27 | 2006-05-04 | Methods and apparatus for capturing audio signals based on a visual image |
US11/381,729 | 2006-05-04 | ||
PCT/US2007/065686 WO2007130765A2 (en) | 2006-05-04 | 2007-03-30 | Echo and noise cancellation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010019147A Division JP4833343B2 (en) | 2006-05-04 | 2010-01-29 | Echo and noise cancellation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009535996A JP2009535996A (en) | 2009-10-01 |
JP4476355B2 true JP4476355B2 (en) | 2010-06-09 |
Family
ID=56290936
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009509908A Expired - Fee Related JP4476355B2 (en) | 2006-05-04 | 2007-03-30 | Echo and noise cancellation |
JP2009509909A Expired - Fee Related JP4866958B2 (en) | 2006-05-04 | 2007-03-30 | Noise reduction in electronic devices with farfield microphones on the console |
JP2010019147A Expired - Fee Related JP4833343B2 (en) | 2006-05-04 | 2010-01-29 | Echo and noise cancellation |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009509909A Expired - Fee Related JP4866958B2 (en) | 2006-05-04 | 2007-03-30 | Noise reduction in electronic devices with farfield microphones on the console |
JP2010019147A Expired - Fee Related JP4833343B2 (en) | 2006-05-04 | 2010-01-29 | Echo and noise cancellation |
Country Status (3)
Country | Link |
---|---|
EP (2) | EP2012725A4 (en) |
JP (3) | JP4476355B2 (en) |
WO (2) | WO2007130765A2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010106734A1 (en) * | 2009-03-18 | 2010-09-23 | 日本電気株式会社 | Audio signal processing device |
JP4964267B2 (en) * | 2009-04-03 | 2012-06-27 | 有限会社ケプストラム | Adaptive filter and echo canceller having the same |
JP2010249939A (en) * | 2009-04-13 | 2010-11-04 | Sony Corp | Noise reducing device and noise determination method |
EP2858068A4 (en) * | 2012-05-31 | 2016-02-24 | Toyota Motor Co Ltd | Audio source detection device, noise model generation device, noise reduction device, audio source direction estimation device, approaching vehicle detection device and noise reduction method |
CN109166589B (en) * | 2018-08-13 | 2024-08-20 | 深圳市腾讯网络信息技术有限公司 | Application sound suppression method, device, medium and equipment |
EP4078577A1 (en) | 2019-12-18 | 2022-10-26 | Dolby Laboratories Licensing Corp. | Filter adaptation step size control for echo cancellation |
CN113689871A (en) * | 2020-05-19 | 2021-11-23 | 阿里巴巴集团控股有限公司 | Echo cancellation method and device |
CN112017679B (en) * | 2020-08-05 | 2024-01-26 | 海尔优家智能科技(北京)有限公司 | Method, device and equipment for updating adaptive filter coefficients |
CN115472175A (en) * | 2022-08-31 | 2022-12-13 | 海尔优家智能科技(北京)有限公司 | Echo cancellation method and device for audio resource, storage medium and electronic device |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802227A (en) | 1987-04-03 | 1989-01-31 | American Telephone And Telegraph Company | Noise reduction processing arrangement for microphone arrays |
JP3135937B2 (en) * | 1991-05-16 | 2001-02-19 | 株式会社リコー | Noise removal device |
JP3110201B2 (en) * | 1993-04-16 | 2000-11-20 | 沖電気工業株式会社 | Noise removal device |
WO1995002288A1 (en) | 1993-07-07 | 1995-01-19 | Picturetel Corporation | Reduction of background noise for speech enhancement |
US5806025A (en) * | 1996-08-07 | 1998-09-08 | U S West, Inc. | Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank |
SE9700772D0 (en) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
FR2771542B1 (en) * | 1997-11-21 | 2000-02-11 | Sextant Avionique | FREQUENTIAL FILTERING METHOD APPLIED TO NOISE NOISE OF SOUND SIGNALS USING A WIENER FILTER |
DE19806015C2 (en) * | 1998-02-13 | 1999-12-23 | Siemens Ag | Process for improving acoustic attenuation in hands-free systems |
US6263078B1 (en) * | 1999-01-07 | 2001-07-17 | Signalworks, Inc. | Acoustic echo canceller with fast volume control compensation |
CN1348583A (en) * | 1999-02-18 | 2002-05-08 | 安德烈电子公司 | System, method and apparatus for cancelling noise |
US6426979B1 (en) * | 1999-04-29 | 2002-07-30 | Legerity, Inc. | Adaptation control algorithm for echo cancellation using signal-value based analysis |
CA2390200A1 (en) * | 1999-11-03 | 2001-05-10 | Charles W. K. Gritton | Integrated voice processing system for packet networks |
JP3358731B2 (en) * | 2000-04-24 | 2002-12-24 | 株式会社富建設 | Nursing equipment |
US7139401B2 (en) * | 2002-01-03 | 2006-11-21 | Hitachi Global Storage Technologies B.V. | Hard disk drive with self-contained active acoustic noise reduction |
JP2003284181A (en) * | 2002-03-20 | 2003-10-03 | Matsushita Electric Ind Co Ltd | Sound collection apparatus |
DE10305369B4 (en) * | 2003-02-10 | 2005-05-19 | Siemens Ag | User-adaptive method for noise modeling |
US6947549B2 (en) * | 2003-02-19 | 2005-09-20 | The Hong Kong Polytechnic University | Echo canceller |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
JP4227529B2 (en) * | 2004-01-06 | 2009-02-18 | パナソニック株式会社 | Periodic noise suppressor |
US7254535B2 (en) * | 2004-06-30 | 2007-08-07 | Motorola, Inc. | Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system |
DE602005020662D1 (en) * | 2004-10-13 | 2010-05-27 | Koninkl Philips Electronics Nv | ECHO CANCELLATION |
-
2007
- 2007-03-30 JP JP2009509908A patent/JP4476355B2/en not_active Expired - Fee Related
- 2007-03-30 EP EP07759884A patent/EP2012725A4/en not_active Withdrawn
- 2007-03-30 WO PCT/US2007/065686 patent/WO2007130765A2/en active Application Filing
- 2007-03-30 WO PCT/US2007/065701 patent/WO2007130766A2/en active Application Filing
- 2007-03-30 JP JP2009509909A patent/JP4866958B2/en not_active Expired - Fee Related
- 2007-03-30 EP EP07759872A patent/EP2014132A4/en not_active Withdrawn
-
2010
- 2010-01-29 JP JP2010019147A patent/JP4833343B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4833343B2 (en) | 2011-12-07 |
EP2012725A2 (en) | 2009-01-14 |
EP2014132A4 (en) | 2013-01-02 |
EP2012725A4 (en) | 2011-10-12 |
WO2007130765A3 (en) | 2008-12-18 |
JP4866958B2 (en) | 2012-02-01 |
WO2007130766A3 (en) | 2008-09-04 |
JP2009535997A (en) | 2009-10-01 |
WO2007130765A2 (en) | 2007-11-15 |
WO2007130766A2 (en) | 2007-11-15 |
JP2009535996A (en) | 2009-10-01 |
EP2014132A2 (en) | 2009-01-14 |
JP2010171985A (en) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7545926B2 (en) | Echo and noise cancellation | |
JP4833343B2 (en) | Echo and noise cancellation | |
US20230164274A1 (en) | Post-mixing acoustic echo cancellation systems and methods | |
US8385557B2 (en) | Multichannel acoustic echo reduction | |
US9870783B2 (en) | Audio signal processing | |
JP6773403B2 (en) | Gain control system and gain control method | |
EP2783504B1 (en) | Acoustic echo cancellation based on ultrasound motion detection | |
EP2845189B1 (en) | A universal reconfigurable echo cancellation system | |
JP3727258B2 (en) | Echo suppression processing system | |
EP3114683B1 (en) | Audio signal processing | |
US7536006B2 (en) | Method and system for near-end detection | |
US20090252343A1 (en) | Integrated latency detection and echo cancellation | |
EP2982101B1 (en) | Noise reduction | |
KR20150008460A (en) | Sequenced adaptation of anti-noise generator response and secondary path response in an adaptive noise canceling system | |
JP2009246628A (en) | Acoustic echo canceler | |
WO2019068115A1 (en) | Echo canceller and method therefor | |
US8064966B2 (en) | Method of detecting a double talk situation for a “hands-free” telephone device | |
CN109215672B (en) | Method, device and equipment for processing sound information | |
JPH09289475A (en) | Two-wire audio teleconference device | |
US8406430B2 (en) | Simulated background noise enabled echo canceller | |
JP2005533427A (en) | Echo canceller with model mismatch compensation | |
JP4857652B2 (en) | Noise canceller and microphone device | |
JP2009021859A (en) | Talk state judging apparatus and echo canceler with the talk state judging apparatus | |
CN113241084A (en) | Echo cancellation method, device and equipment | |
CN102970638A (en) | Signal processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090911 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100309 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140319 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |