KR20050115857A - 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 - Google Patents
안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 Download PDFInfo
- Publication number
- KR20050115857A KR20050115857A KR1020057010611A KR20057010611A KR20050115857A KR 20050115857 A KR20050115857 A KR 20050115857A KR 1020057010611 A KR1020057010611 A KR 1020057010611A KR 20057010611 A KR20057010611 A KR 20057010611A KR 20050115857 A KR20050115857 A KR 20050115857A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- acoustic
- filter
- ica
- channel
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 145
- 238000012880 independent component analysis Methods 0.000 title claims abstract description 130
- 238000012545 processing Methods 0.000 title claims description 76
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000012805 post-processing Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 11
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000926 separation method Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 42
- 230000003044 adaptive effect Effects 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 18
- 238000002156 mixing Methods 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000000087 stabilizing effect Effects 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000011410 subtraction method Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 4
- 238000005070 sampling Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 abstract description 7
- 230000001413 cellular effect Effects 0.000 description 23
- 238000000605 extraction Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006641 stabilisation Effects 0.000 description 6
- 238000011105 stabilization Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000136406 Comones Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
오디오 신호의 혼합을 원하는 오디오 신호(430)(예컨대, 음향) 및 노이즈 신호(440)으로 분리하는 시스템 및 방법이 개시된다. 마이크로폰(310, 320)은 혼합된 오디오 신호를 수신하도록 배치되고, 독립 성분 분석(ICA)은 안정성 강제를 사용하여 사운드 혼합을 처리한다(212). ICA 처리(508)는 타깃 사운드 신호(430)을 식별 및 분리하기 위해 원하는 음향 신호의 소정의 특징을 사용한다. 필터 계수는 학습 규칙에 적응되고 필터 웨이트 업데이트 역학은 안정적인 분리된 ICA 신호 결과에 대한 수렴을 지원하기 위해 안정화된다. 분리된 신호는 전처리(214) 및 후처리(220,230) 기술 및 정보를 사용하여 노이즈 효과를 추가로 제거하기 위해 주변 처리될 수 있다. 제안된 시스템은 오디오 통신 하드웨어 환경의 DSP 유닛 또는 CPU 상의 실행을 위해 설계되고 쉽게 적응가능하다.
Description
본 발명은 오디오 신호 처리 시스템 및 방법에 관한 것으로서, 상세하게는 어쿠스틱 환경에서 음향의 품질을 강화하는 시스템 및 방법에 관한 것이다.
음향 신호 처리는 일상적인 통신의 많은 영역, 특히 노이즈가 많은 영역에서 중요하다. 실 생활에서의 노이즈는 실 생활에서 에코 및 잔향과 함께 다수의 사운드로 퍼지는 외관상으로 단일의 음원 노이즈를 포함하는 다수의 음원으로 충만하다. 분리되거나 격리되지 않는다면, 배경 노이즈로부터 원하는 노이즈를 추출하는 것은 어렵다. 배경 노이즈는 각 신호로부터 생성된 에코, 반사, 및 잔향 뿐만 아니라, 일반 환경에 의해 생성된 다수의 노이즈 신호, 다른 사람의 배경 대화에 의해 생성된 신호를 포함할 수 있다. 사용자가 종종 잡음이 있는 환경에서 이야기하는 통신에서, 사용자의 음향 신호를 배경 노이즈로부터 분리하는 것이 바람직하다. 셀룰라 폰, 스피커폰, 헤드셋, 보청기, 무선 전화기, 텔레콘퍼런스, CB 라디오, 워키-토키, 컴퓨터 전화통화 애플리케이션, 컴퓨터 및 자동차 음성 명령 애플리케이션, 및 다른 핸즈-프리 애플리케이션, 인터콤, 마이크로폰 시스템 등과 같은 음향 통신 매체는 원하는 음향 신호를 배경 노이즈로부터 분리하기 위해서 음향 신호 처리를 이용할 수 있다.
많은 방법은 배경 노이즈 신호로부터 원하는 사운드 신호를 분리하기 위해 창작된다. 종래 기술인 노이즈 필터는 화이트 노이즈 신호와 같은 소정의 특징으로 신호를 식별하고, 입력 신호로부터 이러한 신호를 제거한다. 이러한 방법들은 사운드 신호를 실시간 처리하는데 충분히 단순하고 빠르지만, 다른 사운드 환경에 쉽게 적용될 수 없고, 분해되기 위해 시도된 음향 신호는 실질적인 열화로 귀착될 수 있다. 노이즈 특성에 대한 소정의 가정은 지나치게 포괄적(overinclusive)이거나 덜 포괄적(underinclusive)일 수 있다. 결과적으로, 사람의 음향의 일부분들은 이러한 방법들에 의해 "노이즈"로 간주될 수 있고 그러므로 출력 음향 신호에서 제거될 수 있는 반면, 음악 또는 대화와 같은 배경 노이즈의 일부분들은 이러한 방법들에 의해 노이즈가 아닌 것으로 간주될 수 있고 그러므로 출력 음향 신호에 포함될 수 있다.
독립 성분 분석(ICA : Independent Component Analysis)과 같이 더욱 최근에 개발된 다른 방법은 배경 노이즈로부터 음향 신호의 분리를 위해 상대적으로 날카롭고 유연한 수단을 제공한다. 예컨대, PCT 공보 WO 00/41441은 출력 오디오 신호에서 노이즈를 감소시키는 입력 오디오 신호를 처리하는 특정 ICA 기술을 사용하는 것을 개시한다. ICA는 서로로부터 아마도 독립된 혼합 음원 신호(성분)을 분리하는 기술이다. 이 단순화된 형태에서, 독립 성분 분석은 예컨대, 분리된 신호를 생성하기 위해서 혼합 신호로 행렬을 배가하는 것과 같이, 혼합 신호에 대해 웨이트(weight)의 "비혼합(un-mixing)" 행렬을 연산시킨다. 웨이트는 초기 값으로 할당되고, 그다음 정보의 과잉을 최소화하기 위해서 신호의 결합 엔트로피를 최대화하도록 조절된다. 이 웨이트-조절 및 엔트로피-증가 처리는 신호의 정보 과잉이 최소로 감소할 때까지 반복된다. 이러한 기술은 각 신호의 음원 상에서 정보를 필요로하지 않기 때문에, "블라인드 음원 분리" 방법(BSS : Blind Source Separation)으로 알려져 있다. 블라인드 분리 문제는 다수의 독립 음원으로부터 생기는 혼합 신호를 분리하는 아이디어에 관련된다.
ICA의 가장 이른 논의 중의 하나는 추가적인 연구를 낳은 미국 특허 제5,706,402호의 Tony Bell에 의해서다. 현재 많은 다른 ICA 기술 및 알고리듬이 존재한다. 가장 널리 사용된 알고리듬 및 기술의 요약은 ICA에 관해 여기의 책 및 참조문헌에서 알 수 있다(예컨대, Te-Won Lee, Independent Component Analysis: Theory and Applications, Kluwer Academic Publishers, Boston, 1998년 9월, Hyvarinen 등, Independent Component Analysis, 제 1 판(Wiley-Interscience, 2001년 5월 18일); Mark Girolami, Self-Organizing Neural Networks: Independent Component Analysis and Blind Source Separation(Perspectives in Netural Computing)(Springer Verlag, 1999년 9월); 및 Mark Girolami(편집자), Advances in Independent Component Analysis(Perspectives in Netural Computing)(Springer Verlag, 2000년 8월)). 단일값 분해 알고리듬은 Simon Haykin에 의해 Adaptive Filter Theory(제 3 판, Prentice-Hall(NJ),1996년)에 개시되었다.
많은 인기있는 ICA 알고리듬은 10년전에 존재만 했던 그들의 중대한 변형에 의해 진화된 숫자를 포함하면서 그들의 성능을 최적화하기 위해서 발전되었다. 예컨대, A.J. Bell 및 TJ Sejnowski, Netural Computation 7:1129-1159(1995), 및 Bell, A.J. 미국 특허 제5,706,402호에 설명된 연구는 일반적으로 그 특허된 형태로 사용되지 않는다. 대신에, 그 성능을 최적화하기 위해서, 이 알고리듬은 다수의 다른 존재에 의해 약간의 재특징화를 거친다. 이러한 한 변화는 Amari, Cichocki, Yang(1996)에 설명된 "자연 그레디언트(natural gradient)"의 사용을 포함한다. 다른 유명한 ICA 알고리듬은 큐뮬런트(cumulant)와 같은 고차 통계량을 계산하는 방법을 포함한다(Cardoso, 1992; Comon, 1994; Hyvaerinen 및 Oja, 1997).
그러나, 많은 알려진 ICA 알고리듬은 룸 반사에 기인하는 것들과 같은 어쿠스틱 에코를 본질적으로 포함하는 실재 환경에서 기록되는 신호를 효과적으로 분리할 수 없다. 지금까지 언급된 방법들은 음원 신호의 선형적으로 고정된 혼합으로부터 생기는 신호의 분리에 한정되는 것이 강조되었다. 직접적인 경로 신호 및 그들의 에코익한 신호의 합계로부터 생기는 현상은 잔향으로 칭해지고 인공적인 음향 강화 및 인식 시스템에서 중대한 이슈를 제기한다. 현재, ICA 알고리듬은 이러한 시간-지연되고 에코되어, 효과적인 실시간 사용을 방해하는 신호를 분리시킬 수 있는 긴 필터를 포함하는 것이 필요하다.
도 1은 종래의 ICA 신호 분리 시스템(100)의 일 실시예를 도시한다. 이러한 종래의 시스템에서, 신경망으로서 동작하는 필터의 네트워크는 필터 네트워크로 입력되는 임의의 개수의 혼합 신호로부터 개별적인 신호를 분해하기 위해 동작한다. 도 1에 도시된 바와 같이, 시스템(100)은 입력 신호 X1 및 X2 를 수신하는 두개의 입력 채널(110 및 120)을 포함한다. 신호 X1 에 대해, ICA 다이렉트 필터 W1 및 ICA 크로스 필터 C2가 적용된다. 신호 X2 에 대해, ICA 다이렉트 필터 W2 및 ICA 크로스 필터 C1이 적용된다. 다이렉트 필터 W1 및 W2 는 다이렉트 조정을 위해 통신한다. 크로스 필터는 그들 각각의 필터링된 신호와 다이렉트 필터에 의해 필터링된 신호를 합치는 피드백 필터이다. ICA 필터의 수렴 이후에, 발생된 출력 신호 U1 및 U2는 분리된 신호를 나타낸다.
Torkkola 등에 의한 미국 특허 제5,675,659호는 지연되고 필터링된 음원의 블라인드 분리를 위한 방법 및 장치를 제안한다. Torkkola는 Bell의 특허와 같은 정지 계수 대신에 비혼합 필터를 사용하는 것을 제외하고는 분리된 출력의 엔트로피를 최대화하는 ICA 시스템을 제안한다. 그러나, 결합 엔트로피를 계산하기 위해 및 크로스 필터 웨이트를 조절하기 위해서 Torkkola에 설명된 ICA 계산은 음향 신호와 같은 시간에 따라 변화하는 입력 에너지를 갖는 입력 신호의 존재하에서 숫자상으로 안정되지 않으며 잔향 인공물을 분리된 출력 신호에 삽입한다. 그러므로 제안된 필터링 스킴은 실재 음향 신호의 안정적이고 지각적으로 받아들일 수 있는 블라인드 음원 분리를 실행하지 않는다.
통상의 ICA 실행은 또한 신호의 결합 엔트로피를 반복적으로 계산하기 위해 및 필터의 웨이트를 조절하기 위해 전력을 실질적으로 계산하는 것이 필요할 때 추가적인 장애물에 직면한다. 많은 ICA 실행은 또한 피드백 필터의 다수의 순회 및 필터의 직접적인 상호관계를 필요로한다. 결과적으로, 실시간으로 음향의 ICA 필터링을 실행하고 다수의 혼합된 음원 신호를 분리하기 위해서 다수의 마이크로폰을 사용하는 것은 어렵다. 공간적으로 배치된 위치로부터 발생하는 음원의 경우에, 비혼합 필터 계수는 합리적인 양의 필터 탭 및 마이크로폰의 기록으로 계산될 수 있다. 그러나 음원 신호가 진동, 바람에 의한 노이즈 또는 배경 대화로부터 발생한 배경 노이즈와 같은 공간 내에 배치된다면, 마이크로폰 위치에서 기록된 신호는 매우 길고 복잡한 필터 구조 또는 매우 많은 개수의 마이크로폰 중의 어느 하나를 필요로 하는 많은 다른 방향으로부터 방출된다. 임의의 실재 시스템은 전력 및 하드웨어 복잡성을 처리하는 것이 제한되기 때문에, 추가적인 처리 접근은 실시간 음향 신호 강화에 대해 강력한 방법론을 제공하기 위해서는 논의된 ICA 필터 구조를 보충해야만 한다. 이러한 시스템의 계산적인 복잡성은 셀룰라 폰, PDA(Personal Digital Assistants), 오디오 감시 장치, 라디오 등과 같은 작은 소비자 장치의 처리 전력과 호환되어야 한다.
실시간으로 배경 노이즈로부터 음향 신호를 분리할 수 있고 실질적인 계산 전원이 필요치 않으나, 계속해서 상대적으로 정확한 결과를 만들며 다른 환경에 유연하게 적용될 수 있는 단순화된 음향 처리 방법이 바람직하다.
도 1은 종래의 ICA 신호 분리 시스템의 블록도를 나타내고,
도 2는 본 발명에 따른 음향 분리 시스템의 일 실시예의 블록도이며,
도 3은 본 발명에 따른 개선된 ICA 처리 서브-모듈의 일 실시예의 블록도이고,
도 4는 본 발명에 따른 개선된 ICA 음향 분리 처리의 일 실시예의 블록도이며,
도 5는 본 발명에 따른 음향 처리 방법의 흐름도이고,
도 6은 본 발명에 따른 음향 디-노이징 처리의 흐름도이며,
도 7은 본 발명에 따른 음향 피처 추출 처리의 흐름도이고,
도 8은 본 발명에 따른 음향 처리의 결합의 예들을 나타내는 표이며,
도 9는 본 발명에 따른 음향 분리 시스템을 갖는 셀룰라 폰의 일 실시예의 블록도이고,
도 10은 본 발명에 따른 음향 분리 시스템을 갖는 셀룰라 폰의 다른 실시예의 블록도이다.
본 발명은 잡음이 있는 어쿠스틱 환경에서 적어도 하나의 음향 신호와 같이 원하는 오디오 신호를 식별하고 분리하는데 유용한 음향 처리 시스템 및 방법에 관한 것이다. 음향 처리는 무선 모바일 폰, 헤드셋, 또는 셀룰라 폰과 같은 적어도 두개 이상의 마이크로폰을 갖는 장치 상에서 동작한다. 적어도 두개의 마이크로폰은 화자(speaker)로부터의 음향과 같이 타깃으로부터 원하는 신호를 수신하는 장치의 하우징 상에 위치한다. 마이크로폰은 타깃 사용자의 음향을 수신하나, 또한 노이즈, 다른 음원으로부터의 음향, 잔향, 에코, 및 다른 바람직하지 않은 어쿠스틱 신호를 수신한다. 적어도 두개의 마이크로폰은 원하는 타깃 음향 및 다른 원하지 않는 어쿠스틱 정보의 혼합을 포함하는 오디오 신호를 수신한다. 마이크로폰으로부터의 혼합 신호는 변형된 ICA(독립 성분 분석) 처리를 사용하여 처리된다.
본 발명의 일 측면은 각각 오디오 신호의 하나 또는 조합을 포함하는 입력 신호의 적어도 두개의 채널, 및 두개의 개선된 독립 성분 분석 크로스 필터를 포함하는 음향 분리 시스템에 관한 것이다. 입력 신호의 두 채널은 비선형적인 유계 함수(bounded function)를 갖는 바람직하게는 무한 임펄스 응답 필터인 크로스 필터에 의해 필터링된다. 비선형 유계 함수는 예컨대 입력값에 기초하여 양 또는 음의 값 중 어느 하나를 출력으로서 돌려보내는 부호(sign) 함수와 같이, 빠르게 계산될 수 있는 소정 최대값 및 최소값을 갖는 비선형 함수이다. 신호의 반복된 피드백을 따르면, 하나의 채널이 실질적으로 원하는 오디오 신호를 포함하고 다른 채널이 실질적으로 노이즈 신호를 포함하는 출력 신호의 두개의 채널이 생성된다.
본 발명의 일 측면은 오디오 신호를 원하는 음향 신호 및 노이즈 신호로 분리하는 시스템 및 방법에 관한 것이다. 원하는 음향 신호 및 노이즈 신호의 조합인 입력 신호는 적어도 두개의 채널로부터 수신된다. 동일 개수의 독립 성분 분석 크로스 필터가 사용된다. 제 1 채널로부터의 신호는 제 1 크로스 필터에 의해 필터링되고 제 2 채널 상에 증대된 신호를 형성하기 위해 제 2 채널로부터의 신호와 결합된다. 제 2 채널 상의 증대된 신호는 제 2 크로스 필터에 의해 필터링되고 제 1 필터 상의 증대된 신호를 형성하기 위해 제 1 채널로부터의 신호와 결합된다. 제 1 채널 상의 증대된 신호는 제 1 크로스 필터에 의해 추가로 필터링될 수 있다. 필터링 및 결합 처리는 신호의 두개의 채널 사이에서 정보의 중복을 줄이기 위해서 반복된다. 생성된 출력 신호의 두개의 채널은 음향 신호가 지배적인 일 채널 및 비음향 신호가 지배적인 일 채널을 나타낸다. 스펙트럼 차감법(spectral subtraction), 비너 필터링(Wiener filtering)), 디-노이징 및 음향 피처 추출과 같은 추가적인 음향 강화 방법은 음향 품질을 추가로 개선하기 위해서 실행될 수 있다.
본 발명의 다른 측면은 피드백 필터링 스킴의 설계에서 안정화 요소를 포함하는 것에 관한 것이다. 하나의 안정화 예에서, 필터 웨이트 적응 규칙은 웨이트 적응 역학(dynamics)이 피드백 구조의 전체적인 안정화 요구와 보조를 맞추는 방식으로 설계된다. 이전의 접근과는 다르게, 전체 시스템 성능은 분리된 출력의 원하는 엔트로피 최대화를 지향할 뿐만 아니라 보다 현실적인 목적에 부합하기 위해서 안정성 강제를 고려한다. 이러한 목적은 안정성 강제 하에서 최대 가능성 원칙으로서 더 잘 설명된다. 최대 가능성 평가에서 이러한 안정성 강제는 음원 신호의 시간적인 특징을 모델링하는 것에 상응한다. 엔트로피 최대화 접근에서 신호 음원은 i.i.d.(independently, identically drawn) 랜덤 변수로서 가정된다. 그러나, 사운드 및 음향 신호와 같은 실제 신호는 랜덤 신호가 아니라 시간에서 상호관계를 갖고 주파수가 평탄하다. 이는 상응하는 본래의 ICA 필터 계수 학습 규칙으로 귀결된다.
다른 안정화 예에서, 이러한 학습 규칙은 기록된 입력 진폭에 직접적으로 의존하기 때문에, 입력 채널은 필터 웨이트 적응 속도를 강제하기 위해서 적응형 스케일링 인자에 의해 줄어든다. 스케일링 인자는 순환식(recursive equation)으로부터 판정되고 채널 입력 에너지의 함수이다. 따라서 차후 ICA 필터 동작의 엔트로피 최대화에 관련되지 않는다. 또한 ICA 필터 구조의 적응 성질은 필터 계수가 아주 빨리 조절되거나 또는 진동 동작을 나타낸다면, 분리된 출력 신호가 잔향 인공물을 포함하는 것을 의미한다. 따라서 학습된 필터 웨이트는 잔향 효과를 피하기 위해서 시간 및 주파수 도메인에서 평탄해져야 한다. 이 평탄화 동작이 필터 학습 처리의 속도를 떨어뜨리기 때문에, 이 강화된 음향 명료성 설계 측면은 전체 시스템 성능에 대해 추가적인 안정화 효과를 갖는다.
계산 자원 및 마이크로폰의 개수에서의 한계에 이를 수 있는 공간적으로 분포된 배경 노이즈의 블라인드 음원 분리의 성능을 증가시키기 위해서, ICA 계산된 입력 및 출력은 각각 전처리되거나 또는 후처리될 수 있다. 예컨대, 본 발명의 한 선택적인 실시예는 이들 방법이 상기 처리된 신호에 관한 시간 또는 스펙트럼 정보를 단독적으로 이용하고, 이같은 ICA 필터링 유닛을 보충할 수 있기 때문에, 음성 활동 감지 및 적응형 비너 필터링을 포함하려고 한다.
본 발명의 마지막 측면은 필터 피드백 구조의 계산 정밀도 및 능력 문제에 관한 것이다. 유한 비트 정밀도 계산 환경(통상 16비트 또는 32비트)에서, 필터링 동작은 계수 양자화 에러를 필터링하는 것이다. 이들은 일반적으로 약화된 수렴 성능 및 전체 시스템 안정성으로 귀결된다. 양자화 효과는 후처리된 ICA 출력이 ICA 필터 구조로 대신 피드백되게끔 크로스 필터 길이를 제한함으로써 및 본래의 피드백 구조를 변경함으로써 제어될 수 있다. 유한 정밀도 환경에서의 입력 에너지의 축소는 안정화 관점으로부터 뿐만 아니라 계산된 숫자값의 유한한 범위에도 필수적이다. 비록 유한한 정밀도 환경에서의 성능이 신뢰할 만하고 조절가능하지만, 제안된 음향 처리 스킴은 바람직하게는 부동 소수점(floating point) 정밀도 환경에서 실행되어야 한다. 최종적으로 계산적인 강제 하에서의 실행은 필터 길이의 적절한 선택 및 필터 계수의 업데이트 주파수를 튜닝함으로써 실행된다. 실제로 ICA 필터 구조의 계산적인 복잡성은 이러한 후자 변수의 직접적인 함수이다.
다른 측면 및 실시예가 도면에 도시되고 이하의 상세한 설명에서 설명되며, 또한 청구의 범위의 기술적 사상에 의해 정의될 것이다.
음향 분리 시스템의 바람직한 실시예가 도면을 참조하여 이하에서 설명된다. 제한된 계산 능력으로 실시간 처리를 하기 위해서, 시스템은 단순하고 계산하기 쉬운 유계 함수를 갖는 크로스 필터의 개선된 ICA 처리 서브-모듈을 사용한다. 통상적인 접근과 비교하면, 이러한 단순화된 ICA 방법은 계산 능력 요구를 감소시키고 비-음향 신호로부터 음향 신호를 성공적으로 분리한다.
음향 분리 시스템 개관
도 2는 음향 분리 시스템(200)의 일 실시예를 나타낸다. 시스템(200)은 음향 강화 모듈(210), 선택적인 음향 디-노이징 모듈(220), 및 선택적인 음향 피처 추출 모듈(230)을 포함한다. 음향 강화 모듈(210)은 개선된 ICA 처리 서브-모듈(212) 및 선택적인 후처리 서브-모듈(214)을 포함한다. 개선된 ICA 처리 서브-모듈(212)은 상대적으로 낮은 계산 능력으로 실시간 음향 분리를 달성하기 위해서 단순화되고 개선된 ICA 처리를 사용한다. 실시간 음향 분리가 필요하지 않는 적용에서, 개선된 ICA 처리는 계산 능력 상의 요구량을 추가로 줄일 수 있다. 여기서 사용된 것과 같이, 용어 ICA 및 BSS는 교환가능하고 근사법을 통해 직접적으로 또는 간접적으로 상호 정보의 수학적인 공식을 최소화 또는 최대화하는 방법을 지칭하며, 시간 및 주파수 도메인에 기초한 시간 지연 무상관화(decorrelation)와 같은 무상관화 방법 또는 임의의 다른 2차 또는 그 이상의 통계에 기초한 무상관화 방법을 포함한다.
여기에서 사용된 것과 같이, "모듈" 또는 "서브-모듈"은 임의의 방법, 장치, 설비, 유닛 또는 소프트웨어, 하드웨어 또는 펌웨어 형태의 컴퓨터 명령을 포함하는 컴퓨터로 판독가능한 데이터 저장 매체를 지칭할 수 있다. 동일한 기능을 실행하기 위해서 다수의 모듈 또는 시스템은 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템은 다수의 모듈 또는 시스템으로 분리될 수 있는 것으로 알려져 있다. 셀룰라 폰 적용에 관한 바람직한 실시예에서, 개선된 ICA 처리 서브-모듈(212)은 단독으로 또는 다른 모듈과 조합하여 셀룰라 폰 내에 위치한 마이크로프로세서 칩에 설치된다. 소프트웨어 또는 다른 컴퓨터로 실행가능한 명령에서 실행되는 경우, 본 발명의 구성요소들은 본질적으로 예를 들면, 루틴, 프로그램, 객체, 성분, 데이터 구조 등으로 필요한 작업을 실행하는 코드 세그먼트(code segment)이다. 프로그램 또는 코드 세그먼트는 프로세서가 판독가능한 매체에 저장될 수 있거나 또는 전송 매체 또는 통신 링크를 통해 반송파에 실려진 컴퓨터 데이터 신호에 의해 전송될 수 있다. "프로세서가 판독가능한 매체"는 정보를 저장할 수 있거나 전송할 수 있는 임의의 매체를 포함할 수 있고, 휘발성, 비휘발성, 삭제가능한 및 삭제 불가능한 매체를 포함한다. 프로세서가 판독가능한 매체의 예들은 전자 회로, 반도체 메모리 장치, ROM, 플래쉬 메모리, 삭제가능한 ROM(EROM), 플로피 디스켓 또는 다른 자기 저장장치, CD-ROM/DVD 또는 다른 광 저장장치, 하드 디스크, 광섬유 매체, RF 링크, 또는 원하는 정보를 저장하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 공기, 전자기, RF 링크 등와 같은 전송 매체를 통해 전파될 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트는 인터넷, 인트라넷, 등과 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 어떠한 경우에도, 본 발명은 이러한 실시예들에 의해 한정되는 것으로 해석되어서는 안된다.
음향 분리 시스템(200)은 하나 이상의 음향 강화 모듈(210), 음향 디-노이징 모듈(220), 및 음향 피처 추출 모듈(230)의 다양한 조합을 포함할 수 있다. 음향 분리 시스템(200)은 또한 이하에서 설명되는 하나 이상의 음향 인식 모듈(도시 안됨)을 포함할 수 있다. 각각의 모듈은 독립 시스템 또는 큰 시스템의 일부로서 단독으로 사용될 수 있다. 이하에서 설명된 것과 같이, 음향 분리 시스템은 특정 기능을 제어하기 위해서 음향 입력을 수신하는 전자장치에 통합되는 것이 바람직하나, 그렇지 않으면 배경 노이즈로부터 원하는 노이즈의 분리를 필요로한다. 많은 적용은 다수의 방향으로부터 발생하는 배경 사운드로부터 깨끗한 원하는 사운드를 강화 또는 분리하는 것을 필요로 한다. 이러한 적용은 음성 인식 및 감지, 음향 강화 및 분리, 음성-동작 제어 등과 같은 성능을 포함하는 전자 또는 컴퓨터 장치와 같은 휴먼-머신 인터페이스를 포함한다. 본 발명인 음향 분리 시스템에 의해 요구되는 감소된 처리 능력 때문에, 제한된 처리 능력 만을 제공하는 장치에 적절하다.
개선된 ICA 처리
도 3은 개선된 ICA 또는 BSS 처리 서브-모듈(212)의 일 실시예(300)를 나타낸다. 입력 신호 X1 및 X2는 각각 채널(310 및 320)로부터 수신된다. 통상, 이러한 신호의 각각은 적어도 하나의 마이크로폰으로부터 발생할 수 있으나, 다른 음원이 사용될 수 있는 것으로 이해될 수 있다. 크로스 필터 W1 및 W2는 분리된 신호(U1)의 채널(330) 및 분리된 신호(U2)의 채널(340)을 생성하기 위해서 입력 신호의 각각에 적용된다. 채널(330)(음향 채널)은 원하는 신호를 지배적으로 포함하고 채널(340)(노이즈 채널)은 노이즈 신호를 지배적으로 포함한다. 비록 용어 "음향 신호" 및 "노이즈 채널"이 사용되었지만, 용어 "음향" 및 "노이즈"는 바람직한 것으로 대체될 수 있으며, 예컨대 하나의 음향 및/또는 노이즈가 다른 음향들 및/또는 노이즈들에 대해 바람직한 것일 수 있다. 추가로, 이 방법은 또한 두개 이상의 음원으로부터 혼합 노이즈 신호를 분리하는데 사용될 수 있다.
무한 임펄스 응답 필터는 바람직하게는 개선된 ICA 처리에 사용된다. 무한 임펄스 응답 필터는 그 출력 신호가 입력 신호의 적어도 일부로서 상기 필터로 피드백되는 필터이다. 유한 임펄스 응답 필터는 그 출력 신호가 입력으로서 피드백되지 않는 필터이다. 크로스 필터 W21 및 W12 는 긴 주기의 시간 지연을 캡쳐하기 위해서 시간에 대해 희박하게 분포된 계수를 가질 수 있다. 가장 단순화된 형태에서, 크로스 필터 W21 및 W12 는 필터당 단지 하나의 필터 계수을 갖는 이득 인자이며, 예컨대 출력 신호와 피드백 입력 신호 사이의 시간 지연에 대한 지연 이득 인자 및 입력 신호를 증폭하는 진폭 이득 인자이다. 다른 형태에서, 크로스 필터는 각각 수십, 수백 또는 수천개의 필터 계수를 가질 수 있다. 이하에서 설명되는 것과 같이, 출력 신호 U1 및 U2는 후처리 서브-모듈, 디-노이징 모듈 또는 음향 피처 추출 모듈에 의해 추가로 처리될 수 있다.
비록 ICA 학습 규칙이 블라인드 음원 분리를 달성하기 위해 명백하게 유도되었지만, 어쿠스틱 환경에서 음향 처리에 대한 실질적인 실행은 필터링 스킴의 불안정한 행동을 야기할 수 있다. 이 시스템의 안정성을 보장하기 위해서, W12 및 유사한 W21 의 적응 역학은 우선 안정적이어야 한다. 이와 같은 시스템에 대한 이득 마진은 일반적인 의미에서 낮으므로, 변동하는 음성 신호에서와 같은 입력 이득의 증가는 불안정을 야기하고 따라서 웨이트 계수가 급격히 증가한다. 음향 신호는 일반적으로 제로 평균을 갖는 희박한 분포를 나타내기 때문에, 부호함수는 시간에서 빈번히 진동하고 불안정한 행동에 기여하게 될 것이다. 최종적으로 큰 학습 파라미터는 빠른 수렴을 위해 바람직하고, 큰 입력 이득이 시스템을 더욱 불안정하게 만들기 때문에 안정성과 성능 사이에 상충이 내재되어 있다. 알려진 학습 규칙은 불안정성으로 이끌 뿐만 아니라, 비선형 부호 함수 때문에 진동하는 경향이 있고, 특히 안정성 한계에 접근하는 경우 필터링된 출력 신호 Y1[t] 및 Y2[t]의 잔향을 야기한다. 이러한 문제를 역점을 두어 다루기 위해, W12 및 W21 에 대한 적응 규칙은 안정화되는 것을 필요로한다. 필터 계수에 대한 학습 규칙이 안정적이라면, 광범위한 분석적이고 경험적인 연구는 시스템이 BIBO(Bounded Input Bounded Output)에서 안정적인 것을 보여주었다. 따라서 전체 처리 스킴의 최종에 해당하는 목적은 안정성 강제 하에서 잡음이 있는 음향 신호의 블라인드 음원 분리일 것이다.
그러므로 안정성을 보장하기 위한 주요한 방법은 도 3에 도시된 것과 같이 입력을 적절하게 스케일링 하는 것이다. 이러한 기초 구조에서 스케일링 인자 sc_fact는 진입하는 입력 신호 특징에 기초하여 변경된다. 예컨대, 입력이 너무 높다면, 이는 sc_fact에서 증가를 야기할 것이고, 따라서 입력 진폭을 감소시킬 것이다. 성능과 안정성 사이에는 타협이 존재한다. sc_fact에 의한 입력의 축소는 감소된 분리 성능을 야기하는 SNR을 감소시킨다. 이와 같이 입력은 안정성을 보장하기 위해 필요한 정도로 스케일링되어야 한다. 모든 샘플에서 웨이트 계수의 단기의 변화를 처리하는 필터 구조를 동작시키고, 이에 의해 연관된 잔향을 피함으로써 크로스 필터에 대한 추가적인 안정화가 얻어질 수 있다. 이 적응 규칙 필터는 시간 도메인의 평탄화로서 보여질 수 있다. 추가적인 필터 평탄화가 이웃하는 주파수 저장소로 수렴된 분리 필터의 코히런스(coherence)를 강화하기 위해서 주파수 도메인에서 실행될 수 있다. 이는 일반적으로 K-탭 필터를 길이 L로 제로 탭핑하고, 그다음 역변환이 따르는 증가된 시간 지원으로 이 필터를 푸리에 변환함으로써 행해질 수 있다. 필터는 사각형 시간 도메인 창으로 효과적으로 창이 만들어지기 때문에, 주파수 도메인에서 싱크(sinc) 함수에 의해 상응하게 평탄화된다. 이 주파수 도메인 평탄화는 코히런트 솔루션에 적응된 필터 계수를 주기적으로 재초기화하여 일정한 시간 간격으로 실행될 수 있다.
다음의 수학식은 크기 t인 각 시간 샘플창에 사용될 수 있고 시간 변수인 k를 갖는 비선형 유계 함수의 예이다.
함수 f(x)는 비선형 유계 함수, 즉 소정의 최대값 및 소정의 최소값을 갖는 비선형 함수이다. 바람직하게는, f(x)는 변수 x의 부호에 의존하여 최대값 또는 최소값에 빠르게 접근하는 비선형 유계 함수이다. 예컨대, 상기 수학식 3 및 수학식 4는 단순한 유계 함수로서 부호 함수를 사용한다. 부호 함수 f(x)는 x가 양인지 음인지 여부에 따라서 1 또는 -1의 2진 값을 갖는 함수이다. 예가되는 비선형 유계 함수는 이하의 수학식을 포함하나, 이에 한정되지 않는다.
이러한 규칙은 필요한 계산을 수행하기 위해 부동 소수점 정밀도가 이용 가능한 것을 가정한다. 비록 부동 소수점 정밀도가 바람직하지만, 더욱 구체적으로는 최소화된 계산 처리 능력을 갖는 장치에 적용되기 때문에 고정점 계산이 또한 사용될 수 있다. 고정점 계산을 사용할 수 있음에도 불구하고, 최적의 ICA 해법으로의 수렴은 더욱 어렵다. 실제로 ICA 알고리듬은 간섭하는 음원이 삭제되어야 하는 원칙에 기초한다. 거의 동일한 숫자가 감해지는(또는 매우 다른 숫자가 더해지는) 상황에서의 고정점 계산의 어던 부정확도 때문에, ICA 알고리듬은 최적 이하의 수렴 성질을 나타낼 수 있다.
분리 성능에 영향을 끼칠 수 있는 다른 인자는 필터 계수 양자화 에러 효과이다. 제한된 필터 계수 해상도 때문에, 필터 계수의 적응은 특정점에서 점차적인 부가 분리 개선 및 이에 따른 수렴 성질의 판정에 있어서 고려를 양산할 것이다. 양자화 에러 효과는 다수의 인자에 의존하나 주로 사용된 필터 길이 및 비트 해상도의 함수이다. 이전에 언급된 입력 스케일링 문제는 숫자 상의 오버플로를 방지하는 유한 정밀도 계산에서 또한 필수적이다. 필터링 처리에 관련된 컨볼루션(convolution)은 이용 가능한 해상도 범위 보다 큰 숫자까지 잠재적으로 더해질 수 있기 때문에, 스케일링 인자는 필터 입력이 이러한 형태가 발생하는 것을 방지하기 위해서 충분히 작아야 하는 것을 보장해야 한다.
다중-채널 개선된 ICA 처리
개선된 ICA 처리 서브-모듈(212)은 마이크로폰과 같은 적어도 두개의 오디오 입력 채널로부터 입력 신호를 수신한다. 오디오 입력 채널의 개수는 최소 개수인 두 채널을 넘어 증가될 수 있다. 입력 채널의 개수가 증가함에 따라서, 음향 분리 품질은 일반적으로 입력 채널의 개수가 오디오 신호 음원의 개수와 같아지는 정도까지 개선될 수 있다. 예컨대, 입력 오디오 신호의 음원이 화자, 배경 화자, 배경 음원, 및 멀리 떨어진 도로의 노이즈 및 바람의 노이즈에 의해 생성된 일반적인 배경 노이즈를 포함한다면, 4-채널 음향 분리 시스템은 보통 2-채널 시스템보다 성능이 우수하다. 물론, 더 많은 입력 채널이 사용될 때, 더 많은 필터 및 더 많은 계산 능력이 요구된다.
개선된 ICA 처리 서브-모듈 및 처리는 입력 신호의 두개 채널 보다 많은 것을 분리하기 위해 사용될 수 있다. 예컨대, 셀룰라폰 적용에 있어서, 일 채널은 실질적으로 원하는 음향 신호를 포함할 수 있고, 다른 채널은 실질적으로 하나의 노이즈 음원으로부터의 노이즈 신호를 포함할 수 있으며, 및 다른 채널은 실질적으로 다른 노이즈 음원으로부터의 오디오 신호를 포함할 수 있다. 예컨대, 다수의 사용자 환경에서, 일 채널은 한 타깃 사용자의 지배적인 음향을 포함할 수 있으며, 반면에 다른 채널은 다른 타깃 사용자의 지배적인 음향을 포함할 수 있다. 세번째 채널은 노이즈를 포함할 수 있고, 두개의 음향 채널의 추가 처리에 유용할 수 있다. 추가적인 음향 또는 타깃 채널은 유용할 수 있는 것으로 여겨질 것이다.
비록 일부의 적용이 원하는 음향 신호의 하나의 음원에만 관련되지만, 다른 적용에서 원하는 음향 신호에 대해 다수의 음원이 존재할 수 있다. 예컨대, 텔레콘퍼런스 적용 또는 오디오 감시 적용은 배경 노이즈로부터 및 서로로부터 다수의 화자의 음향 신호를 분리하는 것을 필요로 할 수 있다. 개선된 ICA 처리는 배경 노이즈로부터 음향 신호의 한 음원을 분리할 뿐만 아니라 한 화자의 음향 신호를 다른 화자의 음향 신호로부터 분리하는데 사용될 수 있다.
주변 처리
본 발명의 방법 및 시스템의 성능을 효과적이고 강하게 증가시키기 위해서, 다양한 주변 처리 기술이 입력 및 출력 신호에 다양한 등급으로 적용될 수 있다. 여기서 명백하게 설명된 방법 및 시스템을 보충하는 후처리 기술 뿐만 아니라 전처리 기술은 오디오 혼합에 적용된 블라인드 음원 분리 기술의 성능을 강화할 것이다. 예컨대, 후처리 기술은 바람직하지 않은 출력 또는 분리되지 않은 입력을 이용하여 원하는 신호의 품질을 개선하는데 사용될 수 있다. 유사하게, 전처리 기술 또는 정보는 여기에 설명된 방법 및 시스템을 보충하기 위해 믹싱 시나리오의 조건을 개선함으로써 오디오 혼합에 적용된 블라인드 음원 분리 기술의 실행을 강화할 수 있다.
개선된 ICA 처리는 사운드 신호를 적어도 두개의 채널, 예컨대 노이즈 신호에 대한 한 채널(노이즈 채널) 및 원하는 음향 신호에 대한 한 채널(음향 채널)로 분리한다. 도 4에 도시된 바와 같이, 채널(430)은 음향 채널이고 채널(440)은 노이즈 채널이다. 음향 채널이 바람직하지 않은 수준의 노이즈 신호를 포함하고 노이즈 채널이 여전히 약간의 음향 신호를 포함하는 것은 꽤 가능성이 있다. 예컨대, 두개 이상의 의미있는 음원 및 단지 두개의 마이크로폰이 존재하거나, 또는 두개의 마이크로폰이 음원이 멀리 떨어져 위치한 것을 제외하고 함께 가까이 위치한다면, 개선된 ICA 처리는 단독으로 노이즈로부터 원하는 음향을 항상 충분하게 분리할 수 없을 것이다. 그러므로 처리된 신호는 배경 노이즈의 잔여 수준을 제거하고 및/또는 음향 신호의 품질을 추가로 개선하기 위해서 후처리되는 것이 필요할 수 있다. 이는 예컨대 단일 또는 다중 채널 음향 강화 알고리듬을 통해 분리된 ICA 출력을 제공함으로써 얻어진다. 음성 활동 검출기로 검출된 비음향 시간 간격으로부터 산정된 노이즈 스펙트럼을 갖는 비너 필터(Wiener filter)는 긴 시간 지원으로 배경 노이즈에 의해 약해진 신호에 대한 좋은 SNR을 얻는데 사용된다. 또한, 유계 함수는 결합 엔트로피 계산에 대한 단지 단순화된 근사법이고, 신호의 정보 중복을 항상 완전히 줄일 수 없다. 그러므로, 신호가 개선된 ICA 처리를 사용하여 분리된 이후에, 후처리는 음향 신호의 품질을 추가로 개선하기 위해 실행될 수 있다.
분리된 노이즈 신호 채널은 버려질 수 있으나, 다른 목적을 위해 사용될 수 있다. 음향 채널의 잔여 노이즈 신호가 노이즈 채널의 노이즈 신호로서 유사한 신호 부호를 갖는다는 합리적인 가정에 기초하여, 부호가 노이즈 채널 신호의 부호와 유사한 원하는 음향 채널에서의 신호는 후처리 유닛에서 필터링되어야 한다. 예컨대, 스펙트럼 차감 기술은 후처리를 실행하기 위해서 사용될 수 있다. 노이즈 채널에서 신호의 부호가 식별된다. 노이즈 특징에 대한 소정의 가정에 의존하는 종래의 노이즈 필터와 비교하여, 후처리는 특별한 환경의 노이즈 부호를 분석하고 특별한 환경을 나타내는 노이즈 신호를 제거하기 때문에 더욱 융통성이 있다. 그러므로 이는 노이즈 제거에서 지나치게 포괄적이거나 또는 덜 포괄적인 것이 더 작게 가능할 것이다. 비너 필터링 및 칼만(Kalman) 필터링과 같은 다른 필터링 기술은 또한 후처리를 실행하는데 사용될 수 있다. ICA 필터 해법은 실재 해법의 한계 사이클로 단지 수렴될 것이기 때문에, 필터 계수는 좋은 분리 성능으로 귀결되는 것을 제외하고 계속해서 적용될 것이다. 약간의 계수는 그 해상도 한계로 이동되었다. 그러므로 원하는 화자 신호를 포함하는 ICA 출력의 후처리된 버전은 수렴 한계 사이클이 극복되고 ICA 알고리듬을 동요시키지 않게끔 도 4에 의해 도시된 IIR 피드백 구조를 통해 피드백된다. 이 과정의 유익한 부산물은 수렴이 상당하게 가속된다는 것이다.
디-노이징, 음향 피처 추출과 같은 다른 처리들은 음향 신호의 품질을 추가로 개선하기 위해서 음향 강화와 함께 사용될 수 있다. 음향 인식 적용은 음향 강화 처리에 의해 분리된 음향 신호를 이용할 수 있다. 노이즈로부터 실질적으로 분리된 음향 신호와 함께, Hidden Markov Model chains과 같은 방법에 기초한 음향 인식 엔진, 신경망 학습 및 지원 벡터 머신은 더 큰 정확성을 가지고 작동할 수 있다.
지금부터 도 5를 참조하여, 음향 처리의 흐름도를 설명한다. 방법(500)은 예컨대 휴대용 무선 모바일 폰, 전화 헤드셋과 같은 음향 장치, 또는 핸즈-프리 자동차 키트에서 사용될 수 있다. 방법(500)은 다른 음향 장치에서 사용될 수 있고, DSP 프로세서, 일반적인 계산 프로세서, 마이크로프로세서, 게이트 어레이, 또는 다른 계산 장치에서 실행될 수 있는 것으로 여겨진다. 사용에서, 방법(500)은 사운드 신호(502)의 형태로 어쿠스틱 신호를 수신한다. 이러한 사운드 신호(502)는 많은 음원으로부터 발생할 수 있고, 타깃 사용자로부터의 음향, 근처의 다른 사람으로부터의 음향, 노이즈, 잔향, 에코, 반사, 및 다른 바람직하지 않은 사운드를 포함할 수 있다. 비록 단일 타깃 음향 신호를 식별하고 분리하는 방법(500)이 도시되었지만, 방법(500)은 추가적인 타깃 사운드 신호를 식별하고 분리하기 위해 변형될 수 있다.
또한, 다양한 전처리 기술 또는 정보가 사전 지식을 사용하고, 입력 신호 및 조건에서 발산하는 정보 또는 특징을 최대화하며, 믹싱 시나리오의 조건을 개선하는 등과 같은 혼합 오디오 신호의 처리 및 분리를 개선하거나 또는 촉진하는데 사용될 수 있다. 예컨대, 분리된 ICA 사운드 채널의 출력 순서는 일반적으로 미리 알려지지 않으므로, 추가 채널 선택 단계(510)는 반복하는 방식으로 원하는 화자에 관한 사전 지식(501)에 기초하여 분리된 채널의 콘텐츠를 처리한다. 원하는 화자의 음향의 특징을 식별하기 위해 사용된 표준(504)은 공간 또는 시간 피처, 에너지, 볼륨, 주파수 콘텐츠, 제로 크로싱 비율 또는 분리 처리에 대해 병렬로 계산된 화자 의존 및 독립 음향 인식 스코어에 기초할 수 있으나 이에 한정되지 않는다. 예컨대, 표준(504)은 특별한 명령 예컨대 "일어나시오(wake up)"와 같은 강제된 어휘에 응답하기 위해 구성될 수 있다. 다른 예에서, 음향 장치는 자동차의 전방 운전자 위치와 같은 특별한 위치 또는 방향으로부터 방출하는 사운드 신호에 대해 응답할 수 있다. 이러한 방식에서 핸즈-프리 자동차 키트는 승객 및 라디오로부터의 음향을 무시하면서 운전자로부터의 음향에만 응답하기 위해 구성될 수 있다. 선택적으로, 믹싱 시나리오의 조건은 예컨대 공간, 시간, 에너지, 스펙트럼 등의 변형 및 조작에 의한 것과 같이 입력 신호의 특징을 변형 또는 조작하는 것에 의해 개선될 수 있다.
일부 음향 장치에서, 마이크포폰은 음원, 배경 노이즈로부터의 소정의 거리에 기초하거나 또는 다른 마이크포폰과 관련되어 일관성 있게 배치되거나, 또는 예컨대 지향성 마이크로폰과 같은 입력 신호를 조절하는 특정한 특징을 갖는다. 블록(506)에 나타난 바와 같이, 두개의 마이크로폰은 공간적으로 분리될 수 있고 음향 장치의 하우징에 배치될 수 있다. 예컨대, 전화 헤드셋은 통상적으로 마이크로폰이 화자의 입에서 대략 1 인치 내에 있어서, 화자의 음성이 일반적으로 마이크로폰에 가장 가까운 음원이 되게끔 조절된다. 유사한 방식으로, 핸드핼드 무선 폰, 헤드셋, 또는 접히는 마이크포폰은 일반적으로 타깃 화자의 입까지 상당히 알려진 거리를 갖는다. 마이크로폰으로부터 타깃 음원 까지의 거리는 알려지기 때문에, 이 거리는 타깃 음향 신호를 식별하기 위한 특징으로 사용될 수 있다. 예컨대, 처리(510)는 2인치 이하로 떨어진 것으로부터 발생하고 남성의 음성을 표시하는 주파수 성분을 갖는 사운드 신호 만을 선택할 수 있다. 두개의 마이크로폰 셋업이 사용되는 경우에, 마이크로폰은 원하는 화자의 입에 가깝게 배열된다. 이러한 셋업은 원하는 화자의 음성 신호를 하나의 분리된 ICA 채널로 분리되는 것을 허용하여 단지 노이즈만을 포함하는 나머지 분리된 출력 채널은 원하는 화자의 채널의 연속적인 후처리를 위한 노이즈 레퍼런스로서 사용될 수 있게끔 한다.
두개 이상의 마이크로폰이 사용되는 기록 시나리오에서, 두 채널 ICA 알고리듬은 두개의 채널 시나리오에 대해 일찌기 설명된 것과 같은 유사한 방식으로, N*(N-1) ICA 크로스 필터를 갖는 N-채널(마이크포폰) 알고리듬으로 확장된다. 후자는 N개의 기록 채널 중에서 선택하기 위해서 [ad2]에 나타난 채널 선택 과정을 따라 음원 할당 목적으로 사용되며, 최적의 두개의 채널 조합은 두개의 채널 ICA 알고리듬에서 그다음 처리되어 원하는 화자를 분리한다. N-채널 ICA 분리로부터 생기는 모든 종류의 정보 음원은 유사하지만 한정되지 않으며, 학습된 ICA 크로스 필터 계수 뿐만 아니라 기록된 입력으로부터 분리된 출력 음원까지의 상대적인 에너지 변화는 이 목적에 이용된다.
공간적으로 분리된 마이크로폰 각각은 원하는 타깃 사운드와 약간의 노이즈 및 잔향 음원의 혼합물인 신호를 수신한다. 혼합 사운드 신호(507 및 509)는 분리를 위해 ISA 처리(508)에서 수신된다. 식별 처리(510)를 사용하여 타깃 음향 신호를 식별한 이후에, ICA 처리(508)는 혼합 사운드를 원하는 음향 신호 및 노이즈 신호로 분리한다. ICA 처리는 예컨대 웨이트 인자를 추가로 다듬고 설정하기 위해 노이즈 신호를 사용하는 것과 같이, 음향 신호를 추가로 처리(512)하기 위해 노이즈 신호를 사용할 수 있다. 또한 이하에서 추가로 설명되는 것과 같이, 노이즈 신호는 또한 음향 신호로부터 노이즈 콘텐츠를 추가로 제거하는 추가 필터링(514) 또는 처리에 의해 사용될 수 있다.
디-노이징
도 6은 디-노이징 처리의 일 실시예를 나타내는 흐름도이다. 셀룰라 폰 적용에서, 디-노이징은 모든 방향에서 생기는 바람 노이즈와 같이 공간적으로 할당되지 않는 노이즈 음원을 분리하는데 최적이다. 디-노이징 기술은 또한 고정된 주파수로 노이즈 신호를 제거하는데 사용될 수 있다. 처리는 시작 블록(600)에서 블록(610)으로 진행한다. 블록(610)에서, 처리는 음향 신호 x의 블록을 수신한다. 처리는 시스템이 음원 계수를 다음의 수학식을 사용하여 바람직하게 계산하는 블록(620)으로 진행한다.
상기 수학식에서, wij 는 ICA 웨이트 행렬을 나타낸다. 미국 특허 제5,706,402호에 설명된 ICA 방법 또는 미국 특허 제6,424,960호에서 설명된 ICA 방법은 디-노이징 처리에서 사용될 수 있다. 그다음 처리는 블록(630), 블록(640), 또는 블록(650)으로 진행한다. 블록(630, 640 및 650)은 선택적인 실시예를 나타낸다. 블록(630)에서, 처리는 신호 si의 전력에 기초하여 다수의 의미있는 음원 계수를 선택한다. 블록(640)에서, 중요치 않은 계수를 제거하기 위해서 최대로 가능성 있는 축소 함수를 계산된 음원 계수에 적용한다. 블록(650)에서, 처리는 각 시간 샘플 t에 대한 기초 기능 중의 하나로 음향 신호 x를 필터링한다.
처리는 블록(630, 640, 또는 650)으로부터 다음의 수학식을 사용하여 바람직하게 음향 신호를 재구성하는 블록(660)으로 진행한다.
상기 수학식에서, aij 는 웨이트 인자로 진입 신호를 필터링함으로써 생성된 연습중인 신호를 나타낸다. 디-노이징 처리는 이같이 노이즈를 제거하고 재구성된 음향 신호 xnew를 생성한다. 양호한 디-노이징 결과는 노이즈 음원에 관한 정보가 이용가능한 경우에 얻어진다. 개선된 ICA 처리에 관하여 상기에서 설명된 것과 같이, 노이즈 채널에서의 신호의 부호는 음향 채널의 신호로부터 노이즈를 제거하는 디-노이징 처리에 의해 사용될 수 있다. 처리는 블록(660)으로부터 종료 블록(670)으로 진행한다.
음향 피처 추출
도 7은 ICA를 사용하는 음향 피처 추출 처리의 일 실시예를 나타낸다. 처리는 시작 블록(700)에서부터 음향 신호 x를 수신하는 블록(710)으로 시작한다. 도 9를 참조하여 이하에서 설명된 것과 같이, 음향 신호 x는 입력 음향 신호, 음향 강화에 의해 처리된 신호, 디-노이징에 의해 처리된 신호, 또는 음향 강화 및 디-노이징에 의해 처리된 신호가 될 수 있다.
도 7로 돌아가 참조하면, 처리는 블록(710)으로부터 수학식 10에 의해 상기에서 설명된 것과 같이 공식 sij,new=W*xij을 참조하여 음원 계수를 계산하는 블록(720)으로 진행한다. 그다음 처리는 수신된 음향 신호가 기초 함수로 분해되는 블록(730)으로 진행한다. 처리는 블록(730)으로부터 계산된 음원 계수가 피처 벡터로서 사용되는 블록(740)으로 진행된다. 예컨대, 계산된 계수 sij,new 또는 2log sij,new 가 계산 피처 벡터에서 사용된다. 그다음 처리는 종료 블록(750)으로 진행한다.
추출된 음향 피처는 음향을 인식하거나 또는 다른 오디오 신호로부터 인식가능한 음향을 구분하기 위해 사용될 수 있다. 추출된 음향 피처는 홀로 사용될 수 있거나 또는 셉스트럴(cepstral) 피처(MFCC)와 결합하여 사용될 수 있다. 추출된 음향 피처는 또한 예컨대 다수의 화자의 음향 신호로부터 개별 화자를 식별하기 위해서, 또는 남성 또는 여성 화자로부터의 음향과 같은 특정 분류에 속하는 음향 신호를 식별하기 위해서와 같이 화자를 식별하기 위해 사용될 수 있다. 추출된 음향 피처는 또한 음향 신호를 검출하는 분류 알고리듬에 의해 사용될 수 있다. 예컨대, 최대 가능성 있는 계산은 의문의 신호가 인간의 음향 신호인 가능성을 판정하는데 사용될 수 있다.
추출된 음향 피처는 또한 텍스트의 컴퓨터 음독을 생성하는 텍스트 투 스피치(text-to-speech)에 적용될 수 있다. 텍스트 투 스피치 시스템은 음향 신호의 방대한 데이터베이스를 사용한다. 하나의 도전은 음소(phoneme)의 양호한 대표적인 데이터 베이스를 얻는 것이다. 종래의 시스템은 음향 데이터를 음소 데이터 베이스로 분류하기 위해서 셉스트럴 피처를 사용한다. 음향 신호를 기초 함수로 분해함으로써, 개선된 음향 피처 추출 방법은 음향을 음소 세그먼트로 더 잘 분류할 수 있고 그러므로 더 좋은 데이터 베이스를 생성할 수 있으며, 따라서 텍스트 투 스피치 시스템에 대해 더 좋은 음향 품질을 허용할 수 있다.
음향 피처 추출 처리의 일 실시예에서, 일 세트의 기초 함수는 음향을 인식하기 위해 모든 음향 신호에 대해 사용된다. 다른 실시예에서, 일 세트의 기초 함수는 각 화자를 인식하기 위해 각 화자에 대해 사용된다. 이는 텔레콘퍼런스로서 복수-화자 적용에 특히 유리할 수 있다. 또한 다른 실시예에서, 일 세트의 기초 함수는 각 분류를 인식하기 위해 일 분류의 화자에 대해 사용된다. 예컨대, 일 세트의 기초 함수는 남자 화자에 대해 사용되고 다른 세트는 여자 화자에 대해 사용된다. 미국 특허 제6,424,960호는 다른 분류의 음성을 인식하기 위해 ICA 혼합 모델을 사용하여 설명한다. 이러한 모델은 다른 화자 또는 다른 성별의 화자의 음향 신호를 인식하기 위해 사용될 수 있다.
음향 인식
음향 인식 적용은 개선된 ICA 처리에 의해 분리된 음향 신호를 이용할 수 있다. 음향 신호가 실질적으로 노이즈로부터 분리되면, 음향 인식 적용은 더욱 큰 정확도로 동작할 수 있다. 이러한 Hidden Markov Model, 신경망 학습 및 지원 벡터 머신과 같은 방법이 음향 인식 적용에 사용될 수 있다. 상기한 바와 같이, 두개의-마이크로폰 배열에서, 개선된 ICA 처리는 입력 신호를 원하는 음향 신호 및 약간의 노이즈 신호의 일 음향 채널, 및 노이즈 신호 및 약간의 음향 신호의 일 노이즈 채널로 분리한다.
노이즈 환경에서 음향 인식 정확도를 개선하기 위해서, 노이즈 레퍼런스 신호에 기초하여 음향 신호로부터 노이즈를 제거하기 위해서 정확한 노이즈 레퍼런스 신호를 갖는 것이 바람직하다. 예컨대, 음향 스펙트럼 차감법을 사용하여 실질적인 일 채널의 음향 신호로부터 노이즈 레퍼런스 신호의 특징을 갖는 신호를 분리한다. 그러므로, 큰 노이즈 환경에 대한 바람직한 음향 인식 시스템에서, 시스템은 신호의 음향 채널 및 노이즈 채널을 수신하고 노이즈 레퍼런스 신호를 식별한다.
처리 조합
음향 피처 추출의 특정 실시예에서, 디-노이징 및 음향 인식 프로세스는 음향 강화 처리에 따라 설명되었다. 모든 처리가 함께 사용되는 것을 필요로 하지 않는다는 것을 주목할 필요가 있다. 표 800의 좌측 열은 신호의 형태가 기재되고 우측 열은 신호의 해당 형태를 처리하는 바람직한 처리가 기재된다.
줄 810에 나타난 일 배열에서, 입력 신호는 음향 강화를 사용하여 먼저 처리되고, 그다음 음향 디-노이징을 사용하여 처리되며, 그다음 음향 피처 추출을 사용하여 처리된다. 이러한 세개의 처리의 조합은 입력 신호가 큰 노이즈 및 경쟁 음원을 포함하는 경우 잘 동작한다. 큰 노이즈는 예컨대, 다양한 형태의 노이즈가 다른 방향으로부터 발생하나 일 형태의 노이즈는 특히 크지 않은 길거리 위의 복수의 음원으로부터 발생한 상대적으로 낮은 진폭의 신호를 참조한다. 경쟁 음원은 예컨대 운전자가 카 폰으로 대화하는 경우 높은 볼륨으로 튜닝된 자동차 라디오와 같이 원하는 음향 신호와 경쟁하는 하나 또는 몇몇의 음원으로부터 높은 진폭의 신호를 지칭한다. 줄 820에 나타낸 다른 배열에서, 입력 신호는 음향 강화를 사용하여 먼저 처리되고 그다음 음향 피처 추출을 사용하여 처리된다. 음향 디-노이징 처리는 생략된다. 음향 강화 및 음향 피처 추출 처리의 조합은 본래의 신호가 경쟁 음원을 포함하고 큰 노이즈를 포함하지 않는 경우에 잘 동작한다.
줄 830에 나타난 또 다른 배열에서, 입력 신호는 음향 디-노이징을 사용하여 먼저 처리되고 그다음 음향 피처 추출을 사용하여 처리된다. 음향 강화 처리는 생략된다. 음향 디-노이징 및 음향 피처 추출 처리의 조합은 입력 신호가 큰 노이즈를 포함하고 경쟁 음원을 포함하지 않는 경우 잘 동작한다. 이 처리는 특정 큰 노이즈 또는 경쟁 음원을 포함하지 않는 상대적으로 깨끗한 음향에 대한 좋은 결과에 도달하기에 충분하다. 물론, 표 800은 단지 예들의 일 리스트이고 다른 실시예들이 사용될 수 있다. 예컨대, 음향 강화, 음향 디-노이징 및 음향 피처 추출 처리의 모두는 그들 형태와 상관없이 신호를 처리하는데 적용될 수 있다.
셀룰라 폰 적용
도 9는 셀룰라 폰 장치의 일 실시예를 도시한다. 셀룰라 폰 장치(900)는 사운드 신호를 기록하는 두개의 마이크로폰(910 및 920), 및 배경 노이즈로부터 원하는 음향 신호를 분리하기 위해 상기 기록된 신호를 처리하는 음향 분리 시스템(200)을 포함한다. 음향 분리 시스템(200)은 채널(930 및 940) 상으로 분리된 신호를 생성하기 위해 크로스 필터를 상기 기록된 신호에 적용하는 개선된 ICA 처리 서브-모듈을 적어도 포함한다. 그다음 분리된 원하는 음향 신호는 전송기(950)에 의해 유선 전화 또는 다른 셀룰라 폰과 같은 오디오 신호 수신 장치로 전송된다.
분리된 노이즈 신호는 버려질 수 있으나 다른 목적을 위해 또한 사용될 수 있다. 분리된 노이즈 신호는 환경 특징을 판정하고 그에 맞게 셀룰라 폰 파라미터를 조절하기 위해 사용될 수 있다. 예컨대, 노이즈 신호는 화자의 환경의 노이즈 레벨을 판정하기 위해 사용될 수 있다. 그다음 셀룰라 폰은 화자가 높은 노이즈 레벨을 갖는 환경에 있는 경우 마이크로폰의 볼륨을 증가시킨다. 상기한 바와 같이, 노이즈 신호는 또한 분리된 음향 신호로부터 잔여 노이즈를 추가로 제거하기 위한 레퍼런스 신호로서 사용될 수 있다.
쉬운 도시를 위해, 배터리, 디스플레이 패널 등과 같은 다른 셀룰라 폰 부속은 도 9에서 생략되었다. 아날로그-디지털 변환, 변조와 관련되거나 또는 주파수분할다중접속(FDMA : Frequency Division Multiple Access), 시간분할다중접속(TDMA : Time Division Multiple Access) 또는 채널분할다중접속(CDMA : Channel Division Multiple Access) 등을 가능케 하는 셀룰라 폰 신호 처리 단계는 또한 쉬운 도시를 위해 생략되었다.
비록 도 9가 두개의 마이크로폰을 도시하였지만, 두개 이상의 마이크로폰이 사용될 수 있다. 현존하는 제조 기술은 대략 10센트 은화, 핀의 머리 또는 그보다 작은 크기인 마이크로폰을 생산할 수 있으며, 다수의 마이크로폰이 장치(900) 상에 놓여질 수 있다.
일 실시예에서, 셀룰라 폰에서 실행되는 일반적인 에코-제거 처리는 개선된 ICA 서브-모듈에 의해 실행되는 처리와 같은 ICA 처리로 대체될 수 있다.
오디오 신호 음원은 일반적으로 서로 떨어져 있기 때문에, 마이크로폰은 바람직하게는 셀룰라 폰 상에서 어쿠스틱적으로 떨어져서 배치된다. 예컨대, 하나의 마이크로폰은 셀룰라 폰의 전방면 상에 배치될 수 있고 반면 다른 마이크로폰은 셀룰라 폰의 후방면 상에 배치될 수 있다. 하나의 마이크로폰은 셀룰라 폰의 정상 또는 좌측면 근처에 배치될 수 있고 반면 다른 마이크로폰은 셀룰라 폰의 바닥 또는 우측면 근처에 배치될 수 있다. 두개의 마이크로폰은 셀룰라 폰의 헤드셋의 다른 위치 상에 배치될 수 있다. 일 실시예에서, 두개의 마이크로폰은 헤드셋 상에 배치되고 두개 이상의 마이크로폰은 셀룰라 폰 핸드헬드 유닛 상에 배치된다. 그러므로 두개의 마이크로폰은 사용자가 핸드헬드 유닛 또는 헤드셋을 사용하는가의 여부와 상관없이 사용자의 음향을 기록할 수 있다.
비록 개선된 ICA 처리를 갖는 셀룰라 폰이 예로서 설명되었지만, 전자 설비, 유선 전화, 스피커폰, 무선 전화, 텔레콘퍼런스, CB 라디오, 워키-토키, 컴퓨터 전화통화 애플리케이션, 컴퓨터 및 자동차 음향 인식 애플리케이션, 감시 장치, 인터콤 등에 대한 음성 명령과 같은 다른 음향 통신 매체는 또한 다른 신호로부터 원하는 음향 신호를 분리하기 위해 개선된 ICA 처리를 이용한다.
도 10은 셀룰라 폰 장치의 다른 실시예를 도시한다. 셀룰라 폰 장치(1000)는 다른 셀룰라 폰과 같은 다른 통신 장치로부터 사운드 신호를 수신하는 두개의 채널(1010 및 1020)을 포함한다. 채널(1010 및 1020)은 두개의 마이크로폰에 의해 기록된 동일한 대화의 사운드 신호를 수신한다. 두개 이상의 유닛은 두개 이상의 입력 신호를 수신하기 위해 사용될 수 있다. 장치(1000)는 또한 배경 노이즈로부터 원하는 음향 신호를 분리하기 위해 수신된 신호를 처리하는 음향 분리 시스템(200)을 포함한다. 그다음 분리된 원하는 음향 신호는 셀룰라 폰 사용자의 귀에 도달하도록 증폭기(1030)에 의해 증폭된다. 수신 셀룰라 폰 상에 음향 분리 시스템(200)을 배치함으로써, 수신 셀룰라 폰의 사용자는 전송 셀룰라 폰이 음향 분리 시스템(200)을 구비하지 않았더라도 높은 품질의 음향을 들을 수 있다. 그러나, 이는 전송 셀룰라 폰 상의 두개의 마이크로폰에 의해 기록된 대화 신호의 두 채널을 수신하는 것을 필요로한다.
쉬운 도시를 위해, 배터리, 디스플레이 패널 등과 같은 다른 셀룰라 폰 부속은 도 10에서 생략되었다. 아날로그-디지털 변환, 복조와 관련되거나 또는 FDMA, TDMA, CDMA 등을 가능케 하는 셀룰라 폰 신호 처리 단계는 또한 쉬운 도시를 위해 생략되었다.
본 발명의 특정 측면, 장점 및 신규한 피처가 여기에서 설명되었다. 물론, 이러한 측면, 장점 또는 피처 모두는 반드시 본 발명의 임의의 특별한 실시예에 의해 반드시 구체화되는 것은 아니라는 것으로 이해되어야 한다. 여기에서 논의된 실시예는 본 발명의 예로서 제공되었으며, 추가, 변경 및 조절될 수 있다. 예컨대, 비록 수학식 7, 8, 및 9가 비선형 유계 함수의 예를 나타내었지만, 비선형 유계 함수는 이러한 예에 한정되는 것이 아니라 소정 최대값 및 최소값을 갖는 임의의 비선형 함수를 포함할 수 있다. 그러므로, 본 발명의 기술적 사상은 다음의 청구의 범위에 의해 한정되어야 한다.
참조문헌
Hyvaerinen, A., Karhunen, J, Oja, E. Independent component analysis. John Wiley & Sons, Inc. 2001
Te-Won Lee, Independent Component Analysis: Theory and Applications, Kluwer Academic Publishers, Boston, September 1998
Mark Girolami, Self-Organizing Neural Networks: Independent Component Analysis and Blind Source Separation. In Perspectives in Neural Computing, Springer Verlag, September 1999
Mark Girolami(Editor), Advances in Independent Component Analysis. In Perspectives in Neural Computing,, Springer Verlag, August 2000
Simon Haykin, Adaptive Filter Theory, Third Edition, Prentice-Hall(NJ), 1996.
Bell, A., Sejnowski, T., Neural Computation 7:1129-1159, 1995
Amari, S., Cichocki, A., Yang, H., A New Learning Algorithm for Blind Signal Separation, In: Advances in Neural Information Processing System 8, Editors D. Touretzky, M. Mozer, and M. Hasselmo, pp. 757-763, MIT Press, Cambridge MA, 1996
Cardoso, J.-F., Iterative techniques for blind source separation using only fourth order cumulants In Proc. EUSIPCO, pages 739-742, 1992.
Comon, P., Independent component analysis
Claims (54)
- 어쿠스틱 환경에서 원하는 음향 신호를 분리하는 방법에 있어서,복수의 입력 신호를 수신하는 단계와,안정성 강제 하에서 독립 성분 분석(ICA : Independent Component Analysis) 또는 블라인드 음원 분리(BSS : Blind Source Separation)를 사용하여 상기 수신된 입력 신호를 처리하는 단계와,상기 수신된 입력 신호를 하나 이상의 원하는 오디오 신호 및 하나 이상의 노이즈 신호로 분리하는 단계를포함하고,상기 입력 신호는 상기 원하는 음향 신호 및 다른 어쿠스틱 신호에 대해 응답하여 생성되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,상기 원하는 오디오 신호 중의 하나는 상기 원하는 음향 신호인 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,상기 ICA 또는 BSS 처리는 근사법을 통해 직접 또는 간접적으로 상호 정보의 수학적인 형식을 최소화 또는 최대화하는 단계를 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,ICA 웨이트 적응 역학과 보조를 맞춤으로써 상기 ICA 처리를 안정화하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,웨이트 적응 속도를 강제하는 적응형 스케일링 인자를 사용하여 ICA 입력을 스케일링함으로써 상기 ICA 처리를 안정화하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,잔향 효과를 피하기 위해 시간 도메인 및 주파수 도메인에서 학습된 필터 웨이트를 필터링함으로써 상기 ICA 처리를 안정화하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,주변 처리 기술은 다양한 등급으로 상기 입력 및 분리된 신호에 적용되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,상기 분리의 성능을 강화하기 위해 전처리 기술 또는 정보를 이용하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 8 항에 있어서,상기 입력 신호에 적용되는 믹싱 시나리오의 조건을 개선하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 2 항에 있어서,상기 분리된 원하는 음향 신호를 포함하는 채널을 식별하기 위해 상기 원하는 음향 신호의 특징적인 정보를 이용하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 10 항에 있어서,상기 특징적인 정보는 공간, 스펙트럼 또는 시간 정보인 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,후처리 기술은 적어도 하나의 상기 노이즈 신호 또는 적어도 하나의 상기 입력 신호를 이용하여 상기 원하는 신호의 품질을 개선하는데 사용되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 12 항에 있어서,상기 원하는 음향 신호를 추가로 분리 및 강화하기 위해 상기 분리된 노이즈 신호를 사용하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 13 항에 있어서,상기 분리된 노이즈 신호 사용 단계는노이즈 필터에 대한 상기 노이즈 스펙트럼을 평가하기 위해 상기 노이즈 신호를 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 1 항에 있어서,적어도 두개의 마이크로폰을 공간을 두어 배치하는 단계와,각각의 마이크로폰에서 상기 입력 신호의 하나를 생성하는 단계를추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 15 항에 있어서,상기 공간을 두어 배치하는 단계는 상기 마이크로폰을 대략 1mm ~ 1m 공간을 두어 배치하는 단계를 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 15 항에 있어서,상기 공간을 두어 배치하는 단계는 전화 수신기, 헤드셋, 또는 핸즈프리 키트 상의 상기 마이크로폰을 공간을 두어 배치하는 단계를 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 15 항에 있어서,상기 ICA 처리는제 1 출력 채널 및 제 2 입력 채널에 연결된 제 1 적응 독립 성분 분석(ICA) 필터와,제 1 입력 채널 및 제 2 출력 채널에 연결된 제 2 적응 독립 성분 분석(ICA) 필터를 포함하고,상기 제 1 필터는 상기 노이즈 신호 채널에 대한 비선형 유계 부호 함수의 적용과 관련되는 순환 학습 규칙에 의해 적응되며,상기 제 2 필터는 상기 원하는 음향 신호 채널에 대한 비선형 유계 부호 함수의 적용과 관련되는 순환 학습 규칙에 의해 적응되고,상기 제 1 필터 및 상기 제 2 필터는 상기 원하는 음향 신호를 생성하기 위해 반복적으로 적용되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,(a) 상기 제 1 적응 독립 성분 분석 필터에 의해 순환하여 필터링된 상기 원하는 음향 채널은 패드백되어 상기 제 2 마이크로폰으로부터 상기 입력 채널로 부가되고, 이로써 상기 노이즈 신호 채널을 생성하고,(b) 상기 제 2 적응 독립 성분 분석 필터에 의해 순환하여 필터링된 상기 노이즈 신호 채널은 패드백되어 상기 제 1 마이크로폰으로부터 상기 입력 채널로 부가되어, 상기 원하는 음향 신호 채널을 생성하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 19 항에 있어서,상기 입력 채널 신호는 진입 신호의 에너지의 함수로서 순환식으로부터 계산된 적응형 스케일링 인자에 의해 줄어드는(scaled down) 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,상기 제 1 적응 ICA 크로스 필터에 대한 상기 필터 웨이트 학습 규칙은 때를 맞추어 상기 필터 계수를 평탄화함으로써 안정화되고, 상기 제 2 적응 ICA 크로스 필터에 대한 상기 필터 웨이트 학습 규칙은 때를 맞추어 상기 필터 계수를 평탄화함으로써 안정화되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,상기 제 1 적응 ICA 크로스 필터의 웨이트는 상기 주파수 도메인에서 필터링되고, 상기 제 2 적응 ICA 크로스 필터의 웨이트는 상기 주파수 도메인에서 필터링되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,음성 활동 감지를 포함하는 단일 또는 복수의 채널 음향 강화 모듈을 적용하는 상기 원하는 음향 신호에 연결된 후처리 모듈을 추가로 포함하고,상기 후처리 출력은 상기 입력 채널로 피드백되지 않는 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,상기 ICA 처리는 필터 계수가 복수의 샘플링 순간에서 업데이트되고 다양한 사이즈의 필터 길이가 계산 능력을 이용가능하게 맞추는데 사용되는 것을 제외하고 상기 적응형 ICA 크로스 필터가 상기 모든 샘플링 순간에 적용되는 고정된 포인트 정밀도 환경에서 실행되는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,상기 노이즈 신호를 사용하여 상기 원하는 음향 신호를 후처리하는 단계를 추가로 포함하고,상기 후처리 모듈은 상기 노이즈 신호에 기초하여 상기 원하는 음향 신호에 스펙트럼 차감법을 적용하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,상기 노이즈 신호를 사용하여 상기 원하는 음향 신호를 후처리하는 단계를 추가로 포함하고,상기 후처리 모듈은 상기 노이즈 신호에 기초하여 상기 원하는 음향 신호에 비너(Wiener) 필터링을 적용하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 제 18 항에 있어서,제 3 채널로부터 제 3 세트의 오디오 입력 신호를 수신하는 단계와제 3 필터를 사용하여 비선형 유계 함수를 진입 신호에 적용하는 단계를추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 방법.
- 음향 장치에 있어서,어쿠스틱 사운드 신호를 수신하며 공간을 두어 배치된 적어도 두개의 마이크로폰과,상기 마이크로폰과 연결된 ICA 또는 BSS 프로세서를포함하고,상기 마이크로폰은 음향 음원으로부터 예정된 거리를 갖고,상기 프로세서 동작은상기 두개의 마이크로폰으로부터 사운드 신호를 수신하는 단계와,안정성 강제 하의 상기 사운드 신호를 적어도 하나의 원하는 음향 신호 라인 및 적어도 하나의 노이즈 신호 라인으로 분리하는 단계를포함하는 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 노이즈 라인 및 상기 원하는 음향 신호 라인에 연결된 후처리 필터를 추가로 포함하는 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 마이크로폰은 대략 1mm ~ 1m 공간을 두어 배치되는 것을 특징으로 하는 음향 장치.
- 제 30 항에 있어서,각 마이크로폰에서 수신된 상기 어쿠스틱 사운드 신호를 후처리하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
- 제 28 항에 있어서,상기 마이크로폰 중의 하나는 장치 하우징의 표면 상에 있고 상기 다른 마이크로폰은 상기 장치 하우징의 다른 표면 상에 있는 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 무선 폰인 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 무선 폰인 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 핸즈 프리 자동차 키트인 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 헤드셋인 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 PDA인 것을 특징으로 하는 음향 장치.
- 제 28 항에 있어서,상기 음향 장치는 핸드헬드 바코드 스캐닝 장치인 것을 특징으로 하는 음향 장치.
- 어쿠스틱 환경에서 원하는 음향 신호를 분리하는 시스템에 있어서,하나 이상의 어쿠스틱 신호를 각각 수신하는 복수의 입력 채널과,적어도 하나의 ICA 또는 BSS 필터와,분리된 신호를 전송하는 복수의 출력 채널을포함하고,상기 필터는 안정성 강제 하의 상기 수신된 신호를 하나 이상의 원하는 오디오 신호 및 하나 이상의 노이즈 신호로 분리하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 원하는 오디오 신호는 상기 복수의 어쿠스틱 신호에서 수신된 음향 신호인 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 필터는 근사법을 통해 직접 또는 간접적으로 상호 정보의 수학적인 형식을 조절하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 필터는 ICA 웨이트 적응 역학과 보조를 맞춤으로써 상기 ICA 처리를 안정화하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 필터는 웨이트 적응 속도를 강제하는 적응형 스케일링 인자를 사용하여 ICA 입력을 스케일링함으로써 상기 ICA 처리를 안정화하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,잔향 효과를 피하기 위해 시간 도메인 및 주파수 도메인에서 학습된 필터 웨이트를 필터링함으로써 상기 ICA 처리를 안정화하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 입력 및/또는 출력 신호에 적용되는 하나 이상의 주변 처리 필터를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 45 항에 있어서,하나 이상의 전처리 필터를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 45 항에 있어서,하나 이상의 후처리 필터를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 입력 채널에 연결된 하나 이상의 마이크로폰을 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 48 항에 있어서,대략 1mm ~ 1m 공간을 두어 각각 배치되는 두개 이상의 마이크로폰을 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 시스템은 핸드헬드 장치 상에 있는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 39 항에 있어서,상기 필터는제 1 출력 채널 및 제 2 입력 채널에 연결된 제 1 적응 독립 성분 분석(ICA) 필터와,제 1 출력 채널 및 제 2 입력 채널에 연결된 제 2 적응 독립 성분 분석(ICA) 필터를 포함하고,상기 제 1 필터는 상기 노이즈 신호 채널에 대한 비선형 유계 부호 함수의 적용과 관련되는 순환 학습 규칙에 의해 적응되며,상기 제 2 필터는 상기 원하는 음향 신호 채널에 대한 비선형 유계 부호 함수의 적용과 관련되는 순환 학습 규칙에 의해 적응되고,상기 제 1 필터 및 상기 제 2 필터는 상기 원하는 음향 신호를 생성하기 위해 반복적으로 적용되는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 음향 신호를 분리하는 시스템에 있어서,일 세트의 신호 생성기와,상기 혼합된 신호를 각각 수신하는 프로세서와,상기 음향 신호를 수신하는 음향 가능화 유닛을포함하고,상기 각 신호 생성기는 상기 음향 신호 및 다른 어쿠스틱 신호의 혼합을 나타내는 혼합 신호를 생성하기 위해 배치되며,상기 프로세서 동작은안정성 강제 하의 독립 성분 분석(ICA) 또는 블라인드 음원 분리(BSS)를 사용하여 혼합된 신호의 상기 세트를 처리하는 단계와,상기 혼합된 신호를 상기 음향 신호 및 적어도 하나의 노이즈 신호로 분리하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 52 항에 있어서,상기 신호 생성기는 어쿠스틱 트랜스듀서인 것을 특징으로 하는 음향 신호의 분리 시스템.
- 제 53 항에 있어서,상기 어쿠스틱 트랜스듀서는 인간 음향 주파수 범위 내의 어쿠스틱 신호를 수신하는 마이크로폰인 것을 특징으로 하는 음향 신호의 분리 시스템.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US43269102P | 2002-12-11 | 2002-12-11 | |
US60/432,691 | 2002-12-11 | ||
US50225303P | 2003-09-12 | 2003-09-12 | |
US60/502,253 | 2003-09-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050115857A true KR20050115857A (ko) | 2005-12-08 |
Family
ID=32511658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057010611A KR20050115857A (ko) | 2002-12-11 | 2003-12-11 | 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7383178B2 (ko) |
EP (1) | EP1570464A4 (ko) |
JP (1) | JP2006510069A (ko) |
KR (1) | KR20050115857A (ko) |
AU (1) | AU2003296976A1 (ko) |
WO (1) | WO2004053839A1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100653173B1 (ko) * | 2005-11-01 | 2006-12-05 | 한국전자통신연구원 | 다중경로 혼합신호 분리계수의 교환 모호성을 해소하는방법 및 그 장치 |
KR100741608B1 (ko) * | 2005-11-18 | 2007-07-20 | 엘지노텔 주식회사 | 가상 발신호 생성기능이 구비된 이동통신시스템 및 그제어방법 |
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
KR100848789B1 (ko) * | 2006-10-31 | 2008-07-30 | 한국전력공사 | 크로스토크를 제거하기 위한 후처리 방법 |
KR100890708B1 (ko) * | 2007-06-04 | 2009-03-27 | 에스케이 텔레콤주식회사 | 잔류 잡음 제거 장치 및 방법 |
WO2009051959A1 (en) * | 2007-10-18 | 2009-04-23 | Motorola, Inc. | Robust two microphone noise suppression system |
WO2016056683A1 (ko) * | 2014-10-07 | 2016-04-14 | 삼성전자 주식회사 | 전자 장치 및 이의 잔향 제거 방법 |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
DE60304859T2 (de) * | 2003-08-21 | 2006-11-02 | Bernafon Ag | Verfahren zur Verarbeitung von Audiosignalen |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
KR100600313B1 (ko) * | 2004-02-26 | 2006-07-14 | 남승현 | 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치 |
JP2006084928A (ja) * | 2004-09-17 | 2006-03-30 | Nissan Motor Co Ltd | 音声入力装置 |
US7409375B2 (en) | 2005-05-23 | 2008-08-05 | Knowmtech, Llc | Plasticity-induced self organizing nanotechnology for the extraction of independent components from a data stream |
JP2007215163A (ja) * | 2006-01-12 | 2007-08-23 | Kobe Steel Ltd | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
WO2007100330A1 (en) * | 2006-03-01 | 2007-09-07 | The Regents Of The University Of California | Systems and methods for blind source signal separation |
US8898056B2 (en) * | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
US8068627B2 (en) | 2006-03-14 | 2011-11-29 | Starkey Laboratories, Inc. | System for automatic reception enhancement of hearing assistance devices |
US8494193B2 (en) * | 2006-03-14 | 2013-07-23 | Starkey Laboratories, Inc. | Environment detection and adaptation in hearing assistance devices |
US7986790B2 (en) * | 2006-03-14 | 2011-07-26 | Starkey Laboratories, Inc. | System for evaluating hearing assistance device settings using detected sound environment |
US7970564B2 (en) * | 2006-05-02 | 2011-06-28 | Qualcomm Incorporated | Enhancement techniques for blind source separation (BSS) |
KR101184394B1 (ko) | 2006-05-10 | 2012-09-20 | 에이펫(주) | 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법 |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
KR100875264B1 (ko) | 2006-08-29 | 2008-12-22 | 학교법인 동의학원 | 암묵신호분리를 위한 후처리 방법 |
EP1912472A1 (de) * | 2006-10-10 | 2008-04-16 | Siemens Audiologische Technik GmbH | Verfahren zum Betreiben einer Hörhilfe, sowie Hörhilfe |
WO2008090564A2 (en) * | 2007-01-24 | 2008-07-31 | P.E.S Institute Of Technology | Speech activity detection |
JP4449987B2 (ja) * | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
CN101622669B (zh) * | 2007-02-26 | 2013-03-13 | 高通股份有限公司 | 用于信号分离的系统、方法及设备 |
US8160273B2 (en) * | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
US8348839B2 (en) * | 2007-04-10 | 2013-01-08 | General Electric Company | Systems and methods for active listening/observing and event detection |
US7742746B2 (en) * | 2007-04-30 | 2010-06-22 | Qualcomm Incorporated | Automatic volume and dynamic range adjustment for mobile audio devices |
US20080310751A1 (en) * | 2007-06-15 | 2008-12-18 | Barinder Singh Rai | Method And Apparatus For Providing A Variable Blur |
EP2018034B1 (en) * | 2007-07-16 | 2011-11-02 | Nuance Communications, Inc. | Method and system for processing sound signals in a vehicle multimedia system |
WO2009020001A1 (ja) * | 2007-08-07 | 2009-02-12 | Nec Corporation | 音声ミキシング装置およびその雑音抑圧方法、ならびにプログラム |
US8954324B2 (en) | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8311236B2 (en) | 2007-10-04 | 2012-11-13 | Panasonic Corporation | Noise extraction device using microphone |
US8175291B2 (en) | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8045661B2 (en) * | 2008-02-04 | 2011-10-25 | Texas Instruments Incorporated | System and method for blind identification of multichannel finite impulse response filters using an iterative structured total least-squares technique |
US8144896B2 (en) * | 2008-02-22 | 2012-03-27 | Microsoft Corporation | Speech separation with microphone arrays |
US7974841B2 (en) * | 2008-02-27 | 2011-07-05 | Sony Ericsson Mobile Communications Ab | Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice |
DE102008023370B4 (de) * | 2008-05-13 | 2013-08-01 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Betreiben eines Hörgeräts und Hörgerät |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
KR101178801B1 (ko) * | 2008-12-09 | 2012-08-31 | 한국전자통신연구원 | 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 |
KR101280253B1 (ko) * | 2008-12-22 | 2013-07-05 | 한국전자통신연구원 | 음원 분리 방법 및 그 장치 |
JP5605573B2 (ja) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
WO2010092915A1 (ja) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
JP5641186B2 (ja) * | 2010-01-13 | 2014-12-17 | ヤマハ株式会社 | 雑音抑圧装置およびプログラム |
JP5691618B2 (ja) | 2010-02-24 | 2015-04-01 | ヤマハ株式会社 | イヤホンマイク |
US9357307B2 (en) | 2011-02-10 | 2016-05-31 | Dolby Laboratories Licensing Corporation | Multi-channel wind noise suppression system and method |
KR101248971B1 (ko) * | 2011-05-26 | 2013-04-09 | 주식회사 마이티웍스 | 방향성 마이크 어레이를 이용한 신호 분리시스템 및 그 제공방법 |
JP5568530B2 (ja) * | 2011-09-06 | 2014-08-06 | 日本電信電話株式会社 | 音源分離装置とその方法とプログラム |
WO2013093569A1 (en) * | 2011-12-23 | 2013-06-27 | Nokia Corporation | Audio processing for mono signals |
CN103325383A (zh) | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 音频处理方法和音频处理设备 |
US8694306B1 (en) * | 2012-05-04 | 2014-04-08 | Kaonyx Labs LLC | Systems and methods for source signal separation |
US10497381B2 (en) | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US8958586B2 (en) | 2012-12-21 | 2015-02-17 | Starkey Laboratories, Inc. | Sound environment classification by coordinated sensing using hearing assistance devices |
EP3042377B1 (en) | 2013-03-15 | 2023-01-11 | Xmos Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US9466310B2 (en) | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US9668066B1 (en) * | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
CN108353228B (zh) | 2015-11-19 | 2021-04-16 | 香港科技大学 | 一种信号分离的方法、系统和存储介质 |
EP3335217B1 (en) * | 2015-12-21 | 2022-05-04 | Huawei Technologies Co., Ltd. | A signal processing apparatus and method |
US20170206904A1 (en) * | 2016-01-19 | 2017-07-20 | Knuedge Incorporated | Classifying signals using feature trajectories |
US10956484B1 (en) | 2016-03-11 | 2021-03-23 | Gracenote, Inc. | Method to differentiate and classify fingerprints using fingerprint neighborhood analysis |
US10249305B2 (en) | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
CN107437420A (zh) * | 2016-05-27 | 2017-12-05 | 富泰华工业(深圳)有限公司 | 语音信息的接收方法、系统及装置 |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
CN108766455B (zh) | 2018-05-16 | 2020-04-03 | 南京地平线机器人技术有限公司 | 对混合信号进行降噪的方法和装置 |
CN110738990B (zh) | 2018-07-19 | 2022-03-25 | 南京地平线机器人技术有限公司 | 识别语音的方法和装置 |
JP7044040B2 (ja) * | 2018-11-28 | 2022-03-30 | トヨタ自動車株式会社 | 質問応答装置、質問応答方法及びプログラム |
CN113287169A (zh) | 2019-01-14 | 2021-08-20 | 索尼集团公司 | 用于盲源分离和再混音的装置、方法和计算机程序 |
CN111402883B (zh) * | 2020-03-31 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种复杂环境下分布式语音交互系统中就近响应系统和方法 |
CN112002339B (zh) * | 2020-07-22 | 2024-01-26 | 海尔优家智能科技(北京)有限公司 | 语音降噪方法和装置、计算机可读的存储介质及电子装置 |
CN114530158A (zh) * | 2020-11-23 | 2022-05-24 | 南京大学 | 一种声效处理系统和方法 |
CN113470689B (zh) * | 2021-08-23 | 2024-01-30 | 杭州国芯科技股份有限公司 | 一种语音分离方法 |
CN114333897B (zh) * | 2022-03-14 | 2022-05-31 | 青岛科技大学 | 基于多信道噪声方差估计的BrBCA盲源分离方法 |
US20240029756A1 (en) * | 2022-07-25 | 2024-01-25 | Dell Products, Lp | Method and apparatus for dynamic direcitonal voice reception with multiple microphones |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4649505A (en) | 1984-07-02 | 1987-03-10 | General Electric Company | Two-input crosstalk-resistant adaptive noise canceller |
US4912767A (en) | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
US5327178A (en) | 1991-06-17 | 1994-07-05 | Mcmanigal Scott P | Stereo speakers mounted on head |
US5208786A (en) | 1991-08-28 | 1993-05-04 | Massachusetts Institute Of Technology | Multi-channel signal separation |
US5251263A (en) | 1992-05-22 | 1993-10-05 | Andrea Electronics Corporation | Adaptive noise cancellation and speech enhancement system and apparatus therefor |
US5383164A (en) * | 1993-06-10 | 1995-01-17 | The Salk Institute For Biological Studies | Adaptive system for broadband multisignal discrimination in a channel with reverberation |
US5375174A (en) | 1993-07-28 | 1994-12-20 | Noise Cancellation Technologies, Inc. | Remote siren headset |
US5706402A (en) * | 1994-11-29 | 1998-01-06 | The Salk Institute For Biological Studies | Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy |
US6002776A (en) * | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5770841A (en) * | 1995-09-29 | 1998-06-23 | United Parcel Service Of America, Inc. | System and method for reading package information |
US5675659A (en) * | 1995-12-12 | 1997-10-07 | Motorola | Methods and apparatus for blind separation of delayed and filtered sources |
US6130949A (en) | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
AU4826697A (en) | 1996-10-17 | 1998-05-11 | Andrea Electronics Corporation | Noise cancelling acoustical improvement to wireless telephone or cellular phone |
US5999567A (en) * | 1996-10-31 | 1999-12-07 | Motorola, Inc. | Method for recovering a source signal from a composite signal and apparatus therefor |
US7072476B2 (en) | 1997-02-18 | 2006-07-04 | Matech, Inc. | Audio headset |
FR2759824A1 (fr) * | 1997-02-18 | 1998-08-21 | Philips Electronics Nv | Systeme de separation de sources non stationnaires |
US6167417A (en) * | 1998-04-08 | 2000-12-26 | Sarnoff Corporation | Convolutive blind source separation using a multiple decorrelation method |
JP3927701B2 (ja) * | 1998-09-22 | 2007-06-13 | 日本放送協会 | 音源信号推定装置 |
US6606506B1 (en) | 1998-11-19 | 2003-08-12 | Albert C. Jones | Personal entertainment and communication device |
US6343268B1 (en) * | 1998-12-01 | 2002-01-29 | Siemens Corporation Research, Inc. | Estimator of independent sources from degenerate mixtures |
US6381570B2 (en) | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
US6526148B1 (en) * | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
US6321200B1 (en) * | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
US6424960B1 (en) * | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
US6549630B1 (en) | 2000-02-04 | 2003-04-15 | Plantronics, Inc. | Signal expander with discrimination between close and distant acoustic source |
US8903737B2 (en) | 2000-04-25 | 2014-12-02 | Accenture Global Service Limited | Method and system for a wireless universal mobile product interface |
US6879952B2 (en) | 2000-04-26 | 2005-04-12 | Microsoft Corporation | Sound source separation using convolutional mixing and a priori sound source knowledge |
US20030179888A1 (en) | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP4028680B2 (ja) * | 2000-11-01 | 2007-12-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体 |
JP4031988B2 (ja) * | 2001-01-30 | 2008-01-09 | トムソン ライセンシング | 畳み込み混合された信号を複数の音源に分離するための装置 |
US7206418B2 (en) | 2001-02-12 | 2007-04-17 | Fortemedia, Inc. | Noise suppression for a wireless communication device |
EP1380186B1 (en) * | 2001-02-14 | 2015-08-26 | Gentex Corporation | Vehicle accessory microphone |
WO2003107591A1 (en) | 2002-06-14 | 2003-12-24 | Nokia Corporation | Enhanced error concealment for spatial audio |
US7142682B2 (en) | 2002-12-20 | 2006-11-28 | Sonion Mems A/S | Silicon-based transducer for use in hearing instruments and listening devices |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
-
2003
- 2003-12-11 KR KR1020057010611A patent/KR20050115857A/ko not_active Application Discontinuation
- 2003-12-11 WO PCT/US2003/039593 patent/WO2004053839A1/en active Application Filing
- 2003-12-11 EP EP03812979A patent/EP1570464A4/en not_active Withdrawn
- 2003-12-11 JP JP2005511772A patent/JP2006510069A/ja active Pending
- 2003-12-11 US US10/537,985 patent/US7383178B2/en not_active Expired - Lifetime
- 2003-12-11 AU AU2003296976A patent/AU2003296976A1/en not_active Abandoned
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100653173B1 (ko) * | 2005-11-01 | 2006-12-05 | 한국전자통신연구원 | 다중경로 혼합신호 분리계수의 교환 모호성을 해소하는방법 및 그 장치 |
KR100741608B1 (ko) * | 2005-11-18 | 2007-07-20 | 엘지노텔 주식회사 | 가상 발신호 생성기능이 구비된 이동통신시스템 및 그제어방법 |
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
KR100848789B1 (ko) * | 2006-10-31 | 2008-07-30 | 한국전력공사 | 크로스토크를 제거하기 위한 후처리 방법 |
KR100890708B1 (ko) * | 2007-06-04 | 2009-03-27 | 에스케이 텔레콤주식회사 | 잔류 잡음 제거 장치 및 방법 |
WO2009051959A1 (en) * | 2007-10-18 | 2009-04-23 | Motorola, Inc. | Robust two microphone noise suppression system |
US8046219B2 (en) | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
WO2016056683A1 (ko) * | 2014-10-07 | 2016-04-14 | 삼성전자 주식회사 | 전자 장치 및 이의 잔향 제거 방법 |
US9997170B2 (en) | 2014-10-07 | 2018-06-12 | Samsung Electronics Co., Ltd. | Electronic device and reverberation removal method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP2006510069A (ja) | 2006-03-23 |
US7383178B2 (en) | 2008-06-03 |
EP1570464A4 (en) | 2006-01-18 |
US20060053002A1 (en) | 2006-03-09 |
WO2004053839A1 (en) | 2004-06-24 |
AU2003296976A1 (en) | 2004-06-30 |
EP1570464A1 (en) | 2005-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7383178B2 (en) | System and method for speech processing using independent component analysis under stability constraints | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN100392723C (zh) | 在稳定性约束下使用独立分量分析的语音处理系统和方法 | |
US9741360B1 (en) | Speech enhancement for target speakers | |
US7099821B2 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
JP5007442B2 (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
KR101340215B1 (ko) | 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US8504360B2 (en) | Automatic sound recognition based on binary time frequency units | |
US11488617B2 (en) | Method and apparatus for sound processing | |
US20080208538A1 (en) | Systems, methods, and apparatus for signal separation | |
US20090018826A1 (en) | Methods, Systems and Devices for Speech Transduction | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
Chhetri et al. | Speech Enhancement: A Survey of Approaches and Applications | |
Kindt et al. | Improved separation of closely-spaced speakers by exploiting auxiliary direction of arrival information within a u-net architecture | |
CN112863525B (zh) | 一种语音波达方向的估计方法、装置及电子设备 | |
EP3029671A1 (en) | Method and apparatus for enhancing sound sources | |
The et al. | A Method for Extracting Target Speaker in Dual–Microphone System | |
Zhou et al. | PLDNet: PLD-Guided Lightweight Deep Network Boosted by Efficient Attention for Handheld Dual-Microphone Speech Enhancement | |
Zhao et al. | DPTNet-based Beamforming for Speech Separation | |
Girinº et al. | Audio Source Separation into the Wild | |
Marti et al. | Evaluating the influence of source separation methods in robust automatic speech recognition with a specific cocktail-party training | |
Chen et al. | An improved phase-error based dual-microphone noise reduction method | |
Qian | Speech enhancement using deep dilated CNN | |
CN115209331A (zh) | 包括降噪系统的听力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |