SE505156C2 - Förfarande för bullerundertryckning genom spektral subtraktion - Google Patents

Förfarande för bullerundertryckning genom spektral subtraktion

Info

Publication number
SE505156C2
SE505156C2 SE9500321A SE9500321A SE505156C2 SE 505156 C2 SE505156 C2 SE 505156C2 SE 9500321 A SE9500321 A SE 9500321A SE 9500321 A SE9500321 A SE 9500321A SE 505156 C2 SE505156 C2 SE 505156C2
Authority
SE
Sweden
Prior art keywords
speech
frame
spectral
estimate
noise
Prior art date
Application number
SE9500321A
Other languages
English (en)
Other versions
SE9500321L (sv
SE9500321D0 (sv
Inventor
Peter Haendel
Original Assignee
Ericsson Telefon Ab L M
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ericsson Telefon Ab L M filed Critical Ericsson Telefon Ab L M
Priority to SE9500321A priority Critical patent/SE505156C2/sv
Publication of SE9500321D0 publication Critical patent/SE9500321D0/sv
Priority to EP96902028A priority patent/EP0807305B1/en
Priority to CN96191661A priority patent/CN1110034C/zh
Priority to RU97116274A priority patent/RU2145737C1/ru
Priority to JP8523454A priority patent/JPH10513273A/ja
Priority to ES96902028T priority patent/ES2145429T3/es
Priority to PCT/SE1996/000024 priority patent/WO1996024128A1/en
Priority to KR1019970705131A priority patent/KR100365300B1/ko
Priority to AU46369/96A priority patent/AU696152B2/en
Priority to CA002210490A priority patent/CA2210490C/en
Priority to BR9606860A priority patent/BR9606860A/pt
Priority to DE69606978T priority patent/DE69606978T2/de
Priority to US08/875,412 priority patent/US5943429A/en
Publication of SE9500321L publication Critical patent/SE9500321L/sv
Publication of SE505156C2 publication Critical patent/SE505156C2/sv
Priority to FI973142A priority patent/FI973142A/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephone Function (AREA)

Description

505 156 2 För att belysa de svårigheter som råder vid talförbättring ur brusiga data noteras att de spektrala subtraktionsmetoderna baseras på filtrering genom användande av es- timerade modeller av inkommande data. Om dessa estirnerade modeller ligger nära de underliggande ”sanna” modellema är detta en väl fungerande metod. På grund av talets korttidsstationalitet ( 10-40 ms) samt den fysikaliska realitet som omger en mobiltele- fontillämpning (8000 Hz samplingsfrekvens, 0,5-2,0 sekunders stationalitet för bullret, etc.) är det dock sannolikt att de estimerade modellerna väsentligt avviker från den un- derliggande verkligheten och därför resulterar i en filtrerad utsignal med låg ljudkvalitet.
EP, A1, 0 588 526 beslaiver ett förfarande i vilket spektral analys utförs antingen med den snabba Fouirer-transformen (FFT = Fast Fourier Transformation) eller linjär prediktiv kodning (LPC = Linear Predictive Coding).
SUMMERING AV UPPFINNINGEN Ett syftemål för föreliggande uppfinning är erbjudande av ett förfarande för bullerun- der-tryckning genom spektral subtraktion som ger en bättre bullerreduktion utan att offra ljudkvalitet.
Detta syftemål löses genom de kännetecknande särdragen i krav 1.
KORT BESKRIVNING AV RITNINGARNA Uppfinningen samt ytterligare syftemål och fördelar med denna förstås bäst genom hänvisning till nedanstående beskrivning tillsammans med de bifogade ritningarna, i vilka: FIGUR 1 är ett blockschema av ett bullerundertryckningssystem genom spektral sub- traktion lämpligt för utförande av förfarandet enligt föreliggande uppfinning; FIGUR 2 är ett tillståndsdiagram för en talaktivitetsdetektor (VAD = Voice Activity Detector) som kan användas i systemet enligt figur l; FIGUR 3 är ett diagram av två olika estimat av den spektrala effekttätheten för en talrarn; FIGUR 4 är ett tidsdiagram av en samplad audíosignal som innehåller tal och bak- grundsbuller; FIGUR 5 är ett tidsdiagram av signalen i figur 3 efter spektral bullersubtraktion i enlighet med känd teknik; 505 156 3 FIGUR 6 är ett tidsdiagrarn av signalen i figur 3 efter spektral bullersubtraldcion i enlighet med föreliggande uppfinnirig; och FIGUR 7 är ett flödesschema som illustrerar förfarandet enligt föreliggande uppfinníng.
DETALJERAD BESKRIVNING Av DE FÖREDRAGNA UTFÖRJNGSFORMERNA DEN SPEKTRALA SUBTRAKTIONSMETODEN Betrakta en ram innehållande tal förvrängt av additivt buller a:(k)=s(k)+v(k) k=1,...,N (1) där æUc), .s(k) och v(k) betecknar den bullriga mätningen av tal, själva talet och det addítiva bullret, och N betecknar antalet sampel i en ram.
Talet antas stationärt över ramen, medan bullret antas långtidsstationärt, dvs. sta- tionärt över flera ramar. Antalet ramar där v(k) är stationärt betecknas 'r >> l. Vidare antages att talaktiviteten är tillräckligt låg, så att en modell av bullret noggrant kan estimeras under perioder utan talaktivitet.
Beteckna effekttäthetsspektrum (PSD = Power Spectral Density) av mätningen, talet och bullret med ,(w), ,(w) respektive ,,(w), där (Mw) = Ödw) + (Pdw) (2) Om ,(w) och ,,(w) är kända kan kvantiteterna ,,(w) och sUc) estimeras genom spektrala subtralctionsmetoder av standardtyp, se [2], vilka kort summeras nedan.
Lät .§(k) beteckna estimatet av sUc). Då. gäller att (3) där _7~"(-) betecknar någon linjär transform, t ex den diskreta Fourier transformen (DFT) och där H (w) är en reell-värd jämn funktion i w E (0,21r) sådan att 0 g H (w) g l. 505 156 4 Funktionen H (w) beror av ,(w) och ,,(w). Eftersom H (w) är reell-värd är fasen av É'(w) = H (w)X (w) lika med fasen av det förvrängda talet. Användning av den reell- värda funktionen H (w) motiveras av det mänskliga örats okänslighet för fasdistortion.
I allmänhet är ,,(w) och ,,(w) okända och måste i H (w) ersättas av estimerade kvantiteter ,,(w) och ,,(w). På grund av talets icke stationära karaktär estimeras ,(w) ur en enda ram av data, medan ,,(w) estimeras genom användning av data i 1' talfria ramar. För enkelhets skull antages att en talaktivitetsdetektor (VAD) är tillgänglig för särskiljande av ramar som innehåller bullrigt tal och ramar som innehåller enbart buller. Det antas att ,,(w) estirneras under perioder utan talaktivitet genom medelvärdesbildriíng över flera ramar, exempelvis genom användande av a *Pdwle = P«»(w)”"1 + (1 - P)<ï>v(w) (4) I (4) är ,,(w)¿ det (löpande) medelvärdesbildade effekttäthetsspektrumet baserat på data fram till och inkluderande ramnummer å, och är 1,(w) estimatet baserat på den aktuella ramen. Skalären p ê (0, 1) justeras i förhållande till den antagna stationaliteten av vUc).
Ett medelvärde över 'r ramar svarar grovt mot p implicit definierat av 2 1_p=f (a Ett lämpligt estimat av efiekttäthetsspektrum (utan några apriori antaganden avseende bakgrundsbullrets spektrala form) är givet av @m»=§wwWw> w där ”*” betecknar komplexkonjugatet och där l/(w) = .7-'(v(k)). Om ]-'(-) =FFT(-) (snabba Fourier-transformen), är ,,(w) periodogrammet och ,,(w) i (4) det medelvärdes- bildade periodograrmnet, vilka båda leder till asymtotiskt (N >> 1) konsistenta (inbiased) estimat av effekttäthetsspektra med approximativa varíanser Var(<ï>v(w)) ß Öfiíw) zz I 'et Varßßvlwl) AW) 5 05 1 5 6 5 Ett uttryck som svarar mot (7) gäller för x(w) under talaktivitet (om ©2611) i (7) ersätts med Ett system för bullenmdertryckning genom spektral subtraktion lämpligt för utförande av förfarandet enligt föreliggande uppfinning illustreras i blockform i figur 1. Från en mikrofon 10 leds audiosignalen æ(t) till en A/D-omvandlare 12. A/Domvandlaren 12 avger digitaliserade audiosampel i ramform {a:(k)} till ett transformblock 14 tex. ett F FT-block (Fast Fourier Transforrn), som transformerar varje ram till en motsvarande frekvenstraiisformerad ram (X (w)}. Den transformerade ramen filtreras av É(w) i block 16. Detta steg utför den egentliga spektrala subtraktionen. Den resulterande signalen {.S(w)} transformeras tillbaka till tidsdomänen genom ett inverstransformblock 18. Re- sultatet är en ram {.š(k)}, i vilken bullret har undertryckts. Denna ram kan ledas till en ekosläckare 20 och därefter till en talkodare 22. Den talkodade signalen leds sedan till en kanalkodare och en modulator för utsändning (dessa element visas ej).
Den faktiska formen av É(w) i block 16 beror av de estimat z(w), ,,(w) som bildas i effekttäthetsspektrumestimatom 24, nedan kallad PSD-estimatorn, och de analytiska uttryck som används för dessa estimat. Exempel på olika uttryck ges i tabell 2 i nästa avsnitt. Huvuddelen av följande beskrivning kommer att koncentreras på olika metoder att bilda estimaten Ö,(w), fil>,,(w) ur insignalramen PSD-estimatorn 24 styrs av en talaktivitetsdetektor (VAD) 26, som använder insignal- ramen {:c(k)} för att bestämma huruvida ramen innehåller tal (S) eller bakgrundsbuller (B). En lämplig talaktivitetsdetektor beskrivs i (5), Talaktivitetsdetektorn, VAD, kan implementeras såsom en tillståndsmaskín med de fyra tillstånd som illustreras i figur 2.
Den resulterande styrsignalen S /B avges till PSD-estimatom 24. När VAD 26 indikerar tal (S), tillstånd 21 och 22, kommer PSD-estimatorn 24 att bilda ,(w). Å andra sidan, om VAD 26 indikerar aktivitet utan tal (B), tillstånd 20, kommer PSD-estimatorn 24 att bilda ,,(w). Det senare estimatet kommer att användas för att bilda É(w) under nästa talrarnssekvens (tillsammans med Ö,(w) för var och en av ramarna i denna sekvens).
Signalen S /B avges också till spektralsubtralctionsblocket 16. På detta sätt kan blocket 16 pålägga olika filter under ramar med eller utan tal. Under talramar utgörs I:I(w) av ovan nämnda uttryck i x(w), Ö, Under ramar utan tal kan I:I(w) å andra sidan vara en konstant H (0 _<_ H 3 1), som reducerar bakgrundsljiidnivån till samma nivå som den 505 156 Tabell 1: Efterfiltreringsfunktioner TILLSTÅND (st) É(w) KOMMENTAR 0 1 (vw) sug) = fur) 20 0.316 (vw) därnpning -iodß 21 0.7 Hei) försiktig filtfefmg çsdß) 22 É(w) bakgrundsljudnivå som återstår i talramarna efter bullerundertryckmng. På detta sätt kommer den fórnimmade bullernivån att vara densamma under både ramar med och utan tal.
Innan utsignalen i (3) beräknas kan .š(k), i enlighet med en fdredragen utförings- form, efter-filtreras enligt H,,(w) = max (oi, wwzäuts) vw (s) där Ü(w) beräknas enligt tabell 1. Skalären 0,1 innebär att bullereller brusgolvet är -20 dB. Vidare avges signalen S/ B även till talkodaren 22. Detta medger olika kodning av tal och bakgrundsljud.
PSD-FELANALYS Det är uppenbart att stationalitetsantagandena som påläggs s(k) och v(lc) ger upphov till gränser på hur noggrant estimatet š(k) är i järnförelse med den brus- eller buller- fria talsignalen s(k). I detta avsnitt introduceras en analysmetod för spektrala subtrak- tionsmetoder. Denna baseras på första ordningens approximationer av PSD-estimaten ,_.(w) respektive ,,(w) (se (11) nedan), i kombination med approxirnativa (nollte ord- ningens approximationer) uttryck för noggrannheten i de introducerade avvikelserna. I det följande hårleds i synnerhet ett uttryck for frekvensdomärifelet för den estimerade sig- nalen šUc), dels beroende på. den använda metoden (valet av överföringsfimktion H (w)) och dels beroende på noggrannheten i de ingående PSD-estimatorerna. På grund av det mänskliga örats okånslighet för fasdistortion är det relevant att betrakta FSD-felet som 505 156 7 defiriieras av öslw) = êslw) _ (PSÛU) (9) där s = HM l (10) Observera att <í>_,(w) genom sin konstruktion är en felterm som beskriver skillnaden (i frekvensdomänen) mellan magnituden av den filtrerade brusiga mätningen och magni- tuden av talet. Därför kan s(w) antaga både positiva och negativa värden och utgör ej effekttäthetsspektrum för någon tidsdomärisignal. I (10) betecknar P^I(w) ett estirnat av H (w) baserat på Özßu) och v(w). I detta avsnitt begränsas analysen till fallet eiïektsub- traktion (PS=Power Subtraction), Andra val av Û(w) kan analyseras på ett liknande sätt (se APPENDIX A-C). Dessutom introduceras och analyseras nya val av É(w) (se APPENDIX D-G). En sammanfattning av de olika lämpliga valen av Û(w) ges i tabell 2.
Definitionsmässigt tillhör H (w) intervallet 0 g H (w) g 1, vilket ej nödvändigtvis gäller för motsvarande estimerade kvantiteter i tabell 2, och av denna anledning används i praktiken halv eller helvågslilcríláriing, För utförande av analysen antages att ramlängden N är tillräckligt stort (N >> 1) för att z(w) och v (w) skall vara approximativt konsistenta (unbiased). Introducera första ordningens avvikelser Özlw) = <1>=(wl+/-\x(w) (11) ,,(w) = ,,(w)+A,,(w) där A,,(w) och A1,(w) är stokastiska variabler med medelvärdet noll med egenskaperna E[A,(w)/,,(w)]2 << 1 och E[A,,(w)/,,(w)]2 << 1. Här och i fortsättningen betecknar E statistiskt väntevärde. Om vidare korrelationstiden för bullret är kort jämfört med ramlängden, gäller att E[(,,(w)e - ,,(w))(1,(w)'° - ,,(w))] æ Û för É 94 k, där Ö._,(w)¿ är estimatet baserat på data i den åte ramen. Av detta följer att A,(w) och A1,(w) är approximativt oberoende. Om däremot bullret är starkt korrelerat antas att ,,(w) har 505 156 Tabell 2: Exempel på olika spektrala subtraktionsmetoder: Efifektsiibtrak- non (Ps) (standard Ps, írpsçii) för a = 1), Magmtudsubtfak- tion (MS), spektrala subtralctionsmetoder baserade på Wiener- filtrering och Maximum Likelíhood metoder samt förbättrad efïektsubtraldion (IPS) i enlighet med en fóredragen iitfóringsfom av föreliggande uppfinning. 15I(w) FLsPsO-ß) = 1 - 6<ï>v(~)/<í>1(w) :men = 1 - ÉWI-WW) = Ûšdw) ÉML(w) = å(1 + Hps(w)) ÛIPSW) = \/ Û(W)ÜPS(W) 505 156 9 ett begränsat (<< N) antal (starka) toppar placerade vid frekvenserna wl, ..., wn. I så fall gäller E[(<_I->,,(w)¿ - ,,(w)) (¿I_>,,(w)'° - ,,(w))] w 0 för w # wj j = 1, . . . ,n och 2 # k, så att analysen fortfarande gäller för w 96 wj j = 1,.. . ,n.
Ekvation (11) innebär att asymptotisk (N >> 1) konsistenta PSD-estimatorer, såsom periodogrammet eller det medelvärdesbildade periodogrammet används. Vid användning av asymtotiskt inkonsistenta PSD-estimatorer, såsom Blackman-'Iiirkey PSD-estimatom, gäller dock en liknande analys om (ll) ersätts med (Ihlw) = =(wl + AIM + BIM och åälw) = v(w) + A000) + Btw) där B,(w) respektive B,,(w) är deterministiska termer som beskriver den asymptotiska inkonsistensen i PSD-estimatorerna.
Vidare innebär ekvation (ll) att s(w) i (9) är en linjär fiinktion (i första ordningens approximation) av A,(w) och A1,(w). I det följande betraktas prestanda av de olika metoderna i termer av konsistensfel (E [Ös(w)]) och felvarians (Varßï), (w))). En fullständig härledning ges för FIFS (w) i nästa avsnitt. Liknande härledningar för de andra spektrala subtraktionsmetodema i tabell 1 ges i APPENDIX A-G.
ANALYS Av Hpsçii) (lämna) för 6 = 1) Om (10) och Hpsßv) från tabell 2 införs i (9) ger en enkel beräkning, under användande av Taylor-seriutvecklingen (1 + æ)'1 z 1 - a: och om avvikelser av ordningar högre än den första försummas, uttrycket <ï>s<~> = ::((:§A, - att» <12> där ”E” används för att beteckna approximativ likhet då endast de dominerande termema behålls. Kvantiteterna A,(w) och A.,,(w) är stokastiska variabler med medelvärde noll.
Det vill säga E[s(w)1 2 o (m) 505 156 och vafßiuw» = vaf + varßirrwn <14> I fortsättningen används det generella resultatet att för en asymtotiskt konsistent (unbí- ased) spektral estimator (w) gäller, se (7) Vßf(<ï>(w)) 2 ^1(w) <ï>2(w) (15) för en viss (eventuellt frekvensberoende) variabel ^y(w). T .ex. svarar periodogammet mot 'y(w) w 1 + (sínwN /N sin w)2, som för N >> 1 reduceras till *y æ 1. Kombinering av (14) och (15) ger Var(<ï>s(w)) f: Wåíw) (16) RESULTAT FÖR Hmm) Liknande beräkningar för ÉMS(w) ger (detaljer ges i APPENDIX A): ° ~ (DÄW) E[s(w)] _ 2,,(w) (1 - Övwà) och 2 Var(s(w)) 'z 1- 1+ És-(lfl 7 fl>v(w) RESULTAT FÖR Hwpw) Beräkningar för Iïlwflw) ger (detaljer ges i APPENDIX B): Ö., (w) (DIQU) Etïuwfl = - (1- )<1>1, och 505 156 RESULTAT FÖR Hime) Beräkningar för ÉML(w) ger (detaljer ges i APPENDIX C): Eßïuwn f= §<1>v - å- (\/<1>.~\/<1>,)2 och 2 vaf=%(1+ vain» RESULTAT FÖR Éfpstu) Beräkningar för É;pg(w) ger (Iïlypgfiu) härleds i APPENDIX D och analyseras i AP- PENDIX E): Elödwll 2 (Ölw) - 1)<ï>=(w) och Va.r(s(w)) z Özßu) ma) + zman” 2 x (Öna) + 7,,(w) WW) + wçz (w) 7,,(w) GEMENSAMMA SÄRDRAG För de betraktade metoderna noteras att konsistensfelet (bias error) endast beror av valet av I^I(w), medan felvariansen beror av både valet av É(w) och variansen av de använda PSD-estimatorerna. Exempelvis erhålls för det medelvärdesbildade periodogra- mestimatet av 1,(w) ur (7) att 7,, æ 1/7. Genom användning av ett periodogram in- nehållande endast en ram för estirneringen av ,(w) erhålls å andra sidan 7, a: 1. För r >> 1 utgörs den dominerande termen i 7 = 7,, + 71,, som förekommer i ovanstående vari- ansekvationer, av termen 7, och huvudfelkällan är sålunda det på en enda ram beräknade PSD-estimatet som baseras på det brusiga talet.
Av ovanstående amnärkliingar följer att för förbättring av de spektrala subtraktíons- metoderna är det önskvärt att minska värdet på 7, (val av lärnplig PSD-estimator, dvs. en approximativt konsistent estimator med så goda prestanda som möjligt) och att välja en 505 156 12 ”bra” spektral subtraktionsmetod (val av Û(w)). En grundidé till föreliggande uppfinning är att värdet av 7,, kan reduceras genom utnyttjande av en fysikalisk modell av talorganet (vilket reducerar antalet frihetsgrader från N (antalet sampel i en ram) till ett värde min- dre än N). Det är väl känt att s(k) nogrant kan beskrivas av en autoregessiv (AR) modell (i typfallet av ordning p æ 10). Detta är ämnet för de nästa två avsnitten.
Dessutom beror noggrannheten av s(w) (och implicit noggrannheten av .š(k)) av valet av Û Nya föredragna val av É(w) härleds och analyseras i APPENDIX D-G.
AUTOREGRESSIV TALMODELL I en föredragen utföringsform av föreliggande uppfinning modelleras s(k) såsom en autoregressiv (AR) process 1 ÉF) där A(q'1) är ett moniskt polynom (den ledande koeíficienten är lika med ett) av ordning s(k)= w(k) k=1,...,N (17) p i bakåtskiftoperatom (q°1w(k) = w(k - 1), etc.) A(q") = l+ a1q'l+ + apqfi' (18) och w(k) är vitt brus med medelvärde noll och varians of, Vid en första anblick kan det verka alltför restriktivt att endast betrakta AR-modeller. Användningen av AR-modeller för talmodellering motiveras dock av både den fysikaliska modelleringen av talorganet och, vilket är väsentligare här, av fysikaliska begränsningar av noggrannheten i de estimerade modellema beroende på det brusiga talet.
I talsigrialbehandlirig kan ramlängden N vara otillräckligt stor för att medge utnytt- jande av medelvärdesbildningsmetoder inuti ramen i syfte att reducera variansen och fortfarande bibehålla PSD-estimatorns konsistens. I syfte att minska efiekten av den första termen i exempelvis ekvation (12) måste sålunda fysikalisk modulering av talorganet användas. AR-striilfitiiren (17) påläggs .s(k). Explícit ger detta ,(w) = w + ,,(w) (19) |A(@*”)|2 Dessutom kan ,,(w) beskrivas med en parametrisk modell _ U lß12 505 156 13 där B(q"1) och C'(q'1) är polynom av ordning q respektive r, vilka definieras på liknande sätt som A(q"l) i (18). För enkelhets skull används en pararnetrisk brusmodell i (20) i nedanstående diskussion där ordningen av den parametriska modellen estimeras. Det inses dock att andra modeller av bakgrundsbruset eller -bullret också är möjliga. Om (19) och (20) kombineras kan man visa att där n(k) är vitt brus med medelvärde noll och varians of, och där D(q"l) ges av identiteten Uâlmßwflz = Uålcüflwllz + U§lB(@w)l2lÅ(@w)l2 (22) TALPARAMETERESTIMERING Estimeringen av parametrarna i (l7)-(l8) är enkel när inget tillkommande brus förekom- mer. Observera att i det brusfria fallet försvinner den andra termen på högra sidan i (22) och reduceras (21) därför till (17) efter pol-nollställeskvittning.
Här söks en PSD-estimator baserad på autokorellationsmetoden. Det finns fyra motiv för detta. o Autokorrelationsmetoden är välkänd. I synnerhet är de estimerade parametrarna av typen ”minimum phase”, vilket säkerställer det resulterande filtrets stabilitet. o Genom användning av Levinson-algoritmen är metoden enkel att implementera och har metoden låg beräkningskomplexitet. o En optimal procedur innehåller en icke-linjär optimering, som explicit erfordrar någon typ av initialiseringsprocedur. Autokorrelationsmetoden kräver ej någon sådan. o Ur praktisk synpunkt är det fördelaktigt om samma estimeringsprocedur kan an- vändas för det försämrade talet respektive det rena talet när sådant förekommer.
Med andra ord, estimeringsmetoden bör vara oberoende av det faktiska driftssce- nariot, dvs. oberoende av tal-till-bullerförhållandet.
Det är välkänt att en ARMA-modell (såsom (21)) kan modelleras såsom en AR-process av oändlig ordning. När ett ändligt antal datapunkter finns tillgängliga för pararneteres- timering måste AR-modellen av oändlig ordning trunkeras. Den här använda modellen 505 156 14 1 fflk) = FHM/lf) (23) där F(q"1) är av ordning ß. En lämplig modellordning framgår av nedanstående diskus- sion. Den approximativa modellen (23) ligger nära den brusiga talprocessen om de spek- trala eífekttätheterna är approximativt lika, dvs. om |D<@='~>P g 1 lA(@"“)|2 IC (ß'“”)|2 |F(@"“)|2 På basis av den fysikaliska modellen av talorganet är det vanligt att anse att p = deg(A(q“1)) = 10. Ur (24) följer även att 13 = deg(F(q'1) >> deg(A(q"))+deg(C(q“1)) = p + r, där p + r grovt sett är lika. med antalet toppar i ,(w). Å andra sidan erfordrar (24) modellering av brusiga smalbandiga processer genom AR-modeller att ß << N för att säkerställa tillförlitliga PSD-estimat. Sammanfattningsvis gäller att p+r<<ß< En lämplig tumregel ges av 13 ~ JN. Av ovanstående diskussion kan det förväntas att ett parametriskt synsätt är fruktbart om N >> 100. Av (22) kan man också dra slutsatsen att ju plattare brusspektrum är desto mindre värden på N tillåts. Även om ß ej är tillräckligt stort förväntas det parametriska synsättet ge rimliga resultat. Anledningen härtill är att den parametriska metoden i termer av felvarians ger väsentligt noggrannare PSD-estirnat än en periodogram baserad metod (i ett typiskt exempel är förhållandet mellan varianserna lika med 1:8, se nedan), vilket väsentligt reducerar artifakter såsom musikbuller i utsignalen.
Den parametriska PSD-estimatorn kan sammanfattas enligt följande. Använd autoko- rrelationsmetoden och en AR-modell av hög ordning (modellordning ß >> p och ß ~ x/Ü) för beräkning av .ÄR-parametrarna {f1, . . . , fp) och brusvariansen å: i (23). Beräkna ur den estimerade AR-modellen (i N diskreta punkter svarande mot frekvensmätpunkterna för ma) 1 (3)) inta) enligt <í>,,(w) = (25) IFTCWNZ Sedan används en av de i tabell 2 angivna spektrala subtraktionsmetoderna för förbättring av talet s(k). 505 156 15 Härnäst används en approximation av låg ordning för variansen av den parametriska PSD-estirnatorn (liknande den i (7) för de betraktade icke-parametriska metoderna) och följaktligen används en serieutveckling av s(k) under antagandet att bruset är vitt. Då ges den asyrnptotiska variansen (för både antalet datapunkter (N >> 1) och modellordningen (jí >> 1)) för fl>z(w) av varuiuwn = äïbšrw) (26) Ovanstående uttryck gäller även för en ren AR-process av (hög ordning). Ur (26) följer direkt att 7, z Zß/N vilket enligt ovan nämnda tumregel approximativt är lika med 7, f: 2/ JJTI, vilket bör jämföras med 'yæ æ 1 som gäller för en periodogrambaserad PSD- estimator.
Exempelvis är det rimligt att i en s.k. ”hands free” -miljö inom mobiltelefoni antaga att bullret är stationärt under omkring 0,5 sekunder (vid 8000 Hz samplingsfrekvens och en rarnlängd N = 256), vilket ger 'r z 15 och därför 7,, f: 1/15. För 13 = [Ü gäller vidare 7,, = l / 8.
Figur 3 illustrerar skillnaden mellan ett periodogram PSD-estimat och ett parametrisk PSD-estimat i enlighet med föreliggande uppfinning för en typisk talram. I detta exempel är N=256 (256 sampel) och har en AR-modell med 10 parametrar använts. Det ob- serveras att det pararnetriska PSD-estimatet Özßu) är mycket jämnare än motsvarande periodogram PSD-estimat.
Figur 4 illustrerar 5 sekunder av en samplad audiosignal innehållande tal i en bullrig bakgrund. Figur 5 illustrerar signalen i figur 4 efter spektral subtraktion baserad på ett periodogram PSD-estimat som prioriterar hög ljudkvalitet. Figur 6 illustrerar signalen i figur 4 efter spektral subtraktion baserade på ett parametriskt PSD-estimat i enlighet med föreliggande uppfinning.
En jämförelse av figurerna 5 och 6 visar att en väsentlig bullerundertryckning (av stor- leksordningen 10 dB) erhålls genom förfarandet i enlighet med föreliggande uppfinning.
(Såsom noterats ovan i samband med beskrivningen av figur 1 är de reducerade buller- riivåerna lika höga i både ramar med och utan tal.) En annan skillnad, som ej framgår av figur 6, är att den resulterande talsignalen är mindre förvrängd än talsigrialen i figur 5.
De teoretiska resultaten, i termer av inkonsistens (bias) och felvarians av FSD-felet summeras i tabell 3 for alla de betraktade metoderna. 505 156 Tabell 3: H(w) 16 Bias- och variansuttryck för effektsubtralction (PS) (standard PS, Ép_g(w) fór 6 = 1), magnitudsubtralction (MS), förbättrad effekt- subtraktion (IPS) och spektrala subtmktionsmetoder baserade på Wiener-filtrering och Maximum Likelihood (ML) metoder.
Det momentana SNB-värdet definieras av SN R = s(w)/,_.
För PS ges den optimala subtralctionsfaktorn Û av (58) och fór IPS ges Ö' (w) av (45) med ,(w) och 1, (w) ersatta. av Ö, (w) respektive <ï>v(w)- Bms VAmANs El<ï>4~>1/<1>.,<~> vaf<<ï>s<~>>/~f<1>2<~> 6PS MS IPS WF ML 1-6 9 -2(\/1 + SNR - 1) (\/1 + SNR - 1)” _ sNR sNR* 2 ,1sNR 2 WSNR” (SNRHY) (1+2"s§1>8+7) SNR 2 dm) _ SNR ¿(1+,/1+S§R)2 SHR-Fl å - åßf-SNPL' + ï - JSNR? 505 156 17 Det är möjligt att gradera de olika metoderna. Åtminstone två kriterier för hur en lämplig metod skall väljas kan särskiljas.
För det första, för lågt momentant SNR (SNR=signal to noice ratio), är det önskvärt att metoden har låg varians fór undvikande av tonartifalcter i Detta är ej möjligt utan ökad inkonsistens, och denna inkonsistensterm bör, i syfte att undertrycka (och ej förstärka) frekvensområdena med lågt momentant SNR, ha ett negativt tecken (så att s(w) i (9) tvingas mot noll). De kandidater som uppfyller detta kriterium är MS, IPS och WF i tabell 3.
För det andra, för högt momentant SNR är en låg grad av taldistortion önskvärd.
Om vidare inkonsistenstermen är dominerande bör den ha ett positivt tecken. ML, PS, IPS och (möjligen) WF i tabell 3 uppfyller det förstnämnda kravet. Inkonsistenstermen dominerar i MSE-uttrycket endast för ML och WF, varvid tecknet för inkonsistenstermen är positivt för ML och negativt för WF. Därför uppfyller ML, SPS, PS och IPS detta kriterium.
ALGORITMISKA ASPEKTER l detta avsnitt beskrivs föredragna utfóringsformer av den spektrala subtraktionsme- toden i enlighet med föreliggande uppfinning under hänvisning till figur 7. 1. Insignal: x= {a:(k)|k = 1,...,N}. 2. Designvariabler ß ordningen för tal-i-bullerrnodellen p löpande medelvärdesuppdateringsfalctor för ,,(w) 3. För varje ram av indata utför: (a) Taldetektering (steg 110) Variabeln Speech sätts till sann om talaktivitetsdetektorns VAD utsignal är lika med st = 21 eller st = 22. Variabeln Speech sätts till falsk om st = 20.
Om VAD-utsignalen är lika med st = 0 initialiseras algoritmen på nytt. (b) Spektral estimering Om Speech estimera ,(w): 505 156 is i. Estimera koeflicienterna (polynomkoefiicienterna (fi, . . . , få och variansen 6:) för modellen (23) med enbart poler genom användning av autokorrela- tionsmetoden applicerad på indata {:z:(k)} justerade till medelvärdet noll (steg 120). ii. Beräkna ,(w)en1igr (25) (steg 130).
I annat fall estimeras ,,(w) (steg 140) i. Uppdatera den spektrala modellen (la, (w) av bakgrundsbullret genom an- vändning av (4), där 515,, (w) är periodogrammet baserat på indata x juster- ade till medelvärde noll och Hanning/Harnrning fönsterbehandlacle. Efter- som fönsterbehandlade data används här, trots att ,(w) baseras på data som ej fönsterbehandlats, måste ,,(w) normaliseras på rätt sätt. Ett lämpligt initialvärde på Ö” (w) ges av medelvärdet (över frekvenstapparna) av periodogammet för den första ramen skalat med exempelvis en faktor 0,25, vilket innebär att initialt påläggs ett apriorí antagande om vitt brus på bakgrundsbullret. (c) Spektral subtraktion (steg 150) i. Beräkna frekvensviktníngsfiniktionen finn) enligt tabell 1. ii. Eventuell efterfiltrering, dämpning och bullergolvjustering. iii. Beräkna utsignalen genom användning av (3) och data {:z:(k)} justerade till medelvärde noll. Dessa data {m(k)} kan men behöver ej fönsterbehandlas, beroende på den faktiska ramöverlappningen (ett rektangulärt fönster an- vänds för icke-överlappande ramar, medan ett Hanning-fönster används vid 50% överlappning).
Av ovanstående beskrivning framgår att föreliggande uppfinning resulterar i en väsent- lig bullerreduktion utan att ljudkvaliten oifras. Den förbättring kan förklaras genom de separata eífektspektrumestirneringsmetoder som används för ramar med och utan tal.
Dessa metoder utnyttjar skillnaden i karaktär mellan tal och icke-tal (bakgrundsbuller), i och för minimering av variansen i respektive efiektspektrumestimat. 0 För ramar utan tal estimeras ,, (w) av en icke-pararnetrisk metod för eifektspektru- mestimering, tex. en FFT-baserad periodogram estimering, som använder alla N 505 156 19 samplen i varje ram. Genom bibehållande av alla firihetsgrader i den talíšria ramen kan en större mångfald av bakgrundsbuller modelleras. Eftersom bakgrundsbullret antages vara stationärt över flera ramar kan en reduktion av variansen av v(w) erhållas genom medelvärdesbildning av eifektspektrumestimatet över flera talfria IQIDQI. o För talramar estimeras Ö,(w) av en parametrisk metod för effektspektrurnestimeríng baserad på en parametrisk talmodell. I detta fall används talets speciella karaktär för reducering av antalet frihetsgrader (till antalet parametrar i den parametriska modellen) för talramen. En modell baserad på färre parametrar reducerar variansen i eífektspektnirnestimatet. Denna metod föredras för talramar, eftersom tal antas vara stationärt över endast en ram.
Fackmannen inser att olika förändringar och modifieringar av uppfinningen är möjliga utan att dessa faller utanför uppfinningens ram, vilken definieras av de bifogade paten- tkraven. 505 156 20 APPENDIX A ANALYS Av HMsw) Analogt med beräkningarna för ÉMSQu) erhålls 2 ÖJWÛ <1>,(w)- ma) Ö, (w) N _ ÖÅW) w _ (DIÅW) w w _ ( _q,v(w))(2<1>v< > QJEQJÛAJ >+A,,< >) där den andra likheten utnyttjar Taylor-serie-expansionen \/1 + a: z: 1 + :r / 2. Av (27) följer att väntevärdet av Ö, (w) är skilt från noll och ges av E[<í>s(w)] 2 2<1>,,(w) (1 _- äg) (28) Vidare gäller att vaf(<ï>s(w)) 2 Öz-(w) 2 fi(w) ~ ~ <1-, (WVarßPAwfl + Var(,,(w))) Kombínering av (29) och (15) ger (29) va;f(<í>,(w))= <1- 1+ æsßà) yøfiw) (so) 505 156 21 APPENDIX B ANALYs Av Išrwfle) I detta Appendix härleds PSD-felet vid talförbättring baserad på Wiener-filtrering I detta fall ges .Û(w) av “W Hae) (sn _ <í> ”WM = = Här är $(w) ett estímat av s (w), och den andra likheten följer av Ösßu) = <í>æ(w)-,,(w).
Under beaktande av att ffâvew ~ NW)(<1>5<~>+2{3'4flAe-Ae ' z e <ß2> ger en enkel befälming >< (Abvw) + 2 Aew) - Aewn (33) Uf (ss) feuef ett El<1>e och vef<<ï>s<~>> e 4 ( - "(:))2w<1>ï (35) 505 156 22 APPENDIX C ANALYS Av Hmm) Vid karakteriseririg av tal genom en deterministisk vâgform av okänd amplitud och fas definieras en spektral subtralctionsmetod enligt maximum líkelihood-principen (ML) ma) (H ,I1- (540)) 1 5 (1 + Épsfuà) aV ^ HMLQU) = (Oh-I II Om (11) införs i (36) ger en enkel beräkning ÉA/Ilxuàzš (1 + (PÅW) (1 Av (W) + :v (OJ) Aag-Û) i) ÖIÛU) _ (PÅW) :(90) (DÅW) (n, m) Jrg 1 (Quad) 4 ,/<1>,(w)<1>s(w) <1>=(w) där Taylor-serie-exparisionen (1 -+-:c)"l z 1 - a: används i den första och V1 + a: z 1+:c/ 2 används i den andra likheten. Nu är det enkelt att beräkna PSD-felet. Införing av A,(w) - A,,(w)) (37) i (9)-(10) ger, om högre än första ordningens avvikelser försummas i expansionen av Hzi/ILW) s(w) z å (l-l- ,(w) -s(w) (33) 1 (brud) (DÄW) “FE (1+ (Dawn) < Ur (38) följer att El<ï>s1 f: å (1 +, <1>= - <1>, (39) wmvßry 1 »ßlP-fl 505 156 23 där (2) används i den andra likheten. Vidare erhålls att 2 vaf=¿(1+ www) <4<>> 505 156 24 APPENDIX D HÄRLEDNING Av Iånpgw) Om Ö,(w) och ,,(w) är exakt kända minimeras det kvadrerade PSD-felet av H pg(w), dvs. Éps-(w) med z(w) och Ö” (w) ersatta av ,(w) respektive (P1, Detta faktum följer direkt ur (9) och (10), dvs. _,(w) = [H2(w),(w)-s(w)]2 = O, där (2) används i den sista likheten. Observera att i detta fall är H (w) en deterministisk kvantktet, medan Û(w) är en stokastisk kvantitet. Om osäkerheten i PSD-estimaten beaktas är ovanstående faktum i allmänhet ej längre sant, och i detta avsnitt härleds en dataoberoende viktningsfuriktion för förbättring av prestanda av Ûpgßiz). För detta ändamål betraktas ett variansuttryck med formen vawïuw» = :write <41> (g = 1 för PS och 5 = (1 - )2 för MS och 7 = 'Ye + 711). Variabeln 7 beror endast av den använda PSD-estimeringsmetoden och kan ej påverkas av valet av överfóringsfunktion É(w). Den första faktorn f beror däremot av valet av Éflw). I detta avsnitt söks en dataoberoende viktningsfiniktion Ö(w) sådan att Û(w) = fifiï) Épg(w) minimerar väntevärdet av det kvadrerade FSD-felet, dvs.
GM = afslåígßlïnluàlz (42) inte) = G(w)i1ï,$(w)<1>,(w) _ ma) I (42) är G(w) en generisk viktningsfunktion. Observera att om viktningsfunktionen G (w) tillåts vara databeroende uppstår en allmän klass av spektrala subtraktionsmetoder, vilken såsom specialfall inkluderar många av de vanligen använda metoderna, såsom mag- nitudsubtraktion om G(w) = Ûfwsßu) / 13126011). Denna observation är dock av föga in- tresse, eftersom optimeringen av (42) med en databeroende funktion G(w) starkt beror av formen av G(w). De metoder som använder en databeroende viktningsfunktion bör därför analyseras en i taget, eftersom inga generella resultat kan härledas i ett sådant fall.
I syfte att minimera (42) ger en enkel beräkning. 505 156 25 (w) (43) +G(w) (ÖÄW) A,(w) - A,,(w)) Beräknas väntevärdet av det kvadrerade PSD-felet och används (41) erhålls Elödwflz 2 (GW) - IVÖÉW) + G2 (w) 1 Qflw) (44) Ekvation (44) är kvadratisk i G(w) och kan minimeras analytiskt. Resultatet är - WW) G __. .___8___.___ M <1>:<~>+ vezca 1 (45) Öva: = ____________ 1+Y@zfi%mf där (2) används i den andra likheten. Icke överraskande beror Ö(w) av de (okända) spektrala effekttätheterna och av variabeln 7. Såsom noterats ovan kan man ej direkt ersätta de okända spektrala effekttätheterna i (45) med motsvarande estimat och hävda att den resulterande modifierade PS-metoden är optimal, dvs. minimerar (42). Det kan dock förväntas att om osäkerheten i Ö,(w) och ,,(w) beaktas i konstruktionsproce- duren kommer den modifierade PS-metoden att uppföra sig ”bättre” än standard-PS. På grund av ovanstående hänsynstagande betecknas denna modifierade PS-metod förbättrad efiektsubtraktion (IPS=Improved Power Subtraction). Innan IPS-metoden analyseras i APPENDIX E bör följande anmärkningar noteras.
För högt momentant SNB-värde (for w sådant att ,(w)/fI>,,(w) >> 1) följer av (45) att Ö(w) 'z 1 och, eftersom den normaliserade felvariansen Var(ÖS(w))/§(w) enligt (41) är liten i detta fall, kan man dra slutsatsen att prestanda för IPS ligger (mycket) nära prestanda för standard (PS). För lågt momentant SNB-värde (för w sådant att 'y> § (w)) gäller å andra sidan, se (43) Ö'(w) ß §(w)/ ('yf,(w)), att fiàwns~aw> (w) och Qfiiw) '1<1>?,(w) Vid lågt SNR-värde kan man dock ej dra slutsatsen att (46)-(47) är ens approximativt giltiga när Ö(w) i (45) ersätts av Ö(w), dvs. att '1>,(w) och ,,(w) i (45) ersätts med Vaf(<ï>s(w)) ß (47) motsvarande estirnerade värden z(w) respektive Ö,,(w). 505 156 26 APPENDIX E ANALYS Av Bunau) I detta APPENDIX analyseras IPS-metoden. Låt Ö(w) definíeras av (45), med Ö., (w) och ,(w) ersatta av motsvarande estimerade kvantiteter. Det kan visas att 515500) 2 (GW) ~ 1)<1>s(w) +Ö'(w) ( A,(w) - A1,(w)) (48) ,,(w) + 2z X (GW + ”°”(“') <1>§ + wzrw) Sam kan järnfesras med (43). Explicit erhålls E[<ï>s(w)} 2 (Öüv) ~ 1) och Varßïníflà) 2 Özw) ma) + 2<1>,(w))2 wflw) X (w) + "Ö" (w) <1>:<«~> + ~f<1>fl~> För högt SNR-värde, så att s(w)/,,(w) >> 1, kan viss insikt erhållas i (49)-(50). I detta fall kan man visa att E[s(w)] 'z 0 (51) och vafßïuw» = (1 + aïfjš ) w<1>â <ß2> De försummade termerna i (51) och (52) är av ordning O((,,(w)/s(w))2). Såsom redan angivits är prestanda för IPS ungefär samma som prestanda för PS vid högt SNR-värde.
För lågt SNR-värde (för w sådant att fi(w)/('y®f(w)) << 1) gäller å andra sidan att ÖW) '-“ (PÉU-Û/ (Vqfiíwfi Och E{°ï>s(w)] = -s(w) (53) 505 156 27 samt <1>í(w) ^r<1>?,(w) En jäxnförelse mellan (53)-(54) och motsvarande PS-resultat (13) och (16) visar att för lågt Var(,(w)) z 9 (54) momentant SNB-värde minskar IPS-metoden väsentligt variansen av fl>s(w) jämfört med PS-standardmetoden genom att Ös (w) i (9) tvingas mot noll. Explicít är förhållandet mel- lan IPS- och PS-variarrsen av storleksordningen O(§(w)/2 (w)). Man kan också jämföra (53)-(54) med det approxímativa uttrycket (47) och notera att förhållandet däremellan är lika med 9. 505 156 28 APPENDIX F PS MED OPTIMAL SUBTRAKTIONSFAKTOR 6 En ofta betraktad modifiering av efiektsubtraktionsmetoden är att betrakta uttrycket Hasta = j 1 - m) os) där 6(w) är en eventuellt fiekvensberoende funktion. I synnerhet med 6(w) = 6 för någon konstant 6 > 1 betecknas metoden ofta efiektsubtraktion med översubtraktion.
Denna modifiering minskar väsentligt bullernivån och reducerar tonartifakter. Dessutom förvränger den talet väsentligt, vilket gör modifieringen oanvändbar för högkvalitativ talforbättring. Detta faktum inses lätt ur (55) när 6 >> 1. För moderata och låga tal-till- bullerförhållanden (i w-domänen) är uttrycket under rottecknet mycket ofta negativt, så att den likriktande anordningen kommer att sätta detta värde till noll (halvvågslilcriktning), vilket innebär att endast frekvensband där SNR är högt kommer att ingå i utsignalen .š(k) i (3). På grund av den olinjära likriktningsanordningen kan föreliggande analysmetod ej direkt tillämpas i detta fall, och eftersom 6 > 1 leder till en utsignal med låg ljudkvalitet kommer denna modifiering ej att studeras ytterligare.
Ett intressant fall är dock 6 (w) 3 1, vilket inses av följande heuristiska diskussion.
Såsom nämnts tidigare är (55), då ,,(w) och ,,(w) är exakt kända, optimal med 6 (w) = 1 i den meningen att det kvadrerade FSD-felet minimeras. När ,,(w) och ,,(w) å andra sidan är helt okända, dvs. inget estimat av dem är tillgängligt, är det bästa som kan göras att estimera talet direkt ur den bullriga mätningen, dvs. .š(l<:) = .r(k), vilket svarar mot användning av (55) med 6 = 0. På grund av ovanstående två extremfall kan det förväntas att när de okända kvantiteterna ,(w) och ,,(w) ersätts av x(w) respektive ,,(w) minimeras felet E [Ös (w)]2 för något 6(w) i intervallet 0 < 6(w) < 1.
Dessutom studerades en empirisk kvantitet, nämligen den medelvärdesbildade spek- trala distortionsförbättringen, på liknande sätt som PSD-felet med avseende på subtrak- tionsfaktorn för MS. På basis av flera experiment drogs slutsatsen att den optimala sub- traktíonsfaktorn företrädesvis bör ligga i intervallet 0,5 till 0,9.
Explicit beräkning av PSD-felet i detta fall ger 505 156 29 <ï>r = <1 - flwninrw) + ß AM - Arwfl (56) Beräknas väntevärdet av det kvadrerade PSD-felet erhålls Elöáwllz ß (1 - <5(w))2 Öfiw) + 52 'Y<ï>f,(w) (57) där (41) används. Ekvation (57) är kvadratisk i 6(w) och kan minimeras analytiskt.
Betecknas det optimala värdet med 5 erhålls resultatet _ 1 6=-- 1+7<1 (58) Observera att 'y i (58) är approximativt frekvensoberoende (åtminstone for N >> 1) och att därför även É är oberoende av firekvensen. I synnerhet är É oberoende av ,(w) och ,,(w), vilket innebär att variansen och inkonsistensen i _.,(w) direkt följer ur (57).
Värdet av Ä kan vara väsentligt mindre än ett i vissa (realistiska) fall. Betrakta exempelvis återigen 7,, = 1 / -r och fy, = 1. Då ges 5 av 1 5-1 "21+1/2r vilket för alla värden på 1- uppenbarligen är mindre än 0,5. I detta fall indikerar det faktum att 5 << 1 att osäkerheten i PSD-estimatorerna (och i synnerhet osäkerheten i Ö,(w)) har stor inverkan på utsignalkvaliteten (i termer av FSD-fel). I synnerhet innebär användning av ä << 1 att förbättringen i rni-rrii-bnnerförnåiinnder från insrgrrni nu nrsignni är men.
En fråga som uppkommer är om det existerar en dataoberoende viktningsfunktion Ö(w) på samma sätt som viktníngsfiiriktionen för IPS-metoden i APPENDIX D. I AP- PENDIX G härleds en sådan metod (och betecknas denna ólPS). 505 156 30 APPENDIX G HÄRLEDNING Av Hflpgw) I detta appendix söks en dataoberoende viktningsfaktor Ö(w) sådan att Û(w) = 1/Ö(w) Û,;p$(w) för någon konstant 6 (O S 6 3 1) minimerar väntevärdet av det kvadr- erade PSD-felet, se (42). En enkel beräkning ger 5500) = (GW) - 1)<ï>s(w) + G(w)(1- 6) q) (w) (59) om; ((13%)) Ma) _ Avan) Väntevärdet av det kvadrerade FSD-felet ges av Etiska? = - 1>2<1>š+<12<~><1 - ßfdåcw) (60) 2(G(w) - 1) Högra sidan av (60) är kvadratisk i G(w) och kan minimeras analytiskt. Resultatet Ö(w) ges av Gal) = Öšlw) + <ï>š(w)+2<1>s(w)<ï>»(w)(1-<5)+(1-6)2@%(w)+62v*ï>%(w) 1 = í_ <ß1> w 2 1 +13 där ß i den andra likheten ges av _ 2 2 _ ß = (1 <5) +5 7+ (1 5)<ï>s(w)/*ï>v(w) (62) 1+ (1 - <5)v(w)/s(w) För 6 = 1 reduceras (61)-(62) ovan till IPS-metoden (45), och för 6 = 0 erhålls standard- PS. Ersätts s(w) och ,,(w) i (61)-(62) med motsvarande estimerade kvantiteter ,,(w) - ,,(w) respektive ,,(w) erhålls en metod som under beaktande av IPS-metoden ovan betecknas ÖIPS. Analysen av óTPS-metoden liknar analysen av IPS-metoden, men erfor- drar en större insats och tröttsamma enkla beräkningar och utelämnas därför. lll [Gl 505 156 31 REFERENSER S.F. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Tlrarisactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, Apfii 1979, pp. 113-120.
J .S. Lim and A.V. Oppenheim, “Enhancement and Bandwidth Compression of Noisy Speech”, Proceedings of the IEEE, Vol. 67, No. 12, December 1979, pp. 1586-1604.
J .D. Gibson, B. Koo and S.D. Gray, “Filtering of Colored Noise for Speech Enhance- ment and Coding” , IEEE Transactions on Acoustícs, Speech, and Signal Processing, Vol. ASSP-39, No. 8, August 1991, pp. 1732-1742.
“Constrained Iterative Speech Enhancement with Vol.
J .H.L Hansen and M.A. Clements, Application to Speech Recognítion”, IEEE Transactions on Signal Processing, 39, No. 4, April 1991, pp. 795-805.
D.K. Freeman, G. Cosier, CB. Southcott I. Boid, “The Voice Activity Detector for the Pan-European Digital Cellular Mobile Telephone Service”, 1989 IEEE In- ternational Conference Acoustics, Speech and Signal Processing, Glasgow, Scotland, 23-26 March 1989, pp. 369-372.
PCT application WO 89/08910, British Telecommunications PLC.

Claims (10)

1. 505 156 lO 6. 32 PATENTKRAV .
2. Förfarande för bullerundertryckning genom spektral subtraktion i ett rambaserat digitalt kommunikationssystem, där varje ram innehåller ett fórutbestämt antal N audiosampel, varigenom varje ram erhåller N frihetsgrader, varvid en spektral sub- traktionsfunktion fflw) baseras på ett estimat ,,(w) av den spektrala effekttätheten för bakgnmdsbuller i talfria ramar och ett estimat ,,(w) av den spektrala ef- fekttätheten i talramar, kännetecknat av: approximering av varje talram med en parametrisk modell som reducerar an- talet frihetsgrader till mindre än N; estimering av estimatet z(w) av den spektrala effekttätheten i varje talram genom en parametrisk effektspektrumestimeringsmetod baserad på den approxima- tiva parametriska modellen; och approximering av estimatet Ö,,(w) av den spektrala efiekttätheten i varje talfri ram genom en icke parametrisk effektspektrurnestimeringsmetod.
3. Förfarande enligt krav l, kännetecknat av att den approxímativa parametriska mo- dellen ar en autoregressiv (AR) modell.
4. Förfarande enligt krav 2, kännetecknat av att den autoregressiva (AR) modellen approximativt är av ordning JN.
5. Förfarande enligt krav 3, kännetecknat av att den autoregressiva modellen appro- ximativt är av ordning 10.
6. Förfarande enligt krav 3, kännetecknar, av en spektral subtraktionsfiuilrtion Ûßu) i <1~§<~»:f::> där Ö en viktníngsfiniktion och 6(w) är en subtraktionsfaktor. enlighet med formeln: fflw) = Förfarande enligt krav 5, kännetecknat av att Ö(w) = 1.
7. Föifarande enligt krav 5 eller 6, kännetecknat av att 6(w) är en konstant g 1. 505 156 33 spektral subtralctionsflnlktion É(w) i
8. Förfaxande enligt krav 3, kännetecknat av en ^ _ _ v(w) H (w) _- 1 èæw) nsfunktion fflw) i let) enlighet med formeln:
9. Förfarande enligt krav 3, kännetecknat av en spektral subtralctio ten enlighet med formeln: vÜ-U) j ÉM = (1 _ x
10. Förfarande enligt krav 3, kännetecknat av en spektral subtralctionsmnktion IÉHw) i även) enlighet med formeln: Ö, (w) I:I(w)=-12- (l-l- (1-
SE9500321A 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion SE505156C2 (sv)

Priority Applications (14)

Application Number Priority Date Filing Date Title
SE9500321A SE505156C2 (sv) 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion
US08/875,412 US5943429A (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method
PCT/SE1996/000024 WO1996024128A1 (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method
AU46369/96A AU696152B2 (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method
RU97116274A RU2145737C1 (ru) 1995-01-30 1996-01-12 Способ подавления шума путем спектрального вычитания
JP8523454A JPH10513273A (ja) 1995-01-30 1996-01-12 スペクトル減算雑音抑止方法
ES96902028T ES2145429T3 (es) 1995-01-30 1996-01-12 Procedimiento de supresion de ruido por substraccion espectral.
EP96902028A EP0807305B1 (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method
KR1019970705131A KR100365300B1 (ko) 1995-01-30 1996-01-12 스펙트럼감산잡음억제방법
CN96191661A CN1110034C (zh) 1995-01-30 1996-01-12 谱削减噪声抑制方法
CA002210490A CA2210490C (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method
BR9606860A BR9606860A (pt) 1995-01-30 1996-01-12 Processo de supressão de ruído por subtração espectral
DE69606978T DE69606978T2 (de) 1995-01-30 1996-01-12 Verfahren zur rauschunterdrückung mittels spektraler subtraktion
FI973142A FI973142A (sv) 1995-01-30 1997-07-29 Spektralt subtraherande brusdämpningsförfarande

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9500321A SE505156C2 (sv) 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion

Publications (3)

Publication Number Publication Date
SE9500321D0 SE9500321D0 (sv) 1995-01-30
SE9500321L SE9500321L (sv) 1996-07-31
SE505156C2 true SE505156C2 (sv) 1997-07-07

Family

ID=20397011

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9500321A SE505156C2 (sv) 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion

Country Status (14)

Country Link
US (1) US5943429A (sv)
EP (1) EP0807305B1 (sv)
JP (1) JPH10513273A (sv)
KR (1) KR100365300B1 (sv)
CN (1) CN1110034C (sv)
AU (1) AU696152B2 (sv)
BR (1) BR9606860A (sv)
CA (1) CA2210490C (sv)
DE (1) DE69606978T2 (sv)
ES (1) ES2145429T3 (sv)
FI (1) FI973142A (sv)
RU (1) RU2145737C1 (sv)
SE (1) SE505156C2 (sv)
WO (1) WO1996024128A1 (sv)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999001942A2 (en) * 1997-07-01 1999-01-14 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method

Families Citing this family (213)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2286268C (en) * 1997-04-16 2005-01-04 Dspfactory Ltd. Method and apparatus for noise reduction, particularly in hearing aids
FR2764469B1 (fr) * 1997-06-09 2002-07-12 France Telecom Procede et dispositif de traitement optimise d'un signal perturbateur lors d'une prise de son
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
CN1258368A (zh) * 1998-03-30 2000-06-28 三菱电机株式会社 噪声衰减设备以及噪声衰减方法
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6400310B1 (en) 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
EP2085028A1 (en) * 1998-11-09 2009-08-05 Xinde Li Processing low signal-to-noise ratio signals
US6343268B1 (en) * 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
WO2000038180A1 (en) * 1998-12-18 2000-06-29 Telefonaktiebolaget Lm Ericsson (Publ) Noise suppression in a mobile communications system
EP1748426A3 (en) * 1999-01-07 2007-02-21 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
EP1141948B1 (en) 1999-01-07 2007-04-04 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
FR2794323B1 (fr) * 1999-05-27 2002-02-15 Sagem Procede de suppression de bruit
US6314394B1 (en) * 1999-05-27 2001-11-06 Lear Corporation Adaptive signal separation system and method
FR2794322B1 (fr) * 1999-05-27 2001-06-22 Sagem Procede de suppression de bruit
US6480824B2 (en) * 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
SE514875C2 (sv) 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
FI19992453A (sv) 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Brusdämpning
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6674795B1 (en) * 2000-04-04 2004-01-06 Nortel Networks Limited System, device and method for time-domain equalizer training using an auto-regressive moving average model
US7139743B2 (en) * 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US6711558B1 (en) 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US7225001B1 (en) 2000-04-24 2007-05-29 Telefonaktiebolaget Lm Ericsson (Publ) System and method for distributed noise suppression
CN1179325C (zh) * 2000-05-17 2004-12-08 皇家菲利浦电子有限公司 音频编码
DE10053948A1 (de) * 2000-10-31 2002-05-16 Siemens Ag Verfahren zum Vermeiden von Kommunikations-Kollisionen zwischen Co-existierenden PLC-Systemen bei der Nutzung eines allen PLC-Systemen gemeinsamen physikalischen Übertragungsmediums und Anordnung zur Durchführung des Verfahrens
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7236777B2 (en) 2002-05-16 2007-06-26 Intellisist, Inc. System and method for dynamically configuring wireless network geographic coverage or service levels
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
USRE46109E1 (en) 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
US6813589B2 (en) * 2001-11-29 2004-11-02 Wavecrest Corporation Method and apparatus for determining system response characteristics
US7315623B2 (en) * 2001-12-04 2008-01-01 Harman Becker Automotive Systems Gmbh Method for supressing surrounding noise in a hands-free device and hands-free device
US7116745B2 (en) * 2002-04-17 2006-10-03 Intellon Corporation Block oriented digital communication system and method
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
US7711844B2 (en) 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
EP2528000B1 (en) * 2003-05-23 2017-07-26 IP Reservoir, LLC Intelligent data storage and processing using FPGA devices
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
WO2006032760A1 (fr) * 2004-09-16 2006-03-30 France Telecom Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede
EP1845520A4 (en) * 2005-02-02 2011-08-10 Fujitsu Ltd SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8112247B2 (en) * 2006-03-24 2012-02-07 International Business Machines Corporation Resource adaptive spectrum estimation of streaming data
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US7840482B2 (en) 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US20090027648A1 (en) * 2007-07-25 2009-01-29 Asml Netherlands B.V. Method of reducing noise in an original signal, and signal processing device therefor
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8374986B2 (en) * 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010077829A1 (en) 2008-12-15 2010-07-08 Exegy Incorporated Method and apparatus for high-speed processing of financial market depth data
US8688758B2 (en) 2008-12-18 2014-04-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods for filtering a signal
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101609480B (zh) * 2009-07-13 2011-03-30 清华大学 基于广域测量类噪声信号的电力系统节点间相位关系辨识方法
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN103228209A (zh) * 2010-09-21 2013-07-31 皮层动力学有限公司 复合脑功能监视和显示系统
US8924204B2 (en) 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
WO2012079041A1 (en) 2010-12-09 2012-06-14 Exegy Incorporated Method and apparatus for managing orders in financial markets
WO2012091643A1 (en) * 2010-12-29 2012-07-05 Telefonaktiebolaget L M Ericsson (Publ) A noise suppressing method and a noise suppressor for applying the noise suppressing method
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
WO2014066416A2 (en) 2012-10-23 2014-05-01 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
GB2541577A (en) 2014-04-23 2017-02-22 Ip Reservoir Llc Method and apparatus for accelerated data translation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
RU2593384C2 (ru) * 2014-12-24 2016-08-10 Федеральное государственное бюджетное учреждение науки "Морской гидрофизический институт РАН" Способ дистанционного определения характеристик морской поверхности
RU2580796C1 (ru) * 2015-03-02 2016-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
EP3560135A4 (en) 2016-12-22 2020-08-05 IP Reservoir, LLC PIPELINES INTENDED FOR AUTOMATIC ACCELERATED LEARNING BY EQUIPMENT
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
FI100154B (sv) * 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Förfarande och system för dämpning av brus
DE69420027T2 (de) * 1993-02-12 2000-07-06 British Telecommunications P.L.C., London Rauschverminderung
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3270866B2 (ja) * 1993-03-23 2002-04-02 ソニー株式会社 雑音除去方法および雑音除去装置
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
KR0175965B1 (ko) * 1993-11-30 1999-04-01 마틴 아이. 핀스톤 통신 시스템에서의 송신 노이즈 감축
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999001942A2 (en) * 1997-07-01 1999-01-14 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method
WO1999001942A3 (en) * 1997-07-01 1999-03-25 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method

Also Published As

Publication number Publication date
JPH10513273A (ja) 1998-12-15
WO1996024128A1 (en) 1996-08-08
FI973142A0 (sv) 1997-07-29
AU696152B2 (en) 1998-09-03
DE69606978T2 (de) 2000-07-20
BR9606860A (pt) 1997-11-25
CN1169788A (zh) 1998-01-07
FI973142A (sv) 1997-09-30
CN1110034C (zh) 2003-05-28
KR100365300B1 (ko) 2003-03-15
CA2210490C (en) 2005-03-29
RU2145737C1 (ru) 2000-02-20
AU4636996A (en) 1996-08-21
US5943429A (en) 1999-08-24
EP0807305A1 (en) 1997-11-19
SE9500321L (sv) 1996-07-31
CA2210490A1 (en) 1996-08-08
KR19980701735A (ko) 1998-06-25
EP0807305B1 (en) 2000-03-08
DE69606978D1 (de) 2000-04-13
SE9500321D0 (sv) 1995-01-30
ES2145429T3 (es) 2000-07-01

Similar Documents

Publication Publication Date Title
SE505156C2 (sv) Förfarande för bullerundertryckning genom spektral subtraktion
US7313518B2 (en) Noise reduction method and device using two pass filtering
JP4440937B2 (ja) 暗騒音存在時の音声を改善するための方法および装置
JP4244514B2 (ja) 音声認識方法および音声認識装置
EP1903560B1 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
KR101120679B1 (ko) 이득-제한된 잡음 억제
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
Nakatani et al. Robust and accurate fundamental frequency estimation based on dominant harmonic components
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
US7957964B2 (en) Apparatus and methods for noise suppression in sound signals
JP2000330597A (ja) 雑音抑圧装置
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
US10297272B2 (en) Signal processor
Xiao et al. Temporal structure normalization of speech feature for robust speech recognition
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
Chen et al. Study of the noise-reduction problem in the Karhunen–Loève expansion domain
Hirsch HMM adaptation for applications in telecommunication
Hsieh et al. Employing median filtering to enhance the complex-valued acoustic spectrograms in modulation domain for noise-robust speech recognition
Krawczyk-Becker et al. On speech enhancement under PSD uncertainty
Elshamy et al. Two-stage speech enhancement with manipulation of the cepstral excitation
Funaki Speech enhancement based on iterative wiener filter using complex speech analysis
JP4325044B2 (ja) 音声認識システム
Li et al. Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition
JP2001067094A (ja) 音声認識装置及び方法
Li et al. Non-linear spectral contrast stretching for in-car speech recognition

Legal Events

Date Code Title Description
NUG Patent has lapsed