SE519985C2 - Kodning och avkodning av signaler från flera kanaler - Google Patents
Kodning och avkodning av signaler från flera kanalerInfo
- Publication number
- SE519985C2 SE519985C2 SE0003287A SE0003287A SE519985C2 SE 519985 C2 SE519985 C2 SE 519985C2 SE 0003287 A SE0003287 A SE 0003287A SE 0003287 A SE0003287 A SE 0003287A SE 519985 C2 SE519985 C2 SE 519985C2
- Authority
- SE
- Sweden
- Prior art keywords
- channel
- inter
- channels
- correlation
- subsequent
- Prior art date
Links
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 230000001934 delay Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 description 16
- 230000005284 excitation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000002787 reinforcement Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Error Detection And Correction (AREA)
Description
20 25 30 519 985 2 kodare en lägre bitrat för båda kanalerna, vilket i båda fallen betyder lägre kvalitet för båda kanalerna.
Ett annat problem är utnyttjandet av terminaler som fungerar för stereo. Alla terminaler för ljudkommunikation implementerar en monokanal, till exempel hastigheter (AMR- talkodnig/talavkodning), och moden som en stereoterminal kommer att falla adaptiv talkodning / -avkodning med flera tillbaka på är en monokanal. I en stereokonferens med flera deltagare (till exempel ett sammanträde med flera deltagare) begränsar en monoterminal användningen av stereokodning och högre kvalitet på grund av behov av interopererbarhet.
Allmänna principer för kodning/avkodning av signaler från flera kanaler genom linjär prediktiv analys genom syntes (LPAS) beskrivs i [3]. Den be- skrivna kodaren är emellertid inte tillräckligt anpassbar för hantering av de beskrivna problemen.
SAMMANFATTNING Ett syfte med den föreliggande uppfinningen är att en effektiv LPAS- talkodningsstruktur för flera kanaler som utnyttjar signalkorrelation mellan kanaler och bibehåller en inbäddad bitström.
Ett annat syfte är en kodare som för en talsignal från M kanaler kan produ- cera en bitström som i medel är signifikant under M gånger den hos en tal- kodare för en kanal, medan samma eller bättre ljudkvalitet bevaras vid en given medelbitrat.
Andra syften innefattar rimlig implementerings- och beräkningskomplexitet för realisering av kodare inom denna ram.
Dessa syften uppnås i enlighet med de bifogade patentkraven. 10 15 20 25 30 »Q »Ma 519 985 3 Kortfattat innefattar den föreliggande uppfinningen inbäddning av en mono- kanal i den kodande bitströmmen från flera kanaler för att övervinna kvali- tetsproblemen som associeras med varierande bruttobitrater på grund av till exempel varierande länkkvalitet. Om det finns ett behov av lägre bruttobit- rat, kan den inbäddade bitströmmen från monokanalen med detta arrange- mang bibehållas och de andra kanalerna behövs inte tas hänsyn till. Kom- munikationen kommer nu att ”hoppa tillbaka” till monokodningsdrift med lägre bruttobitrat men kommer fortfarande behålla en hög monokvalitet.
”Stereobitarna” kan överges vid vilken kommunikationspunkt som helst och fler kanalkodningsbitar kan tillföras för högre robusthet i ett scenario med radiokommunikation. ”Stereobitarna” kan även överges beroende på motta- garsidans förmågor. Om mottagaren för en deltagare i en konferens med flera deltagare innefattar en monoavkodare kan den inbäddade bitströmmen användas genom att bortse från de andra delarna av bitströmmen.
KORT BESKRIVNING AV RITNINGARNA Uppñnningen, tillsammans med ytterligare syften och fördelar med denna, kan bäst förstås genom hänvisningar till följande beskrivning läst tillsammans med de medföljande ritningarna, i vilka: FIG. 1 är ett blockdiagram av en konventionell LPAS-talkodare för en kanal; FIG. 2 är ett blockdiagram av en utföringsform av analysdelen av en LPAS-talkodare för flera kanaler enligt känd teknik; FIG. 3 är ett blockdiagram av en utföringsform av syntesdelen av en LPAS-talkodare för flera kanaler enligt känd teknik; FIG. 4 är ett blockdiagram av en belysande utföringsform av syntesde- len av en LPAS-talkodare för flera kanaler i enlighet med den föreliggande uppfinningen; FIG. 5 är ett flödesdiagram av en belysande utföringsform av ett sökför- farande för en flerdelad fast kodbok; samt lO 15 2O 25 30 519 985 4 FIG. 6 är ett blockdiagram av en belysande utföringsform av analysde- len av en LPAS-talkodare för flera kanaler i enlighet med den föreliggande uppfinningen.
DETALJERAD BESKRIVNING AV FÖREDRAGNA UTFÖRINGS- FORMER I den följande beskrivningen används samma hänvisningsbeteckningar för motsvarande eller liknande element.
Den föreliggande uppfinningen kommer nu att beskrivas genom introduktion av en konventionell talkodare för en kanal som utnyttjar linjär prediktiv ana- lys genom syntes (LPAS) och en allmän talkodare för flera kanaler som ut- nyttjar linjär prediktiv analys genom syntes (LPAS) som beskrivs i [3].
F ig. 1 är ett blockdiagram av en konventionell LPAS-talkodare för en kanal.
Kodaren innefattar två delar, nämligen en syntesdel och en analysdel (en mot- svarande avkodare innehåller endast en syntesdel).
Syntesdelen innefattar ett LPC-syntesñlter 12 som mottager en exciteringssig- nal i(n) och matar ut en syntestalsignal šüïl- Efflïítatíonssignalen i(n) bildas genom addering av två signaler u(n) och v(n) i en adderare 22. Signalen u(n) bildas genom skalning av en signal f(n) från en fast kodbok 16 med en för- stärkning gr i ett förstärkningselement 20. Signalen v(n) bildas genom skal- ning av en fördröjd (av fördröjning “lag”) version av excitationssignalen i(n) från en adaptiv kodbok 14 med en förstärkning gA i ett förstärkningselement 18. Den adaptiva kodboken bildas av en återkopplad loop som innefattar ett fördröjningselement 24 som fördröjer excitationssignalen i(n) en delrams längd N. Den adaptiva kodboken innehåller således föregående excitationer i(n) som skiftas in i kodboken (de äldsta excitationerna skiftas ut från kodboken och kasseras). LPC-syntesfiltrets parametrar uppdateras typiskt var 20-40 ms ram medan den adaptiva kodboken uppdateras var 5- 10 ms delram. lO l5 20 25 30 519 985 s Analysdelen av LPAS-kodaren utför en LPG-analys av den inkommande talsig- nalen s(n) samt utför även en excitationsanalys.
LPG-analysen utförs av ett LPC-analysfilter 10. Detta filter mottager talsigna- len s(n) och bygger en parametermodell av denna signal ram för ram. Modell- parametrarna väljs för att minimera energin hos en restvektor som bildas av skillnaden mellan en aktuell talramsvektor och den motsvarande signalvek- torn som framställs av modellen. Modellparametrarna representeras av ana- lysfiltrets 10 filterkoefñcienter. Dessa filterkoefficienter definierar filtrets över- föringsfunktion A(z). Eftersom syntesfiltret 12 har en överföringsfunktion som är åtminstone ungefär lika med 1 /A(z) styr även dessa ñlterkoefficienter syn- tesfiltret 12, vilket antyds av den streckade styrlinjen.
Excitationsanalysen utförs för bestämning av den bästa kombinationen av fast kodboksvektor (kodboksindex), förstärkning gF, adaptiv kodboksvektor (lag) samt förstärkning gA som resulterar i den syntessignalvektorn {š(1'1)} som bäst stämmer överens med talsignalvektor {s(n)} (här betecknar { } en samling sam- pel som bildar en vektor eller ram). Detta utförs i en uttömmande sökning som testar alla möjliga kombinationer av dessa parametrar (suboptimala sökplaner är också möjliga, i vilka några parametrar bestäms oberoende av de andra parametrarna och därefter hålls fasta under sökningen efter de återstående parametrarna). För att testa hur nära en syntesvektor {š(f1)} är den mOtSVa- rande talvektorn {s(n)} kan differensvektorns {e(n)} (som bildas i en adderare) energi beräknas i en energiberäknare 30. Det är emellertid effektivare att be- trakta energin hos en viktad felsignalvektor {ew(n)}, i vilken felen har omförde- lats på ett sådant sätt att stora fel maskas av frekvensband med stor ampli- tud. Detta utförs i ett viktningsfilter 28.
Modifieringen av LPAS-kodaren för en kanal i fig. 1 till en LPAS-kodare för flera kanaler i enlighet med [3] kommer nu att beskrivas med hänvisning till fig. 2-3. En talsignal från två kanaler (stereo) antas men samma principer kan användas för fler än två kanaler. lO 15 20 25 30 519 985 6 Fig. 2 är ett blockdiagram av en utföringsform av analysdelen av en LPAS- talkodare för flera kanaler som beskrivs i [3]. I ñg. 2 är nu insignalen en signal från flera kanaler vilket antyds av signalkomponenter s1(n), s2(n). LPC- analysfiltret 10 i fig. 1 har ersatts med ett LPC-analysfilterblock IOM som har en matrisvärd överföringsfunktion A(z). På liknande sätt ersätts adderaren 26, viktningsfiltret 28 samt energiberäknaren 30 av motsvarande block med flera kanaler 26M, 28M respektive 3OM.
Fig. 3 är ett blockdiagram av en utföringsform av syntesdelen av en LPAS- talkodare för flera kanaler som beskrivs i [3]. En avkodare för flera kanaler kan även bildas av en sådan syntesdel. Här har LPC-syntesñltret 12 i fig. 1 ersatts av ett LPC-syntesfilterblock 12M som har en matrisvärd överförings- funktion A*1(z) som är (vilket antyds av beteckningen) åtminstone ungefär lika med inversen av A(z). På liknande sätt ersätts adderaren 22, den fasta kodbo- ken 16, förstärkningselementet 20, fördröjningselementet 24, den adaptiva kodboken 14 samt förstärkningselementet 18 av motsvarande block för flera kanaler 22M, 16M, 24M, 14M respektive 18M.
Den följande beskrivningen av en inbäddad LPAS-kodare för flera kanaler i enlighet med den föreliggande uppfinningen beskriver hur kodningsflexibilite- ten i de olika blocken kan ökas. Det bör emellertid förstås att inte alla block måste konfigureras på det beskrivna sättet. Den exakta balansen mellan kod- ningsflexibilitet och komplexitet måste beslutas för den individuella kodarim- plementeringen.
Fig. 4 är ett blockdiagram av en belysande utföringsform av syntesdelen av en LPAS-talkodare för flera kanaler i enlighet med den föreliggande uppfinningen.
Ett väsentligt särdrag av kodaren är strukturen hos den flerdelade fasta kod- boken. Den innefattar individuella fasta kodböcker FC1, FC2 för varje kanal.
De fasta kodböckerna innefattar typiskt algebraiska kodböcker, i vilka excita- tionsvektorerna bildas av enhetspulser som fördelas över varje vektor i enlig- het med vissa regler (detta är välkänt för fackmannen och kommer inte att beskrivas ytterligare). De individuella fasta kodböckerna FCl, FC2 associeras 10 15 20 25 30 519 985 7 med individuella förstärkningar gm, gm. Ett väsentligt särdrag hos den förelig- gande uppfinningen är att en av de fasta kodböckerna, typiskt den kodbok som associeras med den starkaste eller ledande (mono-) kanalen, även kan delas av den svagare eller efterföljande kanalen över ett fördröjnings- eller förstärkningselement D (som kan antingen vara heltal eller bråkdel) och en förstärkning griz mellan kanaler.
I det ideala fallet där varje kanal består av en skalad och translaterad version av samma signal (ekofritt rum) behövs endast den ledande kanalens gemen- samma kodbok, och fördröjningsvärdena D motsvarar direkt ljudfortplant- ningstid. I det motsatta fallet där korrelation mellan kanaler är mycket låg krävs separata fasta kodböcker för efterföljande kanaler.
Med endast en korskanalsgren i den fasta kodboken måste den ledande och den efterföljande kanalen bestämmas ram för ram. Eftersom den ledande kanalen kan ändras finns det synkront styrda omkopplare SWl, SW2 att as- sociera fördröjningen D och förstärkningen griz med den korrekta kanalen. I konfigurationen i fig. 4 är kanal 1 den ledande kanalen och kanal 2 är den efterföljande kanalen. Genom omkoppling av båda omkopplarna SWl, SW2 till deras motsatta tillstånd blir rollerna omvända. För att undvika mycket om- koppling av ledande kanal kan det krävas att en ändring endast är möjlig om samma ledande kanal har valts för ett antal på varandra följande ramar.
En möjlig modifiering är att använda färre pulser för den efterföljande kana- lens fasta kodbok än för den ledande kanalens fasta kodbok. I denna utfö- ringsform minskas den fasta kodbokens längd när en kanal degraderas till en efterföljande kanal och ökas tillbaka till den ursprungliga storleken när den ändras tillbaka till en ledande kanal.
Fastän fig. 4 illustrerar en fast kodboksstruktur med två kanaler inses att koncepten lätt generaliseras till fler kanaler genom ökning av antalet individu- ella kodböcker och antalet fördröjningar och förstärkningar mellan kanaler. lO 15 20 25 30 519 985 s De ledande och efterföljande kanalernas kodböcker genomsöks typiskt seriellt.
Den föredragna ordningen är att först bestämma excitationsvektorn, fördröj- ningarna och förstärkningarna hos den ledande kanalens fasta kodbok. Där- efter bestäms de individuella fasta kodböckernas vektorer och förstärkningar hos de efterföljande kanalerna.
Fig. 5 är ett flödesdiagram av en belysande utföringsform av ett sökförfarande för en flerdelad fast kodbok i enlighet med den föreliggande uppfinningen. Steg S1 bestämmer och kodar en ledande kanal, typiskt den starkaste kanalen (kanalen som har den största ramenergin). Steg S2 bestämmer korskorrelatio- nen mellan varje efterföljande kanal och den ledande kanalen för ett förbes- tämt intervall, till exempel en del av eller en fullständig ram. Steg S3 lagrar fördröjningskandidater för varje efterföljande kanal. Dessa fördröjningskandi- dater definieras av positionerna hos ett antal av de högsta korskorrelations- topparna och de närmaste positionerna runt varje topp för varje sekundär kanal. Man skulle till exempel kunna välja de 3 högsta topparna och därefter addera de närmsta positionerna på båda sidorna om varje topp vilket ger totalt 9 fördröjningskandidater per efterföljande kanal. Om fördröjningar med hög (bråkdel) upplösning används kan antalet kandidater runt varje topp ökas till exempelvis 5 eller 7. Den högre upplösningen kan erhållas genom uppsamp- ling av insignalen. Steg S4 väljer den bästa fördröjningskombinationen. Steg S5 bestämmer de optimala förstärkningarna mellan kanaler. Slutligen be- stämmer steg S6 den efterföljande kanalens excitationer och förstärkningar.
För de fasta kodboksförstärkningarna kräver varje efterföljande kanal en för- stärkning mellan kanaler för ledande kanalens fasta kodboken och en för- stårkning för den individuella kodboken. Dessa förstärkningar har typiskt betydande korrelation mellan kanalerna. De korreleras även till förstärkningar i den adaptiva kodboken. Prediktioner av dessa förstärkningar mellan kanaler kommer således vara möjliga. 10 15 20 25 30 519 985 9 - Enligt fig. 4 innefattar den flerdelade adaptiva kodboken en adaptiv kodbok ACl, AC2 för varje kanal. En flerdelad adaptiv kodbok kan konfigureras på ett antal sätt i en kodare för flera kanaler. Exempel är: 1. Alla kanaler delar en enstaka delningsfördröjning (eng. ”pitch lag”). Varje kanal kan ha separat delningsförstärkningar (eng. ”pitch gain”) gAii, gA22 för förbättrad prediktion. Den gemensamma delningsfördröjningen söks på ett sätt som liknar en sluten loop i den ledande (mono-) kanalen och an- vänds därefter i de efterföljande kanalerna. 2. Varje kanal har en separat delningsfördröjning P11, P22. Värdena hos de efterföljande kanalernas delningsfördröjningar kan kodas differentiellt från den ledande kanalens delningsfördröjning eller absolut. Sökningen för de efterföljande kanalernas delningsfördröjningar kan utföras runt den ledan- de (mono-) kanalens delningsfördröjningsvärde. 3. Kunskap om tidigare exciteringar kan användas på ett korskanalsätt. En enstaka gren med korskanalsexciteringar kan användas, såsom prediktera kanal 2 med kunskap om tidigare exciteringar från den ledande kanalen 1 vid fördröjningsavständ P12. Synkront styrda omkopplare SW3, SW4 kopplar, beroende på vilken kanal som är den ledande, korskanalsexcite- ringen till den rätta adderaren AA1, AA2 över en korskanalförstärkning gA12.
Som i fallet med den fasta kodboken är den beskrivna adaptiva kodboks- strukturen mycket anpassbar och lämplig för multimodsdrift. Valet att använ- da gemensamma eller individuella delningsfördröjningar kan baseras på rest- signalenergin. I ett första steg bestäms den optimala gemensamma delnings- fördröjningens restenergi. I ett andra steg bestäms de optimala individuella delningsfördröjningarnas restenergi. Om restenergin i fallet med gemensam delningsfördröjning överskrider restenergin i fallet med individuella delnings- fördröjningar med ett förbestämt belopp används individuella delningsfördröj- ningar. Annars används en gemensam delningsfördröjning. Om så önskas kan lO 15 20 25 30 519 985 10 ett rörligt medelvärde av energiskillnaden användas för att göra beslutet mju- kare.
Denna strategi kan anses vara en “sluten loop”-strategi för att besluta mellan gemensamma eller individuella delningsfördröjningar. En annan möjlighet är en “öppen loop”-strategi som baseras pä, till exempel, korrelation mellan ka- naler. I detta fall används en gemensam delningsfördröjning om korrelationen mellan kanaler överskrider en förbestämd tröskel. Annars används individu- ella delningsfördröjningar.
Liknande strategier kan användas för att bestämma huruvida delningsför- dröjningar mellan kanaler ska användas.
Vidare förväntas en betydande korrelation mellan de olika kanalernas adapti- va kodboksförstärkningar. Dessa förstärkningar kan predikteras frän kunskap om kanalens tidigare förstärkningar, från förstärkningar i samma ram men som tillhör andra kanaler samt även från fasta kodboksförstärkningar.
I LPC-syntesfilterblocket l2M i fig. 4 använder varje kanal ett individuellt LPC- filter (linjär predíktiv kodning). Dessa filter kan härledas oberoende av var- andra på samma sätt som fallet med en enstaka kanal. Vissa eller alla kana- lerna kan emellertid även dela samma LPC-filter. Detta tillåter omkoppling mellan multipel- eller singelfiltermoder beroende pä signalegenskaper, t.ex. spektralavständ mellan LPC-spektra. Om interkanalprediktioner används för LSP-parametrarna (par av linjespektra) stängs prediktionen av eller reduceras för moder med låg korrelation.
F ig. 6 är ett blockdiagram av en belysande utföringsform av analysdelen av en LPAS-talkodare för flera kanaler i enlighet med den föreliggande uppfinningen.
Förutom blocken som redan har beskrivits med hänvisning till fig. 1 och 2 innefattar analysdelen i fig. 7 ett multimodsanalysblock 40. Blocket 40 be- stämmer korrelationen mellan kanaler för att bestämma huruvida det finns tillräcklig korrelation mellan de efterföljande kanalerna och den ledande ka- lO 15 20 25 30 519 985 ll nalen för att motivera kodning av de efterföljande kanalerna genom använd- ning av endast den ledande kanalens fasta kodbok, fördröjning D samt för- stärkning gm? Om inte är det nödvändigt att använda de individuella fasta kodböckerna samt förstärkningarna för de efterföljande kanalerna. Korrelatio- nen kan bestämmas av den vanliga korrelationen i tidsdomänen, dvs. genom skiftning av de sekundära kanalsignalerna med avseende på den primära signalen tills en bästa passning erhålls. Om det finns fler än två kanaler an- vänds den ledande kanalens fasta kodbok som en gemensam fast kodbok om det minsta korrelationsvärdet överskrider en förbestämd tröskel. En annan möjlighet är att använda en gemensam fast kodbok för kanalerna som har en korrelation till den ledande kanalen som överskrider en förbestämd tröskel och individuella fasta kodböcker för de återstående kanalerna. Den exakta tröskeln kan bestämmas genom lyssnartester.
De olika elementens funktion hos den föreliggande uppfinningens beskrivna utföringsformer implementeras typiskt av en eller flera mikroprocessorer eller míkro-/ signalprocessorkombinationer och motsvarande mjukvara.
I figurerna är flera block och parametrar valfria och kan användas baserat på egenskaperna hos signalen från flera kanaler samt på det totala talkvalitets- kravet. Bitar i kodaren kan allokeras där de bäst behövs. På grundval av ram för ram kan kodaren välja att fördela bitar olika mellan LPC-delen, den adap- tiva och fasta kodboken. Detta är en typ av multimodsdrift med flera kanaler.
En annan typ av multimodsdrift är att fördela bitar i kodaren mellan kanaler- na (asymmetrisk kodning). Detta hänvisas till som multimodsdrift mellan kanaler. Ett exempel här skulle vara en större fast kodbok för en / några ka- naler eller kodarförstärkningar som kodas med fler bitar i en kanal. De två typerna av multimodsdrift kan kombineras för att effektivt utnyttja källsigna- lens egenskaper.
Multimodsdriften kan styras på ett sätt som liknar en sluten loop eller med ett förfarande med en öppen loop. Förfarandet med en sluten loop bestämmer lO 20 25 30 L" M9 985 š,.“:"fl='=f 12 : :zïf i..'f:f.' mod beroende på ett restkodningsfel för varje mod. Detta är ett beräknings- mässigt dyrt förfarande. I ett förfarande med en öppen loop bestäms kod- ningsmoden av beslut som baseras på insignalens egenskaper. Inom kanaler bestäms den variabla ratmoden baserat på till exempel röst, spektralegenska- per samt signalenergi, vilket beskrivs i [4]. För modbesluten mellan kanaler kan korskorrelationsfunktionen mellan kanaler eller en funktion för spektral- avstånd användas för att bestämma mod. För brus eller icke-röstkodning är det relevantare att använda korrelationsegenskaperna från flera kanaler i frekvensdomänen. En kombination av tekniker som bygger på öppen och slu- ten loop är även möjlig. Analysen med en öppen loop väljer några kandidat- moder som kodas och därefter används det slutliga restfelet i ett beslut med sluten loop.
Prediktion med flera kanaler (mellan den ledande kanalen och de efterföljande kanalerna) kan användas för moder med hög korrelation mellan kanaler för reducering av antalet bitar som krävs för LPAS-förstärkningen och LPC- parametrarna mellan kanaler.
En teknik som är känd som generaliserad LPAS (se [5]) kan även användas i en LPAS-kodare för flera kanaler enligt den föreliggande uppfinningen. Kort- fattat innefattar denna teknik förprocessníng av insignalen ram för ram innan verklig kodning. Fler möjliga modifierade signaler undersöks och den som kan kodas med den minsta distorsionen väljs som signalen som ska kodas.
Beskrivningen ovan har huvudsakligen riktats mot en kodare. Den motsva- rande avkodaren skulle endast innefatta syntesdelen av en sådan kodare.
Typiskt används en kombination av kodare / avkodare i en terminal som sän- der/ mottager kodade signaler över en kommunikationskanal med begränsad bandbredd. Terminalen kan vara en radiokanal i en cellulär telefon eller bas- station. En sådan terminal skulle även innefatta olika andra element såsom en antenn, förstärkare, utjämnare, kanalkodare/-avkodare, etc. Dessa ele- ment är emellertid inte nödvändiga för beskrivning av den föreliggande upp- finningen och har därför utelämnats. 519 985 13 Det kommer att inses av fackmannen att olika modifikationer och ändringar kan göras av den föreliggande uppfinningen utan att avvika från dess omfatt- ning, som definieras av de bifogade patentkraven. [1] 5 [2] [3] 10 [4] 15 [H 519 985 §.I=§f§=í,=' .. .. . ..; 1 , _ _~=- v.. .x . 14 v, . , » . i, REFERENSER A. Gersho, "Advances in Speech and Audio Compression", Proc. of the IEEE, Vol. 82, Nr. 6, sidorna 900-918, Juni 1994, A. S. Spanias, "Speech Coding: A Tutorial Review", Proc. of the IEEE, Vo182, Nr. 10, sidorna 1541-1582, Okt. 1994.
WO OO/ 19413 (Telefonaktiebolaget LM Ericsson).
Allen Gersho et.al, “Variable rate speech Coding for Cellular networks”, sidorna 77-84, Speech and audio Coding for wireless and network ap- plications, Kluwer Academic Press, 1993.
Bastiaan Kleijn et.a1, “Generalized analysis-by-synthesis Coding and its application to pitch prediction”, sidorna 337-340, In Proc. IEEE Int.
Conf. ACoust., Speech and Signal Processing, 1992.
Claims (23)
1. Kodningsförfarande för linjär prediktiv analys genom syntes av signaler från flera kanaler, kännetecknat av bestämning av en ledande kanal och åtminstone en efterföljande ka- nal; kodning av den ledande kanalen som en inbäddad bitström; kodning av efterföljande kanaler som en kasserbar bitström; samt val av en kodningsmod för efterföljande kanaler som beror på inter- kanalkorrelationen till den ledande kanalen.
2. Förfarande enligt patentkrav 1, kännetecknat av att valbara kodnings- moder resulterar i en fast bruttobitrat.
3. Förfarande enligt patentkrav 1 eller 2, kännetecknat av att valbara kod- ningsmoder resulterar i en variabel bruttobitrat.
4. Förfarande enligt något av de föregående patentkraven, kännetecknat av användning av kanalspecifika LPC-filter för låg inter-kanalkorrelation; samt användning av ett gemensamt LPC-filter för hög inter-kanalkorrelation.
5. Förfarande enligt något av de föregående patentkraven, kännetecknat av användning av kanalspecifika fasta kodböcker för låg inter- kanalkorrelation; samt användning av en gemensam fast kodbok för hög inter-kanalkorrela- tion.
6. Förfarande enligt patentkrav 5, kännetecknat av användning av en inter- kanalfördröjning från den ledande kanalens fasta kodbok till varje efterföl- jande kanal. lO 15 20 25 30 519 985 _~» /é . . . . .. .. .
7. Förfarande enligt något av de föregående patentkraven, kännetecknat av adaptiv fördelning av bitar mellan de efterföljande kanalernas fasta kodböck- er och den ledande kanalens fasta kodbok beroende på inter-kanalkorrela- tionen.
8. Förfarande enligt något av de föregående patentkraven, kännetecknat av användning av kanalspeciñka adaptiva kodboksfördröjningar för låg inter-kanalkorrelation; samt användning av en gemensam adaptiv kodboksfördröjning för hög inter- kanalkorrelation.
9. Förfarande enligt patentkrav 8, kännetecknat av användning av en ad- aptiv inter-kanalkodboksfördröjning från den ledande kanalens adaptiva kodbok till varje efterföljande kanal.
10. lO. Kodare för linjär prediktiv analys genom syntes av signaler från flera kanaler, kännetecknad av organ (40) för bestämning av en ledande kanal och åtminstone en efterföljande kanal; organ för kodning av den ledande kanalen som en inbäddad bitström; organ för kodning av efterföljande kanaler som en kasserbar bitström; samt organ (40) för val av en kodningsmod för efterföljande kanaler som be- ror på inter-kanalkorrelationen till den ledande kanalen.
11. Kodare enligt patentkrav 10, kännetecknad av kanalspecifika LPC-filter för låg inter-kanalkorrelation; samt ett gemensamt LPC-filter för hög inter-kanalkorrelation.
12. Kodare enligt patentkrav 10 ellerl 1, kännetecknad av kanalspeciñka fasta kodböcker för låg inter-kanalkorrelation; samt en gemensam fast kodbok för hög inter-kanalkorrelation. 10 15 20 25 30 519 985 I?
13. Kodare enligt patentkrav 12, kännetecknad av en inter-kanalfördröjning (D) från den ledande kanalens fasta kodbok till varje efterföljande kanal.
14. Kodare enligt något av de föregående patentkraven 10-13, känneteck- nad av organ (40) för adaptiv fördelning av bitar mellan de efterföljande ka- nalernas fasta kodböcker och den ledande kanalens fasta kodbok beroende på inter-kanalkorrelationen.
15. Kodare enligt något av de föregående patentkraven 10-14, känneteck- nad av kanalspeciñka adaptiva kodboksfördröjningar (P11, P22) för låg inter- kanalkorrelation; samt en gemensam adaptiv kodboksfördröjning för hög inter-kanalkorrela- tion.
16. Kodare enligt patentkrav 15, kännetecknad av en adaptiv inter- kanalkodboksfördröjning (P12) från den ledande kanalens adaptiva kodbok till varje efterföljande kanal.
17. Terminal som innefattar en kodare för linjär prediktiv analys genom syn- tes av signaler från flera kanaler, kännetecknad av organ (40) för bestämning av en ledande kanal och åtminstone en efterföljande kanal; organ för kodning av den ledande kanalen som en inbäddad bitström; organ för kodning av efterföljande kanaler som en kasserbar bitström; samt organ (40) för val av en kodningsmod för efterföljande kanaler som be- ror på inter-kanalkorrelationen till den ledande kanalen.
18. Terminal enligt patentkrav 17, kännetecknad av kanalspeciñka LPC-filter för låg inter-kanalkorrelation; samt ett gemensamt LPC-ñlter för hög inter-kanalkorrelation. 10 l5 20 25 519 985 §,_'=§Û'§"-_1-"g"gff=. /ïš i» 1..
19. Terminal enligt patentkrav 17 eller 18, kännetecknad av kanalspecifika fasta kodböcker för låg inter-kanalkorrelation; samt en gemensam fast kodbok för hög inter-kanalkorrelation.
20. Terminal enligt patentkrav 19, kännetecknad av en inter-kanal- fördröjning (D) från den ledande kanalens fasta kodbok till varje efterföljande kanal.
21. Terminal enligt något av de föregående patentkraven 17-20, känneteck- nad av organ (40) för adaptiv fördelning av bitar mellan de efterföljande ka- nalernas fasta kodböcker och den ledande kanalens fasta kodbok beroende på inter-kanalkorrelationen.
22. Terminal enligt något av de föregående patentkraven 17-21, känneteck- nad av kanalspecifika adaptiva kodboksfördröjningar (P11, P22) för låg inter- kanalkorrelation; samt en gemensam adaptiv kodboksfördröjning för hög inter-kanalkorrela- tion.
23. Terminal enligt patentkrav 22, kännetecknad av en adaptiv inter- kanalkodboksfördröjning mellan kanaler (P12) från den ledande kanalens adaptiva kodbok till varje efterföljande kanal.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0003287A SE519985C2 (sv) | 2000-09-15 | 2000-09-15 | Kodning och avkodning av signaler från flera kanaler |
AT01965791T ATE358317T1 (de) | 2000-09-15 | 2001-09-05 | Mehrkanal-signalcodierung und -decodierung |
DE60127566T DE60127566T2 (de) | 2000-09-15 | 2001-09-05 | Mehrkanal-signalcodierung und -decodierung |
AU2001286350A AU2001286350A1 (en) | 2000-09-15 | 2001-09-05 | Multi-channel signal encoding and decoding |
JP2002527493A JP4498677B2 (ja) | 2000-09-15 | 2001-09-05 | 複数チャネル信号の符号化及び復号化 |
EP01965791A EP1325495B1 (en) | 2000-09-15 | 2001-09-05 | Multi-channel signal encoding and decoding |
US10/380,419 US7263480B2 (en) | 2000-09-15 | 2001-09-05 | Multi-channel signal encoding and decoding |
PCT/SE2001/001886 WO2002023529A1 (en) | 2000-09-15 | 2001-09-05 | Multi-channel signal encoding and decoding |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0003287A SE519985C2 (sv) | 2000-09-15 | 2000-09-15 | Kodning och avkodning av signaler från flera kanaler |
Publications (3)
Publication Number | Publication Date |
---|---|
SE0003287D0 SE0003287D0 (sv) | 2000-09-15 |
SE0003287L SE0003287L (sv) | 2002-03-16 |
SE519985C2 true SE519985C2 (sv) | 2003-05-06 |
Family
ID=20281034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE0003287A SE519985C2 (sv) | 2000-09-15 | 2000-09-15 | Kodning och avkodning av signaler från flera kanaler |
Country Status (8)
Country | Link |
---|---|
US (1) | US7263480B2 (sv) |
EP (1) | EP1325495B1 (sv) |
JP (1) | JP4498677B2 (sv) |
AT (1) | ATE358317T1 (sv) |
AU (1) | AU2001286350A1 (sv) |
DE (1) | DE60127566T2 (sv) |
SE (1) | SE519985C2 (sv) |
WO (1) | WO2002023529A1 (sv) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
SE519976C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
FI121583B (sv) * | 2002-07-05 | 2011-01-14 | Syslore Oy | Sökning av en symbolsträng |
JP4950040B2 (ja) * | 2004-06-21 | 2012-06-13 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャンネルオーディオ信号を符号化及び復号する方法及び装置 |
EP1763017B1 (en) * | 2004-07-20 | 2012-04-25 | Panasonic Corporation | Sound encoder and sound encoding method |
JP4963962B2 (ja) * | 2004-08-26 | 2012-06-27 | パナソニック株式会社 | マルチチャネル信号符号化装置およびマルチチャネル信号復号装置 |
EP1801782A4 (en) * | 2004-09-28 | 2008-09-24 | Matsushita Electric Ind Co Ltd | DEVICE AND METHOD FOR SCALABLE CODING |
BRPI0516739A (pt) * | 2004-09-30 | 2008-09-23 | Matsushita Electric Ind Co Ltd | dispositivo de codificação escalável, dispositivo de decodificação escalável, e método dos mesmos |
BRPI0516658A (pt) * | 2004-11-30 | 2008-09-16 | Matsushita Electric Ind Co Ltd | aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos |
JP5046652B2 (ja) * | 2004-12-27 | 2012-10-10 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
BRPI0519454A2 (pt) * | 2004-12-28 | 2009-01-27 | Matsushita Electric Ind Co Ltd | aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel |
CN101116137B (zh) | 2005-02-10 | 2011-02-09 | 松下电器产业株式会社 | 语音编码中的脉冲分配方法 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
ATE521143T1 (de) * | 2005-02-23 | 2011-09-15 | Ericsson Telefon Ab L M | Adaptive bitzuweisung für die mehrkanal- audiokodierung |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US8000967B2 (en) * | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
ATE406651T1 (de) * | 2005-03-30 | 2008-09-15 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
JP4599558B2 (ja) * | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
EP1876586B1 (en) * | 2005-04-28 | 2010-01-06 | Panasonic Corporation | Audio encoding device and audio encoding method |
EP1876585B1 (en) * | 2005-04-28 | 2010-06-16 | Panasonic Corporation | Audio encoding device and audio encoding method |
FR2916079A1 (fr) * | 2007-05-10 | 2008-11-14 | France Telecom | Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes |
PL2201566T3 (pl) * | 2007-09-19 | 2016-04-29 | Ericsson Telefon Ab L M | Połączone, wielokanałowe kodowanie/dekodowanie audio |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
NO2669468T3 (sv) * | 2011-05-11 | 2018-06-02 | ||
CN110728986B (zh) | 2018-06-29 | 2022-10-18 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
GB2580899A (en) * | 2019-01-22 | 2020-08-05 | Nokia Technologies Oy | Audio representation and associated rendering |
CN112233682B (zh) * | 2019-06-29 | 2024-07-16 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744511B2 (ja) * | 1988-09-14 | 1995-05-15 | 富士通株式会社 | 高郊率多重化方式 |
GB8913758D0 (en) | 1989-06-15 | 1989-08-02 | British Telecomm | Polyphonic coding |
CA2046369C (en) * | 1990-07-05 | 1997-04-15 | Naoji Fujino | High performance digitally multiplexed transmission system |
JP3622365B2 (ja) * | 1996-09-26 | 2005-02-23 | ヤマハ株式会社 | 音声符号化伝送方式 |
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
JP3099876B2 (ja) * | 1997-02-05 | 2000-10-16 | 日本電信電話株式会社 | 多チャネル音声信号符号化方法及びその復号方法及びそれを使った符号化装置及び復号化装置 |
TW384434B (en) | 1997-03-31 | 2000-03-11 | Sony Corp | Encoding method, device therefor, decoding method, device therefor and recording medium |
JPH1132399A (ja) * | 1997-05-13 | 1999-02-02 | Sony Corp | 符号化方法及び装置、並びに記録媒体 |
KR100335611B1 (ko) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
TW510830B (en) * | 1999-08-10 | 2002-11-21 | Sumitomo Metal Ind | Method for treating hazardous material |
DE19959156C2 (de) * | 1999-12-08 | 2002-01-31 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals |
-
2000
- 2000-09-15 SE SE0003287A patent/SE519985C2/sv unknown
-
2001
- 2001-09-05 WO PCT/SE2001/001886 patent/WO2002023529A1/en active IP Right Grant
- 2001-09-05 US US10/380,419 patent/US7263480B2/en not_active Expired - Lifetime
- 2001-09-05 AT AT01965791T patent/ATE358317T1/de not_active IP Right Cessation
- 2001-09-05 AU AU2001286350A patent/AU2001286350A1/en not_active Abandoned
- 2001-09-05 DE DE60127566T patent/DE60127566T2/de not_active Expired - Lifetime
- 2001-09-05 EP EP01965791A patent/EP1325495B1/en not_active Expired - Lifetime
- 2001-09-05 JP JP2002527493A patent/JP4498677B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
SE0003287L (sv) | 2002-03-16 |
DE60127566D1 (de) | 2007-05-10 |
EP1325495A1 (en) | 2003-07-09 |
SE0003287D0 (sv) | 2000-09-15 |
JP4498677B2 (ja) | 2010-07-07 |
WO2002023529A1 (en) | 2002-03-21 |
US20030191635A1 (en) | 2003-10-09 |
EP1325495B1 (en) | 2007-03-28 |
ATE358317T1 (de) | 2007-04-15 |
DE60127566T2 (de) | 2007-08-16 |
AU2001286350A1 (en) | 2002-03-26 |
US7263480B2 (en) | 2007-08-28 |
JP2004509367A (ja) | 2004-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
SE519985C2 (sv) | Kodning och avkodning av signaler från flera kanaler | |
SE519981C2 (sv) | Kodning och avkodning av signaler från flera kanaler | |
RU2418324C2 (ru) | Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием | |
US6477502B1 (en) | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system | |
AU2001282801B2 (en) | Multi-channel signal encoding and decoding | |
WO2005112005A1 (ja) | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 | |
WO2009084226A1 (ja) | ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法 | |
JPH08509348A (ja) | 信号を群符号化するための方法および装置 | |
AU2001282801A1 (en) | Multi-channel signal encoding and decoding | |
JPH1097295A (ja) | 音響信号符号化方法及び復号化方法 | |
Heide et al. | Variable data rate vocoder improvements for secure interoperable dod voice communication | |
CA2671881C (en) | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate | |
US8655650B2 (en) | Multiple stream decoder | |
JP2004301907A (ja) | 音声符号化装置 | |
JPH04333900A (ja) | 音声符号化装置 | |
CN1222995A (zh) | 传送语音信号的通信网络 | |
Kataoka et al. | Scalable wideband speech coding using G. 729 as a component | |
CA2254620A1 (en) | Vocoder with efficient, fault tolerant excitation vector encoding |