PT2954518T - Método e dispositivo para controlar a ocultação de perda de trama de áudio - Google Patents
Método e dispositivo para controlar a ocultação de perda de trama de áudio Download PDFInfo
- Publication number
- PT2954518T PT2954518T PT147049357T PT14704935T PT2954518T PT 2954518 T PT2954518 T PT 2954518T PT 147049357 T PT147049357 T PT 147049357T PT 14704935 T PT14704935 T PT 14704935T PT 2954518 T PT2954518 T PT 2954518T
- Authority
- PT
- Portugal
- Prior art keywords
- frame
- spectrum
- condition
- magnitude
- transient
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 99
- 238000001228 spectrum Methods 0.000 claims description 82
- 230000001052 transient effect Effects 0.000 claims description 31
- 230000005236 sound signal Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 16
- 238000006467 substitution reaction Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 38
- 238000004458 analytical method Methods 0.000 description 35
- 230000006978 adaptation Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008014 freezing Effects 0.000 description 3
- 238000007710 freezing Methods 0.000 description 3
- 238000004513 sizing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Stereophonic System (AREA)
- Time-Division Multiplex Systems (AREA)
- Auxiliary Devices For Music (AREA)
- Error Detection And Correction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
DESCRIÇÃO
"MÉTODO E DISPOSITIVO PARA CONTROLAR A OCULTAÇÃO DE PERDA DE TRAMA DE ÁUDIO"
Campo técnico 0 pedido refere-se a métodos e dispositivos para o controlo de um método de ocultação para uma trama perdida de áudio de um sinal de áudio recebido.
Antecedentes
Os sistemas de comunicações áudio convencionais transmitem sinais de voz e áudio em tramas, o que significa que o lado de envio organiza primeiro o sinal em segmentos curtos ou tramas de, por exemplo, 20-40 ms que, subsequentemente, são codificadas e transmitidas como uma unidade lógica em, por exemplo, um pacote de transmissão. O receptor descodifica cada uma destas unidades e reconstrói as tramas de sinal correspondentes, que por sua vez são finalmente emitidas como uma sequência continua reconstruída de amostras de sinal. Antes da codificação há geralmente um passo de conversão de analógico para digital (A/D) que converte o sinal de voz ou áudio analógico de um microfone numa sequência de amostras de áudio. Por outro lado, na extremidade de recepção, existe tipicamente um passo de conversão final D/A que converte a sequência de amostras reconstruídas de sinal digital num sinal analógico contínuo no tempo para a reprodução em altifalante.
No entanto, um tal sistema de transmissão para sinais de voz e de áudio pode sofrer de erros de transmissão, o que poderia levar a uma situação em que uma ou várias das tramas transmitidas não estão disponíveis no receptor para a reconstrução. Nesse caso, o descodificador tem que gerar um sinal de substituição para cada uma das tramas apagadas, ou seja não disponíveis. Isto é feito na denominada unidade de perda de trama ou de ocultação de erro do descodif icador de sinais do lado do receptor. 0 objectivo da ocultação da perda de trama é fazer com que a perda de trama o mais inaudível quanto possível e, por conseguinte, minimizar tanto quanto possível o impacto da perda de trama sobre a qualidade do sinal reconstruído.
Os métodos de ocultação de perda de trama convencionais podem depender da estrutura ou arquitectura do codec, por exemplo por aplicação de uma forma de repetição de parâmetros de codec recebidos anteriormente. Tais técnicas de repetição de parâmetro são claramente dependentes dos parâmetros específicos do codec utilizado e, portanto, não são facilmente aplicável para outros codecs com uma estrutura diferente. Os métodos actuais de ocultação de perda de trama podem, por exemplo, aplicar o conceito de congelação e extrapolar os parâmetros de uma trama recebida anteriormente de modo a gerar uma trama de substituição para a trama perdida.
Estes métodos de ocultação de perda de trama do estado da técnica incorporam alguns esquemas de manipulação de perda de rajada. Em geral, depois de várias perdas de tramas numa linha, o sinal sintetizado é atenuado até que esteja completamente silenciado após longas rajadas de erros. Além disso, os parâmetros de codificação que são essencialmente repetidos e extrapolados são modificados de tal modo que a atenuação é conseguida e os picos espectrais são nivelados.
As técnicas actuais de ocultação de perda de trama do estado da técnica aplicam tipicamente o conceito de congelação e extrapolação dos parâmetros de uma trama recebida anteriormente de modo a gerar uma trama de substituição para a trama perdida. Muitos codecs de voz paramétricos tais como codecs preditivos lineares como AMR ou AMR-WB congelam normalmente os parâmetros recebidos anteriormente ou usam alguma extrapolação dos mesmos e usam o descodificador com eles. Em essência, o principio é o de ter um determinado modelo para a codificação/descodificação e aplicar o mesmo modelo com parâmetros congelados ou extrapolados. As técnicas de ocultação de perda de trama da AMR e AMR-WB podem ser consideradas como representativas. Elas estão especificadas em pormenor nas especificações das normas correspondentes.
Muitos codecs fora da classe de codecs de áudio aplicam-se para técnicas de codificação do domínio da frequência. Isto significa que depois de alguma transformação de domínio de frequência é aplicado um modelo de codificação nos parâmetros espectrais. 0 descodificador reconstrói o espectro do sinal dos parâmetros recebidos e finalmente transforma o espectro de volta para um sinal de tempo. Normalmente, o sinal de tempo é reconstruído trama a trama. Tais tramas são combinadas por técnicas de sobreposição-adição para o sinal reconstruído final. Mesmo no caso de codecs de áudio, a ocultação de erros do estado da técnica aplica normalmente o mesmo ou pelo menos um modelo de descodificação semelhante para tramas perdidas. Os parâmetros no domínio da frequência de uma trama recebida anteriormente são congelados ou adequadamente extrapolados e depois usados na conversão no domínio da frequência-tempo. Exemplos de tais técnicas são proporcionados com os codecs de áudio 3GPP de acordo com as normas 3GPP. A técnica anterior US 2004/122680 descreve um sistema para a ocultação de erro de trama que ensina a ajustar a magnitude da trama de substituição, dependendo do número de tramas perdidas consecutivas.
Sumário
As soluções actuals do estado da técnica para ocultação de perda de trama sofrem normalmente de deficiências de qualidade. O problema principal é que o parâmetro da técnica de congelamento e extrapolação e a reaplicação do mesmo modelo descodificador, mesmo para tramas perdidas, nem sempre garante uma evolução de sinal suave e fiel a partir das tramas de sinal previamente descodificados para a trama perdida. Isto conduz normalmente a descontinuidades do sinal audível com o correspondente impacto na qualidade. São descritos novos esquemas de ocultação de perda de tramas para sistemas de transmissão de voz e áudio. Os novos esquemas melhoram a qualidade em caso de perda de tramas sobre a qualidade alcançável com as técnicas de perda de tramas da técnica anterior 0 objectivo das presentes formas de realização é o de controlar um esquema de ocultação perda de trama que é de preferência do tipo dos novos métodos relacionados descritos de tal modo que é alcançada a melhor qualidade de som do sinal reconstruído. As formas de realização têm como objectivo optimizar esta qualidade reconstrução tanto no que diz respeito às propriedades do sinal como na distribuição temporal das perdas de tramas. Particularmente problemáticos para a ocultação de perda de tramas para proporcionar boa qualidade são os casos em que o sinal de áudio tem propriedades que variam fortemente tais como onset ou deslocações de energia ou é espectralmente muito flutuante. Neste caso, os métodos de ocultação descritos podem repetir o onset, deslocação ou a flutuação espectral que conduz a grandes desvios do sinal original e perda de qualidade correspondente.
Um outro caso problemático é se ocorrerem numa fila rajadas de perdas de tramas. Conceitualmente, o esquema para ocultação de perda de tramas de acordo com os métodos descritos pode lidar com tais casos, sendo que no entanto se verifica que podem ainda ocorrer perturbações tonais irritantes. É um outro objectivo da presente forma de realização atenuar tais perturbações ao mais alto grau possível.
De acordo com um primeiro aspecto, é descrito um método para a ocultação de uma trama de áudio perdida de acordo com a reivindicação 1.
De acordo com um segundo aspecto, um dispositivo encontra-se realizado para implementar uma ocultação de um nome de trama de áudio perdida, tal como descrito na reivindicação 12.
De acordo com um terceiro aspecto, é definido um programa de computador para ocultar uma trama de áudio perdida, sendo que o programa de computador compreende instruções que, quando executados por um processador, faz com que o processador oculte uma trama de áudio perdida, de acordo com o primeiro aspecto descrito acima.
De acordo com um quarto aspecto, um produto de programas informáticos compreende um suporte legível por computador que armazena um programa de computador de acordo com o quarto aspecto acima descrito. Uma vantagem com uma forma de realização consigna o controlo de adaptações de métodos de ocultação de perda de trama que permite atenuar o impacto audível de perda de trama na transmissão de sinais de voz e áudio codificados e ainda mais sobre a qualidade conseguida com apenas os métodos de ocultação descritos. A vantagem geral das formas de realização é a de proporcionar uma evolução suave e fiel do sinal reconstruído mesmo para tramas perdidas. 0 impacto audível de perdas de tramas é muito reduzido em comparação com a utilização de técnicas do estado da técnica.
Breve descrição dos desenhos
Para uma compreensão mais completa dos exemplos de formas de realização da presente invenção, será feita agora referência à seguinte descrição realizada em ligação com os desenhos anexos. As figuras representam:
Figura 1 função de janela rectangular
Figura 2 combinação de janela de Hamming com a janela rectangular.
Figura 3 exemplo de um espectro de magnitude de uma função de janela.
Figura 4 espectro de linha de um exemplo de sinal sinusoidal com uma frequência fk.
Figura 5 espectro de um sinal sinusoidal em janela com a frequência fk.
Figura 6 barras que correspondem à magnitude de pontos de grelha de um DFT, com base numa trama de análise.
Figura 7 ajustamento de parábola por meio de pontos de rede DFT Pi, P2 e P3.
Figura 8 ajuste de um lóbulo principal do espectro de uma j anela.
Figura 9 ajuste da função de aproximação do lóbulo principal P através dos pontos de rede DFT Pl e P2 .
Figura 10 diagrama de fluxos que ilustra um exemplo de método de acordo com as formas de realização da invenção para o controlo de um método de ocultação para uma trama perdida de áudio de um sinal de áudio recebido.
Figura 10 diagrama de fluxos que ilustra um outro exemplo de método de acordo com as formas de realização da invenção para o controlo de um método de ocultação para uma trama perdida de áudio de um sinal de áudio recebido.
Figura 12 outro exemplo de forma de realização da invenção.
Figura 13 exemplo de um dispositivo de acordo com uma forma de realização da invenção.
Figura 14 outro exemplo de um dispositivo de acordo com uma forma de realização da invenção.
Figura 15 outro exemplo de um dispositivo de acordo com uma forma de realização da invenção.
Descrição pormenorizada 0 novo esquema de controlo para as novas técnicas de ocultação de perda de trama descritas envolve os seguintes passos tal como mostrado na figura 10. Deve notar-se que o método pode ser implementado num controlador num descodificador. 1. Detectar condições nas propriedades do sinal de áudio recebido anteriormente e reconstruído ou nas propriedades estatísticas das perdas de trama observadas para a substituição de uma trama perdida de acordo com os métodos descritos proporciona qualidade relativamente reduzida, 101. 2. Caso uma tal condição seja detectada no passo 1, codificar o elemento dos métodos de acordo com os quais o espectro de trama de substituição é calculado por Z (m) = Y (m) · e^9k ajustando selectivamente as fases ou as magnitudes de espectro, 102.
Análise sinusoidal
Um primeiro passo da técnica de ocultação de perda de trama à qual a nova técnica de controlo pode ser aplicada, envolve uma análise sinusoidal de uma parte do sinal recebido anteriormente. O objectivo desta análise sinusoidal é o de encontrar as frequências das sinusoides principais do referido sinal, e a suposição subjacente é que o sinal é constituído por um número limitado de sinusoides individuais, isto é que é um sinal de multi-seno do seguinte tipo:
Nesta equação K é o número de sinusoides que se assume que o sinal é constituído. Para cada um das sinusoides com índice k = 1...K, ak é a amplitude, fk é a frequência, e cpk é a fase. A frequência de amostragem é denominada de fs e o índice das amostras s (n) do sinal discreto de tempo do tempo de n. É de importância principal encontrar frequências tão exactas das sinusoides quanto possível. Enquanto que um sinal sinusoidal ideal teria um espectro de linha com frequências de linha fk, encontrar os seus valores verdadeiros iriam em princípio requer tempo de medição infinito. Por isso, é na prática difícil de encontrar estas frequências, uma vez que elas só pode ser estimadas com base num período de medição curto, o que corresponde ao segmento de sinal utilizado para a análise sinusoidal aqui descrita; este segmento de sinal é daqui em diante designado como uma trama de análise. Uma outra dificuldade é que o sinal pode, na prática, ser variante no tempo, o que significa que os parâmetros da equação acima variam ao longo do tempo. Assim, por um lado é desejável a utilização de uma trama de análise longa tornando a medição mais precisa; por outro lado seria necessário um período de medição curto de modo de lidar melhor com possíveis variações de sinal. Uma boa solução de compromisso é a de usar um comprimento de trama de análise na ordem de, por exemplo, 20-40 ms.
Uma possibilidade preferida para identificar as frequências das sinusoides f* é fazer uma análise no domínio da frequência da trama de análise. Para este fim a trama de análise é transformada no domínio da frequência, por exemplo por meio de DFT ou DCT ou transformações no domínio da frequência. No caso de ser utilizado um DFT da trama de análise, o espectro é dado por:
Nesta equação w(n) indica a função de janela com a qual a trama de análise de comprimento L é extraída e pesada. As funções de janela típicas são, por exemplo, janelas rectangulares que são iguais a 1 para η ε [0...L-1] e de outro modo 0, tal como mostrado na figura 1. Assume-se aqui que os índices de tempo do sinal de áudio recebido anteriormente são definidos de tal modo que a trama de é referenciada pelos índices de tempo n=0...L-l. Outras funções de janela, que podem ser mais adequadas para a análise espectral são, por exemplo, janela de Hamming, janela de Hamming, janela de Kaiser ou janela de Blackman. Uma função de janela que se descobriu ser particularmente útil é uma combinação de janela de Hamming com a janela rectangular. Esta janela tem uma forma de flanco ascendente como a metade esquerda de uma janela de Hamming de comprimento LI e uma forma de flanco descendente como a metade direita de uma janela de Hamming de comprimento Ll e entre os flancos ascendentes e descendentes a janela é igual a 1 para o comprimento de L-Ll, tal como se apresentado na figura 2.
Os picos do espectro de magnitude da trama de análise de janela |X(m)| constituem uma aproximação das frequências f* sinusoidais necessárias. A precisão desta aproximação está contudo limitada pelo espaçamento de frequência da DFT. Com a DFT com um comprimento de bloco L Á.
a precisão está limitada a 2L
Os testes mostram que este nivel de precisão pode ser muito baixo no âmbito dos métodos aqui descritos. A precisão melhorada pode ser obtida com base nos resultados da seguinte consideração: 0 espectro da trama de análise de janela é dado pela convolução do espectro da função de janela com o espectro de linha do sinal de modelo sinusoidal 5(Ω), subsequentemente amostrado nos pontos da rede de DFT:
Ao utilizar a expressão do espectro do sinal de modelo sinusoidal, isto pode ser escrito como
Assim, a amostra do espectro é dada por
com m=0...L-l.
Com base nesta análise, assume-se que os picos observados no espectro de magnitude da haste da trama de análise de um sinal sinusoidal de janela com K sinusoides onde as verdadeiras frequências sinusoides se encontram na vizinhança dos picos.
Deixemos mk ser o indice DFT (ponto de rede) do jj-géssimo piCo observado, então a frequência correspondente é
a qual pode ser considerada como uma aproximação da verdadeira frequência sinusoidal fk. A verdadeira frequência sinusoide fk pode ser assumida com estando dentro do intervalo
Para maior visibilidade note-se que a convolução do espectro da função de janela com o espectro do espectro de linha do sinal de modelo sinusoidal pode ser entendida como uma sobreposição de versões deslocadas de frequência do espectro de função de janela, em que as frequências de deslocação são as frequências das sinusoides. Esta sobreposição é então amostrada nos pontos de rede DFT. Estes passos são ilustrados pelas seguintes figuras. A figura 3 mostra um exemplo do espectro de magnitude de uma função de janela. A figura 4 mostra o espectro da magnitude (espectro de linha) de um exemplo de sinal sinusoidal com uma única sinusoide de frequência. A figura 5 mostra o espectro de magnitude do sinal sinusoidal de janela que replica e sobrepõe o espectro de janela deslocado na frequência nas frequências da sinusoide. As barras na figura 6 correspondem à magnitude dos pontos da rede do DFT da sinusoide de janela que são obtidos através do cálculo da DFT da trama de análise. Deve notar-se que todos os espectros são periódicos com o parâmetro de frequência normalizada Ω onde Ω = 2π que corresponde à frequência de amostragem fs. A descrição anterior e a ilustração da figura 6 sugerem que uma melhor aproximação das verdadeiras frequências sinusoidais só pode ser encontrada através do aumento da resolução da pesquisa sobre a resolução da frequência da transformação usada de domínio da frequência.
Uma forma preferida de encontrar melhores aproximações das frequências fk das sinusoides é aplicar a interpolação parabólica. Uma dessas soluções consiste em ajustar parábolas através dos pontos da rede do espectro de magnitude DFT que circundam os picos e calcular as respectivas frequências pertencentes aos valores máximos da parábola. A escolha adequada para a ordem das parábolas é 2. Pormenorizadamente, pode ser aplicado o seguinte procedimento: 1. Identificar os picos de DFT da trama de análise de janela. A pesquisa de pico irá entregar o número de picos K e os indices DFT correspondentes dos picos. A pesquisa de picos pode tipicamente ser feita no espectro de magnitude DFT ou no espectro de magnitude logarítmica DFT.
2. Para cada pico k (com k = 1...K) com o índice DFT correspondente mk ajusta uma parábola através dos três pontos {PI; P2; P3} = { (mk -1, log(|X(m* -1)1); (mkr log(|X (mk) | ) ; (mk + 1, log ( | X(mk +1)|)}. Isto resulta em coeficientes de parábola bk(0) , £>*(1), bk( 2) da parábola definida por
Este encaixe de parábola encontra-se ilustrado na figura 7. 3. Para cada uma das parábolas K calcular o índice de frequência interpolada mk que corresponde ao valor de g para o qual a parábola tem o seu máximo. Use
como aproximação para a frequência sinusoidal fk A abordagem descrita proporciona bons resultados mas pode ter algumas limitações uma vez que as parábolas não aproximam a forma do lóbulo principal do espectro de magnitude |W(Q)| da função de janela. Um esquema alternativo de fazer isso é uma estimativa melhorada de frequência usando uma aproximação de lóbulo principal, descrita como se segue. A ideia principal desta alternativa é uma função deencaixe P (q), que aproxima o lóbulo principal de
através dos pontos de rede do
espectro de magnitude DFT que circundam os picos e calcula as respectivas frequências que pertencem à máxima da função. A função P(q) pode ser ίπΑπί-ιγ-λ λπ espectro de magnitude deslocada na frequência da função de janela. Por simplicidade numérica deve no entanto em vez disso ser por exemplo um polinómio que permite o cálculo directo do máximo da função. Pode ser aplicado o seguinte procedimento pormenorizado: 1. Identificar os picos de DFT da trama de análise de janela. A pesquisa de pico irá entregar o número de picos K e os indices DFT correspondentes dos picos. A pesquisa de picos pode tipicamente ser feita no espectro de magnitude DFT ou no espectro de magnitude logarítmica DFT. 2. Derivar a função P(q) que se aproxima do espectro de magnitude
da função de janela ou do espectro de magnitude logarítmico
para um determinado intervalo (gl, q2). A escolha da função de aproximação que se aproxima do lóbulo principal do espectro de janela encontra-se ilustrada pela figura 8.
3. Para cada pico k (com k = 1...K) com o indice DFT mk correspondente ajusta a função de deslocação de frequência P(q - Aqk) através dos dois pontos de rede DFT que cercam o verdadeiro pico esperado do espectro contínuo do sinal sinusoidal de janela. Por isso, se \X(mk - 1) | for maior do que | X (mk + 1) | ajusta P(q -Aqk) através dos pontos {P1; P2 } = { (mk-1, log ( | X (mk-1) |); (mkr loq(\X(mk) |)} e de outra forma através dos pontos {PI; P2 } = { {mkr log ( | X (mk) \ ) ; (mk+1, log ( | X (mk+l) | ) } . P(q) pode, por simplicidade, ser escolhido para ser um polinómio de ordem 2 ou 4. Isto torna a aproximação no passo 2 um cálculo de regressão linear simples e o cálculo de Aqk directo. 0 intervalo (gl, q2) pode ser escolhido para ser fixo e igual para todos os picos, por exemplo, (gi, q2) = (— 1, 1) , ou adaptativo.
Na abordagem adaptativa o intervalo pode ser escolhido de tal modo que a função P(q-qk) se ajusta ao lóbulo principal do espectro função de janela na gama dos pontos de rede DFT relevantes {Pi; P2}. 0 processo de ajuste encontra-se apresentado na figura 9. 4. Para cada um dos K parâmetros /'qk de desvio de frequência para os quais se espera o espectro continuo do sinal sinusoidal de janela para ter o seu pico calcular *fk = qk · fs/L como aproximação para a frequência sinusoide fk. Há muitos casos em que o sinal transmitido é harmónico o que significa que o sinal consiste em ondas sinusoidais cujas frequências são múltiplos inteiros de alguma frequência fundamental f0. Este é o caso quando o sinal é muito periódico, como por exemplo para voz sonora ou os tons sustentados de algum instrumento musical. Isto significa que as frequências do modelo sinusoidal das formas de realização não são independentes, mas sim têm um relacionamento harmónico e derivam da mesma frequência fundamental. Tomar esta propriedade harmónica em consideração pode, consequentemente, melhorar substancialmente a análise das frequências de componentes sinusoidais.
Uma possibilidade de melhoramente é descrita como se segue: 1. Verificar se o sinal é harmónico. Isto pode, por exemplo, ser feito através da avaliação da periodicidade do sinal antes da perda de trama. Um método simples é a realização de uma análise de autocorrelação do sinal. 0 valor máximo de uma tal função de autocorrelação para algum desfasamento temporal τ > 0 pode ser utilizado como um indicador. Se o valor deste máximo exceder um dado limiar, o sinal pode ser considerado harmónica. 0 desfasamento temporal correspondente τ corresponde então ao período do sinal que está relacionado com a frequência fundamental através de
Muitos métodos de codificação de voz preditivos lineares aplicam a denominada previsão de altura de som aberta ou de ciclo fechado ou codificação CELP usando livros de códigos adaptativos. 0 ganho de altura de som e os parâmetros de atraso de altura de som associados derivados por tais métodos de codificação são também indicadores úteis se o sinal for harmónica e, respectivamente, para o desfasamento temporal.
Um outro método para a obtenção de fo encontra-se descrito a seguir. 2. Para cada índice de componente harmónica j dentro do intervalo de número inteiro 1...Jmax verificar se existe um pico no espectro de magnitude (logarítmica) DFT da trama de análise na vizinhança da componente harmónica fj = j · f0. A proximidade de fj pode ser definida como a gama delta em de torno fj onde delta
corresponde à resolução de frequência do DFT
ou seja, o intervalo
No caso de estar presente de tal pico com frequência sinusoidal estimada Afk correspondente, substituir "fk por ~fk = j · f0.
Para o procedimento de dois passos indicado acima existe também a possibilidade de verificar se o sinal é um componente harmónico e a derivação da frequência fundamental implicitamente, e, possivelmente de uma forma iterativa sem necessariamente usar indicadores de algum método separado. Um exemplo de uma tal técnica é dado como se segue:
Para cada fo,P de um conjunto de valores candidatos {fo,i ··· fo,p} aplicar o passo 2 do procedimento, embora sem substituir Λfk mas com contagem de quantos picos DFT se encontram presentes dentro da vizinhança em torno das frequências de componente harmónico, ou seja, os múltiplos inteiros de fo,P· Identificar a frequência fundamental fo,Pmax para o qual é obtido o maior número de picos em ou em torno das frequências harmónicas. Se este maior número de picos exceder um dado limiar, então o sinal pode ser considerado como sendo um componente harmónico. Neste caso, fo,Pmax pode ser assumido como sendo a frequência fundamental que com o passo 2 é então executado levando a frequências sinusoidais melhoradas ^ fk· Uma alternativa mais preferível é, contudo primeiro optimizar a frequência fundamental fo com base nas frequências de pico fk que se descobriu coincidirem com as frequências harmónicas. Assumir um conjunto de M componentes harmónicos, ou seja, múltiplos inteiros {ni ... nM} de alguma frequência fundamental que foram encontrados para coincidir com algum conjunto de M picos espectrais em frequências *fk(m)r m em seguida, a frequência fundamental subjacente (optimizada) fo,oPt pode ser calculada para minimizar o erro entre as frequências harmónicas e as frequências de pico espectral. Se o erro a ser minimizado for o erro quadrático médio
então a frequência fundamental óptima é calculada como
0 conjunto inicial de valores candidatos {fo,i f0/P} pode ser obtido a partir das frequências dos picos DFT ou das frequências sinusoidais estimadas Λfk.
Uma outra possibilidade para melhorar a precisão das frequências sinusoidais estimadas fk é a de considerar a sua evolução temporal. Para este fim, as estimativas das frequências sinusoidais de várias tramas de análise podem ser combinadas, por exemplo, por meio de cálculo da média ou previsão. Antes do cálculo da média ou previsão pode ser aplicada um rastreio de pico que liga os picos espectrais estimados às respectivas mesmas sinusoidais subjacentes.
Aplicar o modelo sinusoidal A aplicação de um modelo sinusoidal a fim de executar uma operação de ocultação perda de trama aqui descrita pode ser descrita como se segue.
Assume-se que um determinado segmento do sinal codificado não pode ser reconstruído por o descodificador uma vez a informação codificada correspondente não está disponível. Assume-se ainda que uma parte do sinal antes deste segmento se encontra disponível. Deixe y(n), com n = 0...N-1 ser o segmento indisponível para o qual uma trama z (n) de substituição tem de ser gerada e y(n) com n<0 ser o sinal disponível previamente descodificado. Então, num primeiro passo é extraída uma trama protótipo do sinal disponível de comprimento L e índice inicial n_i com uma função de janela w (n) e transformada em domínio de frequência, por exemplo por meio de DFT:
A função de janela pode ser uma das funções de janela descritas acima na análise sinusoidal. De preferência, a fim de economizar complexidade numérica, a trama transformada de dominio de frequência deve ser idêntica à utilizada durante a análise sinusoidal.
Num passo seguinte é aplicado o modelo pressuposto sinusoidal. De acordo com isto o DFT da trama do protótipo pode ser escrito como se segue:
0 próximo passo é o de perceber que o espectro da função de janela utilizada tem apenas uma contribuição significativa numa gama de frequências próxima de zero. Tal como ilustrado na figura 3, o espectro de magnitude da função de janela é grande para frequências próximas de zero e pequeno de outra forma (dentro da gama de frequências normalizada de -π a π, correspondente a metade da frequência de amostragem). Assim, como uma aproximação, assume-se que o espectro de janela W (m) é não-zero apenas durante um intervalo M= [-mmin/ mmax] r com mm±n e ramax sendo pequenos números positivos. Em particular, é utilizada uma aproximação do espectro de função de janela de tal forma que para cada k as contribuições do espectro de janela deslocado na expressão acima são estritamente de não-sobreposição. Assim, na equação acima para cada índice de frequência há sempre apenas no máximo a contribuição de uma soma, ou seja de um espectro de janela deslocado. Isto significa que a expressão acima reduz-se à seguinte expressão aproximada:
para m ε Mk não negativo e para cada k.
Aqui, Mk indica o intervalo do número inteiro
em que mmin,k e mmaXl k cumpre a restrição explicada acima de tal modo que os intervalos não se sobrepõem. Uma escolha adequada para e mmax,k é a configurá-los para um pequeno valor inteiro δ, por exemplo δ = 3. Se, contudo, os índices de DFT relacionados com duas frequências sinusoidais vizinhas f, o r... fnrem ínfpriores a 2δ, então δ está definido para de tal forma que é assegurado que os intervalos não se sobrepõem. A função piso (·) é o número inteiro mais próximo ao argumento da função que é menor ou igual ao mesmo. 0 passo seguinte de acordo com a forma de realização é o de aplicar o modelo sinusoidal de acordo com a expressão acima e evoluir as suas sinusoidais K no tempo. A suposição de que os índices de tempo do segmento apagado em comparação com os índices de tempo da trama de protótipo difere em n-i amostras significa que as fases das sinusoidais avançam em
Assim, o espectro de DFT do modelo sinusoidal evoluído é dado por:
Aplicar novamente a aproximação de acordo com a qual o espectro da função de janela deslocada não se sobrepõe dá:
para m ε Mk não negativo e para cada k.
Comparar o DFT da trama protótipo Y-i (m) com o DFT do modelo sinusoidal evoluído Yo(m) utilizando a aproximação, verificou-se que o espectro de magnitude permanece inalterado enquanto que a fase é deslocada por
%, - 2-jT % para cada m ε Mk. Deste modo, os coeficientes de espectro de frequência da trama de protótipo na vizinhança de cada sinusoidal estão deslocados proporcionais à frequência sinusoidal fk e a diferença de tempo entre a trama de áudio perdida e a trama de protótipo η-ι.
Assim, de acordo com a forma de realização a trama de substituição pode ser calculada pela seguinte expressão:
para m ε Mk não negativo e para cada k.
Uma forma de realização especifica aborda a randomização da fase para os indices de DFT que não pertencem a qualquer intervalo Mk. Tal como descrito acima, os intervalos Mk, k = 1...K têm que ser ajustados de tal modo que eles não se encontram totalmente não-sobrepostos o que é feito usando algum parâmetro δ que controla o tamanho dos intervalos. Pode acontecer que δ seja menor em relação à distância da frequência das duas sinusoidais vizinhas. Assim, neste caso acontece que existe uma lacuna entre dois intervalos. Por conseguinte, para os índices m DFT correspondentes não se encontra definido qualquer desvio de fase de acordo com a expressão acima Z(m) = ^ ^ Uma escolha apropriada de acordo com esta forma de realização é a de fazer a escolha aleatória da fase para estes índices, obtendo-se Z (m) = em que a função rand (·) devolve algum número aleatório.
Verificou-se benéfico para a qualidade dos sinais reconstruídos optimizar o tamanho dos intervalos Mk. Em particular, os intervalos devem ser maiores se o sinal for muito tonal, ou seja, quando ele tem picos espectrais claros e distintos. Este é o caso, por exemplo, quando o sinal é harmónico com uma periodicidade clara. Em outros casos, onde o sinal tem estrutura espectral menos pronunciada com máximos espectrais mais amplos, verificou-se que o uso de pequenos intervalos conduz a uma melhor qualidade. Esta constatação conduz a uma melhoria adicional de acordo com a qual o tamanho do intervalo se encontra adaptado de acordo com as propriedades do sinal. Uma forma de realização é a utilização de um detector de tonalidade ou periodicidade. Se este detector identificar o sinal como tonal, o parâmetro δ que controla o tamanho do intervalo é definido como um valor relativamente qrande. Caso contrário, o parâmetro δ é definido com valores relativamente pequenos.
Com base no acima mencionado, os métodos de ocultação de perda de trama de áudio compreendem os seguintes passos: 1. Analisar um segmento do sinal disponível, sintetizado anteriormente para se obter as frequências sinusoidais fk constituintes de um modelo sinusoidal, utilizando opcionalmente uma estimativa melhorada de frequência. 2. Extrair uma trama de protótipo y_ i do sinal previamente sintetizado disponível e calcular o DFT dessa trama. 3. Calcular o deslocamento de fase 0k para cada sinusoide k em resposta à frequência sinusoidal f* e o avanço de tempo n.1 entre a trama do protótipo e a trama de substituição. Opcionalmente, neste passo, o tamanho do intervalo M pode ter sido adaptado em resposta à tonalidade do sinal de áudio. 4. Para cada sinusoide k que avança a fase da trama DFT do protótipo com 0k selectivamente para os indices DFT relacionados com uma proximidade em torno da frequência sinusoide f*. 5. Calcular a DFT inverso do espectro obtido no passo 4 .
Análise e detecção da propriedade de perda de sinal
Os métodos descritos acima são baseados no pressuposto de que as propriedades do sinal de áudio não mudam significativamente durante a curta duração da trama de sinal recebida anteriormente e reconstruída e uma trama perdida. Nesse caso é uma escolha muito boa reter o espectro de magnitude da trama reconstruída previamente e evoluir as fases dos componentes principais sinusoidais detectados no sinal reconstruído anteriormente. Existem no entanto casos em que essa suposição é errada que são, por exemplo transientes com mudanças repentinas de energia ou mudanças repentinas espectrais.
Uma primeira forma de realização de um detector de transientes de acordo com a invenção pode, consequentemente, ser baseada em variações de energia dentro do sinal reconstruído anteriormente. Este método, ilustrado na figura 11, calcula a energia numa parte esquerda e uma parte direita de alguma trama de análise 113. A trama de análise pode ser idêntica à trama utilizada para a análise sinusoidal acima descrita. Uma parte (esquerda ou direita) da trama de análise pode ser a primeira ou, respectivamente, a última metade da trama de análise ou, por exemplo, o primeiro ou, respectivamente, o último quarto da trama de análise, 110. O respectivo cálculo de energia é feito pela soma dos quadrados das amostras nestas tramas parciais:
Nisto y (n) indica a trama de análise, nleft e nright indica os respectivos índices iniciais das tramas parciais que são ambos de tamanho Npart·
Agora as energias esquerda e direita das tramas parciais são usadas para a detecção de uma descontinuidade de sinal. Isto é feito por meio do cálculo do rácio
Pode ser detectada uma descontinuidade com queda repentina de energia (offset) se o rácio R//r, exceder algum limiar (por exemplo 10), 115. Da mesma forma pode ser detectada uma descontinuidade com aumento súbito de energia (onset) , se o rácio R//r, for inferior a algum outro limiar (por exemplo 0,1), 117.
No contexto dos métodos de ocultação acima descritos, verificou-se que o rácio de energia acima definido pode, em muitos casos, ser um indicador muito insensível. Em particular nos sinais reais e especialmente música há casos em que um tom em alguma frequência surge de repente enquanto algum outro tom em alguma outra frequência pára de repente. Analisando uma tal trama de sinal com o rácio de energia acima definido iria em qualquer caso conduzir a um resultado de detecção errado para pelo menos um dos tons uma vez que este indicador não é sensível a diferentes frequências.
Uma solução para este problema encontra-se descrita na forma de realização seguinte. A detecção transitória é agora feita no plano da frequência do tempo. A trama de análise é novamente dividida numa trama parcial direita e esquerda, 110. Todavia agora, estas duas tramas parciais são (após janelamento adequado com por exemplo uma janela de Hamming, 111) transformadas no domínio da frequência, por exemplo por meio de um Npart -ponto DFT, 112 . e
Agora a detecção transitória pode ser feita selectivamente na frequência para cada posição DFT com o índice m. Usando os poderes do espectro de magnitude da trama parcial esquerda e direita, para cada índice DFT m pode ser calculado 113 um respectivo rácio de energia como
As experiências mostram que a detecção transitória selectiva da frequência com DFT é relativamente imprecisa devido a flutuações estatísticas (erros de estimativa). Verificou-se que a qualidade da operação é bastante melhorada ao fazer a detecção de transitório selectivo da frequência com base em bandas de frequência. Deixemos 4“ Ímíc-1 + -·< especificar o k^ssimo intervalo k = 1...K, cobrindo as posições DFT de mk-i + 1 para mk/ pois esses intervalos definem bandas de frequências K. A detecção transitória selectiva do grupo de frequências pode agora ser baseada no rácio relativo à banda entre as respectivas energias de banda das tramas parciais esquerda e direita:
É de notar que o intervalo
corresponde à banda de frequência
em que fs indica a frequência de amostragem de áudio.
0 menor limite de banda de frequência inferior m0 pode ser definido como 0 mas pode também ser definido como um indice de DFT que corresponde a uma frequência maior de modo a atenuar os erros de estimativa que crescem com frequências mais baixas. 0 maior limite de banda de frequência superior % pode ser definido como mas é de preferência escolhido para corresponder a alguma frequência inferior em que um transiente ainda tem um efeito audível significativo.
Uma escolha apropriada para estes tamanhos ou larguras de banda de frequência é para torná-los de tamanho igual, com por exemplo uma largura de vários 100 Hz. Uma outra forma preferida é fazer com que as larguras de banda de frequência sigam o tamanho das bandas críticos de audição humana, ou seja relacioná-las com a resolução da frequência do sistema auditivo. Isso significa aproximadamente fazer as larguras de banda de frequência iguais para frequências até 1 kHz e aumentá-las exponencialmente acima de 1 kHz. O aumento exponencial significa, por exemplo, duplicar a largura de banda de frequência quando se incrementa o índice de banda k.
Tal como descrito na primeira forma de realização do detector de transientes que se baseou num rácio de energia de duas tramas parciais, qualquer dos rácios relacionados com as energias da banda ou energias da posição DFT de duas tramas parciais são comparados a certos limiares. É utilizado um respectivo limiar superior para (seleccionado pela frequência) detecção de deslocamento 115 e um respectivo limiar mais baixo para (seleccionado pela frequência) detecção de onset 117.
Um indicador adicional dependente do sinal de áudio que é adequado para uma adaptação do método de ocultação de perda de trama pode ser baseado nos parâmetros de codec transmitidos para o descodificador. Por exemplo, o codec pode ser um codec multímodo como ITU-T G.718. Tal codec pode utilizar modos particulares de codec para diferentes tipos de sinais e uma mudança do modo de codec numa trama pouco antes da perda de trama poder ser considerada como um indicador para um transiente.
Um outro indicador útil para a adaptação da ocultação da perda de trama é um parâmetro de codec relacionado com uma propriedade de vocalização e o sinal transmitido. A vocalização refere-se a voz altamente periódica que é gerada por uma excitação glotal periódica do tracto vocal humano.
Um indicador adicional preferido é se o conteúdo do sinal for estimado como sendo música ou voz. Um tal indicador pode ser obtido a partir de um classificador de sinal que pode, tipicamente, fazer parte do codec. No caso de o codec efectuar uma tal classificação e tornar uma decisão de classificação correspondente disponível como um parâmetro de codificação para o descodificador, este parâmetro é de preferência utilizado como indicador do teor de sinal a ser usado para a adaptação do método de ocultação de perda de trama.
Um outro indicador que é de preferência utilizado para adaptação dos métodos de ocultação de perda de trama é o burstiness (ritmo de pico/ritmo médio) das perdas de trama. Burstiness de perdas de tramas significa que ocorrem diversas perdas de tramas numa fila, o que torna difícil para o método de ocultação de perda de trama utilizar partes válidas de sinal recentemente descodificado para o seu funcionamento. Um indicador do estado da técnica é o número nburst das perdas de trama observadas numa fila. Este contador é incrementado com um em cada perda de trama e reposto a zero após a recepção de uma trama válida. Este indicador também é usado no contexto do presente exemplo de formas de realização da invenção.
Adaptação do método de ocultação de perda de tramas
No caso dos passos executados acima indicarem uma condição que sugere uma adaptação da operação de ocultação de perda de trama, o cálculo do espectro da trama de substituição é modificado.
Embora o cálculo original do espectro da trama de substituição seja feito de acordo com a expressão
agora é introduzida uma adaptação que modifica tanto magnitude como a fase. A magnitude é modificada por meio de dimensionamento com dois factores a(m) e β (m) e a fase é modificada com um componente aditivo de fase & (m) . Isto conduz ao seguinte cálculo modificado da trama de substituição:
É para ser notado que os métodos de ocultação originais perda de trama (não-adaptados) são utilizados se a (m) = 1, β (m) = 1, e & (m) = 0. Estes valores respectivos são, portanto, o padrão. O objectivo geral com a introdução de adaptações de magnitude é evitar perturbações audíveis do método de ocultação de perda de trama. Tais perturbações podem ser sons musicais ou tonais ou sons estranhos decorrentes de repetições de sons transitórios. Tais perturbações iriam por sua vez conduzir a degradações de qualidade, sendo que é objectivo evitar as mesmas através das adaptações descritas. Um modo adequado para tais adaptações é o de modificar o espectro de magnitude da trama de substituição a um grau adequado. A figura 12 ilustra uma forma de realização da modificação do método de ocultação. A adaptação da magnitude, 123, é de preferência feita se o contador de perda de rajada nburst exceder algum limiar thrbUrst, por exemplo thrburst = 3, 121. Nesse caso é utilizado um valor menor do que 1 para o factor de atenuação, por exemplo, a (m) = 0,1.
Verificou-se no entanto que é benéfico realizar a atenuação com um grau que aumenta gradualmente. Uma forma de realização preferida que realiza isto é definir um parâmetro logarítmico que especifica um aumento logarítmico na atenuação por trama, att_per_frame. Depois, no caso do contador de rajadas exceder o limiar, é calculado o factor de atenuação que aumenta gradualmente em
Aqui, a constante c é simplesmente uma constante de escalonamento que permite especificar o parâmetro att_per frame, por exemplo em decibéis (dB).
Uma adaptação preferida adicional é feita em resposta ao indicador se o sinal é estimado como sendo de música ou voz. Para conteúdo de música, em comparação com o conteúdo de voz é preferivel aumentar o limiar thrburs t e diminuir a atenuação por trama. Isto é equivalente a executar a adaptação do método de ocultação de perda de trama com um menor grau. 0 antecedente deste tipo de adaptação é que a música é geralmente menos sensível a rajadas de perda mais longas do que a voz. Assim, o original, ou seja, o método de ocultação de perda de trama não modificada é ainda preferível para este caso, pelo menos para um número maior de perdas de tramas numa fila.
Uma outra adaptação do método de ocultação em relação ao factor de atenuação de magnitude é de preferência feita no caso de ter sido detectado um transiente com base em que o indicador de R//r, band(k) ou, alternativamente, R//r (m) ou R//r tiverem passado um limiar, 122. Nesse caso, uma acção de adaptação adequada, 125, consiste em modificar o segundo factor de atenuação de magnitude, β (m) de tal modo que a atenuação total é controlada pelo produto de dois factores a (m) · β (m) é definido em resposta a um transiente indicado. Caso seja detectado um deslocamento será de preferência escolhido o factor β (m) para reflectir a diminuição de energia do deslocamento. Uma escolha adequada é definir β(m) para a mudança detectada de ganho:
Caso seja detectado um onset verificou-se ser vantajoso limitar o aumento de energia na trama de substituição. Nesse caso o factor pode ser definido para um valor fixo de, por exemplo, 1, o que significa que não existe qualquer atenuação mas também não existe qualquer amplificação.
No exemplo acima, é de notar que o factor de atenuação de amplitude é de preferência aplicado selectivamente na frequência, isto é com factores calculados individualmente para cada banda de frequência. Caso a abordagem de banda não for utilizada, podem ainda ser obtidos de um modo semelhante os factores de atenuação de amplitude correspondentes, β (τη) pode então ser definido individualmente para cada posição DFT caso seja utilizada a detecção transitória selectivamente na frequência ao nível da posição DFT. Ou, caso não seja utilizada qualquer detecção transitória selectivamente na frequência β (m) pode ser globalmente idêntico para todos os m.
Uma outra adaptação preferida do factor de atenuação de amplitude é feita em conjunto com uma modificação da fase por meio do componente de fase adicional & (m) 127. No caso de para um determinado m for utilizada uma tal modificação de fase, o factor de atenuação β (m) é ainda mais reduzido. De preferência, é tomado em consideração mesmo o grau de modificação de fase. Se a modificação de fase é apenas moderada, β (m) só é ligeiramente reduzido, enquanto que a modificação de fase é forte, β(m) é reduzida a um grau maior. 0 objectivo geral com a introdução de adaptações de fase é evitar tonalidade ou periodicidade do sinal demasiado fortes nas tramas de substituição geradas, que por sua vez levariam a degradação de qualidade. Um modo adequado para tais adaptações é o de randomizar ou aplicar ruido aleatório à fase a um grau adequado.
Uma tal aplicação de ruido aleatório à fase é realizada se o componente de fase adicional S (m) for definido como um valor aleatório dimensionado com algum factor de controlo: 3 (m) = a (m) · rand(·) . 0 valor aleatório obtido pela função rand(·) é, por exemplo, gerado por algum gerador de número pseudo-aleatório. É aqui assumido que proporciona um número aleatório no intervalo [0,2π]. 0 factor de dimensionamento a (m) na equação acima controla o grau pelo qual à fase inicial 0* é aplicado um ruído aleatório. As seguintes formas de realização solucionam a adaptação de fase por meio de controlo deste factor de dimensionamento. 0 controlo do factor de dimensionamento é feito de um modo análogo ao controlo dos factores de modificação de magnitude acima descritos.
De acordo com um primeiro factor de dimensionamento de forma de realização, a (m) é adaptado em resposta ao contador de perda de rajada. Se o contador de perda de rajada nburst exceder algum limiar thrburst, por exemplo thrburst = 3, é utilizado um valor maior do que 0, por exemplo a(m) = 0,2.
Verificou-se no entanto que é benéfico realizar a aplicação de ruído aleatório com um grau que aumenta gradualmente. Uma forma de realização preferida que realiza isto é definir um parâmetro que especifica um aumento na aplicação de ruído aleatório por trama, dith increase per frame. Depois, no caso do contador de rajadas exceder o limiar é calculado o factor de aplicação de ruído aleatório que aumenta gradualmente em
É de notar, na fórmula acima, que a (m) tem de ser limitado a um valor máximo de 1 para o qual a aplicação de ruído aleatório de fase completa é alcançada. É de notar que o valor limiar de perda de rajada thrburst utilizado para iniciar a aplicação de ruído aleatório de fase pode ser o mesmo limiar que aquele utilizado para atenuação de magnitude. No entanto, pode ser obtida melhor qualidade ajustando estes limiares para valores óptimos individualmente, o que geralmente significa que estes limiares podem ser diferentes.
Uma adaptação preferida adicional é feita em resposta ao indicador se o sinal é estimado como sendo de música ou voz. Para conteúdo de música, em comparação com o conteúdo de voz é preferível aumentar o limiar thrburst o que significa que a aplicação de ruido aleatório na fase para música, quando comparado com voz é feita somente no caso de mais tramas perdidas numa fila. Isto é equivalente a executar a adaptação do método de ocultação de perda de trama para música com um menor grau. 0 antecedente deste tipo de adaptação é que a música é geralmente menos sensível a rajadas de perda mais longas do que a voz. Assim, o original, ou seja, método de ocultação de perda de trama não modificada é ainda preferível para este caso, pelo menos para um número maior de perdas de tramas numa f ila.
Uma outra forma de realização preferida é para adaptar a aplicação de ruído aleatório da fase em resposta a um transiente detectado. Nesse caso, pode ser usado um grau mais forte de aplicação de ruído aleatório de fase para as posições m DFT para as quais um transiente é indicado quer para cada posição, as posições DFT da banda de frequência correspondente ou de toda a trama.
Parte dos esquemas descritos consignam optimização do método de ocultação de perda de tramas para sinais harmónicos e particularmente para discurso expresso.
No caso de não serem realizados métodos que utilizam uma estimativa melhorada de frequência tal como descrito acima, uma outra possibilidade para o método de ocultação de perda de trama para optimizar a qualidade de sinais de discurso expresso é a de mudar para algum outro método de ocultação de perda de trama que se encontra especificamente projectado e optimizado para a voz em vez de para sinais de áudio gerais que contêm música e voz. Nesse caso, o indicador de que o sinal compreende um sinal de discurso expresso é usado para seleccionar um outro esquema de ocultação de perda de trama optimizado para a voz em vez dos esquemas descritos acima.
As formas de realização aplicam-se a um controlador num descodificador, tal como ilustrado na figura 13. A figura 13 diagrama de blocos esquemático de um descodificador de acordo com as formas de realização. 0 descodificador 130 compreende uma unidade de entrada 132 configurada para receber um sinal de áudio codificado. A figura ilustra a ocultação perda de trama por uma unidade lógica de ocultação de perda de trama 134, que indica que o descodificador está configurado para implementar uma ocultação de uma trama de áudio perdida, de acordo com as formas de realização acima descritas. Além disso, o descodificador compreende um controlador 136 para implementar as formas de realização descritas acima. O controlador 136 encontra-se configurado para detectar condições nas propriedades do sinal de áudio recebido anteriormente e reconstruído ou nas propriedades estatísticas das perdas de trama observadas para as quais a substituição de uma trama perdida de acordo com os métodos descritos proporciona qualidade relativamente reduzida. Caso uma tal condição seja detectada, o controlador 136 encontra-se configurado para modificar o elemento dos métodos de ocultação de acordo com os quais o espectro de trama de substituição é calculado por = ajustando selectivamente as fases ou as magnitudes de espectro. A detecção pode ser realizada por uma unidade de detecção 146 e a modificação pode ser realizada por uma unidade modificadora 148 tal como ilustrado na figura 14. 0 descodificador com as suas unidades de inclusão pode ser implementado em hardware. Existem várias variantes de elementos de circuito que podem ser utilizados e combinados para atingir as funções das unidades do descodificador. Tais variantes estão abrangidas pelas formas de realização. Os exemplos particulares de implementação de hardware do descodificador é a implementação em hardware de processador de sinais digitais (DSP) e tecnologia de circuito integrado, incluindo ambos circuito electrónico de uso geral e circuitos de aplicação especifica. 0 descodificador 150 aqui descrito pode alternativamente ser implementado, por exemplo, tal como ilustrado na figura 15, ou seja por um ou mais de um processador 154 e software adequado 155 com armazenamento ou memória apropriados 156, por conseguinte a fim de reconstituir o sinal de áudio que inclui a realização de ocultação de perda de trama de áudio de acordo com as formas de realização aqui descritas, tal como mostrado na figura 13. 0 sinal de áudio codificado que entra é recebido por uma entrada (IN) 152, à qual o processador 154 e a memória 156 se encontram ligados. 0 sinal de áudio descodificado e reconstruído obtido a partir do software é emitido da saída (OUT) 158. A tecnologia descrita acima destina-se a ser utilizada, por exemplo, num receptor, o qual pode ser utilizado num dispositivo móvel (por exemplo, telefone móvel, portátil) ou um dispositivo estacionário, tal como um computador pessoal.
Deverá ser entendido que a escolha de unidades ou módulos que interagem, assim como a nomenclatura das unidades são apenas com a finalidade de exemplificar, e podem ser configuradas em várias formas alternativas de modo a serem passíveis de executar as acções de procedimento sugeridas.
Deverá também notar-se que as unidades ou módulos descritos na presente memória descritiva devem ser considerados como entidades lógicas e não com necessidade como entidades físicas separadas. Faz-se observar que o âmbito da tecnologia aqui descrita abrange totalmente outras formas de realização que podem tornar-se óbvias para os técnicos, e que o âmbito da presente memória descritiva não é portanto para ser limitado. A referência a um elemento no singular não se destina a significar "um e apenas um" a menos que explicitamente assim indicado, mas sim "um ou mais". Todos os equivalentes estruturais e funcionais aos elementos das formas de realização acima descritas que são conhecidos dos técnicos são aqui expressamente incorporados como referência e destinam-se a ser englobados por este meio. Além disso, não é necessário a um dispositivo ou método tratar cada e todos os problemas que se pretende resolver com a tecnologia aqui descrita, para que possa ser englobado pela presente.
Na descrição anterior, para efeitos de explicação e não limitação, são estabelecidos pormenores específicos tais como arquitecturas particulares, interfaces, técnicas, etc., de modo a proporcionar uma compreensão profunda da tecnologia descrita. No entanto, será evidente para os técnicos que a tecnologia descrita pode ser praticada em outras formas de realização e/ou combinações de formas de realização que variam destes pormenores específicos. Quer dizer, os técnicos serão capazes de conceber várias formas de realização que, embora não explicitamente descritas ou apresentadas aqui, realizam os princípios da tecnologia descrita. Em alguns casos encontram-se omitidas descrições pormenorizadas de dispositivos bem conhecidos, circuitos, e métodos, de modo a não obscurecer a descrição da tecnologia descrita com pormenores desnecessários. Todas as declarações da presente, princípios recitados, aspectos e formas de realização da tecnologia descrita, bem como exemplos específicos da mesma, servem para abranger ambos os equivalentes estruturais e funcionais da mesma. Adicionalmente, pretende-se que tais equivalentes incluam ambos os equivalentes actualmente conhecidos, bem como equivalentes desenvolvidos no futuro, por exemplo, quaisquer elementos desenvolvidos que desempenhem a mesma função, independentemente da estrutura.
Deste modo, por exemplo, será apreciado pelos técnicos que as figuras na presente podem representar vistas conceituais de circuito ilustrativo ou outras unidades funcionais que realizam os princípios da tecnologia, e/ou vários processos que podem ser substancialmente representados em suportes legíveis por computador e executados por um computador ou processador, mesmo que tal computador ou processador possa não estar explicitamente apresentado nas figuras.
As funções dos vários elementos, incluindo os blocos funcionais podem ser proporcionadas através do uso de hardware, tal como hardware de circuito e/ou hardware passível de executar software na forma de instruções codificadas armazenadas num meio legível por computador. Assim, tais funções e blocos funcionais ilustrados são para ser entendidos como sendo ou implementados por hardware e/ou implementados por computador, e deste modo implementados através de máquina.
As formas de realização descritas acima deverão ser entendidas como alguns exemplos ilustrativos da presente invenção. Será entendido pelos técnicos que várias modificações, combinações e alterações podem ser feitas às formas de realização sem fugir do escopo da presente invenção. Em particular, diferentes soluções parciais nas diferentes formas de realização podem ser combinadas noutras configurações, onde tecnicamente possível.
Claims (22)
- REIVINDICAÇÕES1. Método para o controlo de um método de ocultação para uma trama perdida de áudio de um sinal de áudio recebido, caracterizado por compreender: - detectar (101, 122) numa propriedade de um sinal de áudio previamente recebido e reconstruído uma condição transitória que poderia levar a uma qualidade de reconstrução subóptima, quando é utilizado um método de ocultação original para criar uma trama de substituição; e - modificar (102, 125) o método de ocultação original ajustando selectivamente uma magnitude de espectro de um espectro de trama de substituição, quando a condição transitória é detectada; - detectar (101, 122) adicionalmente numa propriedade estatística de perdas de trama observadas uma segunda condição que poderia levar a uma qualidade de reconstrução subóptima, quando o método de ocultação original é utilizado para criar a trama de substituição; e - modificar (102, 123, 127) adicionalmente o método de ocultação original ajustando selectivamente a magnitude de espectro do espectro de trama de substituição, quando é detectada a segunda condição.
- 2. Método de acordo com a reivindicação 1, caracterizado por o método de ocultação original compreender : - extrair um segmento de um sinal de áudio recebido previamente ou reconstituído, em que o referido segmento é usado como uma trama protótipo; - aplicar um modelo sinusoidal à trama protótipo para obter frequências sinusoidais do modelo sinusoidal; e - sinusoides obtidas evoluídas no tempo para criar a trama de substituição.
- 3. Método de acordo com a reivindicação 2, caracterizado por a evolução no tempo compreender avançar a fase de coeficientes espectrais relacionados com as sinusoides obtidas (k) de 0k, e em que o cálculo do espectro de trama de substituição é executado de acordo com a expressão em que γ (m) é uma representação do domínio de frequência da trama protótipo.
- 4. Método de acordo com qualquer das reivindicações 1 a 3, caracterizado por a condição transiente compreender uma deslocação detectada.
- 5. Método de acordo com qualquer das reivindicações 1 a 4, caracterizado por a detecção transiente ser realizada selectivamente na frequência com base numa banda de frequência.
- 6. Método de acordo com as reivindicações 4 ou 5, caracterizado por o ajuste selectivo da magnitude do espectro da trama de substituição ser realizado selectivamente na banda de frequência em resposta a um transiente detectado na banda de frequência.
- 7. Método de acordo com qualquer das reivindicações anteriores, caracterizado por a segunda condição ser uma ocorrência de várias perdas seguidas de trama.
- 8. Método de acordo com a reivindicação 7, caracterizado por a magnitude do espectro ser ajustada em resposta a várias perdas seguidas de tramas ao executar a atenuação com um grau de aumento gradual.
- 9. Método de acordo com qualquer das reivindicações anteriores, caracterizado por o método de ocultação inicial ser adicionalmente modificado por selectivamente ajustar uma fase do espectro de trama de substituição, quando a segunda condição é detectada.
- 10. Método de acordo com a reivindicação 9, caracterizado por o ajuste da fase do espectro de trama de substituição compreender randomizar ou aplicar ruido aleatório num espectro de fase.
- 11. Método de acordo com a reivindicação 10, caracterizado por o espectro de fase ser ajustado executando a aplicação de ruido aleatório com um grau que aumenta gradualmente.
- 12. Dispositivo caracterizado por compreender: um processador (154), e uma memória (156) que armazena instruções (155) que, quando executadas pelo processador, fazem o dispositivo detectar numa propriedade de um sinal de áudio previamente recebido e reconstruído uma condição transitória que poderia levar a uma qualidade de reconstrução subóptima, quando é utilizado um método de ocultação original para criar uma trama de substituição; - modificar o método de ocultação original, quando a condição transitória é detectada, ajustando selectivamente uma magnitude de espectro de um espectro de trama de substituição; - detectar adicionalmente numa propriedade estatística de perdas de trama observadas uma segunda condição que poderia levar a uma qualidade de reconstrução subóptima, quando o método de ocultação original é utilizado para criar a trama de substituição; e modificar adicionalmente o método de ocultação original, quando é detectada a segunda condição, ajustando selectivamente a magnitude do espectro de trama de substituição.
- 13. Dispositivo de acordo com a reivindicação 12, caracterizado por durante a criação da trama de substituição utilizando o método de ocultação inicial o dispositivo é levado a: - extrair um segmento de um sinal de áudio recebido previamente ou reconstituído, em que o referido segmento é usado como uma trama protótipo; - aplicar um modelo sinusoidal à trama protótipo para obter frequências sinusoidais do modelo sinusoidal; e - sinusoides obtidas evoluídas no tempo para criar a trama de substituição.
- 14. Dispositivo de acordo com a reivindicação 13, caracterizado por a evolução no tempo ser executada avançando a fase de coeficientes espectrais relacionados com as sinusoides obtidas (k) dee em que o cálculo do espectro de trama de substituição é executado de acordo com a expressãoem que Y (m) é uma representação do domínio da frequência da trama protótipo.
- 15. Dispositivo de acordo com as reivindicações 12 a 14 compreendendo adicionalmente um detector transitório, caracterizado por o detector transitório se encontrar configurado para executar uma detecção transitória selectiva na frequência com base em bandas de frequência.
- 16. Dispositivo de acordo com a reivindicação 15, caracterizado por o ajuste selectivo da magnitude do espectro da trama de substituição ser realizado na banda de frequência selectivamente em resposta a um transiente detectado na banda de frequência.
- 17. Dispositivo de acordo com qualquer das reivindicações 12 a 16, caracterizado por a segunda condição ser uma ocorrência de várias perdas seguidas de trama.
- 18. Dispositivo de acordo com a reivindicação 17, caracterizado por a magnitude do espectro ser ajustada em resposta a várias perdas seguidas de tramas ao executar a atenuação com grau de aumento gradual.
- 19. Dispositivo de acordo com qualquer das reivindicações 12 a 18, caracterizado por o dispositivo estar configurado para modificar adicionalmente o método de ocultação original, quando é detectada a segunda condição, ajustando selectivamente uma fase do espectro de trama de substituição.
- 20. Dispositivo de acordo com a reivindicação 12, caracterizado por o dispositivo ser um descodificador num dispositivo móvel.
- 21. Programa de computador (155) caracterizado por compreender unidades de código legíveis em computador que quando executados num dispositivo fazem o dispositivo: - detectar (101) numa propriedade de um sinal de áudio previamente recebido e reconstruído uma condição transitória que poderia levar a uma qualidade de reconstrução subóptima, quando é utilizado um método de ocultação original para criar uma trama de substituição; e modificar (102) o método de ocultação original, quando a condição transitória é detectada, ajustando selectivamente uma magnitude de espectro de um espectro de trama de substituição; - detectar adicionalmente numa propriedade estatística de perdas de trama observadas uma segunda condição que poderia levar a uma qualidade de reconstrução subóptima, quando o método de ocultação original é utilizado para criar a trama de substituição; e modificar adicionalmente o método de ocultação original, quando é detectada a segunda condição, ajustando selectivamente a magnitude do espectro de trama de substituição.
- 22. Produto de programa informático (156), caracterizado por compreender um suporte legível por computador e um programa de computador (155) de acordo com a reivindicação 22 armazenado num suporte legível por computador.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361761051P | 2013-02-05 | 2013-02-05 | |
US201361760814P | 2013-02-05 | 2013-02-05 | |
US201361760822P | 2013-02-05 | 2013-02-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
PT2954518T true PT2954518T (pt) | 2016-12-01 |
Family
ID=50114514
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PT147049357T PT2954518T (pt) | 2013-02-05 | 2014-01-22 | Método e dispositivo para controlar a ocultação de perda de trama de áudio |
PT16183917T PT3125239T (pt) | 2013-02-05 | 2014-01-22 | Método e aparelho para controlo de ocultação de perda de trama de áudio |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PT16183917T PT3125239T (pt) | 2013-02-05 | 2014-01-22 | Método e aparelho para controlo de ocultação de perda de trama de áudio |
Country Status (21)
Country | Link |
---|---|
US (6) | US9293144B2 (pt) |
EP (5) | EP4322159A3 (pt) |
JP (3) | JP6069526B2 (pt) |
KR (4) | KR102349025B1 (pt) |
CN (3) | CN108831490B (pt) |
AU (5) | AU2014215734B2 (pt) |
BR (1) | BR112015018316B1 (pt) |
CA (2) | CA2978416C (pt) |
DK (2) | DK3125239T3 (pt) |
ES (4) | ES2603827T3 (pt) |
HK (2) | HK1210315A1 (pt) |
MX (3) | MX2020001307A (pt) |
MY (1) | MY170368A (pt) |
NZ (2) | NZ739387A (pt) |
PH (3) | PH12015501507B1 (pt) |
PL (2) | PL3561808T3 (pt) |
PT (2) | PT2954518T (pt) |
RU (3) | RU2728832C2 (pt) |
SG (3) | SG11201505231VA (pt) |
WO (1) | WO2014123471A1 (pt) |
ZA (1) | ZA201504881B (pt) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL3576087T3 (pl) | 2013-02-05 | 2021-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Ukrywanie klatki utraconej sygnału audio |
US9478221B2 (en) | 2013-02-05 | 2016-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced audio frame loss concealment |
NO2780522T3 (pt) * | 2014-05-15 | 2018-06-09 | ||
EP3664086B1 (en) | 2014-06-13 | 2021-08-11 | Telefonaktiebolaget LM Ericsson (publ) | Burst frame error handling |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
ES2870959T3 (es) * | 2016-03-07 | 2021-10-28 | Fraunhofer Ges Forschung | Unidad de ocultación de error, decodificador de audio y método relacionado y programa informático que usa características de una representación decodificada de una trama de audio decodificada apropiadamente |
CN109313905B (zh) * | 2016-03-07 | 2023-05-23 | 弗劳恩霍夫应用研究促进协会 | 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法 |
BR112018067944B1 (pt) * | 2016-03-07 | 2024-03-05 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
US20190074805A1 (en) * | 2017-09-07 | 2019-03-07 | Cirrus Logic International Semiconductor Ltd. | Transient Detection for Speaker Distortion Reduction |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
WO2020126120A1 (en) | 2018-12-20 | 2020-06-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for controlling multichannel audio frame loss concealment |
CN111402904B (zh) * | 2018-12-28 | 2023-12-01 | 南京中感微电子有限公司 | 音频数据恢复方法、装置及蓝牙设备 |
CN109887515B (zh) * | 2019-01-29 | 2021-07-09 | 北京市商汤科技开发有限公司 | 音频处理方法及装置、电子设备和存储介质 |
CN113454713B (zh) * | 2019-02-21 | 2024-06-25 | 瑞典爱立信有限公司 | 相位ecu f0插值分割方法及相关控制器 |
AU2019437394A1 (en) * | 2019-03-25 | 2021-10-21 | Razer (Asia-Pacific) Pte. Ltd. | Method and apparatus for using incremental search sequence in audio error concealment |
WO2020249380A1 (en) * | 2019-06-13 | 2020-12-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Time reversed audio subframe error concealment |
CN111883173B (zh) * | 2020-03-20 | 2023-09-12 | 珠海市杰理科技股份有限公司 | 基于神经网络的音频丢包修复方法、设备和系统 |
EP4252227A1 (en) | 2020-11-26 | 2023-10-04 | Telefonaktiebolaget LM Ericsson (publ) | Noise suppression logic in error concealment unit using noise-to-signal ratio |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06130999A (ja) * | 1992-10-22 | 1994-05-13 | Oki Electric Ind Co Ltd | コード励振線形予測復号化装置 |
JP3617503B2 (ja) * | 1996-10-18 | 2005-02-09 | 三菱電機株式会社 | 音声復号化方法 |
EP0907258B1 (en) * | 1997-10-03 | 2007-01-03 | Matsushita Electric Industrial Co., Ltd. | Audio signal compression, speech signal compression and speech recognition |
JP3567750B2 (ja) * | 1998-08-10 | 2004-09-22 | 株式会社日立製作所 | 圧縮音声再生方法及び圧縮音声再生装置 |
US6975655B2 (en) * | 2000-04-07 | 2005-12-13 | Broadcom Corporation | Method of controlling data sampling clocking of asynchronous network nodes in a frame-based communications network |
US6996521B2 (en) * | 2000-10-04 | 2006-02-07 | The University Of Miami | Auxiliary channel masking in an audio signal |
JP2002229593A (ja) * | 2001-02-06 | 2002-08-16 | Matsushita Electric Ind Co Ltd | 音声信号復号化処理方法 |
KR100591350B1 (ko) * | 2001-03-06 | 2006-06-19 | 가부시키가이샤 엔.티.티.도코모 | 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP4215448B2 (ja) * | 2002-04-19 | 2009-01-28 | 日本電気株式会社 | 音声復号装置及び音声復号方法 |
US20040122680A1 (en) * | 2002-12-18 | 2004-06-24 | Mcgowan James William | Method and apparatus for providing coder independent packet replacement |
US6985856B2 (en) | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
WO2004068098A1 (ja) * | 2003-01-30 | 2004-08-12 | Fujitsu Limited | 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
GB2416467B (en) * | 2003-05-14 | 2006-08-30 | Oki Electric Ind Co Ltd | Apparatus and method for concealing erased periodic signal data |
ATE486348T1 (de) * | 2003-06-30 | 2010-11-15 | Koninkl Philips Electronics Nv | Verbesserung der qualität von dekodierten audio mittels hinzufügen von geräusch |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US7324937B2 (en) * | 2003-10-24 | 2008-01-29 | Broadcom Corporation | Method for packet loss and/or frame erasure concealment in a voice communication system |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
EP1722359B1 (en) * | 2004-03-05 | 2011-09-07 | Panasonic Corporation | Error conceal device and error conceal method |
WO2006009074A1 (ja) * | 2004-07-20 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声復号化装置および補償フレーム生成方法 |
US7930184B2 (en) | 2004-08-04 | 2011-04-19 | Dts, Inc. | Multi-channel audio coding/decoding of random access points and transients |
US7734381B2 (en) * | 2004-12-13 | 2010-06-08 | Innovive, Inc. | Controller for regulating airflow in rodent containment system |
KR101203348B1 (ko) * | 2005-01-31 | 2012-11-20 | 스카이프 | 가중 오버랩 애드 방법 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
US8358704B2 (en) * | 2006-04-04 | 2013-01-22 | Qualcomm Incorporated | Frame level multimedia decoding with frame information table |
WO2008022200A2 (en) | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Re-phasing of decoder states after packet loss |
JP2008058667A (ja) * | 2006-08-31 | 2008-03-13 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
FR2907586A1 (fr) | 2006-10-20 | 2008-04-25 | France Telecom | Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch. |
KR100957711B1 (ko) | 2006-10-25 | 2010-05-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 서브밴드 값을 생성하는 장치 및 방법과 시간 영역 오디오 샘플을 생성하는 장치 및 방법 |
US7991612B2 (en) * | 2006-11-09 | 2011-08-02 | Sony Computer Entertainment Inc. | Low complexity no delay reconstruction of missing packets for LPC decoder |
BRPI0721490A2 (pt) | 2006-11-10 | 2014-07-01 | Panasonic Corp | Dispositivo de decodificação de parâmetro, dispositivo de codificação de parâmetro e método de decodificação de parâmetro. |
RU2459283C2 (ru) * | 2007-03-02 | 2012-08-20 | Панасоник Корпорэйшн | Кодирующее устройство, декодирующее устройство и способ |
US20090198500A1 (en) * | 2007-08-24 | 2009-08-06 | Qualcomm Incorporated | Temporal masking in audio coding based on spectral dynamics in frequency sub-bands |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
CN101207665B (zh) * | 2007-11-05 | 2010-12-08 | 华为技术有限公司 | 一种衰减因子的获取方法 |
CN101261833B (zh) * | 2008-01-24 | 2011-04-27 | 清华大学 | 一种使用正弦模型进行音频错误隐藏处理的方法 |
CN101308660B (zh) * | 2008-07-07 | 2011-07-20 | 浙江大学 | 一种音频压缩流的解码端错误恢复方法 |
CN102222505B (zh) | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
WO2012158159A1 (en) | 2011-05-16 | 2012-11-22 | Google Inc. | Packet loss concealment for audio codec |
-
2014
- 2014-01-22 PT PT147049357T patent/PT2954518T/pt unknown
- 2014-01-22 RU RU2017124644A patent/RU2728832C2/ru active
- 2014-01-22 EP EP23202489.3A patent/EP4322159A3/en active Pending
- 2014-01-22 SG SG11201505231VA patent/SG11201505231VA/en unknown
- 2014-01-22 US US14/422,249 patent/US9293144B2/en not_active Expired - Fee Related
- 2014-01-22 EP EP16183917.0A patent/EP3125239B1/en active Active
- 2014-01-22 RU RU2015137708A patent/RU2628144C2/ru active
- 2014-01-22 CN CN201810694625.0A patent/CN108831490B/zh active Active
- 2014-01-22 CA CA2978416A patent/CA2978416C/en active Active
- 2014-01-22 CN CN201810694623.1A patent/CN108899038B/zh active Active
- 2014-01-22 ES ES14704935.7T patent/ES2603827T3/es active Active
- 2014-01-22 ES ES21162222T patent/ES2964807T3/es active Active
- 2014-01-22 CN CN201480007552.3A patent/CN104969290B/zh active Active
- 2014-01-22 MX MX2020001307A patent/MX2020001307A/es unknown
- 2014-01-22 WO PCT/SE2014/050068 patent/WO2014123471A1/en active Application Filing
- 2014-01-22 KR KR1020217009851A patent/KR102349025B1/ko active IP Right Grant
- 2014-01-22 MY MYPI2015702413A patent/MY170368A/en unknown
- 2014-01-22 KR KR1020207013012A patent/KR102238376B1/ko active IP Right Grant
- 2014-01-22 DK DK16183917.0T patent/DK3125239T3/da active
- 2014-01-22 PL PL19178384T patent/PL3561808T3/pl unknown
- 2014-01-22 BR BR112015018316-6A patent/BR112015018316B1/pt active IP Right Grant
- 2014-01-22 EP EP14704935.7A patent/EP2954518B1/en active Active
- 2014-01-22 MX MX2021000353A patent/MX2021000353A/es unknown
- 2014-01-22 SG SG10201700846UA patent/SG10201700846UA/en unknown
- 2014-01-22 EP EP21162222.0A patent/EP3855430B1/en active Active
- 2014-01-22 NZ NZ739387A patent/NZ739387A/en unknown
- 2014-01-22 JP JP2015555964A patent/JP6069526B2/ja active Active
- 2014-01-22 EP EP19178384.4A patent/EP3561808B1/en active Active
- 2014-01-22 SG SG10202106262SA patent/SG10202106262SA/en unknown
- 2014-01-22 DK DK19178384.4T patent/DK3561808T3/da active
- 2014-01-22 KR KR1020167009636A patent/KR102110212B1/ko active IP Right Grant
- 2014-01-22 PL PL16183917T patent/PL3125239T3/pl unknown
- 2014-01-22 CA CA2900354A patent/CA2900354C/en active Active
- 2014-01-22 PT PT16183917T patent/PT3125239T/pt unknown
- 2014-01-22 ES ES19178384T patent/ES2881510T3/es active Active
- 2014-01-22 ES ES16183917T patent/ES2750783T3/es active Active
- 2014-01-22 NZ NZ710308A patent/NZ710308A/en unknown
- 2014-01-22 MX MX2015009210A patent/MX344550B/es active IP Right Grant
- 2014-01-22 AU AU2014215734A patent/AU2014215734B2/en active Active
- 2014-01-22 KR KR1020157024184A patent/KR20150108937A/ko not_active Application Discontinuation
-
2015
- 2015-07-02 PH PH12015501507A patent/PH12015501507B1/en unknown
- 2015-07-07 ZA ZA2015/04881A patent/ZA201504881B/en unknown
- 2015-11-03 HK HK15110858.3A patent/HK1210315A1/xx unknown
-
2016
- 2016-02-03 US US15/014,563 patent/US9721574B2/en active Active
- 2016-09-07 AU AU2016225836A patent/AU2016225836B2/en active Active
- 2016-12-26 JP JP2016251224A patent/JP6440674B2/ja active Active
-
2017
- 2017-06-23 US US15/630,994 patent/US10332528B2/en active Active
-
2018
- 2018-01-09 PH PH12018500083A patent/PH12018500083B1/en unknown
- 2018-03-20 PH PH12018500600A patent/PH12018500600B1/en unknown
- 2018-05-16 AU AU2018203449A patent/AU2018203449B2/en active Active
- 2018-11-20 JP JP2018217479A patent/JP6698792B2/ja active Active
-
2019
- 2019-01-11 HK HK19100479.9A patent/HK1258094A1/zh unknown
- 2019-05-09 US US16/407,307 patent/US10559314B2/en active Active
- 2019-12-19 US US16/721,206 patent/US11437047B2/en active Active
-
2020
- 2020-01-28 AU AU2020200577A patent/AU2020200577B2/en active Active
- 2020-07-09 RU RU2020122689A patent/RU2020122689A/ru unknown
-
2021
- 2021-08-04 AU AU2021212049A patent/AU2021212049B2/en active Active
-
2022
- 2022-07-29 US US17/876,848 patent/US20220375480A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
PT2954518T (pt) | Método e dispositivo para controlar a ocultação de perda de trama de áudio | |
ES2897478T3 (es) | Gestión de errores de trama de ráfaga | |
CN113454714A (zh) | 根据mdct系数的频谱形状估计 |