EP2153438B1

EP2153438B1 - Post-traitement de reduction du bruit de quantification d'un codeur, au decodage

Info

Publication number: EP2153438B1
Application number: EP08805992A
Authority: EP
Inventors: Jean-Luc Garcia; Claude Marro; Balazs Kovesi
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2007-06-14
Filing date: 2008-06-13
Publication date: 2011-10-26
Anticipated expiration: 2028-06-13
Also published as: JP2015007805A; ES2376178T3; WO2009004225A1; JP5881791B2; US20100183067A1; EP2153438A1; US8175145B2; ATE531038T1; JP2010529511A

Description

La présente invention concerne un traitement de signal, en particulier de signaux audionumériques dans le domaine des télécommunications, ces signaux pouvant être par exemple des signaux de parole, de musique, ou autres.
Généralement, le débit nécessaire pour faire transiter un signal audio et/ou vidéo avec une qualité suffisante est un paramètre important en télécommunications. Afin de réduire ce paramètre et d'augmenter alors le nombre de communications possibles via un même réseau, des codeurs audio ont été développés notamment pour compresser la quantité d'informations nécessaire pour transmettre un signal.
Certains codeurs permettent d'atteindre des taux de compression de l'information particulièrement élevés. De tels codeurs utilisent en général des techniques avancées de modélisation et de quantification de l'information. Ainsi, de tels codeurs ne transmettent que des modèles ou des données partielles du signal.
Le signal décodé, bien qu'il ne soit pas identique au signal original (puisqu'une partie de l'information n'a pas été transmise du fait de l'opération de quantification), reste néanmoins très proche du signal original. La différence, du point de vue mathématique, entre le signal décodé et le signal original est alors appelée « bruit de quantification ». On peut parler aussi de « distorsion » introduite par le codage/décodage.
Les traitements en compression de signaux sont souvent conçus de manière à minimiser le bruit de quantification et, en particulier, à rendre ce bruit de quantification le moins audible possible lorsqu'il s'agit de traiter un signal audio. Il existe alors des techniques prenant en compte les caractéristiques psycho-acoustiques de l'audition, dans le but de « masquer » ce bruit. Toutefois, pour obtenir des débits les plus faibles possibles, le bruit peut demeurer audible, parfois, ce qui, dans certaines circonstances, dégrade l'intelligibilité du signal.
Afin de réduire ce bruit, deux familles de techniques sont habituellement utilisées.
Il est possible, tout d'abord, d'utiliser un post-filtre perceptuel, du type utilisé par exemple dans les décodeurs de parole de type CELP (pour « Code Excited Linear Prediction »). Il s'agit d'effectuer un filtrage qui améliore la qualité subjective au prix d'une distorsion. En effet, on applique une atténuation du signal dans les zones où le bruit de quantification est le plus audible (notamment entre les formants). Les post-filtres perceptuels actuels procurent de bons résultats pour des signaux de parole, mais de moins bons résultats pour d'autres types de signaux (signaux de musique, par exemple).
En effet, un post-filtre d'amélioration de la parole codée est décrit notamment dans le document Chen et al :

" Adaptive Postfiltering for Quality Enhancement of Coded Speech", Chen J.H., Gersho A., IEEE Trans. On Speech and Audio Proc., (janvier 1995).

Le modèle décrit repose sur un découpage en deux sections :

une section à « long terme » renforce les harmoniques (harmoniques de la fréquence fondamentale) et creuse les vallées spectrales entre ces harmoniques, et
une section à « court terme » renforce les formants et creuse également les vallées spectrales entre ces formants.

Les harmoniques et les formants sont des caractéristiques spectrales bien connues de la parole mais appliquer ce type de traitement sur un autre signal que de la parole génère de fortes distorsions. Par exemple, la richesse spectrale d'un signal de musique ne peut pas être traitée avec un tel modèle simple de signal.
Ainsi, les post-filtres perceptuels peuvent générer des distorsions, du fait qu'ils reposent sur un modèle qui n'est pas assez précis. Par ailleurs, le post-filtre perceptuel est généralement inefficace dans les périodes de silence. Ces problèmes ont pu être observés expérimentalement par la Demanderesse qui a cherché dans un premier temps à intégrer ce type de post-filtres perceptuels dans des décodeurs qui ne sont pas de type CELP, par exemple dans des décodeurs au sens de la norme G.711 ou de la norme G.722.
Le document US2003/0182104 décrit la modification d'un signal audionumérique dans une étape de décodage sur la base d'un modèle psychoacoustique. Une telle modification serait applicable aux signaux codés selon un modèle perceptuel pourvu que la distribution du bruit de quantification puisse être déduite à partir des données codées.
Une autre famille de traitement vise les traitements classiques de réduction de bruit pour distinguer le signal utile des bruits parasites. Ce type de traitement permet donc de réduire le bruit lié à l'environnement de la capture du signal et il est souvent utilisé pour des signaux de parole. Toutefois, ici, il est impossible de rendre transparent le traitement vis-à-vis du bruit lié à l'environnement de la prise de son, ce qui pose problème pour du codage de signal de musique, notamment. Ainsi, en codage/décodage on peut vouloir transmettre le bruit d'ambiance et il est alors souhaitable que la réduction de bruit ne s'applique pas à ce type de bruit.
La présente invention vient améliorer la situation.
Elle propose à cet effet un procédé de traitement d'un signal qui a été codé en compression selon un type de codage prédéterminé, appliquant une opération de quantification, puis décodé. Le procédé au sens de l'invention est defini dans la revendication 1.
On entend ici par le terme « traitement de réduction de bruit » une opération du type décrit ci-avant qui consiste à extraire le signal utile d'un signal à traiter, en filtrant les signaux parasites, par exemple en définissant une fonction de gain intervenant dans un filtre appliqué au signal décodé. Ici, le bruit de quantification est ainsi filtré.
Il s'agit donc d'un débruitage classique mais appliqué ici pour réduire le bruit de quantification. Ce débruitage ne s'apparente en aucune manière à un post-filtre perceptuel du type décrit dans Chen et al, lequel s'appuie complètement sur les caractéristiques et la dynamique du signal, tandis que le traitement de réduction de bruit au sens de l'invention s'appuie plutôt sur la détermination du bruit de quantification.
Ainsi, on prévoit un type de traitement de réduction de bruit propre à chaque type de codage en compression réalisé. La manière même d'estimer les caractéristiques du filtre de réduction de bruit (type de fonction de gain, paramètres de la fonction de gain, etc.) dépend du type de codage réalisé.
On verra en particulier dans les exemples de réalisation donnés ci-après que le bruit de quantification lui-même dépend fortement du type de codage réalisé. On verra qu'il est possible d'établir une variation du bruit de quantification en fonction d'une variation du signal décodé, et que cette variation du bruit de quantification est propre au type de codage mis en oeuvre.
Ainsi :

on estime, à partir des informations sur le type de codage, une variation du bruit de quantification en fonction d'au moins un paramètre du signal décodé, et
en fonction d'une valeur courante de ce paramètre dans le signal décodé, on estime le bruit de quantification pour déterminer la fonction de filtrage à appliquer au signal décodé ayant cette valeur courante de paramètre.

On comprendra donc que les informations sur le type de codage en compression sont des informations a priori, indépendantes des caractéristiques du signal et qu'avantageusement, il peut en être déduit :

un modèle de variation d'un rapport signal à bruit de quantification, en fonction d'au moins un paramètre du signal décodé, et/ou
une coloration spectrale du bruit de quantification (c'est-à-dire une variation spectrale du bruit de quantification en fonction des caractéristiques du signal décodé).

Dans un mode possible de réalisation, les informations a priori sur le type de codage en compression sont obtenues lors d'une procédure de déclaration du codeur.
L'invention est particulièrement adaptée au cas où le type de codage en compression est un codage selon la norme G.711.
La présente invention vise aussi un dispositif de traitement d'un signal initialement codé en compression selon un type de codage prédéterminé, puis décodé. Le dispositif est defini dans la revendication 6.
Plus généralement, le dispositif comporte avantageusement des moyens pour la mise en oeuvre du procédé décrit ci-avant.
Il est avantageux qu'un tel dispositif soit intégré dans un décodeur, en aval d'une unité de décodage, comme illustré sur la figure 1 représentant un dispositif TBQ du type précité en aval de l'unité de décodage DEC. Cette figure 1 sera décrite en détail plus loin.
La présente invention vise aussi un programme informatique, destiné à être stocké en mémoire d'un dispositif de traitement du type précité, et comportant des instructions pour calculer le bruit de quantification, ainsi que des paramètres d'un filtre de réduction du bruit de quantification, lorsque ces instructions sont exécutées par un processeur du dispositif de traitement.
Une réalisation avantageuse peut consister à prévoir un jeu d'instructions pour chaque type de codage mis en oeuvre et, dans chaque jeu d'instructions, définir une variation du bruit de quantification en fonction du signal décodé. Ainsi, sur réception des informations a priori, un jeu d'instructions adéquates est sélectionné. Avec ce jeu d'instructions :

le bruit de quantification présent dans le signal décodé est calculé,
et les paramètres du post-filtre sont calculés en correspondance de ce bruit de quantification, pour limiter, voire supprimer, ce bruit.

Les instructions sur la variation du bruit de quantification peuvent être programmées hors ligne, sur la base d'observations (théoriques ou expérimentales d'après les exemples de réalisation qui seront décrits plus loin) faites sur le type de codage utilisé. La manière dont sont exécutées ces instructions, elle-même, sera décrite en détail plus loin, en référence aux figures 2 et 5 qui peuvent alors constituer des organigrammes d'un programme informatique au sens de l'invention.
Ainsi, l'invention propose un post-traitement effectué après décodage et qui utilise des informations a priori sur les caractéristiques de l'opération de quantification qu'effectue le codeur. Le type de traitement (ou « modèle de traitement » selon les termes génériques ci-avant) qui sera choisi pour traiter le signal est indépendant des caractéristiques du signal lui-même. Bien entendu, le traitement en soi (notamment l'estimation de la fonction de gain) peut dépendre du signal, par exemple de son énergie ou de sa puissance. En revanche, qu'il s'agisse de traiter un signal de musique, un signal de parole ou tout autre signal (de nature harmonique, impulsive, etc.), le type de traitement est le même et ne se base, par exemple, que sur l'énergie d'une trame décodée reçue. En effet, il est possible de connaître de façon théorique les caractéristiques du bruit de quantification, notamment en fonction de différentes familles de codeurs. Au sens de l'invention, on utilise alors ces informations pour estimer des grandeurs qui sont exploitées pour définir au moins une fonction de gain d'une unité de réduction de bruit qui intervient en aval d'une unité de décodage.
Ainsi, l'invention permet de réduire le bruit de quantification (et donc la distorsion) qu'introduit habituellement un codeur en compression du signal mettant en oeuvre une opération de quantification.
Selon l'un des avantages que propose la présente invention, il est possible de garder une même structure de codage/décodage sans y apporter aucune modification et d'assurer pourtant une meilleure qualité du signal décodé, et ce, sans augmenter la quantité d'informations à transmettre par le codeur.
Selon un autre avantage, l'invention permet de réduire avantageusement le bruit de quantification seul, même en période de silence, et ce, pour tout type de signal.
Selon encore un autre avantage, la mise en oeuvre de l'invention n'effectue pas une réduction de bruit classique et donc ne modifie pas le bruit lié à l'environnement de la capture du signal.
On retiendra en particulier que la mise en oeuvre de l'invention permet de réduire, voire supprimer, le bruit de quantification, sans distordre le signal et ce, pour tout type de signal, simplement en utilisant des informations a priori sur le type de codeur utilisé (par exemple les caractéristiques du modèle de compression du codeur, les caractéristiques du quantificateur, ou autre).
La présente invention trouve une application avantageuse au domaine du traitement de la parole et de la musique, et plus généralement au traitement du signal, notamment d'images, dès lors qu'un codeur quelconque est amené à introduire un bruit de quantification.
Plus généralement, l'invention s'applique à tous les domaines où l'on cherche à réduire un bruit de quantification d'un signal.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :

la figure 1 illustre schématiquement la structure générale d'une unité de traitement au sens de l'invention,
la figure 2 illustre schématiquement les étapes d'un procédé au sens de l'invention,
la figure 3 illustre une variation de la loi de compression (dite « loi A ») des amplitudes, dans un codage selon la norme G.711 pour illustrer un exemple de réalisation de l'invention,
la figure 4 illustre la variation du rapport signal à bruit de quantification RSB en fonction du facteur de charge, cette variation étant tirée de la variation illustrée sur la figure 3,
la figure 5 illustre les étapes d'un exemple de traitement dans le cas d'un codage selon la norme G.711, basé notamment sur les observations des variations des figures 3 et 4,
la figure 6 illustre un exemple du spectre du signal (courbe en pointillés) et du spectre du bruit de quantification (courbe continue) pour un codage selon la norme G.722,
la figure 7 illustre un exemple de forme d'onde d'un signal de parole S^* (courbe de dessus) et le rapport signal à bruit de quantification correspondant RSB (courbe de dessous), pour un codage/décodage selon la norme G.722,
la figure 8 est un nuage de points illustrant pour chaque segment de 80 échantillons la corrélation entre le rapport signal à bruit RSB et l'énergie du signal, dans une application à un codage/décodage selon la norme G.722,
la figure 9 montre les segments de signal (en noir) où l'erreur de l'estimation du rapport signal à bruit de quantification RSB est supérieure à 6 dB tandis que le rapport RSB est inférieur à 25 dB, dans l'application à un codage/décodage selon la norme G.722,
la figure 10 reprend le nuage de point représentant, pour chaque segment, l'énergie du bruit en fonction de l'énergie du signal, en illustrant ici l'estimation du niveau de bruit (ligne en traits mixtes), la zone ou l'erreur de l'estimation est inférieure à 6 dB (lignes en traits pointillés), et la délimitation pour laquelle le rapport RSB est supérieur 25 dB (ligne en trait plein).

On se réfère tout d'abord à la figure 1 sur laquelle un signal S est :

codé en compression par un codeur COD de type connu et appliquant notamment une opération de quantification Q au signal S,
transmis via un canal de transmission CA, puis
décodé par un décodeur DEC homologue du codeur COD.

Le signal ainsi décodé, noté S^*, présente alors un bruit de quantification qui se définit mathématiquement comme un écart (S^* - S) par rapport au signal d'origine S.
En référence à nouveau à la figure 1, on prévoit, au sens de l'invention, en aval du décodeur DEC, une unité de traitement de réduction du bruit de quantification TBQ pour supprimer ou au moins limiter le bruit de quantification dans le signal S^*.
A cet effet, l'unité TBQ comporte au moins une entrée E pour recevoir du décodeur DEC des informations INF sur le type de codage/décodage mis en oeuvre, ce qui permet de choisir alors un modèle de traitement de réduction de bruit à mettre en oeuvre. En particulier, on estime, à partir du signal reçu et décodé S^*, et en fonction du type de codage/décodage qui a été mis en oeuvre, l'influence du bruit de quantification dans le signal reçu S^*. A cet effet, on prévoit un module de calcul pour donner une estimation du bruit de quantification BQ, sur la base du modèle choisi et en fonction du signal reçu S^*. Ce module de calcul peut typiquement se présenter sous la forme d'une combinaison d'un processeur et d'une mémoire de travail (non représentés). A partir du bruit de quantification estimé BQ, on traite simplement le bruit estimé BQ en appliquant un filtrage classique FIL au signal S^* pour délivrer finalement un signal traité S^* _T. Il convient d'insister encore sur le fait que les paramètres PAR du filtre FIL appliqué au signal S^* (par exemple une fonction de gain pour le filtrage du signal) sont déterminés pour réduire en particulier le bruit de quantification estimé BQ.
En effet, en référence à la figure 2, à partir des informations INF reçues sur le type de codage/décodage employé (étape S2), on détermine un modèle (étape S3) de traitement de réduction de bruit. On verra dans les exemples de réalisation décrits plus loin que le modèle de réduction de bruit de quantification choisi peut être différent, par exemple selon le fait que le signal a été codé/décodé selon la norme G.711 ou codé/décodé selon la norme G.722.
Ainsi, lorsque le signal est reçu par blocs successifs (ou trames notées TRi à l'étape S1), on estime (étape S4) un niveau du bruit de quantification propre au modèle choisi. Comme on le verra dans les exemples plus loin, il est avantageux d'estimer le niveau de bruit de quantification à partir du calcul du rapport signal à bruit de quantification (noté RSB). Cette information RSB dépend du signal décodé S^*, mais aussi du type de codage mis en oeuvre. Ainsi, la connaissance a priori du codage, par l'obtention des informations INF permet, conjointement avec certaines caractéristiques statistiques du signal S^*, d'estimer ici le rapport signal sur bruit de quantification RSB.
Cette étape S4 nécessite donc de connaître a priori le type de codeur ayant été utilisé, information qui peut être obtenue par exemple lors d'une procédure de déclaration du codeur dite « transaction du codeur », que l'on suppose acquise.
Le type de codeur, les caractéristiques de son modèle de compression et de son quantificateur Q permettent d'estimer une évolution du rapport signal à bruit de quantification, en fonction de certains paramètres statistiques du signal, comme par exemple sa variance, sa densité spectrale de puissance, ou autres. Cette relation entre le rapport signal à bruit de quantification et les paramètres statistiques du signal met en jeu des lois propres au codeur qui seront décrites plus loin, pour quelques exemples de réalisations.
Les paramètres statistiques nécessaires peuvent être calculés par des estimateurs de grandeurs classiques (par exemple la variance). En fonction de ces estimations, une estimation du rapport signal à bruit de quantification peut être extrapolée. Les estimations peuvent être réalisées indifféremment dans les domaines temporel, fréquentiel, ou tout autre domaine temps-fréquence (transformée en ondelettes par exemple).
A nouveau en référence à la figure 2, l'étape suivante S5 consiste à calculer les paramètres du filtre pour la réduction du bruit de quantification dans le signal reçu S^*. La connaissance du rapport signal à bruit permet d'en déduire l'expression d'un filtre de réduction du bruit de quantification, ce filtre étant appelé ci-après « post-filtre » (en aval du décodeur). Il est en effet possible de déduire l'expression d'un filtre numérique dont le but est de réduire un bruit dont la plupart des caractéristiques sont connues a priori (sa densité spectrale de puissance par exemple) et dont le niveau est déterminé à partir de l'estimation du rapport signal sur bruit de quantification obtenue à l'étape précédente S4. Par exemple, le calcul du filtre peut être réalisé dans le domaine fréquentiel et mettre en oeuvre toute technique d'atténuation spectrale à court-terme (une soustraction spectrale, un filtre de Wiener, ou autre). Le calcul du post-filtre à l'étape S5 peut être effectué dans les domaines temporel, fréquentiel, ou tout autre domaine temps-fréquence.
Enfin, l'étape de traitement de réduction de bruit S6, proprement dite, revient ici à filtrer le signal décodé S^* par le post-filtre calculé à l'étape S5. Cette étape S6 peut être réalisée dans le domaine temporel ou fréquentiel, selon les contraintes liées à la mise en oeuvre et le domaine d'estimation des paramètres PAR et du rapport RSB dans les étapes précédentes. On obtient finalement une trame TRi' traitée par débruitage du bruit de quantification à l'étape S7.
On décrit ci-après un exemple de mise en oeuvre de l'invention pour un codage/décodage selon la norme G.711 (selon la loi européenne dite « loi A »).
La représentation numérique traditionnelle des signaux monodimensionnels fait appel à une quantification uniforme des échantillons. Ainsi, en l'absence de dépassement de capacité du quantificateur, le rapport signal à bruit (RSB) de quantification dépend de la variance $σ_{x}^{2}$
du signal, des niveaux de saturation x _max déterminés par la dynamique et bien entendu du nombre de bits b utilisés pour la représentation des échantillons, selon une expression du type : $RSB = 3 \frac{σ_{x}^{2}}{x_{\max}^{2}} 2^{2 b},$
soit, en dB : $RSB = 10 \log (3 \frac{σ_{x}^{2}}{x_{\max}^{2}} 2^{2 b}) = (20 \log 2) b + 10 \log 3 - 20 log Γ [dB]$
La grandeur $Γ = \frac{x_{\max}}{σ_{x}}$
représente un paramètre dit "facteur de charge", qui détermine la qualité d'utilisation de la dynamique du quantificateur disponible par le signal, où :

x _max est le niveau numérique d'amplitude maximum possible d'un échantillon selon le quantificateur choisi, et
σ _x est l'écart-type du signal (la racine carrée de la variance) qui, pour un bloc complet d'échantillons (ou « trame »), peut être estimé par la racine carrée de la puissance moyenne Pm du signal sur ce bloc.

L'expression (1) est fortement dépendante de la valeur de ce paramètre Γ. On constate en particulier que le rapport signal à bruit maximal est obtenu pour un signal en pleine échelle et qu'il décroit rapidement si l'amplitude du signal diminue.
Les limites à bas débits de la loi de quantification uniforme ont amené à développer une loi de quantification dont le rapport signal à bruit de quantification était à peu près indépendant de la variance du signal pour une large dynamique de signaux. C'est bien ce que réalise la loi de quantification logarithmique du codage selon la norme G.711 (dite « loi A » en Europe, ou « loi µ » en Amérique du nord).
La loi A en usage en Europe est définie par une expression dépendante de la valeur x de l'échantillon quantifié, comme suit : $F (x) = {\begin{matrix} \frac{A |x| / x_{\max}}{1 + \ln A} sgn x, 0 \leq |x| / x_{\max} < A^{- 1} \\ x_{\max} \frac{1 + \ln (A |x| / x_{\max})}{1 + \ln A} sgn x, A^{- 1} \leq |x| / x_{\max} \leq 1 \end{matrix}$
En référence à la figure 3, la première variation de la loi de compression (0≤ |x|/x _max < A ^-1 ) est linéaire, engendre une loi de quantification uniforme et est appelée ci-après « variation uniforme », tandis que la seconde variation de la loi de compression ( A ^-1 ≤ |x|/x_max ≤ 1) est logarithmique, et appelée ci-après « variation logarithmique ».
La loi européenne utilise une valeur de A = 87,56 (qui satisfait numériquement l'équation A/(1 + 1n A) = 16).
A partir de ces observations, il est possible de calculer le rapport signal à bruit de quantification pour une compression selon la loi A, comme suit.
Pour les signaux de faible intensité (partie uniforme de la loi de compression), la loi A assure un rapport signal à bruit de quantification supérieur (en dB) de 10log(A/(1+ln A)) à celui obtenu par une quantification uniforme sur le même nombre de niveaux, dont l'expression est donnée par : $\begin{array}{l} {RSB}_{unif} & \approx (20 \log 2) b + 10 \log 3 + 10 \log [A / (1 + \ln A)] - 20 \log (Γ) [dB] \\ {RSB}_{unif} & \approx 6.02 b + 4.77 + 10 \log [A / (1 + \ln A)] - 20 \log (Γ) [dB] \\ {RSB}_{unif} & \approx 67.97 - 20 \log (Γ) [dB] pour b = 8 \end{array}$
Pour les signaux de plus grande amplitude (partie logarithmique de la loi de compression), le rapport signal à bruit de quantification est constant et égale 38.16 dB (pour b = 8 bits) : $\begin{array}{l} {RSB}_{\log} & = (20 \log 2) b + 10 \log 3 - 20 \log (1 + \ln A) [dB] \\ {RSB}_{\log} & \approx 6.02 b - 10 [dB] \\ {RSB}_{\log} & \approx 38.16 dB pour b = 8 \end{array}$
La figure 4 représente l'évolution du rapport signal à bruit de quantification RSB pour une loi A avec b = 8 bits. On identifie immédiatement :

une première partie croissante, correspondant à la variation uniforme de la loi de compression, et
une partie suivante, constante, correspondant à la variation logarithmique de cette loi.

Pour traiter la réduction du bruit de quantification introduit par un codage selon la norme G.711, on exploite ici deux informations :

le rapport signal à bruit de quantification qui est donné par les équations (3) et (4) précédentes, et
l'information bien connue selon laquelle ce bruit est "blanc" pour ce type de codage.

La mise en oeuvre du traitement de réduction de bruit de quantification repose sur l'exploitation de ces informations a priori. Elle nécessite notamment de réaliser une estimation du facteur de charge Γ, paramètre dont dépend la puissance du bruit de quantification, comme suit.
En référence à la figure 5, on estime la puissance moyenne Pm d'un bloc courant TRi (étape S52), et, de là, le facteur de charge Γ, variant comme l'inverse de la racine carrée de la puissance moyenne (étape S53). On considère en effet que le numérateur x _max du facteur de charge est ici constant (à niveau de saturation constant). Au test T54, la valeur trouvée du facteur de charge Γ est comparée à celle d'un seuil Γ_s définissant le point d'inflexion de la loi de compression (figure 4), comme suit :

si le facteur de charge Γ est tel que -20.log(Γ) > -20.log(Γ_s) = 38.16-64.97∼=-27dB (flèche o en sortie du test T54), alors le rapport signal à bruit de quantification est constant et vaut RSB_M ∼= +38dB (plateau de la figure 4), comme fixé à l'étape S55,
sinon (flèche n en sortie du test T54), alors le rapport signal à bruit de quantification RSB peut être calculé selon une variation linéaire en fonction du facteur de charge tirée de l'équation (3) : $RSB = f (Γ) = 65 - 20 \log (Γ) [dB]$

On évalue ensuite la fonction de gain (étape S57) pour l'application du post-filtre (étape S58). A titre d'exemple purement illustratif, un filtre de Wiener peut être prévu en tant que fonction de gain g(RSB). L'expression du filtre de Wiener f _w peut être donnée par la valeur du rapport signal à bruit de quantification RSB calculé précédemment, en tenant compte, bien entendu, de sa dépendance en fréquence avec :

g(RSB) =f _w = RSB / (RSB + 1), où, ici, la valeur RSB ne s'exprime pas en dB mais en valeur naturelle.

On peut prévoir avantageusement d'alléger le traitement de réduction de bruit en particulier pour les signaux de faible rapport signal à bruit de quantification, donc à faible niveau d'amplitude (pour des facteurs de charge tels que -20.log(Γ) < -50dB sur la figure 4), en prévoyant éventuellement :

un seuillage du post-filtre, et/ou
un détecteur d'activité vocale pour des signaux de parole (avec un traitement de réduction de bruit de quantification plus léger pendant les périodes d'inactivité vocale).

On indique qu'une variante du traitement présenté ici est de réduire le bruit de quantification, échantillon par échantillon, plutôt qu'un traitement par blocs successifs. Dans ce cas, le facteur de charge est directement donné par le niveau d'amplitude de l'échantillon (inverse de la racine carrée de l'amplitude) et la suite du traitement est similaire à celle présentée ci-avant.
On décrit maintenant une autre application possible de l'invention à un type de codage différent, ici le codage selon la norme G.722.
Le codage ITU-T G.722, normalisé en 1988 pour les applications d'audioconférence sur canal numérique de 64 kbit/s, est encore très largement utilisé. Il s'agit d'un codage/décodage hiérarchique à trois débits : 64, 56 et 48 kbit/s. Le signal est divisé en deux sous-bandes par un filtre dit QMF (pour « Quadrature Mirror Filter »). Les deux bandes obtenues sont codées avec un codeur MICDA (pour "Modulation par Impulsion et Codage Différentiel Adaptatif"), dit aussi ADPCM en anglais (pour « Adaptive Differential Pulse Code Modulation »).
La bande haute est codée sur 2 bits par échantillon. La différence entre les trois débits vient de la bande basse qui est codée sur 6 bits par échantillon pour le plus haut débit, mais il est possible de réserver le dernier ou les deux derniers bits pour de la transmission de données.
La qualité du plus haut débit est très bonne, par contre le bruit de codage devient très audible et gênant pour le débit le plus bas à 48 kbit/s. Le traitement de réduction du bruit de quantification au sens de l'invention peut être avantageusement appliqué dans ce cas.
Déjà, les caractéristiques du bruit de quantification peuvent être efficacement estimées à partir du signal décodé. Comme l'illustre la figure 6, le spectre du bruit de quantification (courbe en trait plein) est toujours plat, indépendamment du spectre du signal (courbe en traits pointillés). Le rapport signal à bruit de quantification dépend de la puissance moyenne du signal et de sa nature. Sur la figure 7, on peut observer que le rapport signal à bruit de quantification (RSB) est bien corrélé avec la puissance moyenne du signal S^*. Dans l'exemple représenté, le rapport RSB a été estimé sur des segments de 80 échantillons (5 ms pour une fréquence d'échantillonnage de 16 kHz).
La représentation sous forme de nuages de points de la figure 8 illustre encore mieux la corrélation entre la puissance moyenne du signal (axe des abscisses) et le rapport signal à bruit de quantification (axe des ordonnées), calculé par segments de 80 échantillons.
On peut déduire de cette observation une première règle simple d'estimation du rapport RSB en fonction de la puissance moyenne P_moy du segment (droite de corrélation représentée en pointillés sur la figure 8), donnée par : $RSB = P_{moy} - CST [dB]$
où CST est une constante qui vaut, dans l'exemple de la figure 8, environ 10 dB.
On comprendra de cette expression que la puissance moyenne du bruit, déterminée expérimentalement ici, est constante CST = 10 dB, et ce, indépendamment de la puissance moyenne du signal, de sorte que le rapport RSB augmente bien avec la puissance moyenne du signal.
La meilleure estimation du rapport signal à bruit de quantification RSB est obtenue pour les faibles niveaux du signal, c'est-à-dire lorsque le rapport RSB est faible (et donc lorsque le bruit est le plus audible). Cependant, certains segments ont des points situés très en dessous de la ligne en pointillés et l'utilisation de cette règle simple est alors sous-optimale. Il a été observé néanmoins que ces zones correspondent à de forts rapports RSB, où le bruit de quantification est déjà probablement masqué par le signal utile.
De manière générale, il a été observé que le traitement au sens de l'invention appliqué ici réalise néanmoins une réduction avantageuse du bruit de quantification.
Dans le cas où la règle simple de l'équation (5) est utilisée, la figure 9 représente en noir sur fond gris les zones du signal où l'erreur d'estimation du rapport RSB est supérieure à 6 dB, et le rapport RSB lui-même est inférieur à 25 dB, c'est-à-dire les zones du signal dans lesquelles l'estimateur sous-estime le bruit de quantification, ce qui entraine une plus faible efficacité du traitement de réduction du bruit de quantification. On peut néanmoins constater que ces zones correspondent à des segments de signal non-voisé, pour lesquelles le bruit de quantification est moins gênant du fait de la nature intrinsèquement bruitée du signal.
On a représenté sur la figure 10 un diagramme de puissance du bruit par rapport à une puissance du signal, conforme à l'équation empirique (5). La ligne en traits mixtes représente l'estimation de la puissance du bruit. Les lignes en traits pointillés délimitent la zone où l'erreur de l'estimation est inférieure à 6 dB. En dessous de la ligne en trait plein, le rapport RSB est supérieur à 25 dB. Les points noirs (par rapport aux autres points gris) correspondent aux segments noirs de la figure 9.
On montre ainsi qu'une estimation très simple du rapport RSB reposant uniquement sur l'énergie du signal décodé peut donner de bons résultats pour un codage/décodage de type MICDA. L'estimation du rapport RSB peut être encore affinée en tenant compte par exemple du gain de prédiction des filtres ARMA (autorégressifs) qui interviennent dans le décodeur G.722.
Connaissant la forme spectrale du bruit de quantification et son énergie, on peut efficacement appliquer le traitement de réduction de bruit de quantification de l'invention pour ce type de codage/décodage. Cet exemple est bien évidemment valable pour les autres types de codage/décodage de la même famille comme ceux normalisés G.726 ou G.727.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Ainsi, il a été montré ci-avant qu'une application avantageuse de l'invention peut par exemple viser à réduire le bruit de quantification d'un codeur normalisé ITU-G.711 en utilisant les propriétés de la loi de quantification mise en oeuvre, en particulier selon la loi A en Europe. En effet, dans cette application, le bruit de quantification est blanc et il est possible d'estimer le rapport signal à bruit de quantification et, de là, une fonction de gain qui permette de réduire ce bruit. Une application avantageuse de l'invention vise alors la réduction de bruit de quantification dans le traitement à l'extension en bande élargie du codeur G.711 (ITU-T SG16, G.711WB).
Toutefois, le traitement du cas de la loi A a été donné ci-avant à titre d'exemple. De façon analogue, il aurait pu être décrit l'exemple de la loi µ (partie de la norme G.711 appliquée aux Etats-Unis).
Plus généralement, l'invention s'applique à tout type de codage/décodage dès lors que ses caractéristiques intrinsèques sont connues.

Claims

Procédé de traitement d'un signal audionumérique,
ledit signal ayant été :
- codé en compression (COD) selon un type de codage prédéterminé, appliquant une opération de quantification,

- puis décodé (DEC),
le procédé de traitement comportant :
- une estimation (S4) d'un bruit de quantification introduit par le codage en compression à partir d'informations (INF) obtenues a priori sur le type de codage en compression, et

- une détermination (S5) d'une fonction de filtrage à appliquer au signal décodé pour appliquer (S6) un traitement de réduction du bruit de quantification estimé (TBQ),
et caractérisé en ce que :
- on estime, à partir desdites informations (INF), une variation (Fig.4) du bruit de quantification (RSB) en fonction d'au moins un paramètre relatif à un paramètre de charge (Γ) du signal décodé, et

- en fonction d'une valeur courante dudit paramètre (Γ) dans le signal décodé (S52, S53), on estime (S55 ; S56) le bruit de quantification pour déterminer la fonction de filtrage (S57) à appliquer (S58) au signal décodé ayant ladite valeur courante de paramètre (Γ).
Procédé selon la revendication 1, caractérisé en ce qu'il est déduit desdites informations a priori un modèle de variation (Fig.4) d'un rapport signal à bruit de quantification (RSB), en fonction dudit paramètre (Γ) du signal décodé.
Procédé selon la revendication 2, caractérisé en ce qu'une coloration spectrale du bruit de quantification est déduite desdites informations a priori, et on tient compte en outre de ladite coloration spectrale pour déterminer la fonction de filtrage à appliquer au signal décodé.
Procédé selon l'une des revendications 1 à 3, caractérisé en ce que lesdites informations a priori sont obtenues lors d'une procédure de déclaration du codeur.
Procédé selon l'une des revendications 1 à 4, caractérisé en ce que le type de codage en compression est un codage selon la norme G.711.
Dispositif (TBQ) de traitement d'un signal audionumérique initialement codé en compression selon un type de codage prédéterminé, puis décodé, le dispositif (TBQ) de traitement comportant :
- des moyens d'estimation d'un bruit de quantification (BQ) introduit par le codage en compression, à partir du signal décodé et d'informations (INF) obtenues a priori sur le type de codage en compression, et

- des moyens de détermination d'une fonction de filtrage à appliquer au signal décodé pour appliquer (S6) un traitement de réduction du bruit de quantification estimé (FIL),
et caractérisé en ce que les moyens d'estimation estiment :
- à partir desdites informations (INF), une variation (Fig.4) du bruit de quantification (RSB) en fonction d'au moins un paramètre relatif à un paramètre de charge (Γ) du signal décodé, et

- en fonction d'une valeur courante dudit paramètre (Γ) dans le signal décodé (S52, S53), le bruit de quantification pour déterminer la fonction de filtrage (S57) à appliquer (S58) au signal décodé ayant ladite valeur courante de paramètre (Γ).
Dispositif selon la revendication 6, caractérisé en ce qu'il est intégré dans un décodeur, en aval d'une unité de décodage (DEC).
Programme informatique, destiné à être stocké en mémoire d'un dispositif (TBQ) de traitement d'un signal audionumérique initialement codé en compression selon un type de codage prédéterminé, puis décodé, caractérisé en ce qu'il comporte des instructions adaptées pour la mise en oeuvre du procédé selon l'une des revendications 1 à 5, lorsque ces instructions sont exécutées par un processeur du dispositif de traitement.