FR3113537A1

FR3113537A1 - Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé

Info

Publication number: FR3113537A1
Application number: FR2008572A
Authority: FR
Inventors: Mounira RIGAUD-MAAZAOUI; Paul GAGNEUR
Original assignee: Faurecia Clarion Electronics Europe SAS
Current assignee: Faurecia Clarion Electronics Europe SAS
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2022-02-25
Anticipated expiration: 2040-08-19
Also published as: FR3113537B1

Abstract

Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé L’invention concerne un procédé de réduction du bruit dans un signal audio apte à être reçu par M microphones (16) sous forme de M signaux acquis. Le signal audio comprend au moins un bruit () et une partie vocale (). Le procédé comprend les étapes suivantes : - traitement (110) des signaux acquis par transformée de Fourier des signaux acquis pour obtenir M signaux fréquentiels, - estimation (150) de densités spectrales de puissance () et () respectives à la partie vocale () et au bruit (, - calcul (160) de rapports signal sur bruit a posteriori () et a priori (), - calcul (170) d’un gain OM-LSA () à partir des rapports signal sur bruit a posteriori () et a priori (), - application (200) du gain OM-LSA () à un signal représentatif des signaux fréquentiels pour obtenir un signal audio estimé () moins bruité que le signal audio. Figure pour l'abrégé : Figure 2

Description

Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé

L’invention concerne un procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit et une partie vocale, et étant apte à être reçu par plusieurs microphones, le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit.

La présente invention concerne également un dispositif électronique de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit une partie vocale et étant apte à être reçu par plusieurs microphones.

La présente invention concerne aussi un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé de réduction du bruit.

L’invention concerne le domaine des systèmes de traitement de signal audio comportant une partie vocale et du bruit. L’invention concerne en particulier le domaine des systèmes de traitement de signal audio destinés à être embarqués à bord d’un véhicule de transport de passagers, en particulier à bord de véhicules automobiles.

On connaît du document US 7953596 B2 un dispositif électronique de réduction du bruit du type précité. Ce document décrit un procédé et un système de traitement d’un signal audio bruité comprenant une partie vocale, pour la réduction du bruit dans le signal audio. Dans ce but, le procédé effectue une analyse de cohérence temporelle du signal audio bruité, afin de déterminer un signal de référence dont la partie vocale est atténuée. Ce signal de référence est alors utilisé, en combinaison avec le signal audio bruité et un bruit permanent estimé, afin de calculer une probabilité d’absence de la partie vocale dans le signal audio. Cette probabilité d’absence de la partie vocale est ensuite prise en compte pour la détermination d’un gain OM-LSA, également appelé méthode à amplitude log-spectrale modifiée optimisée (de l’anglaisOptimally Modified Log-Spectral Amplitude). Ce gain est alors appliqué au signal audio bruité afin de réduire l’amplitude de la composante de bruit, sans atténuer l’amplitude de la partie vocale.

Cependant, la réduction du bruit n’est pas toujours optimale.

Le but de l’invention est donc de proposer un dispositif électronique et un procédé associé de réduction du bruit dans un signal audio comportant une partie vocale permettant une meilleure atténuation du bruit, en tirant profit de la diversité spatiale de l’acquisition du signal audio par plusieurs microphones.

A cet effet, l’invention a pour objet un procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit et une partie vocale le signal audio étant apte à être reçu par M microphones sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2,

le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit dans un signal audio et comprenant les étapes suivantes :

- traitement des signaux acquis avec application d’une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ) où est un indice fréquentiel et est un indice de trame temporelle,

- estimation d’une densité spectrale de puissance ( ) de la partie vocale ( ) et d’une densité spectrale de puissance ( ) du bruit ( à partir de signaux représentatifs des signaux fréquentiels,

- calcul d’un rapport signal sur bruit a posteriori ( ) du signal audio et d’un rapport signal sur bruit a priori ( ) du signal audio, à partir des densités spectrales de puissance estimées,

- calcul d’un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ) et du rapport signal sur bruit a priori ( ),

- application du gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé ( ) comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ( ) ayant une plus faible amplitude que celle du bruit ( dans le signal audio.

Avec le procédé de réduction du bruit selon l’invention, la réduction du bruit est une réduction multicanale et nettement améliorée, car le gain OM-LSA est calculé à partir de signaux issus d’une acquisition multicanale.

Le signal obtenu en sortie du procédé comporte la partie vocale du signal audio et un bruit dont l’amplitude est bien plus faible quand dans le signal audio avant le traitement. Le bruit restant dans le signal délivré en sortie du procédé nuit donc moins à la compréhension de l’information contenue dans la partie vocale du signal audio. L’expérience de l’utilisateur est alors bien meilleure, notamment lorsqu’il souhaite avoir une conversation téléphonique en mode mains libres, ou encore émettre une instruction vocale à destination d’un système de reconnaissance vocale.

En complément facultatif, le procédé de réduction du bruit comprend une ou plusieurs des caractéristiques suivantes, prises isolément ou suivant toutes les combinaisons techniquement possibles :

- la partie vocale ( ) présente une probabilité ( ) de présence dans le signal audio, la probabilité ( ) étant estimée pour chaque indice fréquentiel et pour chaque indice de trame temporelle , et

lors de l’étape de calcul du gain OM-LSA, le gain OM-LSA ( ) est calculé à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ) et de la probabilité de présence ( ) de la partie vocale ( ),

- le procédé comprend, entre l’étape de calcul d’un gain OM-LSA et l’étape d’application, une étape de détermination d’un gain lissé à partir du gain OM-LSA et de la probabilité de présence de la partie vocale dans le signal audio,

ladite étape de détermination comportant :

- une transformation cepstrale du gain OM-LSA produisant un cepstre du gain OM-LSA ( ), où est un indice cepstral

- un calcul d’un cepstre lissé ( ) à partir du cepstre du gain OM-LSA ( ) et d’un coefficient de lissage dépendant de l’indice cepstral ( ), le coefficient de lissage étant dépendant de la probabilité ( ) de présence de la partie vocale ( ) dans le signal audio,

lors de l’étape d’application, le gain lissé étant alors appliqué à l’un des signaux représentatifs des signaux fréquentiels pour obtenir le signal audio estimé ( ),

- lors de l’étape de détermination, un indice cepstral vocale ( ) correspondant à une fréquence fondamentale de la partie vocale ( ) est estimé à partir de la probabilité ( ) de présence de la partie vocale ( ), le paramètre de lissage étant proche de 0 pour :

- les indices cepstraux inférieurs à un seuil cepstral, et

- pour les indices cepstraux ( ), ( ), et ( ),

le paramètre de lissage étant proche de 1 pour tout autres indices cepstraux,

- le procédé comprend en outre, entre l’étape de traitement et l’étape de d’estimation, une étape de détermination d’une direction d’arrivée ( ) de la partie vocale ( ) du signal audio, à partir des signaux fréquentiels ( ), et

dans lequel les signaux représentatifs des signaux fréquentiels ( ) comportent un signal spatialement filtré ( ) obtenu par application de filtres de formation de voies relatifs à la direction d’arrivée ( ) aux signaux fréquentiels ( ,

- les signaux représentatifs des signaux fréquentiels comportent M signaux en phase ( ) obtenus par application, à chacun des M signaux fréquentiels ( ), d’un délai de phase respectif, les délais de phase étant déterminés en fonction de la direction d’arrivée ( ) de la partie vocale ( ) du signal audio,

- lors de l’étape d’estimation, la densité spectrale de puissance ( ) de la partie vocale ( ) et la densité spectrale de puissance ( ) du bruit ( ) sont estimées à partir de M bruits de référence ( ), déterminés par application aux signaux en phase ( ), d’une matrice ( ) de blocage de la partie vocale ( ), la matrice de blocage ( ) dépendant du signal spatialement filtré ( ) et des M signaux en phase ( ),

- lors de l’étape d’estimation, une densité spectrale de puissance de l’ensemble des bruits de référence ( ) et une densité spectrale de l’ensemble des signaux en phase sont estimées ( ), puis la densité spectrale de puissance de la partie vocale ( ) et la densité spectrale de puissance du bruit ( ) sont chacune estimées à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble des signaux en phase ( ).

L’invention a aussi pour objet un produit programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé.

L’invention a également pour objet un dispositif électronique de réduction du bruit le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2, le dispositif étant apte à être connecté aux M microphones, le dispositif comprenant :

- un module de traitement configuré pour appliquer une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ), où est un indice fréquentiel et est un indice de trame temporelle,

- un module d’estimation configuré pour estimer une densité spectrale de puissances ( ) de la partie vocale ( ) et une densité spectrale de puissance ( ) du bruit ( ) à partir de signaux représentatifs des signaux fréquentiels ( ),

- un premier module de calcul configuré pour calculer un rapport signal sur bruit a posteriori ( ) du signal audio et un rapport signal sur bruit a priori ( ) du signal audio à partir des densités spectrales de puissance estimées,

- un deuxième module de calcul configuré pour calculer un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ), et

- un module d’application configuré pour appliquer le gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ayant une plus faible amplitude que celle du bruit ( dans le signal audio

Ces caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

la est une vue schématique d’un véhicule de transport de passagers comprenant une source de parole et un système de traitement de signaux audio, le système de traitement comportant M microphones et un dispositif électronique de réduction du bruit dans un signal audio,

la est un organigramme d’un procédé, selon l’invention, de réduction de bruit dans le signal audio, le procédé étant mis en œuvre par le dispositif électronique de réduction du bruit de la ,

la représente l’amplitude de deux signaux comportant une composante de parole intermittente, un gain OM-LSA étant appliqué à l’un des deux signaux,

la comporte trois spectrogrammes représentant l’amplitude de trois signaux respectifs en fonction du temps et de la fréquence à savoir, le signal audio en entrée du dispositif de réduction du bruit, un signal résultant d’un traitement dudit signal audio n’utilisant qu’un microphone et un signal résultant du traitement du signal audio via le procédé de réduction du bruit selon l’invention, et

la est une courbe du niveau de bruit en fonction de la fréquence, pour d’une part un signal audio traité par un procédé de réduction du bruit monocanal et, d’autre part, un signal audio traité par le procédé de réduction du bruit selon l’invention.

Sur la , un véhicule de transport de passagers 10 comprend une source de parole 12 et un système de traitement de signaux audio 14. Le véhicule de transport de passagers 10 est par exemple un véhicule automobile.

Le véhicule de transport de passagers 10 comprend un habitacle, non représenté, à l'intérieur duquel est disposé le système de traitement de signaux audio 14.

La source de parole 12 est par exemple une personne parlant à l’intérieur de l’habitacle. Le signal audio comprend au moins une partie vocale issue de la source de parole, et du bruit d’origine variée.

Le système de traitement de signaux audio 14 comporte M microphones 16, M étant un nombre entier supérieur ou égal à 2, et un dispositif de réduction du bruit 18 relié aux microphones 16.

Les M microphones 16 sont positionnés sous forme d’un réseau dans l’habitacle. La position des microphones 16 est connue, et la distance D entre les microphones est le résultat d’un compromis entre des effets de repliements de spectre en hautes fréquences et des performances du filtre de formation de voies en basses fréquence, associés à la fréquence d’échantillonnage des signaux.

La partie vocale du signal audio, présente une direction d’arrivée par rapport au réseau de microphones 16 et une probabilité de présence dans le signal audio. Les microphones 16 sont chacun configurés pour acquérir le signal audio, résultant en M signaux acquis ( ) , étant un indice temporel discret.

Le dispositif électronique de réduction du bruit 18 est configuré pour réduire l’amplitude du bruit dans le signal audio, ceci en altérant le moins possible la partie vocale .

Le dispositif électronique de réduction du bruit 18 comporte une unité de traitement amont 20 configurée pour déterminer, à partir des M signaux audio, M signaux fréquentiels. L’unité de traitement amont 20 est optionnellement configurée pour déterminer, à partir de M signaux audio, un signal spatialement filtré et M signaux en phase ( ), désignant un indice fréquentiel et est un indice de trame temporelle. Chaque trame temporelle correspond à une section temporelle d’un signal respectif, dont au moins une partie est contenue dans la trame temporelle précédente et/ou dans la trame temporelle suivante. Le dispositif électronique de réduction du bruit 18 comporte facultativement un module 22 de détection d’une activité vocale dans le signal audio.

L’homme du métier notera que, de manière générale et dans toute la description, les indices et notés sous forme de doublet (ou couple) entre parenthèses, comme par exemple dans le signal en phase , ne désignent ni une colonne, ni une ligne d’une quelconque matrice, mais indiquent que la variable ou grandeur associée à ce doublet est celle pour l’indice fréquentiel et l’indice de trame temporelle .

Le dispositif de réduction du bruit 18 comporte un module 24 d’estimation de densités spectrales de puissance, un premier module 26 de calcul de rapports signal sur bruit, un second module 28 de calcul d’un gain OM-LSA , et un premier module 32 d’application du gain OM-LSA au signal spatialement filtré .

En complément facultatif, le dispositif de réduction du bruit 18 comporte un premier module 30 de détermination d’un gain lissé et un module de traitement aval 34 configuré pour effectuer une transformée de Fourier inverse. Selon ce complément facultatif, le premier module d’application 32 est alors configuré pour appliquer le gain lissé au signal spatialement filtré .

L’unité de traitement amont 20 comporte un module de traitement amont 36 configuré pour recevoir et appliquer une transformée de Fourier aux signaux audio . L’unité de traitement amont 20 comporte optionnellement un deuxième module 38 de détermination de la direction d’arrivée de la partie vocale du signal audio, un troisième module 40 de détermination du signal spatialement filtré , et un deuxième module 42 d’application de délais de phase aux signaux acquis issus du module 36, pour produire les M signaux en phase ( ). L’unité de traitement amont 20, est apte à être connectée aux microphones 16.

Le module de détection 22 est connecté en sortie de l’unité de traitement amont 20, et plus particulièrement en sortie du troisième module de détermination 40. Le module de détection 22 est configuré pour détecter l’activité vocale dans le signal audio. Le module de détection 22 est aussi configuré pour estimer la probabilité de présence de la partie vocale dans le signal audio. Le module de détection 22 est par exemple apte à recevoir le signal spatialement filtré en entrée, puis à estimer la probabilité de présence de la partie vocale à partir dudit signal spatialement filtré .

En variante, le module de détection 22 est apte à recevoir au moins une information d’un capteur vidéo et à détecter la présence de la partie vocale à partir de cette ou ces information(s) selon l’indice de trame temporelle . Le module de détection 22 est alors configuré pour estimer la probabilité de présence de la partie vocale selon l’indice fréquentiel à partir du signal spatialement filtré .

Le module d’estimation 24 est connecté en sortie de l’unité de traitement amont 20 lorsqu’elle est présente, plus particulièrement en sortie du troisième module de détermination 40 et du deuxième module d’application 42. Le module d’estimation 24 est aussi connecté en sortie du module de détection 22 lorsqu’il est présent. Le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de la partie vocale et une densité spectrale de puissance du bruit à partir de signaux représentatifs des M signaux fréquentiels. A partir des signaux en phase ( ) et du signal spatialement filtré , le module d’estimation 24 est avantageusement configuré pour estimer, une pluralité de bruits de référence ( ). Les bruits de référence correspondent chacun aux bruits dans un canal respectif, ne provenant pas de la direction d’arrivée de la partie vocale . Chacun des bruits de référence est estimé selon formule suivante :

où sont des coefficients complexes à déterminer.

Les coefficients sont déterminés de telle sorte que les signaux et soient en phase et que la partie vocale soit la plus atténuée possible dans les bruits de référence ( ). Autrement dit, les bruits de référence ( ) correspondent aux bruits dans chacun des canaux après traitement spatial. Plus particulièrement, chaque bruit de référence ( ) est exprimé comme une combinaison linéaire des signaux en phase, telle que

où est un vecteur comprenant l’ensemble des bruits de référence ( ),

est un vecteur comprenant l’ensemble des signaux en phase ( ), et

est une matrice de blocage (de l’anglaisblocking matrix). La matrice de blocage est destinée à limiter l’amplitude de la partie vocale dans les bruits de référence ( ).

L’homme du métier notera que l’indice de positionnement, dans le vecteur de chaque signal en phase est le nombre entier compris entre 0 et M-1, ce vecteur comportant M composantes. Cette notation indicielle de chaque composante de vecteur est également utilisée pour tous les autres vecteurs de la description.

Les coefficients de la matrice de blocage sont estimés par application d’un algorithme à erreur quadratique minimale normalisée, lorsque la probabilité de présence de la partie vocale est supérieure à un premier seuil.

A partir des bruits de référence préalablement estimés, le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de l’ensemble des bruits de référence ( ) organisés en vecteur colonne et une densité spectrale de puissance de l’ensemble des signaux en phase ( ), de la manière suivante

L’homme du métier reconnaitra que , respectivement , désigne le complexe conjugué transposé du vecteur , respectivement .

Enfin, le module d’estimation 24 est configuré pour estimer une densité spectrale de puissance de la partie vocale et une densité spectrale de puissance du bruit , à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble signaux en phase ( ), selon les équations suivantes

où et sont des premier et deuxième coefficients à déterminer.

Le module d’estimation 24 est configuré pour déterminer les premier et deuxième coefficients et lorsque la probabilité de présence de la partie vocale dans le signal audio est inférieure à un deuxième seuil. Ainsi, lorsque la partie vocale est absente du signal audio, la densité spectrale de puissance de la partie vocale est nulle.

En complément facultatif, le module d’estimation 24 est alors configuré pour estimer le premier coefficient comme coefficient de passage du bruit au niveau des microphones 16 au bruit présent dans le signal spatialement filtré . Suivant la même condition sur la partie vocale , le module d’estimation 24 est configuré pour estimer le deuxième coefficient de telle sorte que la densité spectrale de puissance de l’ensemble des signaux en phase ( ) et la densité spectrale de puissance de l’ensemble des bruits de référence ( ) soient égales.

L’homme du métier pourra noter que, dans la mesure où la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance du bruit sont estimées à partir de signaux tirant profit de la diversité spatiale des microphones 16, le module d’estimation est configuré pour effectuer une estimation spatiale.

Le premier module de calcul 26 est connecté en sortie du module d’estimation 24 et en entrée du deuxième module de calcul 28. Le premier module de calcul 26 est configuré pour calculer un rapport signal sur bruit a posteriori à partir de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit , selon la formule suivante :

Le premier module de calcul 26 est aussi configuré pour calculer un rapport signal sur bruit a priori . Le rapport signal sur bruit a priori correspond à une version lissée du rapport signal sur bruit a posteriori , prenant en considération le gain calculé par le deuxième module de calcul 28 à l’indice de trame temporelle précédent . Le premier module de calcul 26 est configuré pour calculer le rapport signal sur bruit a priori selon la formule suivante :

où le coefficient est un coefficient de lissage prédéfini, généralement compris entre 0 et 1 ;

le gain désigne une partie d’un gain OM-LSA, calculé par le deuxième module de calcul 28, présenté ci-après, à l’indice fréquentiel et l’indice de trame temporelle .

Autrement dit, est une partie du gain OM-LSA calculé à l’itération temporelle précédente.

Le deuxième module de calcul 28 est connecté en sortie du premier module de calcul 26, et connecté en sortie du module de détection 22 lorsqu’il est présent. Le deuxième module de calcul 28 est configuré pour calculer le gain OM-LSA , en appliquant l’algorithme OM-LSA, également appelé algorithme à amplitude log-spectrale modifiée optimisée (de l’anglaisOptimally Modified Log-Spectral Amplitude). Le deuxième module de calcul 28 est configuré pour calculer le gain OM-LSA selon la forme suivante :

où est un gain minimum prédéfini et constant,

est la probabilité de présence de la partie vocale dans le signal audio, et

est un gain variable.

Le deuxième module 28 de calcul est configuré pour calculer le gain variable à partir du rapport signal sur bruit a posteriori et du rapport signal sur bruit a priori , selon l’équation suivante :

avec

où désigne la fonction exponentielle.

Le premier module de détermination 30 est connecté en sortie du deuxième module de calcul 28 et aussi en sortie du module de détection 22. Le premier module de détermination 30 est configuré pour déterminer un gain lissé à partir du gain OM-LSA , tel que décrit dans l’article «Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise» de C. Breithaupt publié le 12 décembre 2007 au volume 14 numéro 12 deIEEE Signal Processing Letters. Pour ce faire, le premier module de détermination 30 est configuré pour calculer le cepstre du gain OM-LSA Cette opération correspond à l’application d’une transformée de Fourier inverse au logarithme du gain OM-LSA . Autrement dit, le premier module de détermination 30 est configuré pour effectuer la transformée cepstrale du gain OM-LSA selon la formule suivante :

où correspond à la transformée de Fourier discrète inverse (de l’anglais, Inverse Discrete Fourier Transform),

est un indice du domaine cepstral, aussi nommé par la suite indice cepstral, et

est un cepstre du gain OM-LSA .

Par suite, le premier module de détermination 30 est configuré pour déterminer un cepstre lissé , à partir de l’équation récurrente suivante :

où est un paramètre de lissage dépendant de l’indice du domaine cepstral .

Ainsi pour les premiers indices cepstraux , le paramètre de lissage correspondant est faible. Les premiers indices cepstraux sont compris ici comme les indices cepstraux inférieurs à un seuil cepstral prédéterminés.

Le premier module de détermination 30 est configuré pour déterminer un indice cepstral vocale correspondant à une fréquence fondamentale de la partie vocale dans les trames temporelles où la partie vocale est présente. Une présence ou absence de la partie vocale , dans une trame temporelle respective, est déterminée par la probabilité de présence de la partie vocale dans le signal audio. Le paramètre de lissage est faible pour les indices cepstraux égaux à : , , et afin de préserver le contenu voisé de la partie vocale .

Autrement dit, pour tous les indices cepstraux pour lesquelles la probabilité de présence de la partie vocale est faible, le gain correspondant est proche de 1.

Enfin, le premier module de détermination 30 est configuré pour déterminer un gain lissé à partir du cepstre lissé , par application d’une transformée cepstrale inverse. Autrement dit, le troisième module de détermination 38 est configuré pour déterminer un gain lissé , avec la formule :

où correspond à la transformée de Fourier discrète (de l’anglais,Discrete Fourier Transform).

Le premier module d’application 32 est connecté en sortie du premier module de détermination 30 et en sortie de l’unité de traitement amont 30. Plus précisément, le premier module d’application 32 est par exemple connecté en sortie du troisième module de détermination 40. Le premier module d’application 32 est configuré pour appliquer un gain issu du premier module de détermination 30 au signal spatialement filtré pour obtenir un signal audio estimé .

Le module de traitement aval 34 est connecté en sortie du premier module d’application 32. Le module de traitement aval 34 est configuré pour appliquer une transformée de Fourier inverse au signal audio estimé afin d’obtenir un signal audio temporel estimé . Le module de traitement aval 34 est avantageusement configuré pour appliquer une transformée de Fourier à court terme inverse au signal audio estimé .

Le module de traitement amont 36 est apte à être connecté aux microphones 16. Le module de traitement amont 36 est configuré pour recevoir M signaux acquis ( ) et leur appliquer une transformée de Fourier. Les signaux acquis appartenant au domaine discret, la transformée de Fourier est avantageusement une transformée de Fourier à court terme. Le module de traitement fréquentiel amont est alors configuré pour fournir en sortie M signaux fréquentiels ( ).

Le deuxième module de détermination 38 est connecté en sortie du module de traitement amont 36. Le deuxième module de détermination 38 est configuré pour déterminer la direction d’arrivée de la partie vocale dans le signal audio. Cette détermination est, par exemple, réalisée par maximisation de l’énergie reçue selon différentes directions ciblées. Afin de ne sélectionner que le signal provenant d’une direction ciblée , le deuxième module de détermination 38 est, par exemple, configuré pour filtrer chacun des signaux fréquentiels ( ) avec un gain spatial respectif, variant de 0 à M-1, par exemple selon la formule :

où est une matrice de cohérence d’un bruit diffus, ce qui est une approximation réaliste du bruit dans l’habitacle, et

est un vecteur directionnel vers la direction ciblée .

Le deuxième module de détermination 38 est configuré pour additionner les signaux résultant de l’application à chaque signal fréquentiel du gain spatial respectif pour obtenir un signal spatialement orienté vers la direction ciblée vérifiant la formule suivante :

où ,

, et

désigne un vecteur complexe conjugué du vecteur .

Le deuxième module de détermination 38 est configuré pour déterminer la direction d’arrivée de la partie vocale dans le signal audio, comme étant la direction ciblée pour laquelle l’énergie du signal spatialement orienté est maximale.

Le troisième module de détermination 40 est connecté en sortie du deuxième module de détermination 38 et en sortie du module de traitement amont 36. Le troisième module de détermination 40 est configuré pour calculer les filtres spatiaux ( ) tels que ceux définis par l’équation [Math 12], avec la direction d’arrivée de la partie vocale dans le signal audio comme direction ciblée . Le troisième module de détermination 40 est configuré pour déterminer le signal spatialement filtré par application, à chacun des signaux fréquentiels ( ) du gain spatial respectif et par addition des signaux obtenus après application des filtres spatiaux. La détermination du signal spatialement filtré est aussi connu sous le nom de formation de voies (de l’anglaisbeamforming).

Le deuxième module d’application 42 est connecté en sortie du deuxième module de détermination 38 et en sortie du module de traitement amont 36. Le deuxième module d’application 42 est configuré pour appliquer à chacun des signaux fréquentiels ( ) un délai de phase respectif de manière à obtenir les M signaux en phase ( ). En effet, de par la géométrie du réseau de microphones 16 et la direction d’arrivée , la partie vocale du signal audio n’atteint pas nécessairement chacun des microphones 16 au même instant temporel. Afin d’assurer la cohérence des signaux dans chacun des canaux, il est alors avantageux d’appliquer un délai de phase respectif à chacun des signaux fréquentiels ( ). Chacun de ces délais de phase est calculé à partir de la direction d’arrivée de la partie vocale dans le signal audio.

Le fonctionnement du système de traitement de signaux audio 14, et en particulier du dispositif électronique de réduction du bruit 18 selon l’invention, va être à présent décrit en regard de la figure 2 représentant un organigramme du procédé, selon l’invention, de réduction du bruit dans le signal audio comprenant au moins la partie vocale et du bruit , le procédé étant mis en œuvre par le dispositif électronique de réduction du bruit 18.

Lors de l’étape initiale 100, le dispositif de réduction du bruit 18 reçoit, via le module de traitement amont 36, les M signaux acquis ( ).

Lors d’une étape suivante 110, le dispositif de réduction du bruit 18 applique, via son module de traitement amont 36, une transformée de Fourier aux M signaux acquis ( ), produisant les M signaux fréquentiels ( ). L’obtention des signaux fréquentiels est préférentiellement réalisée par une transformée de Fourier à court terme.

Lors d’une étape suivante 120 optionnelle, le dispositif de réduction du bruit 18 détermine la direction d’arrivée de la partie vocale du signal audio, via son deuxième module de détermination 38. Cette détermination est effectuée en choisissant la direction d’arrivée maximisant l’énergie reçue. Pour cela, pour la direction ciblée , le gain spatial , variant de 0 à M-1, est calculé, par exemple via l’équation [Math 12]. Le signal spatialement orienté est déterminé à partir de l’application à chacun des signaux fréquentiels du gain spatial respectif, puis l’addition des signaux résultants de l’application des gains spatiaux. La direction d’arrivée de la partie vocale dans le signal audio est déterminée par maximisation sur la direction ciblée de l’énergie du signal spatialement orienté .

Le dispositif de réduction du bruit 18 passe ensuite aux étapes 130 et 135 optionnelles.

Lors de l’étape 130, le dispositif de réduction du bruit 18 détermine le signal spatialement filtré , via son troisième module de détermination 40, à partir des signaux fréquentiels ( ) et de la direction d’arrivée de la partie vocale dans le signal audio. Le dispositif de réduction du bruit 18 détermine alors le signal spatialement filtré comme étant le signal spatialement orienté vers la direction d’arrivée . Le signal spatialement filtré est par exemple déterminé par application de l’équation (14) avec la direction d’arrivée comme direction ciblée pour le calcul des gains spatiaux.

Lors de l’étape 135, le dispositif de réduction du bruit 18 applique, via son troisième module d‘application 42, un délai de phase respectif à chacun des signaux fréquentiels de manière à obtenir les M signaux en phase ( ).

Lors d’une étape suivante 140 optionnelle, le dispositif de réduction du bruit 18 détecte, via son module de détection 22, une activité vocale. Le module de détection 28 estime par exemple la probabilité de présence de la partie vocale dans le signal audio. Cette détection est avantageusement réalisée à partir du signal spatialement filtré . En variante, La détection d’activité vocale peut être améliorée par un algorithme de reconnaissance d’images.

Le dispositif de réduction du bruit 18 estime ensuite, lors de l’étape 150, la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance , du bruit , via son module d’estimation 24, à partir des bruits de référence ( ), du signal spatialement filtré et des signaux en phase ( ).

Les bruits de référence ( ) sont estimés à partir des signaux en phase ( ) et du signal spatialement filtré via la matrice de blocage . L’estimation des bruits de référence ( ) est, par exemple réalisée, selon les équations (1) et (2).

Ensuite, toujours lors de l’étape 150, le dispositif de réduction du bruit 18 estime, via le module d’estimation 24, une densité de puissance de l’ensemble des bruits de référence ( ) et une densité de puissance de l’ensemble des signaux en phase ( ), par exemple via l’équation (3). Enfin, le module d’estimation 24, estime la densité spectrale de puissance de la partie vocale et la densité spectrale de puissance du bruit à l’aide des premier et deuxième coefficients et , par exemple selon l’équation (4).

En complément facultatif, lors de l’étape 150, si la probabilité de présence de la partie vocale dans le signal audio est supérieure au premier seuil, les coefficients de la matrice de blocage sont adaptés de manière à obtenir l’ensemble de bruits de référence ( ) dans lequel l’amplitude de la partie vocale est réduite au minimum.

En complément facultatif, lors de l’étape 150, si la probabilité de présence de la partie vocale dans le signal audio est inférieure au second seuil, le deuxième coefficient est estimé de manière à ce que la densité spectrale de puissance de l’ensemble des bruits de références ( ) corresponde à la densité spectrale de puissance de l’ensemble des signaux en phase ( ). De même, le premier coefficient est estimé de manière à ce que la densité spectrale de puissance de l’ensemble des bruits de références ( ) corresponde à la densité spectrale de puissance du signal spatialement filtré .

Le dispositif de réduction du bruit 18 calcule ensuite, lors de l’étape 160 et via son premier module de calcul 26, le rapport signal sur bruit a posteriori et le rapport signal sur bruit a priori . Le calcul du rapport signal sur bruit a posteriori est effectué à partir de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit , préalablement estimées lors de l’étape 150. Ce calcul est réalisé, par exemple, à l’aide de l’équation (5). Le calcul du rapport signal sur bruit a priori est quant à lui, effectué à partir du rapport signal sur bruit a posteriori de l’indice de trame temporelle en cours , du rapport signal sur bruit a posteriori de l’indice de trame temporelle précédent , d’un coefficient prédéfini de lissage , et d’une partie du gain calculé lors de l’étape 170 à la trame précédent . Le rapport signal sur bruit a priori est par exemple calculé suivant l’équation (6).

Le dispositif de réduction du bruit 18 calcule ensuite, lors de l’étape 170 et via son deuxième module de calcul 28, le gain OM-LSA à partir du rapport signal sur bruit a posteriori , du rapport signal sur bruit a priori et de la probabilité de présence de la partie vocale dans le signal audio.

Le gain OM-LSA , comporte préférentiellement et comme présenté dans l’équation (7) un gain minimum constant prédéfini, idéalement appliqué lorsque le signal audio ne comporte pas de partie vocale. Le gain OM-LSA comporte également le gain variable calculé, par exemple, selon l’équation (8). Ce gain variable est idéalement appliqué uniquement lorsque le signal audio comporte une partie vocale d’amplitude non-nulle.

Le dispositif de réduction du bruit 18 passe ensuite à l’étape 180 lors de laquelle il détermine un gain lissé via son premier module de détermination 30, à partir du gain OM-LSA et le probabilité de présence de la partie vocale dans le signal audio.

Pour ce faire, le procédé calcul le cepstre du gain OM-LSA selon l’équation (9). Le procédé détermine ensuite un cepstre lissé à partir du cepstre du gain OM-LSA selon l’équation (10). Le paramètre de lissage varie entre 0 et 1 en fonction de l’indice cepstral de manière à accroître le lissage pour les indices fréquentiels et temporels dans lesquels la partie vocale n’est pas présente dans le signal audio. La valeur de est donc déterminée à partir, ou en tenant compte, de la probabilité de présence de la partie vocale dans le signal audio. Le dispositif de réduction du bruit 18 passe alors à une étape suivante 200.

Lors de l’étape 200, le dispositif de réduction du bruit 18 applique, via son deuxième module d’application 40, au signal spatialement filtré , le gain lissé fourni afin d’obtenir un signal audio estimé .

Le signal audio estimé comporte la partie vocale du signal audio et un bruit rémanent . L’amplitude du bruit rémanent est alors nettement plus faible que celle du bruit dans le signal audio en entrée du dispositif de réduction du bruit 18.

A l’issue de l’étape 200, le dispositif de réduction du bruit 18 traite, via son module de traitement aval 42 et lors d’une étape 210, le signal audio estimé par transformée de Fourier inverse pour obtenir un signal audio temporel estimé . La transformée de Fourier inverse est avantageusement une transformée de Fourier à court terme inverse.

Le traitement réalisé par l’unité de traitement amont 20 tire profit de l’acquisition multicanale du signal audio. Ce traitement permet, à partir de plusieurs signaux acquis ( ), de déterminer un signal spatialement filtré dont l’amplitude du bruit restant est plus faible que dans chacun des signaux acquis.

La détermination du signal spatialement filtré et l’utilisation des signaux fréquentiels alignés en phase ( ) permettent une meilleure estimation de la densité spectrale de puissance de la partie vocale et de la densité spectrale de puissance du bruit . Cette meilleure estimation conduit via le rapport signal sur bruit a priori et le rapport signal sur bruit a posteriori , au calcul d’un gain OM-LSA plus adapté au traitement du signal audio.

La est une schématisation de l’effet du gain OM-LSA sur un signal bruité (signal 300 en trait plein). En effet, le niveau de bruit est nettement plus faible grâce à l’algorithme OM-LSA (signal 310 en trait pointillé). De plus, la partie vocale est mise en exergue grâce au traitement OM-LSA.

La montre le résultat d’un essai réalisé au sein d’un véhicule automobile à une vitesse de 250km/h avec une partie vocale émise dans l’habitacle du véhicule. La comporte 3 spectrogrammes du signal audio selon les traitements qui lui sont appliqués. Chaque spectrogramme représente l’amplitude d’un signal en fonction d’un temps sur l’axe horizontal et d’une fréquence sur l’axe vertical. Le temps est compté en numérotation d’échantillons temporels successifs. L’amplitude du signal est représentée en niveau de gris, avec la convention que plus l’amplitude est faible, plus le ton est sombre, et corollairement plus l’amplitude est élevée, plus le ton est clair.

Sur chacune des vues, pour une même plage d’échantillons temporels, un même motif clair est visible à différentes fréquences. Ce motif représente une partie vocale . L’homme du métier reconnaitra alors que la présence de la partie vocale à plusieurs fréquences est liée aux différentes harmoniques de la voix. Le fond sombre de chaque spectrogramme correspond au bruit .

Ainsi, un critère de comparaison entre les différentes vues, en termes de rapport signal sur bruit, est la capacité à distinguer les motifs clairs parmi le fond sombre.

La vue 400 est un spectrogramme du signal audio en entrée du dispositif de réduction du bruit 18, la vue 410 est un spectrogramme du signal audio traité par un procédé monocanal similaire à celui du document US 7953596 B2 de l’état de la technique, et la vue 420 est un spectrogramme du même signal audio traité par le procédé selon l’invention.

La figure 4 montre alors que le signal audio en entrée du dispositif de réduction du bruit 18 est fortement bruité, le bruit et la partie vocale ayant des amplitudes très similaires, puisqu’ils sont représentés par des nuances de gris très proches sur la vue 410. La distinction entre le bruit et la partie vocale est alors difficile, et le rapport signal sur bruit, c’est-à-dire partie vocale sur bruit, est faible.

La vue 420 illustre l’amélioration de la qualité du signal après traitement par un procédé analogue à celui de l’état de la technique. En effet, le bruit est atténué, sa représentation est plus sombre tandis que la représentation de la partie vocale est plus claire donnant plus de contraste au spectrogramme. Ceci se traduit en pratique par une meilleure capacité à distinguer la partie vocale du bruit dans le signal audio, et donc par un meilleur rapport signal sur bruit. Certaines harmoniques de la partie vocale restent néanmoins difficiles à distinguer du bruit, notamment pour une plage d’échantillons temporels comprise entre 520 et 550 et une fréquence comprise 3200 Hz et 3800 Hz.

La vue 430 démontre l’amélioration liée au procédé selon l’invention dans la réduction du bruit vis-à-vis de celui de l’état de la technique. En effet, le bruit est fortement atténué, sa représentation est presque noire alors que la partie vocale est mise en exergue. Le rapport signal sur bruit est donc encore amélioré. Ainsi, le contraste est bien meilleur que dans les vues 410 et 420. En effet, certaines harmoniques de la partie vocale indétectables dans la vue 420, le sont sur la vue 430.

La représente des courbes 500 et 510 du niveau de bruit résiduel après la réduction de bruit, dans les mêmes conditions que celles de la . Un signal audio comprend une partie utile dont la fréquence varie entre 100 Hz et 10 kHz, et du bruit dû à l’environnement du véhicule. Ce signal audio est traité, par un procédé analogue à celui du document US 7953596 B2 de l’état de la technique illustré via la courbe 510 en trait gras, et par le procédé selon l’invention illustré via la courbe en trait plein 500. Le résultat montre que l’atténuation du bruit est systématiquement meilleure avec le procédé selon l’invention pour des fréquences supérieures à 200 Hz. Ainsi l’atténuation du bruit est nettement meilleure pour toutes les fréquences du spectre de la parole.

En complément facultatif, la détermination de la direction d’arrivée est réalisée tout au long du procédé, et permet alors de prendre en compte plusieurs sources de parole dans l’habitacle, ou une source de parole mobile.

En complément facultatif, la réévaluation des coefficients de la matrice de blocage et des premier et deuxième coefficients et permet au gain OM-LSA de s’adapter au bruit dont la fréquence et l’amplitude sont susceptibles de fortement varier au cours du temps.

La détermination d’un gain lissé par le premier module de détermination 30 permet de prévenir du bruit musical susceptible d’apparaître lorsque la réduction du bruit est trop forte.

La détermination d’un gain lissé par le premier module de détermination 30 par utilisation de la transformée cepstrale permet de conserver le timbre de la partie vocale fournissant ainsi une meilleure expérience utilisateur.

On conçoit que le dispositif électronique de réduction du bruit 18, et le procédé de réduction du bruit associé, permettent une meilleure atténuation du bruit que les dispositifs et procédés de l’état de la technique, en tirant profit de l’acquisition du signal audio par plusieurs microphones 16.

Claims

Procédé de réduction du bruit dans un signal audio, le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones (16) sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2,
le procédé étant mis en œuvre par un dispositif électronique de réduction du bruit dans un signal audio (18) et comprenant les étapes suivantes :
- traitement (110) des signaux acquis avec application d’une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ) où est un indice fréquentiel et est un indice de trame temporelle,
- estimation (150) d’une densité spectrale de puissance ( ) de la partie vocale ( ) et d’une densité spectrale de puissance ( ) du bruit ( à partir de signaux représentatifs des signaux fréquentiels,
- calcul (160) d’un rapport signal sur bruit a posteriori ( ) du signal audio et d’un rapport signal sur bruit a priori ( ) du signal audio, à partir des densités spectrales de puissance estimées,
- calcul (170) d’un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ) et du rapport signal sur bruit a priori ( ),
- application (200) du gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé ( ) comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ( ) ayant une plus faible amplitude que celle du bruit ( dans le signal audio.
Procédé selon la revendication 1, dans lequel la partie vocale ( ) présente une probabilité ( ) de présence dans le signal audio, la probabilité ( ) étant estimée pour chaque indice fréquentiel et pour chaque indice de trame temporelle , et
lors de l’étape de calcul (170) du gain OM-LSA, le gain OM-LSA ( ) est calculé à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ) et de la probabilité de présence ( ) de la partie vocale ( ).
Procédé selon la revendication 2, dans lequel le procédé comprend, entre l’étape de calcul (170) d’un gain OM-LSA et l’étape d’application (200), une étape (190) de détermination d’un gain lissé à partir du gain OM-LSA et de la probabilité de présence ( ) de la partie vocale dans le signal audio,
ladite étape de détermination (190) comportant :
- une transformation cepstrale du gain OM-LSA produisant un cepstre du gain OM-LSA ( ), où est un indice cepstral,
- un calcul d’un cepstre lissé ( ) à partir du cepstre du gain OM-LSA ( ) et d’un coefficient de lissage dépendant de l’indice cepstral ( ), le coefficient de lissage étant dépendant de la probabilité ( ) de présence de la partie vocale ( ) dans le signal audio,
lors de l’étape d’application (200), le gain lissé étant alors appliqué à l’un des signaux représentatifs des signaux fréquentiels pour obtenir le signal audio estimé ( ).
Procédé selon la revendication 3, dans lequel lors de l’étape de détermination (190), un indice cepstrale vocale ( ) correspondant à une fréquence fondamentale de la partie vocale ( ) est estimé à partir de la probabilité ( ) de présence de la partie vocale ( ), le paramètre de lissage étant proche de 0 pour :
- les indices cepstraux inférieurs à un seuil cepstral, et
- pour les indices cepstraux ( ), ( ), et ( ),
le paramètre de lissage étant proche de 1 pour tout autres indices cepstraux.
Procédé selon l’une quelconque des revendications précédentes, dans lequel le procédé comprend en outre, entre l’étape de traitement (110) et l’étape de d’estimation (150), une étape de détermination (120) d’une direction d’arrivée ( ) de la partie vocale ( ) du signal audio, à partir des signaux fréquentiels ( ), et
dans lequel les signaux représentatifs des signaux fréquentiels ( ) comportent un signal spatialement filtré ( ) obtenu par application de filtres de formation de voies relatifs à la direction d’arrivée ( ) aux signaux fréquentiels ( .
Procédé selon la revendication 5, dans lequel les signaux représentatifs des signaux fréquentiels comportent M signaux en phase ( ) obtenus par application, à chacun des M signaux fréquentiels ( ), d’un délai de phase respectif, les délais de phase étant déterminés en fonction de la direction d’arrivée ( ) de la partie vocale ( ) du signal audio.
Procédé selon la revendication 6, dans lequel, lors de l’étape d’estimation, la densité spectrale de puissance ( ) de la partie vocale ( ) et la densité spectrale de puissance ( ) du bruit ( ) sont estimées à partir de M bruits de référence ( ), déterminés par application aux signaux en phase ( ), d’une matrice ( ) de blocage de la partie vocale ( ), la matrice de blocage ( ) dépendant du signal spatialement filtré ( ) et des M signaux en phase ( ).
Procédé selon la revendication 7, dans lequel, lors de l’étape d’estimation (150), une densité spectrale de puissance de l’ensemble des bruits de référence ( ) et une densité spectrale de l’ensemble des signaux en phase sont estimées ( ), puis la densité spectrale de puissance de la partie vocale ( ) et la densité spectrale de puissance du bruit ( ) sont chacune estimées à partir de la densité spectrale de puissance de l’ensemble des bruits de référence ( ) et de la densité spectrale de puissance de l’ensemble des signaux en phase ( ).
Programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé selon l’une quelconque des revendications précédentes.
Dispositif électronique de réduction du bruit (18) dans un signal audio, le signal audio comprenant au moins un bruit ( ) et une partie vocale ( ), le signal audio étant apte à être reçu par M microphones (16) sous forme de M signaux acquis ( ), où est un indice temporel discret et M est un nombre entier supérieur ou égal à 2, le dispositif (18) étant apte à être connecté aux M microphones (16), le dispositif (18) comprenant :
- un module de traitement (36) configuré pour appliquer une transformée de Fourier aux signaux acquis ( ) pour obtenir M signaux fréquentiels ( ), où est un indice fréquentiel et est un indice de trame temporelle,
- un module d’estimation (24) configuré pour estimer une densité spectrale de puissances ( ) de la partie vocale ( ) et une densité spectrale de puissance ( ) du bruit ( ) à partir de signaux représentatifs des signaux fréquentiels ( ),
- un premier module de calcul (26) configuré pour calculer un rapport signal sur bruit a posteriori ( ) du signal audio et un rapport signal sur bruit a priori ( ) du signal audio à partir des densités spectrales de puissance estimées,
- un deuxième module de calcul (28) configuré pour calculer un gain OM-LSA ( ) à partir du rapport signal sur bruit a posteriori ( ), du rapport signal sur bruit a priori ( ), et
- un module d’application (32) configuré pour appliquer le gain OM-LSA ( ) à un des signaux représentatifs des signaux fréquentiels ( ) pour obtenir un signal audio estimé ( ), le signal audio estimé comportant la partie vocale ( ) du signal audio et un bruit rémanent ( , le bruit rémanent ayant une plus faible amplitude que celle du bruit ( dans le signal audio.