EP1970894A1

EP1970894A1 - Procédé et dispositif de modification d'un signal audio

Info

Publication number: EP1970894A1
Application number: EP08151708A
Authority: EP
Inventors: Olivier Rosec; Didier Cadic
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2007-03-12
Filing date: 2008-02-20
Publication date: 2008-09-17
Also published as: US8121834B2; US20080255830A1

Abstract

Ce procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, comprend :
- une première opération de modification (E12) appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1 (n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
- une seconde opération de modification (E13) appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), la seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à la consigne relative à la fréquence fondamentale.

Description

La présente invention a trait de manière générale au domaine du traitement des signaux audio et plus précisément selon des techniques visant à modifier les paramètres caractéristiques d'un signal audio. L'invention concerne ainsi un procédé et un dispositif de modification des caractéristiques acoustiques d'un signal audio en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal. L'invention s'applique en particulier aux signaux de parole.
Dans la suite de la description, la référence des documents cités qui est indiquée de manière abrégée entre crochets ([...]), est détaillée dans la liste de documents située en fin de description.
Les techniques de modification de la parole numérisée s'avèrent très utiles dans de nombreuses applications de traitement de la parole. En synthèse de la parole, elles permettent de procéder à des modifications prosodiques (modification de la hauteur de voix et du rythme d'élocution) souvent nécessaires pour conférer une intonation acceptable au signal de parole synthétique. Dans le domaine de la conversion de voix, l'objectif est de modifier le signal de parole issu d'un locuteur source de manière à ce qu'il semble avoir été prononcé par un locuteur cible désiré. Dans ce but, des adaptations du timbre et de la hauteur de voix sont nécessaires. Citons également les applications de transformation de voix visant à modifier la parole perçue à partir uniquement d'un ensemble de descripteurs cibles (voix grave/aiguë, masculine/féminine/enfantine, voix robotisée, etc.).
La plupart des techniques connues de modification de la parole visent essentiellement à modifier trois types de paramètres :

La hauteur de voix perçue (appelée pitch en anglais), mesurée par la fréquence fondamentale du signal de parole considéré, c'est-à-dire la fréquence de vibration des cordes vocales.
La vitesse d'élocution, directement reliée à la durée de prononciation des différents phonèmes compris dans le signal de parole considéré. La durée considérée peut être par exemple la durée totale d'une phrase courante.
Le timbre de la voix, qui peut être défini comme l'attribut perceptif qui caractérise la différence entre deux sons par ailleurs semblables en hauteur, intensité et durée. Le timbre contient à la fois une composante informative (liée aux phonèmes prononcés) et identitaire (liée au locuteur : par ex., voix rauque, claire, douce, ...). Le timbre est souvent décrit par l'enveloppe spectrale du signal de parole. On rappelle ici que l'enveloppe spectrale fait référence à une courbe englobant l'amplitude des pics spectraux observés sur le signal de parole.
Les trois types de paramètres précités ne sont pas indépendants les uns des autres, dans le sens où une modification appliquée à l'un de ces paramètres doit affecter les autres. Cela implique de modifier ces paramètres de manière cohérente. En particulier, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante. Il a par exemple été montré dans le document [Syr85] (voir liste de documents référencés en fin de description) que le premier formant et la fréquence fondamentale sont étroitement liés, de sorte que chaque changement de l'un de ces paramètres doit être accompagné d'une modification appropriée de l'autre. On rappelle ici qu'un formant correspond à une résonance du conduit vocal, et est caractérisé par sa fréquence centrale et sa largeur de bande. Cette fréquence centrale se traduit par un pic de l'enveloppe spectrale.
On connaît des techniques de modification de signaux de parole, qui opèrent des modifications de la hauteur de voix perçue sans opérer conjointement de modification sur le timbre. De telles techniques sont, par exemple, des techniques de type TD-PSOLA ou de type HNM.
La technique connue sous l'acronyme TD-PSOLA (Time Domain Pitch Synchronous Overlap and Add, en anglais) et décrite par exemple dans le document de brevet EP0363233 ou bien dans le document [Mou95], repose sur une décomposition du signal de parole en signaux d'analyse court-terme et pitch-synchrones, qui sont ensuite repositionnés sur l'axe temporel et juxtaposés de manière progressive. La technique TD-PSOLA permet d'opérer des modifications prosodiques sur le signal de parole telles que l'allongement/rétrécissement de durée (time-stretching en anglais) ou le changement de la fréquence fondamentale (pitch) tout en conservant une bonne qualité sonore. On entend ici par "bonne qualité sonore" l'absence de coupures, bruit ou autres artefacts qui rendent le signal désagréable à l'écoute. On n'y inclut donc pas l'aspect naturel du timbre de la voix.

Cependant, avec la technique TD-PSOLA, si les facteurs de modification de durée utilisés peuvent atteindre la valeur 2 sans distorsion notable du signal, les possibilités de modification de la fréquence fondamentale restent relativement restreintes si l'on veut préserver le naturel du signal de parole résultant. En effet, dans TD-PSOLA, les modifications de la hauteur de voix ne sont accompagnées d'aucune modification de timbre. Or, comme mentionné précédemment, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante.

La technique de modification de voix qui repose sur la mise en oeuvre du modèle HNM, est décrite par exemple dans le document [Sty96]. Le modèle harmonique plus bruit ou modèle HNM (Harmonic plus Noise Model, en anglais), a également été utilisé à des fins de modifications prosodiques voire spectrales. Il fait l'hypothèse qu'un segment (appelé aussi trame) voisé du signal de parole S(n) peut être décomposé en une partie harmonique représentant la composante quasi-périodique du signal constituée d'une somme de L sinusoïdes harmoniques d'amplitudes A^l et de phases Φ ^l , et une partie bruitée représentant le bruit de friction et la variation de l'excitation glottale d'une période a l'autre, modélisée par un bruit blanc gaussien excitant un filtre AR (auto-régressif) obtenu par analyse LPC (Linear Predictive Coding). Pour une trame non-voisée, la partie harmonique est absente et le signal est simplement modélisé par un bruit blanc mis en forme par filtrage AR. A la synthèse, en fonction des consignes de pitch désirées, les amplitudes et les phases de la partie harmonique sont ré-estimées de façon à préserver au mieux le timbre (c'est-à-dire l'enveloppe spectrale) du signal original. Cette ré-estimation est valide pour l'information d'amplitude dès lors qu'une enveloppe spectrale suffisamment lisse est disponible. En revanche, la ré-estimation des phases est beaucoup plus complexe et doit être réalisée en tenant compte des spectres de phase de la source glottique et du filtre caractérisant le conduit vocal, ces deux informations étant difficiles à extraire. Cette difficulté fait que le modèle HNM ne parvient pas à préserver la cohérence des signaux modifiés et donc conduit à une dégradation de la qualité de la parole résultante.

D'autres techniques connues de modification de voix, permettent, contrairement aux techniques précédentes, d'opérer conjointement sur la hauteur de voix perçue et sur le timbre.

Ainsi, la technique de "ré-échantillonnage" (resampling en anglais) est une technique permettant d'adapter un signal (pas nécessairement de parole) à une modification de sa fréquence d'échantillonnage. Appliqué à un signal de parole, cette technique permet de modifier conjointement la hauteur de voix, le timbre et la vitesse d'élocution, tout en conservant une excellente qualité sonore. La technique de ré-échantillonnage est décrite par exemple dans le document [Mou95]. Selon ce document, pour obtenir une accélération de facteur P (P nombre entier) du signal, on applique d'abord un filtre passe-bas, puis on décime le signal en supprimant P-1 échantillons sur P échantillons. Pour obtenir un ralentissement de facteur Q (Q nombre entier) d'un signal audio ou de parole, on ajoute Q-1 zéros entre deux échantillons de signal puis on applique un filtre passe-bas de fréquence de coupure appropriée.

En règle générale, le facteur de ré-échantillonnage, noté γ, n'est pas entier, mais peut être approché par un nombre rationnel P/Q. Lorsque γ=P/Q, il suffit de combiner les deux traitements : un sur-échantillonnage de facteur Q suivi d'un sous-échantillonnage de facteur P.
De manière générale, lorsque le facteur de ré-échantillonnage γ appliqué est supérieur (respectivement inférieur) à 1, il se produit une dilatation (respectivement une contraction) du spectre d'amplitude du signal de parole, c'est-à-dire que la position des harmoniques et des formants du signal, représentée sur l'axe fréquentiel, se trouve multipliée (respectivement divisée) par γ. Une telle transformation spectrale affecte donc le timbre de la voix, et s'accompagnant également d'une multiplication (respectivement division) de la fréquence fondamentale par le même coefficient (γ), agit donc conjointement sur la hauteur de voix. Le ré-échantillonnage est par conséquent une technique efficace et relativement peu complexe pour modifier un signal de parole, puisqu'il permet de modifier conjointement le timbre et la hauteur de voix, et ce, sans apparition d'artefact audible, puisque le ré-échantillonnage préserve la cohérence temporelle du signal et de ce fait ne distord pas l'information véhiculée.
Cependant, le ré-échantillonnage ne permet pas à lui seul de réaliser des transformations pertinentes de la fréquence fondamentale et du timbre. En effet, le ré-échantillonnage du signal de parole provoque un déplacement homothétique des formants dans le même sens que celui de la fréquence fondamentale. Or, des observations sur des signaux de parole naturelle montrent que la plage de variation de la fréquence fondamentale est beaucoup plus importante que la plage de variation des fréquences formantiques. Ainsi, l'application d'un facteur de ré-échantillonnage égal au facteur de modification de la fréquence fondamentale souhaité se traduit par une dilatation/compression de l'enveloppe spectrale trop importante, et donc à une dégradation notable du naturel de la voix, provoquant par exemple des effets de "voix-tube" ou "voix-Donald".

Une autre technique connue permet d'opérer conjointement sur la hauteur de voix perçue et sur le timbre. Il s'agit de la technique exposée dans le document [Kai00] et qui repose sur une opération d'ajustement spectral basée sur l'utilisation d'un modèle de mélange de gaussiennes pour modéliser de manière conjointe l'enveloppe spectrale et la hauteur de voix. Ainsi, en fonction de la consigne de fréquence fondamentale souhaitée, une correction de l'enveloppe spectrale est opérée, ce qui permet de mieux préserver le naturel de la parole transformée, notamment lorsque d'importantes modifications de fréquence fondamentale sont effectuées. Ce type de technique permet d'effectuer des transformations du spectre d'amplitude relativement précises et bien maîtrisées. En revanche, l'information de phase des signaux transformés est mal contrôlée, ce qui conduit à une dégradation sensible de la qualité du signal résultant.

Il ressort de l'état de la technique brièvement exposé ci-dessus, qu'il existe un réel besoin de disposer d'une technique de modification d'un signal de parole, permettant de modifier conjointement au moins la hauteur de voix perçue et le timbre associés au signal de parole, et ce, afin de fournir un signal de parole de haute qualité en terme de naturel de la voix résultante perçue.
La présente invention concerne, selon un premier aspect, un procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Selon l'invention, ce procédé est remarquable en ce que :

une première opération de modification est appliquée au signal initial afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
une seconde opération de modification est appliquée au signal intermédiaire afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.

Le principe à la base de l'invention consiste ainsi à modifier les caractéristiques d'un signal audio selon des consignes de modification prédéfinies concernant l'enveloppe spectrale et la fréquence fondamentale du signal, en combinant deux opérations de modification successives et distinctes dont les effets sont prédéterminés. L'une de ces opérations intervient principalement sur l'enveloppe spectrale du signal considéré (et donc sur le timbre perçu dans le cas d'un signal de parole), avec aussi un effet sur la fréquence fondamentale, mais qui ne permet pas d'appliquer la consigne prédéfinie relative à la fréquence fondamentale. L'autre opération de modification intervient essentiellement sur la fréquence fondamentale du signal considéré (et donc sur la hauteur de voix perçue dans le cas d'un signal de parole). Mais, avantageusement selon l'invention, cette seconde opération de modification est paramétrée de telle sorte à modifier la fréquence fondamentale du signal audio obtenu à l'issue de la première modification, afin que la fréquence fondamentale du signal modifié final soit conforme à la consigne initiale relative à la fréquence fondamentale.
Ainsi, grâce à la combinaison de ces deux étapes successives de modification de signal audio, on obtient un signal modifié final dont les caractéristiques relatives à l'enveloppe spectrale et à la fréquence fondamentale sont en totale conformité avec les consignes initiales. L'invention appliquée à un signal de parole permet par exemple de garantir le naturel d'une voix modifiée, puisque les consignes de modification du signal qui sont prédéfinies relativement au timbre et à la hauteur de voix, peuvent être réellement appliquées, sans qu'un changement de timbre (respectivement de hauteur de voix) ne dégrade la hauteur de voix (respectivement le timbre), et ne produise une voix modifiée manquant de naturel et/ou ne correspondant pas à la cible désirée.
Selon un mode de réalisation préféré de l'invention, les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial. Dans ce mode de réalisation, la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α'. La seconde opération de modification est alors choisie de manière à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
Ainsi, en choisissant, selon les formules ci-dessus, les paramètres α", β" de la seconde opération de modification, en fonction des facteurs de modification connus α' et β' résultant de l'application de la première opération de modification sur le signal audio initial, on obtient un signal audio modifié final dont les caractéristiques relatives à la durée, la fréquence fondamentale et l'enveloppe spectrale, sont conformes aux consignes de modifications initiales α, β, γ, et donc au signal cible désiré.
Selon des caractéristiques particulières de réalisation de l'invention :

La première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et $αʹ = \frac{1}{γ};$
et les troisièmes facteurs β" et α" sont obtenus selon les équations suivantes : $β " = \frac{β}{γ}$
et α" = α·γ.
La seconde opération de modification est mise en oeuvre par une technique de type PSOLA, par exemple TD-PSOLA.

Selon une variante de mise en oeuvre du procédé selon l'invention, la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
Selon un second aspect, l'invention concerne un dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Conformément à l'invention, ce dispositif comporte :

des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et
des moyens de modification du signal intermédiaire selon une seconde opération de modification, afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale, la fréquence fondamentale dudit signal intermédiaire étant modifiée selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial.

La présente invention concerne aussi un programme d'ordinateur de traitement audio, ce programme comportant des instructions adaptées à la mise en oeuvre d'un procédé selon l'invention, lorsque le programme est chargé et exécuté dans un système informatique.
Les avantages de ce dispositif de traitement audio ou de ce programme d'ordinateur sont identiques à ceux mentionnés plus haut en relation avec le procédé de l'invention.
L'invention sera mieux comprise à la lecture de la description détaillée qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins sur lesquels :

la Figure 1 est un organigramme général illustrant un procédé de modification des caractéristiques acoustiques d'un signal audio, selon l'invention ;
la Figure 2 composée des figures 2A à 2D représente différents stades de traitement d'un signal de parole selon l'algorithme connu sous l'acronyme TD-PSOLA.

La Figure 1 représente un organigramme général illustrant un procédé, selon l'invention, de modification des caractéristiques acoustiques d'un signal audio. La présente invention est applicable aux signaux audio en général (par exemple des signaux musicaux), cependant elle est particulièrement efficace en ce qui concerne les signaux de parole, par conséquent dans le cadre de la présente description de modes de réalisations de l'invention, le signal audio considéré à modifier est un signal de parole.
En référence à la Figure 1, un procédé de modification des caractéristiques acoustiques d'un signal de parole, dit "signal initial", en fonction de consignes de modification relatives à des paramètres prédéfinis du signal de parole, commence par une étape initiale E10 de détermination des consignes de modification à appliquer en fonction du signal de parole désiré, c'est-à-dire en fonction d'un signal "cible".
Selon le mode de réalisation exposé, les consignes de modification du signal de parole initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, et des facteurs α et β de modification respectivement de la durée et de la fréquence fondamentale du signal initial. Les facteurs α et β sont choisis de sorte que, s'ils sont respectivement supérieurs à 1, ils correspondent à une augmentation respectivement de la durée et de la fréquence fondamentale du signal, et s'ils sont respectivement compris entre 0 et 1, ils correspondent à une diminution respectivement de la durée et de la fréquence fondamentale du signal.
Ainsi lorsque le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β et γ permettent de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
Le choix des paramètres α, β et γ dépend de la transformation souhaitée. A titre d'illustration, lorsque d'importantes modifications sont opérées, par exemple pour transformer une voix d'adulte en une voix d'enfant, le facteur γ d'étirement/contraction de l'enveloppe spectrale du signal, et le facteur β de modification de la fréquence fondamentale, peuvent atteindre respectivement les valeurs '1,2' et '3'.
Une étude statistique des variations de la fréquence fondamentale (pitch) et des fréquences formantiques est fournie dans le document [Hub99] (cf. en particulier, dans ce document, le tableau de l'Annexe A p. 1540). Cette étude peut être utilisée pour déterminer des valeurs "raisonnables" pour les paramètres γ et β. Ainsi, pour transformer une voix d'homme en une voix de femme, des facteurs d'étirement/contraction de l'enveloppe spectrale (γ) et de modification de fréquence fondamentale (β) de valeur respective '1,2' et '1,8', conviennent (il n'est pas nécessaire de modifier la durée dans ce cas particulier).
Le facteur α de modification de la durée du signal, dépend quant à lui, essentiellement du rythme d'élocution souhaité. Dans de nombreuses applications de transformation de voix, la modification du rythme d'élocution est considérée comme secondaire et donc ignorée, ce qui correspond à un facteur α égal à 1. En revanche, pour obtenir des effets très spécifiques, par exemple pour une transformation vers des voix de personnages de géants/nains, des facteurs de ralentissement ou d'accélération du rythme d'élocution peuvent être utilisés. Dans de tels cas, des valeurs typiques du facteur α peuvent être comprises entre les valeurs '0,5' et '2'.
De retour à la Figure 1, après l'étape E10 de détermination des consignes de modification en fonction de la transformation du signal désirée, l'étape suivante E11 consiste à déterminer en conséquence, d'une part, les deux opérations de modification successives à appliquer, en partant du signal de parole initial, et d'autre part leurs paramètres respectifs.
Ainsi, selon l'invention, une première opération de modification est appliquée au signal initial S(n) afin de délivrer un signal audio intermédiaire S1 (n), cette première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale. On notera ici que les signaux audio ou vocaux considérés sont ici sous une forme échantillonnée numérique (n désignant un échantillon quelconque).
Selon le mode de réalisation choisi, la première opération de modification (encore appelée "première transformation") choisie, désignée par 'MOD_OP1', est mise en oeuvre par une technique de type ré-échantillonnage (resampling en anglais) de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Une telle méthode de ré-échantillonnage est connue et décrite par exemple dans le document [Mou95] précédemment cité. On pourra en particulier se reporter au paragraphe 3.2.1 de ce document, intitulé : "Time-domain and frequency-domain resampling". Cependant, contrairement à la technique de resampling exposée dans le document [Mou95] qui utilise le resampling pour modifier la hauteur de voix (pitch), la présente invention utilise la technique de resampling pour modifier essentiellement l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale.
Cependant, il est connu qu'une telle technique de ré-échantillonnage, produit sur le signal de parole initial, outre la modification désirée de l'enveloppe spectrale conformément à l'invention, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs, ici désignés par β' et α'. Ces seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : $βʹ = γ et αʹ = \frac{1}{γ} .$
Ainsi, conformément à l'invention la seconde opération de modification 'MOD_OP2', à appliquer au signal obtenu (S1(n)), dit "signal intermédiaire", suite à l'application de la première transformation MOD_OP1, doit être choisie de façon à prendre en compte les effets de MOD_OP1 sur la fréquence fondamentale, de sorte que la fréquence fondamentale obtenue pour le signal final (S2(n)) soit conforme à la consigne (β) relative à la fréquence fondamentale. Bien entendu, s'il existe également une consigne concernant la durée (α), comme dans le cas du présent mode de réalisation, la seconde transformation MOD_OP2 doit aussi tenir compte des effets de la première transformation MOD_OP1 sur la durée du signal initial.
Ainsi, dans le mode de réalisation exposé, la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal intermédiaire (S1(n)), selon respectivement des troisièmes facteurs β" et α", tels que : $αʹ \cdot α " = α et βʹ \cdot β " = β .$
De cette façon, la transformation globale effectuée entre le signal initial (S(n)) et le signal final (S2(n)), d'un point de vue de la fréquence fondamentale et de la durée, correspond à une transformation de facteurs respectifs β et α, selon les équations (2) ci-dessus.
Dans le mode de réalisation, choisi dans lequel la première opération de modification MOD-OP1 est une technique de ré-échantillonnage de facteur γ produisant des effets sur la fréquence fondamentale et la durée selon les équations (1) plus haut, les troisièmes facteurs β" et α" relatifs à la seconde transformation MOD_OP2 sont obtenus selon les équations suivantes : $β " = \frac{β}{γ} et α " = α \cdot γ .$
En pratique, dans un mode de réalisation préféré, la seconde opération de modification MOD_OP2 est mise en oeuvre par une technique du type PSOLA (Pitch-Synchronous Overlap and Add), et en particulier, une technique PSOLA appliquée dans le domaine temporel, c'est-à-dire TD-PSOLA (time-domain PSOLA). La technique TD-PSOLA est décrite plus bas dans la description en liaison avec la Figure 2.
La seconde opération de modification MOD_OP2 peut être également réalisée à partir de techniques telles que LP-PSOLA (Linear Pediction PSOLA) ou FD-PSOLA (Frequency Domain PSOLA) ou en encore à partir d'une technique de type HNM (Harmonic plus Noise Model), ou de type vocoder de phase. On peut même envisager d'utiliser deux techniques indépendantes pour la modification de la fréquence fondamentale et de la durée.
En revanche, quelle que soit la technique utilisée pour la modification de la fréquence fondamentale, cette technique doit préserver globalement l'enveloppe spectrale du signal traité (en l'occurrence le signal intermédiaire S1(n)), puisque l'enveloppe spectrale du signal initial (S(n)) est modifiée essentiellement par la première opération de modification MOD_OP1.
De retour à la Figure 1, une fois l'étape E11 de choix des opérations de modification MOD_OP1 et MOD_OP2 et de leurs paramètres respectifs, effectuée, la modification proprement dite du signal de parole initial S(n) est réalisée avec les étapes suivantes E12 et E13.
Ainsi, à l'étape E12, le signal initial S1(n) est modifié selon la transformation MOD_OP1, permettant d'obtenir un signal intermédiaire S1(n) dont l'enveloppe spectrale est modifiée (étirée ou contractée), par rapport au signal initial, selon la consigne γ de modification de l'enveloppe spectrale, et dont la fréquence fondamentale et la durée, sont respectivement modifiées selon les seconds facteurs β' et α'.
Enfin, à l'étape E13, le signal intermédiaire S1(n) est traité selon la transformation MOD_OP2, permettant de modifier la fréquence fondamentale et la durée du signal intermédiaire, afin d'obtenir le signal final S2(n) dont la durée, la fréquence fondamentale et l'enveloppe spectrale sont conformes aux consignes de modifications respectives α, β, γ.
Dans le mode de réalisation choisi et présenté, l'étape de modification de l'enveloppe spectrale (MOS_OP1), c'est-à-dire du timbre du signal de parole, précède l'étape de modification des paramètres prosodiques (hauteur de voix et élocution) liés respectivement à la fréquence fondamentale et à la durée du signal. Cependant, l'ordre de ces opérations peut être inversé, à condition que les facteurs de modification de la première étape prennent en compte les effets de la seconde étape sur la fréquence fondamentale, et le cas échéant sur la durée, du signal traité, de manière à respecter, au global, les consignes de modification du signal initial. En particulier, dans la mise en oeuvre décrite plus haut, les seconds facteurs β' et α' de l'étape MOD_OP2, exécutée cette fois en premier, seraient alors déterminés au préalable en fonction du facteur γ de l'étape MOS_OP1 exécutée en second.
La Figure 2 représente les principaux stades de traitement d'un signal de parole selon l'algorithme TD-PSOLA. La Fig. 2A représente le signal de parole S(n) à modifier.
Au cours d'une première étape illustrée par la Fig. 2B , le signal S(n) est segmenté en trames de manière dite pitch-synchrone, c'est-à-dire que chaque segment a une durée correspondant à l'inverse de la fréquence fondamentale du signal.
En effet, les instants de fermeture de glotte, aussi appelés instants d'analyse, sont situés au voisinage des maxima d'énergie du signal de parole et le traitement TD-PSOLA permet une bonne préservation des caractéristiques du signal de parole au voisinage des extrémités des segments obtenus par analyse pitch-synchrone. Ainsi, lorsque ces instants sont repérés avec une précision satisfaisante, les performances de TD-PSOLA sont optimisées. Une telle segmentation pitch-synchrone est obtenue, par exemple, par des techniques à base de délais de groupe ou encore à partir de la méthode proposée par D. Vincent, O. Rosec, et T. Chonavel, dans la publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, Mai 2006.
Cette étape de marquage pitch-synchrone est de préférence réalisée hors-ligne, c'est-à-dire non en temps réel, ce qui permet de réduire la charge de calcul pour une mise en oeuvre en temps réel.
En fonction des facteurs de modification souhaités pour la fréquence fondamentale et la durée, les instants séparant les segments sont modifiés selon les règles suivantes :

pour un allongement de durée, certains segments sont dupliqués afin d'augmenter artificiellement le nombre d'impulsions glottiques ;
pour une réduction de la durée, certains segments sont supprimés ;
pour une augmentation de la fréquence fondamentale, c'est-à-dire un rendu plus aigu, les instants d'analyse sont rapprochés, ce qui nécessite éventuellement la duplication de segments pour conserver la durée totale ; et
pour une diminution de la fréquence fondamentale, c'est-à-dire un rendu plus grave, les instants d'analyse sont écartés, ce qui nécessite éventuellement la suppression de segments pour conserver la durée totale.

Une description détaillée de ces règles se trouve dans le document [Mou95], en particulier aux paragraphes 4.2.1 à 4.2.3 dudit document.
A l'issue de cette étape, le signal obtenu comprend un nombre entier de segments ou trames, chacun d'une durée correspondant à une période qui est l'inverse de la fréquence fondamentale modifiée, comme cela est représenté sur la Fig. 2B.
Le traitement de modification comprend ensuite un fenêtrage du signal autour des instants d'analyse, c'est-à-dire des instants séparant les segments. Cette étape de fenêtrage est illustrée par la Fig. 2C .
Au cours de ce fenêtrage, on sélectionne, pour chaque instant d'analyse, une portion du signal fenêtrée autour de cet instant. Cette portion de signal est appelée "signal court-terme" et s'étend, dans l'exemple, sur une durée correspondant à deux fois la période fondamentale modifiée comme représentée à la Fig. 2C.
Le traitement de modification comprend enfin une sommation des signaux court-terme qui sont recentrés sur les instants de synthèse et ajoutés comme représenté à la Fig. 2D .
Dans les modes de réalisation de l'invention exposés ci-dessus à titre d'exemples, les coefficients de modification ont été choisis constants. Cependant, le procédé général selon l'invention décrit supra peut être mis en oeuvre pour opérer des modifications de signal audio selon des coefficients α, β et γ non constants. Dans un tel cas, on peut par exemple réaliser un découpage en trames (préférentiellement pitch-synchrones) et déterminer pour chacune d'entre elles des coefficients de modification constants. Les étapes E12 et E13 sont alors effectuées indépendamment sur chacune des trames. Puis les trames sont combinées par une technique classique d'addition-recouvrement de façon à reconstruire le signal transformé souhaité.
Un procédé de modification d'un signal audio selon l'invention, tel que décrit supra, est en pratique mis en oeuvre par un dispositif de traitement de signaux audio, et plus particulièrement de signaux de parole. Un tel dispositif comporte donc des moyens matériels notamment électroniques et/ou logiciels adaptés à mettre en oeuvre un procédé selon l'invention.
Selon une implémentation préférée, les étapes du procédé de modification d'un signal audio, selon l'invention, sont déterminées par les instructions d'un programme d'ordinateur utilisé dans un tel dispositif de traitement, constitué typiquement par un système informatique, par exemple un ordinateur personnel.
Le procédé selon l'invention est alors mis en oeuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés dans le dispositif de traitement audio, et dont le fonctionnement est alors commandé par l'exécution du programme.
On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en oeuvre de l'invention lorsqu'il est exécuté par un système informatique approprié.
En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.
Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.
Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits et représentés dans le cadre de cette description, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.

Références citées

[Syr85]: A.K. Syrdal and S.A. Steele, "Vowel F1 as a function of speaker fundamental frequency", 110th Meeting of JASA, vol. 78, Fall 1985.
[Mou95]: E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995.
[Sty96]: Y. Stylianou, "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", PhD thesis, Ecole Nationale Supérieure des Télécommunications, France, 1996.
[Kai00]: A. Kain and Y. Stylianou, "Stochastic modeling of spectral adjustment for high quality pitch modification", in Proceedings of ICASSP'00, vol. 2, pp. 949-952, June 2000.
[Hub99]: J. E. Huber, E. T. Stathopoulos, G. M. Curione, T. A. Ash and K. Johnson, "Formants of children, women, and men: the effect of vocal intensity variation", Journal of the Acoustical Society of America, 106 (3), pp. 1532-1542, September 1999.

Claims

Procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce que :
- une première opération de modification (E12) est appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1(n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et

- une seconde opération de modification (E13) est appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
Procédé selon la revendication 1, dans lequel :
- les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial ;

- la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α' ; et

- la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
Procédé selon la revendication 2, dans lequel :
- la première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal ;

- les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et $α' = \frac{1}{γ};$
et

- les troisièmes facteurs β" et α" sont obtenus selon les équations suivantes : $β " = \frac{β}{γ}$
et α"=α·γ .
Procédé selon l'une quelconque des revendications précédentes, dans lequel la seconde opération de modification est mise en oeuvre par une technique de type PSOLA.
Procédé selon l'une quelconque des revendications 2 à 4, dans lequel la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
Procédé selon l'une quelconque des revendications 2 à 5, dans lequel le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β, γ permettant de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
Programme d'ordinateur de traitement audio caractérisé en ce qu'il comporte des instructions de programme adaptées à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 6, lorsque ledit programme est exécuté par un système informatique.
Dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce qu'il comporte :
- des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et

- des moyens de modification du signal intermédiaire selon une seconde opération de modification afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
Dispositif selon la revendication 8, caractérisé en ce qu'il comporte des moyens adaptés à la mise en oeuvre d'un procédé de modification selon l'une quelconque des revendications 2 à 6.