EP1970894A1 - Procédé et dispositif de modification d'un signal audio - Google Patents
Procédé et dispositif de modification d'un signal audio Download PDFInfo
- Publication number
- EP1970894A1 EP1970894A1 EP08151708A EP08151708A EP1970894A1 EP 1970894 A1 EP1970894 A1 EP 1970894A1 EP 08151708 A EP08151708 A EP 08151708A EP 08151708 A EP08151708 A EP 08151708A EP 1970894 A1 EP1970894 A1 EP 1970894A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- modification
- fundamental frequency
- initial
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000005236 sound signal Effects 0.000 title claims abstract description 46
- 230000000051 modifying effect Effects 0.000 title claims abstract description 40
- 238000012986 modification Methods 0.000 claims abstract description 135
- 230000004048 modification Effects 0.000 claims abstract description 126
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims abstract description 8
- 230000003595 spectral effect Effects 0.000 claims description 55
- 238000012952 Resampling Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 230000008602 contraction Effects 0.000 claims description 10
- 238000002715 modification method Methods 0.000 claims 1
- 230000001360 synchronised effect Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 239000003607 modifier Substances 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000009021 linear effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 241001080024 Telles Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000013456 study Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 241000251556 Chordata Species 0.000 description 1
- LUNBMBVWKORSGN-TYEKWLQESA-N P-factor Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@@H]1CCCN1C(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H]1N(C(=O)[C@H](CC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=2C=CC=CC=2)NC(=O)[C@@H](NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC=2C3=CC=CC=C3NC=2)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CC=2C=CC(O)=CC=2)NC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC=2C=CC=CC=2)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](C)NC(=O)[C@H](CC=2C=CC(O)=CC=2)NC(=O)[C@@H](N)[C@@H](C)O)[C@@H](C)O)C(C)C)CCC1 LUNBMBVWKORSGN-TYEKWLQESA-N 0.000 description 1
- 101800002502 P-factor Proteins 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000008449 language Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Definitions
- the present invention relates generally to the field of audio signal processing and more specifically to techniques for modifying the characteristic parameters of an audio signal.
- the invention thus relates to a method and a device for modifying the acoustic characteristics of an audio signal as a function of modification instructions relating to at least the fundamental frequency and the spectral envelope of the signal.
- the invention applies in particular to speech signals.
- Digital speech modification techniques are very useful in many speech processing applications. In speech synthesis, they make it possible to make prosodic modifications (modification of the pitch of the voice and the rhythm of speech) often necessary to confer an acceptable intonation to the synthetic speech signal. In the field of voice conversion, the objective is to modify the speech signal from a source speaker so that it appears to have been spoken by a desired target speaker. For this purpose, adaptations of timbre and pitch are necessary. Also noteworthy are voice transformation applications aimed at modifying perceived speech from only a set of target descriptors (deep / low voice, male / female / child, robotic voice, etc.).
- the resampling factor is not integer, but can be approximated by a rational number P / Q.
- P / Q the resampling factor
- Resampling is therefore an effective and relatively uncomplicated technique for modifying a speech signal, since it makes it possible to jointly modify the timbre and the pitch of the voice, without the appearance of an audible artifact, since the re-sampling sampling preserves the temporal coherence of the signal and thus does not distort the information conveyed.
- the principle underlying the invention thus consists in modifying the characteristics of an audio signal according to predefined modification instructions concerning the spectral envelope and the fundamental frequency of the signal, by combining two successive and distinct modification operations whose effects are predetermined.
- One of these operations intervenes mainly on the spectral envelope of the signal considered (and thus on the perceived timbre in the case of a signal of speech), with also an effect on the fundamental frequency, but which does not allow of apply the instruction predefined relative to the fundamental frequency.
- the other modification operation intervenes essentially on the fundamental frequency of the signal considered (and thus on the pitch of voice perceived in the case of a speech signal).
- this second modification operation is parameterized so as to modify the fundamental frequency of the audio signal obtained at the end of the first modification, so that the fundamental frequency of the final modified signal is in accordance with the instruction initial reference to the fundamental frequency.
- a final modified signal is obtained whose characteristics relating to the spectral envelope and the fundamental frequency are in full compliance with the initial instructions.
- the invention applied to a speech signal makes it possible, for example, to guarantee the naturalness of a modified voice, since the signal modification instructions which are predefined with respect to the tone and the pitch of the voice can actually be applied without a change of timbre (respectively of pitch of voice) does not degrade the pitch of voice (respectively the timbre), and does not produce a modified voice lacking naturalness and / or does not correspond to the desired target.
- the instructions for modifying the initial audio signal comprise a stretching / contraction factor ⁇ of the spectral envelope of the initial signal according to the frequency axis, modification factors ⁇ and ⁇ , respectively. the fundamental frequency and the duration of the initial signal.
- the first modification operation produces on the initial audio signal, in addition to the desired modification of the spectral envelope, a modification of the fundamental frequency and a modification of the duration, according to the second factors ⁇ 'and ⁇ , respectively.
- the second modification operation is carried out before the first modification operation, the second factors ⁇ 'and ⁇ ' being determined beforehand as a function of the factor ⁇ .
- the present invention also relates to an audio processing computer program, this program including instructions adapted to the implementation of a method according to the invention, when the program is loaded and executed in a computer system.
- the Figure 1 represents a general flowchart illustrating a method, according to the invention, of modifying the acoustic characteristics of an audio signal.
- the present invention is applicable to audio signals in general (e.g., musical signals), however it is particularly effective with respect to speech signals, therefore within the scope of the present invention.
- description of embodiments of the invention the audio signal to be modified is a speech signal.
- a method for modifying the acoustic characteristics of a speech signal, said "initial signal”, according to modification instructions relating to predefined parameters of the speech signal begins with an initial step E10 of determining the modification instructions to apply according to the desired speech signal, that is to say according to a "target" signal.
- the instructions for modifying the initial speech signal comprise a stretching / contraction factor ⁇ of the spectral envelope of the initial signal according to the frequency axis, and modifying factors ⁇ and ⁇ respectively of the duration and fundamental frequency of the initial signal.
- the factors ⁇ and ⁇ are chosen such that, if they are respectively greater than 1, they correspond to an increase respectively in the duration and the fundamental frequency of the signal, and if they are respectively between 0 and 1, they correspond to a decrease respectively in the duration and the fundamental frequency of the signal.
- the setpoint modification factors ⁇ , ⁇ and ⁇ make it possible respectively to modify the following parameters relating to the sound reproduction characteristics of the speech signal: the speech speed, the pitch of perceived voice, and the perceived tone of voice.
- the choice of the parameters ⁇ , ⁇ and ⁇ depends on the desired transformation.
- the stretching / contraction factor ⁇ of the spectral envelope of the signal, and the factor ⁇ of the fundamental frequency can reach the values '1,2' and '3' respectively.
- the factor ⁇ for modifying the duration of the signal depends, in turn, essentially on the desired speech rate. In many voice transformation applications, the change in the speech rate is considered as secondary and thus ignored, which corresponds to a factor ⁇ equal to 1. On the other hand, to obtain very specific effects, for example for a transformation to the voices of giants / dwarves characters, slowing or acceleration factors can be used. In such cases, typical values of the factor ⁇ may be between the values '0.5' and '2'.
- step E11 consists in determining, on the one hand, the two successive modification operations to be applied, starting from the signal of initial speech, and secondly their respective parameters.
- a first modification operation is applied to the initial signal S (n) in order to deliver an intermediate audio signal S1 (n), this first modification operation being intended to deform the spectral envelope of the initial signal S (n) according to the instruction ⁇ for modifying the spectral envelope.
- the audio or voice signals considered here are in a digital sampled form (n denoting any sample).
- the first modification operation (also called “primary") selected, designated 'MOD_OP1' is implemented by a re-sampling type of technique (resampling English) of ⁇ factor, with ⁇ greater than 1 corresponding to a stretching of the spectral envelope of the signal, and ⁇ between 0 and 1 corresponding to a contraction of the spectral envelope of the signal.
- a resampling method is known and described for example in the document [Mou95] previously cited. In particular, see section 3.2.1 of this document, entitled “ Time domain and frequency domain resampling ".
- the present invention uses the resampling technique to essentially modify the spectral envelope of the initial signal S (n ) according to the set point ⁇ for modifying the spectral envelope.
- the second modification operation 'MOD_OP2' to be applied to the obtained signal (S1 (n)), called the "intermediate signal", following the application of the first transformation MOD_OP1, must be chosen so to take into account the effects of MOD_OP1 on the fundamental frequency, so that the fundamental frequency obtained for the final signal (S2 (n)) is in accordance with the reference ( ⁇ ) relative to the fundamental frequency.
- the second transformation MOD_OP2 must also take into account the effects of the first transformation MOD_OP1 on the duration of the initial signal.
- the second modification operation MOD_OP2 is implemented by a PSOLA technique ( Pitch-Synchronous Overlap and Add ), and in particular, a PSOLA technique applied in the time domain, that is TD-PSOLA ( time-domain PSOLA).
- TD-PSOLA time-domain PSOLA
- the second modification operation MOD_OP2 can also be carried out using techniques such as LP-PSOLA ( Linear Pediction PSOLA) or FD-PSOLA ( Frequency Domain PSOLA) or again using a technique of the HNM type ( Harmonic plus Noise Model ), or phase vocoder type.
- LP-PSOLA Linear Pediction PSOLA
- FD-PSOLA Frequency Domain PSOLA
- HNM type Harmonic plus Noise Model
- phase vocoder type phase vocoder type.
- this technique must globally preserve the spectral envelope of the processed signal (in this case the intermediate signal S1 (n)), since the spectral envelope of the signal initial (S (n)) is modified essentially by the first modification operation MOD_OP1.
- step E12 the initial signal S1 (n) is modified according to the transformation MOD_OP1, making it possible to obtain an intermediate signal S1 (n) whose spectral envelope is modified (stretched or contracted), with respect to the signal initial, according to the setpoint ⁇ of modification of the spectral envelope, and whose fundamental frequency and duration, are respectively modified according to the second factors ⁇ 'and ⁇ '.
- step E13 the intermediate signal S1 (n) is processed according to the transformation MOD_OP2, making it possible to modify the fundamental frequency and the duration of the intermediate signal, in order to obtain the final signal S2 (n) whose duration, the fundamental frequency and the spectral envelope are in accordance with the respective modification instructions ⁇ , ⁇ , ⁇ .
- the step of modifying the spectral envelope (MOS_OP1) precedes the step of modifying the prosodic parameters (voice height and elocution) related respectively to the fundamental frequency and the duration of the signal.
- the order of these operations can be reversed, provided that the modifying factors of the first step take into account the effects of the second step on the fundamental frequency, and if necessary on the duration, of the signal processed, of in order to respect, overall, the instructions for modifying the initial signal.
- the second factors ⁇ 'and ⁇ ' of the step MOD_OP2 executed this time first, would then be determined beforehand as a function of the factor ⁇ of the second step MOS_OP1 executed. .
- the Figure 2 represents the main stages of processing a speech signal according to the TD-PSOLA algorithm.
- the Fig. 2A represents the speech signal S (n) to be modified.
- the signal S (n) is segmented into so-called pitch-synchronous frames , that is to say that each segment has a duration corresponding to the inverse of the fundamental frequency of the signal.
- the glottal closure instants also called analysis instants, are located in the vicinity of the energy maxima of the speech signal and the TD-PSOLA treatment allows a good preservation of the characteristics of the speech signal in the vicinity of the extremities.
- segments obtained by pitch-synchronous analysis.
- Such pitch-synchronous segmentation is obtained, for example, by time delay techniques or from the method proposed by D. Vincent, O. Rosec, and T. Chonavel, in the publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, May 2006 .
- This pitch-synchronous marking step is preferably performed offline, that is to say not in real time, which reduces the calculation load for implementation in real time.
- the signal obtained comprises an integer number of segments or frames, each of a duration corresponding to a period which is the inverse of the modified fundamental frequency, as represented on FIG. Fig. 2B .
- the modification processing then comprises a windowing of the signal around the analysis instants, that is to say the moments separating the segments. This step of windowing is illustrated by the Fig. 2C .
- short-term signal a portion of the windowed signal around this instant is selected for each analysis instant. This portion of the signal is called "short-term signal" and extends, in the example, over a period corresponding to twice the fundamental period modified as represented in FIG. Fig. 2C .
- the modification processing finally comprises a summation of the short-term signals which are refocused on the synthesis instants and added as shown in FIG. Fig. 2D .
- the modification coefficients have been chosen constant.
- the general method according to the invention described above can be implemented to make changes to the audio signal according to non-constant coefficients ⁇ , ⁇ and ⁇ .
- a method of modifying an audio signal according to the invention is in practice implemented by a device for processing audio signals, and more particularly speech signals.
- a device for processing audio signals and more particularly speech signals.
- Such a device therefore comprises material means including electronic and / or software adapted to implement a method according to the invention.
- the steps of the method for modifying an audio signal are determined by the instructions of a computer program used in such a processing device, typically constituted by a computer system, by example a personal computer.
- the method according to the invention is then implemented when the aforementioned program is loaded into computer means incorporated in the audio processing device, and whose operation is then controlled by the execution of the program.
- computer program herein refers to one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system.
- the invention also relates to such a computer program, particularly in the form of software stored on an information carrier.
- an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
- the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
- the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
- the information medium can also be a transmissible immaterial medium, such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means.
- a program according to the invention can in particular be downloaded to an Internet type network.
- a computer program according to the invention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (for example eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
- une première opération de modification (E12) appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1 (n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
- une seconde opération de modification (E13) appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), la seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à la consigne relative à la fréquence fondamentale.
Description
- La présente invention a trait de manière générale au domaine du traitement des signaux audio et plus précisément selon des techniques visant à modifier les paramètres caractéristiques d'un signal audio. L'invention concerne ainsi un procédé et un dispositif de modification des caractéristiques acoustiques d'un signal audio en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal. L'invention s'applique en particulier aux signaux de parole.
- Dans la suite de la description, la référence des documents cités qui est indiquée de manière abrégée entre crochets ([...]), est détaillée dans la liste de documents située en fin de description.
- Les techniques de modification de la parole numérisée s'avèrent très utiles dans de nombreuses applications de traitement de la parole. En synthèse de la parole, elles permettent de procéder à des modifications prosodiques (modification de la hauteur de voix et du rythme d'élocution) souvent nécessaires pour conférer une intonation acceptable au signal de parole synthétique. Dans le domaine de la conversion de voix, l'objectif est de modifier le signal de parole issu d'un locuteur source de manière à ce qu'il semble avoir été prononcé par un locuteur cible désiré. Dans ce but, des adaptations du timbre et de la hauteur de voix sont nécessaires. Citons également les applications de transformation de voix visant à modifier la parole perçue à partir uniquement d'un ensemble de descripteurs cibles (voix grave/aiguë, masculine/féminine/enfantine, voix robotisée, etc.).
- La plupart des techniques connues de modification de la parole visent essentiellement à modifier trois types de paramètres :
- La hauteur de voix perçue (appelée pitch en anglais), mesurée par la fréquence fondamentale du signal de parole considéré, c'est-à-dire la fréquence de vibration des cordes vocales.
- La vitesse d'élocution, directement reliée à la durée de prononciation des différents phonèmes compris dans le signal de parole considéré. La durée considérée peut être par exemple la durée totale d'une phrase courante.
- Le timbre de la voix, qui peut être défini comme l'attribut perceptif qui caractérise la différence entre deux sons par ailleurs semblables en hauteur, intensité et durée. Le timbre contient à la fois une composante informative (liée aux phonèmes prononcés) et identitaire (liée au locuteur : par ex., voix rauque, claire, douce, ...). Le timbre est souvent décrit par l'enveloppe spectrale du signal de parole. On rappelle ici que l'enveloppe spectrale fait référence à une courbe englobant l'amplitude des pics spectraux observés sur le signal de parole.
Les trois types de paramètres précités ne sont pas indépendants les uns des autres, dans le sens où une modification appliquée à l'un de ces paramètres doit affecter les autres. Cela implique de modifier ces paramètres de manière cohérente. En particulier, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante. Il a par exemple été montré dans le document [Syr85] (voir liste de documents référencés en fin de description) que le premier formant et la fréquence fondamentale sont étroitement liés, de sorte que chaque changement de l'un de ces paramètres doit être accompagné d'une modification appropriée de l'autre. On rappelle ici qu'un formant correspond à une résonance du conduit vocal, et est caractérisé par sa fréquence centrale et sa largeur de bande. Cette fréquence centrale se traduit par un pic de l'enveloppe spectrale.
On connaît des techniques de modification de signaux de parole, qui opèrent des modifications de la hauteur de voix perçue sans opérer conjointement de modification sur le timbre. De telles techniques sont, par exemple, des techniques de type TD-PSOLA ou de type HNM. - La technique connue sous l'acronyme TD-PSOLA (Time Domain Pitch Synchronous Overlap and Add, en anglais) et décrite par exemple dans le document de brevet
EP0363233 ou bien dans le document [Mou95], repose sur une décomposition du signal de parole en signaux d'analyse court-terme et pitch-synchrones, qui sont ensuite repositionnés sur l'axe temporel et juxtaposés de manière progressive. La technique TD-PSOLA permet d'opérer des modifications prosodiques sur le signal de parole telles que l'allongement/rétrécissement de durée (time-stretching en anglais) ou le changement de la fréquence fondamentale (pitch) tout en conservant une bonne qualité sonore. On entend ici par "bonne qualité sonore" l'absence de coupures, bruit ou autres artefacts qui rendent le signal désagréable à l'écoute. On n'y inclut donc pas l'aspect naturel du timbre de la voix. - Cependant, avec la technique TD-PSOLA, si les facteurs de modification de durée utilisés peuvent atteindre la valeur 2 sans distorsion notable du signal, les possibilités de modification de la fréquence fondamentale restent relativement restreintes si l'on veut préserver le naturel du signal de parole résultant. En effet, dans TD-PSOLA, les modifications de la hauteur de voix ne sont accompagnées d'aucune modification de timbre. Or, comme mentionné précédemment, la modification conjointe de la hauteur de voix et du timbre est nécessaire pour préserver le naturel de la parole résultante.
- La technique de modification de voix qui repose sur la mise en oeuvre du modèle HNM, est décrite par exemple dans le document [Sty96]. Le modèle harmonique plus bruit ou modèle HNM (Harmonic plus Noise Model, en anglais), a également été utilisé à des fins de modifications prosodiques voire spectrales. Il fait l'hypothèse qu'un segment (appelé aussi trame) voisé du signal de parole S(n) peut être décomposé en une partie harmonique représentant la composante quasi-périodique du signal constituée d'une somme de L sinusoïdes harmoniques d'amplitudes Al et de phases Φ l , et une partie bruitée représentant le bruit de friction et la variation de l'excitation glottale d'une période a l'autre, modélisée par un bruit blanc gaussien excitant un filtre AR (auto-régressif) obtenu par analyse LPC (Linear Predictive Coding). Pour une trame non-voisée, la partie harmonique est absente et le signal est simplement modélisé par un bruit blanc mis en forme par filtrage AR. A la synthèse, en fonction des consignes de pitch désirées, les amplitudes et les phases de la partie harmonique sont ré-estimées de façon à préserver au mieux le timbre (c'est-à-dire l'enveloppe spectrale) du signal original. Cette ré-estimation est valide pour l'information d'amplitude dès lors qu'une enveloppe spectrale suffisamment lisse est disponible. En revanche, la ré-estimation des phases est beaucoup plus complexe et doit être réalisée en tenant compte des spectres de phase de la source glottique et du filtre caractérisant le conduit vocal, ces deux informations étant difficiles à extraire. Cette difficulté fait que le modèle HNM ne parvient pas à préserver la cohérence des signaux modifiés et donc conduit à une dégradation de la qualité de la parole résultante.
- D'autres techniques connues de modification de voix, permettent, contrairement aux techniques précédentes, d'opérer conjointement sur la hauteur de voix perçue et sur le timbre.
- Ainsi, la technique de "ré-échantillonnage" (resampling en anglais) est une technique permettant d'adapter un signal (pas nécessairement de parole) à une modification de sa fréquence d'échantillonnage. Appliqué à un signal de parole, cette technique permet de modifier conjointement la hauteur de voix, le timbre et la vitesse d'élocution, tout en conservant une excellente qualité sonore. La technique de ré-échantillonnage est décrite par exemple dans le document [Mou95]. Selon ce document, pour obtenir une accélération de facteur P (P nombre entier) du signal, on applique d'abord un filtre passe-bas, puis on décime le signal en supprimant P-1 échantillons sur P échantillons. Pour obtenir un ralentissement de facteur Q (Q nombre entier) d'un signal audio ou de parole, on ajoute Q-1 zéros entre deux échantillons de signal puis on applique un filtre passe-bas de fréquence de coupure appropriée.
- En règle générale, le facteur de ré-échantillonnage, noté γ, n'est pas entier, mais peut être approché par un nombre rationnel P/Q. Lorsque γ=P/Q, il suffit de combiner les deux traitements : un sur-échantillonnage de facteur Q suivi d'un sous-échantillonnage de facteur P.
- De manière générale, lorsque le facteur de ré-échantillonnage γ appliqué est supérieur (respectivement inférieur) à 1, il se produit une dilatation (respectivement une contraction) du spectre d'amplitude du signal de parole, c'est-à-dire que la position des harmoniques et des formants du signal, représentée sur l'axe fréquentiel, se trouve multipliée (respectivement divisée) par γ. Une telle transformation spectrale affecte donc le timbre de la voix, et s'accompagnant également d'une multiplication (respectivement division) de la fréquence fondamentale par le même coefficient (γ), agit donc conjointement sur la hauteur de voix. Le ré-échantillonnage est par conséquent une technique efficace et relativement peu complexe pour modifier un signal de parole, puisqu'il permet de modifier conjointement le timbre et la hauteur de voix, et ce, sans apparition d'artefact audible, puisque le ré-échantillonnage préserve la cohérence temporelle du signal et de ce fait ne distord pas l'information véhiculée.
- Cependant, le ré-échantillonnage ne permet pas à lui seul de réaliser des transformations pertinentes de la fréquence fondamentale et du timbre. En effet, le ré-échantillonnage du signal de parole provoque un déplacement homothétique des formants dans le même sens que celui de la fréquence fondamentale. Or, des observations sur des signaux de parole naturelle montrent que la plage de variation de la fréquence fondamentale est beaucoup plus importante que la plage de variation des fréquences formantiques. Ainsi, l'application d'un facteur de ré-échantillonnage égal au facteur de modification de la fréquence fondamentale souhaité se traduit par une dilatation/compression de l'enveloppe spectrale trop importante, et donc à une dégradation notable du naturel de la voix, provoquant par exemple des effets de "voix-tube" ou "voix-Donald".
- Une autre technique connue permet d'opérer conjointement sur la hauteur de voix perçue et sur le timbre. Il s'agit de la technique exposée dans le document [Kai00] et qui repose sur une opération d'ajustement spectral basée sur l'utilisation d'un modèle de mélange de gaussiennes pour modéliser de manière conjointe l'enveloppe spectrale et la hauteur de voix. Ainsi, en fonction de la consigne de fréquence fondamentale souhaitée, une correction de l'enveloppe spectrale est opérée, ce qui permet de mieux préserver le naturel de la parole transformée, notamment lorsque d'importantes modifications de fréquence fondamentale sont effectuées. Ce type de technique permet d'effectuer des transformations du spectre d'amplitude relativement précises et bien maîtrisées. En revanche, l'information de phase des signaux transformés est mal contrôlée, ce qui conduit à une dégradation sensible de la qualité du signal résultant.
- Il ressort de l'état de la technique brièvement exposé ci-dessus, qu'il existe un réel besoin de disposer d'une technique de modification d'un signal de parole, permettant de modifier conjointement au moins la hauteur de voix perçue et le timbre associés au signal de parole, et ce, afin de fournir un signal de parole de haute qualité en terme de naturel de la voix résultante perçue.
- La présente invention concerne, selon un premier aspect, un procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Selon l'invention, ce procédé est remarquable en ce que :
- une première opération de modification est appliquée au signal initial afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et
- une seconde opération de modification est appliquée au signal intermédiaire afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
- Le principe à la base de l'invention consiste ainsi à modifier les caractéristiques d'un signal audio selon des consignes de modification prédéfinies concernant l'enveloppe spectrale et la fréquence fondamentale du signal, en combinant deux opérations de modification successives et distinctes dont les effets sont prédéterminés. L'une de ces opérations intervient principalement sur l'enveloppe spectrale du signal considéré (et donc sur le timbre perçu dans le cas d'un signal de parole), avec aussi un effet sur la fréquence fondamentale, mais qui ne permet pas d'appliquer la consigne prédéfinie relative à la fréquence fondamentale. L'autre opération de modification intervient essentiellement sur la fréquence fondamentale du signal considéré (et donc sur la hauteur de voix perçue dans le cas d'un signal de parole). Mais, avantageusement selon l'invention, cette seconde opération de modification est paramétrée de telle sorte à modifier la fréquence fondamentale du signal audio obtenu à l'issue de la première modification, afin que la fréquence fondamentale du signal modifié final soit conforme à la consigne initiale relative à la fréquence fondamentale.
- Ainsi, grâce à la combinaison de ces deux étapes successives de modification de signal audio, on obtient un signal modifié final dont les caractéristiques relatives à l'enveloppe spectrale et à la fréquence fondamentale sont en totale conformité avec les consignes initiales. L'invention appliquée à un signal de parole permet par exemple de garantir le naturel d'une voix modifiée, puisque les consignes de modification du signal qui sont prédéfinies relativement au timbre et à la hauteur de voix, peuvent être réellement appliquées, sans qu'un changement de timbre (respectivement de hauteur de voix) ne dégrade la hauteur de voix (respectivement le timbre), et ne produise une voix modifiée manquant de naturel et/ou ne correspondant pas à la cible désirée.
- Selon un mode de réalisation préféré de l'invention, les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial. Dans ce mode de réalisation, la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α'. La seconde opération de modification est alors choisie de manière à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
- Ainsi, en choisissant, selon les formules ci-dessus, les paramètres α", β" de la seconde opération de modification, en fonction des facteurs de modification connus α' et β' résultant de l'application de la première opération de modification sur le signal audio initial, on obtient un signal audio modifié final dont les caractéristiques relatives à la durée, la fréquence fondamentale et l'enveloppe spectrale, sont conformes aux consignes de modifications initiales α, β, γ, et donc au signal cible désiré.
- Selon des caractéristiques particulières de réalisation de l'invention :
- La première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et
- La seconde opération de modification est mise en oeuvre par une technique de type PSOLA, par exemple TD-PSOLA.
- Selon une variante de mise en oeuvre du procédé selon l'invention, la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
- Selon un second aspect, l'invention concerne un dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial. Conformément à l'invention, ce dispositif comporte :
- des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et
- des moyens de modification du signal intermédiaire selon une seconde opération de modification, afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale, la fréquence fondamentale dudit signal intermédiaire étant modifiée selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial.
- La présente invention concerne aussi un programme d'ordinateur de traitement audio, ce programme comportant des instructions adaptées à la mise en oeuvre d'un procédé selon l'invention, lorsque le programme est chargé et exécuté dans un système informatique.
- Les avantages de ce dispositif de traitement audio ou de ce programme d'ordinateur sont identiques à ceux mentionnés plus haut en relation avec le procédé de l'invention.
- L'invention sera mieux comprise à la lecture de la description détaillée qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins sur lesquels :
- la
Figure 1 est un organigramme général illustrant un procédé de modification des caractéristiques acoustiques d'un signal audio, selon l'invention ; - la
Figure 2 composée desfigures 2A à 2D représente différents stades de traitement d'un signal de parole selon l'algorithme connu sous l'acronyme TD-PSOLA. - La
Figure 1 représente un organigramme général illustrant un procédé, selon l'invention, de modification des caractéristiques acoustiques d'un signal audio. La présente invention est applicable aux signaux audio en général (par exemple des signaux musicaux), cependant elle est particulièrement efficace en ce qui concerne les signaux de parole, par conséquent dans le cadre de la présente description de modes de réalisations de l'invention, le signal audio considéré à modifier est un signal de parole. - En référence à la
Figure 1 , un procédé de modification des caractéristiques acoustiques d'un signal de parole, dit "signal initial", en fonction de consignes de modification relatives à des paramètres prédéfinis du signal de parole, commence par une étape initiale E10 de détermination des consignes de modification à appliquer en fonction du signal de parole désiré, c'est-à-dire en fonction d'un signal "cible". - Selon le mode de réalisation exposé, les consignes de modification du signal de parole initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, et des facteurs α et β de modification respectivement de la durée et de la fréquence fondamentale du signal initial. Les facteurs α et β sont choisis de sorte que, s'ils sont respectivement supérieurs à 1, ils correspondent à une augmentation respectivement de la durée et de la fréquence fondamentale du signal, et s'ils sont respectivement compris entre 0 et 1, ils correspondent à une diminution respectivement de la durée et de la fréquence fondamentale du signal.
- Ainsi lorsque le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β et γ permettent de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
- Le choix des paramètres α, β et γ dépend de la transformation souhaitée. A titre d'illustration, lorsque d'importantes modifications sont opérées, par exemple pour transformer une voix d'adulte en une voix d'enfant, le facteur γ d'étirement/contraction de l'enveloppe spectrale du signal, et le facteur β de modification de la fréquence fondamentale, peuvent atteindre respectivement les valeurs '1,2' et '3'.
- Une étude statistique des variations de la fréquence fondamentale (pitch) et des fréquences formantiques est fournie dans le document [Hub99] (cf. en particulier, dans ce document, le tableau de l'Annexe A p. 1540). Cette étude peut être utilisée pour déterminer des valeurs "raisonnables" pour les paramètres γ et β. Ainsi, pour transformer une voix d'homme en une voix de femme, des facteurs d'étirement/contraction de l'enveloppe spectrale (γ) et de modification de fréquence fondamentale (β) de valeur respective '1,2' et '1,8', conviennent (il n'est pas nécessaire de modifier la durée dans ce cas particulier).
- Le facteur α de modification de la durée du signal, dépend quant à lui, essentiellement du rythme d'élocution souhaité. Dans de nombreuses applications de transformation de voix, la modification du rythme d'élocution est considérée comme secondaire et donc ignorée, ce qui correspond à un facteur α égal à 1. En revanche, pour obtenir des effets très spécifiques, par exemple pour une transformation vers des voix de personnages de géants/nains, des facteurs de ralentissement ou d'accélération du rythme d'élocution peuvent être utilisés. Dans de tels cas, des valeurs typiques du facteur α peuvent être comprises entre les valeurs '0,5' et '2'.
- De retour à la
Figure 1 , après l'étape E10 de détermination des consignes de modification en fonction de la transformation du signal désirée, l'étape suivante E11 consiste à déterminer en conséquence, d'une part, les deux opérations de modification successives à appliquer, en partant du signal de parole initial, et d'autre part leurs paramètres respectifs. - Ainsi, selon l'invention, une première opération de modification est appliquée au signal initial S(n) afin de délivrer un signal audio intermédiaire S1 (n), cette première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale. On notera ici que les signaux audio ou vocaux considérés sont ici sous une forme échantillonnée numérique (n désignant un échantillon quelconque).
- Selon le mode de réalisation choisi, la première opération de modification (encore appelée "première transformation") choisie, désignée par 'MOD_OP1', est mise en oeuvre par une technique de type ré-échantillonnage (resampling en anglais) de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal. Une telle méthode de ré-échantillonnage est connue et décrite par exemple dans le document [Mou95] précédemment cité. On pourra en particulier se reporter au paragraphe 3.2.1 de ce document, intitulé : "Time-domain and frequency-domain resampling". Cependant, contrairement à la technique de resampling exposée dans le document [Mou95] qui utilise le resampling pour modifier la hauteur de voix (pitch), la présente invention utilise la technique de resampling pour modifier essentiellement l'enveloppe spectrale du signal initial S(n) selon la consigne γ de modification de l'enveloppe spectrale.
- Cependant, il est connu qu'une telle technique de ré-échantillonnage, produit sur le signal de parole initial, outre la modification désirée de l'enveloppe spectrale conformément à l'invention, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs, ici désignés par β' et α'. Ces seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes :
- Ainsi, conformément à l'invention la seconde opération de modification 'MOD_OP2', à appliquer au signal obtenu (S1(n)), dit "signal intermédiaire", suite à l'application de la première transformation MOD_OP1, doit être choisie de façon à prendre en compte les effets de MOD_OP1 sur la fréquence fondamentale, de sorte que la fréquence fondamentale obtenue pour le signal final (S2(n)) soit conforme à la consigne (β) relative à la fréquence fondamentale. Bien entendu, s'il existe également une consigne concernant la durée (α), comme dans le cas du présent mode de réalisation, la seconde transformation MOD_OP2 doit aussi tenir compte des effets de la première transformation MOD_OP1 sur la durée du signal initial.
-
- De cette façon, la transformation globale effectuée entre le signal initial (S(n)) et le signal final (S2(n)), d'un point de vue de la fréquence fondamentale et de la durée, correspond à une transformation de facteurs respectifs β et α, selon les équations (2) ci-dessus.
- Dans le mode de réalisation, choisi dans lequel la première opération de modification MOD-OP1 est une technique de ré-échantillonnage de facteur γ produisant des effets sur la fréquence fondamentale et la durée selon les équations (1) plus haut, les troisièmes facteurs β" et α" relatifs à la seconde transformation MOD_OP2 sont obtenus selon les équations suivantes :
- En pratique, dans un mode de réalisation préféré, la seconde opération de modification MOD_OP2 est mise en oeuvre par une technique du type PSOLA (Pitch-Synchronous Overlap and Add), et en particulier, une technique PSOLA appliquée dans le domaine temporel, c'est-à-dire TD-PSOLA (time-domain PSOLA). La technique TD-PSOLA est décrite plus bas dans la description en liaison avec la
Figure 2 . - La seconde opération de modification MOD_OP2 peut être également réalisée à partir de techniques telles que LP-PSOLA (Linear Pediction PSOLA) ou FD-PSOLA (Frequency Domain PSOLA) ou en encore à partir d'une technique de type HNM (Harmonic plus Noise Model), ou de type vocoder de phase. On peut même envisager d'utiliser deux techniques indépendantes pour la modification de la fréquence fondamentale et de la durée.
- En revanche, quelle que soit la technique utilisée pour la modification de la fréquence fondamentale, cette technique doit préserver globalement l'enveloppe spectrale du signal traité (en l'occurrence le signal intermédiaire S1(n)), puisque l'enveloppe spectrale du signal initial (S(n)) est modifiée essentiellement par la première opération de modification MOD_OP1.
- De retour à la
Figure 1 , une fois l'étape E11 de choix des opérations de modification MOD_OP1 et MOD_OP2 et de leurs paramètres respectifs, effectuée, la modification proprement dite du signal de parole initial S(n) est réalisée avec les étapes suivantes E12 et E13. - Ainsi, à l'étape E12, le signal initial S1(n) est modifié selon la transformation MOD_OP1, permettant d'obtenir un signal intermédiaire S1(n) dont l'enveloppe spectrale est modifiée (étirée ou contractée), par rapport au signal initial, selon la consigne γ de modification de l'enveloppe spectrale, et dont la fréquence fondamentale et la durée, sont respectivement modifiées selon les seconds facteurs β' et α'.
- Enfin, à l'étape E13, le signal intermédiaire S1(n) est traité selon la transformation MOD_OP2, permettant de modifier la fréquence fondamentale et la durée du signal intermédiaire, afin d'obtenir le signal final S2(n) dont la durée, la fréquence fondamentale et l'enveloppe spectrale sont conformes aux consignes de modifications respectives α, β, γ.
- Dans le mode de réalisation choisi et présenté, l'étape de modification de l'enveloppe spectrale (MOS_OP1), c'est-à-dire du timbre du signal de parole, précède l'étape de modification des paramètres prosodiques (hauteur de voix et élocution) liés respectivement à la fréquence fondamentale et à la durée du signal. Cependant, l'ordre de ces opérations peut être inversé, à condition que les facteurs de modification de la première étape prennent en compte les effets de la seconde étape sur la fréquence fondamentale, et le cas échéant sur la durée, du signal traité, de manière à respecter, au global, les consignes de modification du signal initial. En particulier, dans la mise en oeuvre décrite plus haut, les seconds facteurs β' et α' de l'étape MOD_OP2, exécutée cette fois en premier, seraient alors déterminés au préalable en fonction du facteur γ de l'étape MOS_OP1 exécutée en second.
- La
Figure 2 représente les principaux stades de traitement d'un signal de parole selon l'algorithme TD-PSOLA. LaFig. 2A représente le signal de parole S(n) à modifier. - Au cours d'une première étape illustrée par la
Fig. 2B , le signal S(n) est segmenté en trames de manière dite pitch-synchrone, c'est-à-dire que chaque segment a une durée correspondant à l'inverse de la fréquence fondamentale du signal. - En effet, les instants de fermeture de glotte, aussi appelés instants d'analyse, sont situés au voisinage des maxima d'énergie du signal de parole et le traitement TD-PSOLA permet une bonne préservation des caractéristiques du signal de parole au voisinage des extrémités des segments obtenus par analyse pitch-synchrone. Ainsi, lorsque ces instants sont repérés avec une précision satisfaisante, les performances de TD-PSOLA sont optimisées. Une telle segmentation pitch-synchrone est obtenue, par exemple, par des techniques à base de délais de groupe ou encore à partir de la méthode proposée par D. Vincent, O. Rosec, et T. Chonavel, dans la publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, Mai 2006.
- Cette étape de marquage pitch-synchrone est de préférence réalisée hors-ligne, c'est-à-dire non en temps réel, ce qui permet de réduire la charge de calcul pour une mise en oeuvre en temps réel.
- En fonction des facteurs de modification souhaités pour la fréquence fondamentale et la durée, les instants séparant les segments sont modifiés selon les règles suivantes :
- pour un allongement de durée, certains segments sont dupliqués afin d'augmenter artificiellement le nombre d'impulsions glottiques ;
- pour une réduction de la durée, certains segments sont supprimés ;
- pour une augmentation de la fréquence fondamentale, c'est-à-dire un rendu plus aigu, les instants d'analyse sont rapprochés, ce qui nécessite éventuellement la duplication de segments pour conserver la durée totale ; et
- pour une diminution de la fréquence fondamentale, c'est-à-dire un rendu plus grave, les instants d'analyse sont écartés, ce qui nécessite éventuellement la suppression de segments pour conserver la durée totale.
- Une description détaillée de ces règles se trouve dans le document [Mou95], en particulier aux paragraphes 4.2.1 à 4.2.3 dudit document.
- A l'issue de cette étape, le signal obtenu comprend un nombre entier de segments ou trames, chacun d'une durée correspondant à une période qui est l'inverse de la fréquence fondamentale modifiée, comme cela est représenté sur la
Fig. 2B . - Le traitement de modification comprend ensuite un fenêtrage du signal autour des instants d'analyse, c'est-à-dire des instants séparant les segments. Cette étape de fenêtrage est illustrée par la
Fig. 2C . - Au cours de ce fenêtrage, on sélectionne, pour chaque instant d'analyse, une portion du signal fenêtrée autour de cet instant. Cette portion de signal est appelée "signal court-terme" et s'étend, dans l'exemple, sur une durée correspondant à deux fois la période fondamentale modifiée comme représentée à la
Fig. 2C . - Le traitement de modification comprend enfin une sommation des signaux court-terme qui sont recentrés sur les instants de synthèse et ajoutés comme représenté à la
Fig. 2D . - Dans les modes de réalisation de l'invention exposés ci-dessus à titre d'exemples, les coefficients de modification ont été choisis constants. Cependant, le procédé général selon l'invention décrit supra peut être mis en oeuvre pour opérer des modifications de signal audio selon des coefficients α, β et γ non constants. Dans un tel cas, on peut par exemple réaliser un découpage en trames (préférentiellement pitch-synchrones) et déterminer pour chacune d'entre elles des coefficients de modification constants. Les étapes E12 et E13 sont alors effectuées indépendamment sur chacune des trames. Puis les trames sont combinées par une technique classique d'addition-recouvrement de façon à reconstruire le signal transformé souhaité.
- Un procédé de modification d'un signal audio selon l'invention, tel que décrit supra, est en pratique mis en oeuvre par un dispositif de traitement de signaux audio, et plus particulièrement de signaux de parole. Un tel dispositif comporte donc des moyens matériels notamment électroniques et/ou logiciels adaptés à mettre en oeuvre un procédé selon l'invention.
- Selon une implémentation préférée, les étapes du procédé de modification d'un signal audio, selon l'invention, sont déterminées par les instructions d'un programme d'ordinateur utilisé dans un tel dispositif de traitement, constitué typiquement par un système informatique, par exemple un ordinateur personnel.
- Le procédé selon l'invention est alors mis en oeuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés dans le dispositif de traitement audio, et dont le fonctionnement est alors commandé par l'exécution du programme.
- On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en oeuvre de l'invention lorsqu'il est exécuté par un système informatique approprié.
- En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.
- Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
- D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
- D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.
- Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits et représentés dans le cadre de cette description, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.
-
- [Syr85]
- A.K. Syrdal and S.A. Steele, "Vowel F1 as a function of speaker fundamental frequency", 110th Meeting of JASA, vol. 78, Fall 1985.
- [Mou95]
- E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995.
- [Sty96]
- Y. Stylianou, "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", PhD thesis, Ecole Nationale Supérieure des Télécommunications, France, 1996.
- [Kai00]
- A. Kain and Y. Stylianou, "Stochastic modeling of spectral adjustment for high quality pitch modification", in Proceedings of ICASSP'00, vol. 2, pp. 949-952, June 2000.
- [Hub99]
- J. E. Huber, E. T. Stathopoulos, G. M. Curione, T. A. Ash and K. Johnson, "Formants of children, women, and men: the effect of vocal intensity variation", Journal of the Acoustical Society of America, 106 (3), pp. 1532-1542, September 1999.
Claims (9)
- Procédé de modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce que :- une première opération de modification (E12) est appliquée au signal initial (S(n)) afin de délivrer un signal audio intermédiaire (S1(n)), la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale, et- une seconde opération de modification (E13) est appliquée au signal intermédiaire (S1(n)) afin de délivrer un signal audio final (S2(n)), ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
- Procédé selon la revendication 1, dans lequel :- les consignes de modification du signal audio initial comprennent un facteur γ d'étirement/contraction de l'enveloppe spectrale du signal initial selon l'axe fréquentiel, des facteurs β et α de modification respectivement de la fréquence fondamentale et de la durée du signal initial ;- la première opération de modification produit sur le signal audio initial, outre la modification désirée de l'enveloppe spectrale, une modification de la fréquence fondamentale et une modification de la durée, selon respectivement des seconds facteurs β' et α' ; et- la seconde opération de modification est destinée à modifier la fréquence fondamentale et la durée du signal audio intermédiaire, selon respectivement des troisièmes facteurs β" et α", tels que : α'·α"=α et β'·β"=β.
- Procédé selon la revendication 2, dans lequel :- la première opération de modification est mise en oeuvre par une technique de type ré-échantillonnage de facteur γ, avec γ supérieur à 1 correspondant à un étirement de l'enveloppe spectrale du signal, et γ compris entre 0 et 1 correspondant à une contraction de l'enveloppe spectrale du signal ;- les seconds facteurs β' et α' sont respectivement définis en fonction du facteur γ de ré-échantillonnage selon les équations suivantes : β'=γ et
- Procédé selon l'une quelconque des revendications précédentes, dans lequel la seconde opération de modification est mise en oeuvre par une technique de type PSOLA.
- Procédé selon l'une quelconque des revendications 2 à 4, dans lequel la seconde opération de modification est mise en oeuvre avant la première opération de modification, les seconds facteurs β' et α' étant déterminés au préalable en fonction du facteur γ.
- Procédé selon l'une quelconque des revendications 2 à 5, dans lequel le signal audio à modifier est un signal de parole, les facteurs de modification de consigne α, β, γ permettant de modifier respectivement les paramètres suivants relatifs aux caractéristiques de rendu sonore du signal de parole : la vitesse d'élocution, la hauteur de voix perçue, et le timbre de voix perçu.
- Programme d'ordinateur de traitement audio caractérisé en ce qu'il comporte des instructions de programme adaptées à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 6, lorsque ledit programme est exécuté par un système informatique.
- Dispositif de traitement audio adapté à la modification des caractéristiques acoustiques d'un signal audio initial en fonction de consignes de modification relatives au moins à la fréquence fondamentale et l'enveloppe spectrale du signal initial, caractérisé en ce qu'il comporte :- des moyens de modification du signal audio initial selon une première opération de modification, afin de délivrer un signal audio intermédiaire, la première opération de modification étant destinée à déformer l'enveloppe spectrale du signal initial selon ladite consigne de modification de l'enveloppe spectrale du signal, et- des moyens de modification du signal intermédiaire selon une seconde opération de modification afin de délivrer un signal audio final, ladite seconde opération étant destinée à modifier au moins la fréquence fondamentale du signal intermédiaire, selon un facteur de modification qui est déterminé de manière à prendre en compte les effets de la première opération de modification sur la fréquence fondamentale du signal audio initial, de sorte que la fréquence fondamentale obtenue pour le signal final soit conforme à ladite consigne relative à la fréquence fondamentale.
- Dispositif selon la revendication 8, caractérisé en ce qu'il comporte des moyens adaptés à la mise en oeuvre d'un procédé de modification selon l'une quelconque des revendications 2 à 6.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0753759 | 2007-03-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1970894A1 true EP1970894A1 (fr) | 2008-09-17 |
Family
ID=38573307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP08151708A Withdrawn EP1970894A1 (fr) | 2007-03-12 | 2008-02-20 | Procédé et dispositif de modification d'un signal audio |
Country Status (2)
Country | Link |
---|---|
US (1) | US8121834B2 (fr) |
EP (1) | EP1970894A1 (fr) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101551982B1 (ko) * | 2009-06-19 | 2015-09-10 | 삼성전자주식회사 | 단일 반송파-주파수 분할 다중 통신 시스템에서 신호 송수신 장치 및 방법 |
US20120078625A1 (en) * | 2010-09-23 | 2012-03-29 | Waveform Communications, Llc | Waveform analysis of speech |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US8744854B1 (en) * | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US9159310B2 (en) | 2012-10-19 | 2015-10-13 | The Tc Group A/S | Musical modification effects |
US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
US9372925B2 (en) * | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
US10176818B2 (en) * | 2013-11-15 | 2019-01-08 | Adobe Inc. | Sound processing using a product-of-filters model |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
WO2018218081A1 (fr) * | 2017-05-24 | 2018-11-29 | Modulate, LLC | Système et procédé pour la conversion vocale |
JP7422685B2 (ja) | 2018-05-31 | 2024-01-26 | シュアー アクイジッション ホールディングス インコーポレイテッド | 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法 |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
EP3942845A1 (fr) | 2019-03-21 | 2022-01-26 | Shure Acquisition Holdings, Inc. | Focalisation automatique, focalisation automatique à l'intérieur de régions, et focalisation automatique de lobes de microphone ayant fait l'objet d'une formation de faisceau à fonctionnalité d'inhibition |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
CN114051738B (zh) | 2019-05-23 | 2024-10-01 | 舒尔获得控股公司 | 可操纵扬声器阵列、系统及其方法 |
TW202105369A (zh) | 2019-05-31 | 2021-02-01 | 美商舒爾獲得控股公司 | 整合語音及雜訊活動偵測之低延時自動混波器 |
CN114467312A (zh) | 2019-08-23 | 2022-05-10 | 舒尔获得控股公司 | 具有改进方向性的二维麦克风阵列 |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
CN111063364B (zh) * | 2019-12-09 | 2024-05-10 | 广州酷狗计算机科技有限公司 | 生成音频的方法、装置、计算机设备和存储介质 |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
JP2024505068A (ja) | 2021-01-28 | 2024-02-02 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
CN113362837B (zh) * | 2021-07-28 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信号处理方法、设备及存储介质 |
CN114822580B (zh) * | 2022-04-28 | 2024-06-18 | 北京奇音妙想科技有限公司 | 基于重采样加速计算的修正音频的音高及音色的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0363233A1 (fr) | 1988-09-02 | 1990-04-11 | France Telecom | Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde |
WO2006106466A1 (fr) * | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Procede et processeur de signaux permettant de modifier des signaux audio |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US6910007B2 (en) * | 2000-05-31 | 2005-06-21 | At&T Corp | Stochastic modeling of spectral adjustment for high quality pitch modification |
US20050065784A1 (en) * | 2003-07-31 | 2005-03-24 | Mcaulay Robert J. | Modification of acoustic signals using sinusoidal analysis and synthesis |
FR2868587A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme de conversion rapides d'un signal vocal |
-
2008
- 2008-02-20 EP EP08151708A patent/EP1970894A1/fr not_active Withdrawn
- 2008-03-12 US US12/075,759 patent/US8121834B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0363233A1 (fr) | 1988-09-02 | 1990-04-11 | France Telecom | Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde |
WO2006106466A1 (fr) * | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Procede et processeur de signaux permettant de modifier des signaux audio |
Non-Patent Citations (7)
Title |
---|
A. KAIN; Y. STYLIANOU: "Stochastic modeling of spectral adjustment for high quality pitch modification", PROCEEDINGS OF ICASSP'OO, vol. 2, June 2000 (2000-06-01), pages 949 - 952, XP010504881 |
A.K. SYRDAL; S.A. STEELE: "Vowel F1 as a function of speaker fundamental frequency", 110TH MEETING OF JASA, vol. 78, 1985 |
D. VINCENT; O. ROSEC; T. CHONAVEL: "Glottal closure instant estimation using an appropriateness measure of the source and continuity constraints", IEEE ICASSP'06, vol. 1, May 2006 (2006-05-01), pages 381 - 384 |
E. MOULINES; J. LAROCHE: "Non-parametric techniques for pitch- scale and time-scale modification of speech", SPEECH COMMUNICATION, vol. 16, 1995, pages 175 - 205, XP004024959, DOI: doi:10.1016/0167-6393(94)00054-E |
J. E. HUBER ET AL.: "Formants of children, women, and men: the effect of vocal intensity variation", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 106, no. 3, September 1999 (1999-09-01), pages 1532 - 1542, XP012001200, DOI: doi:10.1121/1.427150 |
MOULINES E ET AL: "Non-parametric techniques for pitch-scale and time-scale modification of speech", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 2, February 1995 (1995-02-01), pages 175 - 205, XP004024959, ISSN: 0167-6393 * |
Y. STYLIANOU: "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", ECOLE NATIONALE SUPÉRIEURE DES TÉLÉCOMMUNICATIONS, 1996 |
Also Published As
Publication number | Publication date |
---|---|
US8121834B2 (en) | 2012-02-21 |
US20080255830A1 (en) | 2008-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1970894A1 (fr) | Procédé et dispositif de modification d'un signal audio | |
US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
JP6496030B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
EP1944755B1 (fr) | Modification d'un signal de parole | |
EP2881947A1 (fr) | Système d'inférence d'enveloppe spectrale et de temps de propagation de groupe et système de synthèse de signaux vocaux pour analyse / synthèse vocale | |
JP4490507B2 (ja) | 音声分析装置および音声分析方法 | |
WO2005106852A1 (fr) | Procede et systeme ameliores de conversion d'un signal vocal | |
FR2553555A1 (fr) | Procede de codage de la parole et dispositif pour sa mise en oeuvre | |
LU88189A1 (fr) | Procédés de codage de segments de parole et de controlôle de hauteur de son pour des synthèse de la parole | |
Türk et al. | Subband based voice conversion. | |
WO2004070705A1 (fr) | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage de bruit, la creation d’effets speciaux et dispositif pour la mise en oeuvre dudit procede | |
Stylianou | Concatenative speech synthesis using a harmonic plus noise model | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
Al-Radhi et al. | Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis. | |
Muralishankar et al. | Modification of pitch using DCT in the source domain | |
EP1730728A1 (fr) | Procede et systeme de conversion rapides d'un signal vocal | |
EP1606792A1 (fr) | Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse | |
Dorran | Audio time-scale modification | |
Kafentzis et al. | Pitch modifications of speech based on an adaptive harmonic model | |
US11302300B2 (en) | Method and apparatus for forced duration in neural speech synthesis | |
Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
Anil et al. | Speech modification for prosody conversion in expressive Marathi text-to-speech synthesis | |
WO2006082287A1 (fr) | Procede d'estimation d'une fonction de conversion de voix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL BA MK RS |
|
17P | Request for examination filed |
Effective date: 20090213 |
|
AKX | Designation fees paid |
Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MT NL NO PL PT RO SE SI SK TR |
|
17Q | First examination report despatched |
Effective date: 20090316 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20120207 |