EP0347338A2 - Method and apparatus for speech analysis, synthesis and coding - Google Patents
Method and apparatus for speech analysis, synthesis and coding Download PDFInfo
- Publication number
- EP0347338A2 EP0347338A2 EP89420197A EP89420197A EP0347338A2 EP 0347338 A2 EP0347338 A2 EP 0347338A2 EP 89420197 A EP89420197 A EP 89420197A EP 89420197 A EP89420197 A EP 89420197A EP 0347338 A2 EP0347338 A2 EP 0347338A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- tube
- sections
- section
- synthesis
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 34
- 238000003786 synthesis reaction Methods 0.000 title claims description 34
- 238000004458 analytical method Methods 0.000 title claims description 28
- 238000000034 method Methods 0.000 title description 5
- 230000035945 sensitivity Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 16
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 238000000429 assembly Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000009089 cytolysis Effects 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract description 14
- 210000001260 vocal cord Anatomy 0.000 abstract description 6
- 238000001228 spectrum Methods 0.000 description 18
- 230000001755 vocal effect Effects 0.000 description 16
- 230000009471 action Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 7
- 210000000214 mouth Anatomy 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 210000000867 larynx Anatomy 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000003800 pharynx Anatomy 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010137 moulding (plastic) Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000002396 uvula Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Definitions
- the invention relates to speech analysis, synthesis and coding.
- a known method for synthesizing speech consists in using a device simulating the behavior of an acoustic tube with variable section which represents the vocal tract by which human speech is emitted.
- the vocal tract which starts from the so-called vocal cords (which act as a source of excitation at the upstream end of the tube) extends from the larynx to the lips, passing through the pharynx and the oral cavity. It is a duct whose section is not uniform over its length and varies within wide limits (for example 2 cm2 in the larynx, from 3 to 7 cm2 in the pharynx, from 0 to 15 cm2 for the oral cavity, 0 cm2 on the lips if the lips are closed, etc).
- This vocal tract can be represented as an acoustic tube constituted by a succession of individual sections of constant length whose section at rest has a determined value.
- the computer will provide an output to a loudspeaker (for speech synthesis) of an electrical signal whose spectrum and the variations of spectrum reproduce as faithfully as possible the spectrum and the variations of spectrum of the sound or successions of sounds that we want to broadcast.
- a loudspeaker for speech synthesis
- it is a microphone which receives the acoustic message, which converts it into electrical signals, received and processed by the computer, for example after analog / digital conversions so that the computer can work in digital mode .
- the result of the analysis can be used directly in speech recognition or be coded and transmitted for reconstruction.
- the coding can be of scalar or vectorial type.
- the acoustic tube must be configured by a large number of factors: there are many sections of tubes, each can undergo variations in section in very large proportions (just pronounce a [o] or a [a] to see the variation in cross-section of the air passage between the lips), and, if the area function is called the curve of the values of cross-sectional areas of the pipe sections along the succession of sections, there is no direct relationship between the area functions of the acoustic tube and the sounds emitted.
- the spectra of sounds emitted in human speech are characterized by "formants" (which are successive maxima present in the spectrum: first forming for the frequency lowest resonance quence, second forming, third forming, ). These formants represent resonances of the vocal tract, resonances which modulate the spectrum of the sound source (the vocal cords) to result in a spectrum modulated at the output of the vocal tract.
- the vowels for example are characterized by fixed values of the frequencies of formants (that is to say the values of the frequencies of maximum amplitude of the spectrum). Consonants are rather characterized by the relative variations of the frequencies of formants.
- Speech synthesizers called "formants synthesizers" have been produced: they consist in using (or simulating) resonant circuits whose resonant frequency can be controlled individually. By combining several resonance frequencies corresponding to the formant frequencies of a determined vowel, this vowel can be synthesized. By varying the resonant frequencies of the circuits in the same way as the forming frequencies of a consonant vary, this consonant can be reproduced artificially.
- knowing the first three formants or their variations over time is a good approximation for analyzing or synthesizing sounds. But one could be satisfied with two formants for a simplified analysis or synthesis, or on the contrary go up to four formants, or even more, for a more elaborate analysis or synthesis.
- the present invention starts from the remark that one can combine in an entirely original and particularly interesting way the propositions of speech analysis and synthesis using simulation by an acoustic tube with variable section and the knowledge that one has. acquired in formant analysis and synthesis, to achieve extremely effective analysis and synthesis devices.
- Their effectiveness comes from the fact that they provide a very good representation of sounds while minimizing the number of parameters of representation of these sounds and from the fact that they operate in a mode which seems very similar to the operating mode of human speech.
- an apparatus for analyzing, coding or synthesizing speech is proposed using a device for simulating the acoustic behavior of a tube formed by a succession of sections of different and variable sections placed end to end, characterized in that the tube comprises a set of N sections, divided into subsets of successive rows in the following manner: the set of N sections is divided into two subsets of rank 1, the first subset, on the upstream side of the tube, corresponding to a negative sensitivity to variations in section for the first forming and the second to a positive sensitivity, each sub-assembly of rank i being divided in the same way into two sub-assemblies of rank i + 1 if there is a change in sign of the sensitivity of the forming i + 1 in this subset, one of the subsets corresponding to a negative sensitivity for the (i + 1) th forming and the other to a positive sensitivity, each subset of rank (n-1) being e nfin divided into two sections, one
- the tube will be divided into four sections of successive relative lengths substantially equal to 1/6, 1/3, 1/3, 1/6 (referred to a unit length of tube).
- the following approximation can be made, consisting in plotting the function of sensitivity of the formant to variations in cross-section of a section as a function of the position of this sections between the end upstream and downstream end of the tube.
- this function can be assimilated to a half-period of sinusoid, the sensitivity being negative and maximum at the upstream inlet of the tube, zero in the middle, and positive and maximum at the outlet.
- positive sensitivity is meant an increase in the frequency of the formant for a growth in the section considered.
- a negative sensitivity is a decrease in frequency for a growth in section.
- the sensitivity function can be compared to three half-periods of sinusoid between the input and the output.
- the function can be assimilated to a sinusoid whose half-period is L / (2i-1) where L is the total length of the tube, the sensitivity being maximum and negative at the upstream input (there therefore has 2i-1 half-periods between the entry and exit of the tube for the sensitivity function of the i th forming).
- the action on the sections of the pipe sections of the simulation device can be exercised in several different ways: - action on the overall section of the section - action on the section of a local portion of section located towards the middle of the section (to act on all the formants at the same time) - action on the section of a local portion of section located at the border between two sections (if we want to voluntarily remove the action on one of the formants: the one whose sensitivity is canceled out at this border).
- FIG. 1 represents in section the simplified anatomy of a human vocal tract with different regions and organs such as the vocal cords CV constituting the source of air flow (of very specific periodic wave form), the LU uvula, palate PL, tongue LN, teeth DN, upper lips LS and lower LI.
- FIG. 2 represents a diagrammatic representation of the vocal tract in the form of an acoustic tube 10 composed of adjacent cylindrical sections T1, T2 ... T16, having sections which are different from one another at rest, these sections may vary independently of each other; the combination of the variations of section of the different sections makes it possible to produce sounds.
- the vowels are mainly expressed by relationships between the different sections. Consonants tend to translate into transitions between a first combination of sections and a second combination.
- the tube is placed behind an air flow source reproducing the characteristics of the vocal cords, that is to say in particular a periodic flow wave of period approximately 10 milliseconds having a sawtooth shape. very rounded, the growth front being slower than the decreasing front.
- FIG. 3 very schematically represents this hardware embodiment of a speech synthesizer by simulation: a data input member defines the succession of phonemes to be produced. This member may for example be an alphanumeric keyboard CL on which keys or combinations of keys represent phonemes.
- the computer controls an electrical signal synthesizer (GEN) which itself controls an HP speaker.
- GEN electrical signal synthesizer
- the operation of the computer is controlled as follows: from the sequence of keyboard commands, a set of parameters is generated; these parameters correspond to the values of the sections of the sections of the acoustic tube representing the vocal tract and to the variations of these sections over time.
- the treatment first results in air flow and / or air pressure at the outlet of the tube, then in the generation of the characteristics of the electrical signal which must be applied to a loudspeaker to reproduce the pressure at the outlet.
- the air pressure caused by the loudspeaker is proportional to the instantaneous electric current which feeds it.
- the processing consists in determining at each instant what is the waveform of the air pressure representing the desired sound, the synthesizer of electrical signals providing a waveform of current corresponding exactly to the shape of wave of the calculated air pressure.
- the loudspeaker has a nonlinear air pressure / electric current response curve, the calculation must take this into account.
- the invention does not relate to the principle of synthesis or analysis of speech by simulation of the acoustic behavior of a tube, principle which is known, but on the choice of the parameters of the simulation, we will now detail this choice.
- the choice relates to the lengths of the tube sections used in data processing.
- the parameters stored in memory in the computer will not be the section variations of sections of a tube cut arbitrarily into sections of any length (as is the case in FIG. 2 where we have taken for convenience of the sections which all have the same length) but these parameters will represent the section variations of sections of well determined lengths resulting from the cutting according to the invention which will now be explained in detail.
- the diagram 4a represents the sensitivity curve SF1 of the first forming F1 of the tube as a function of the position x (x varying between 0 and L) at which a variation in section is produced.
- Diagram 4b represents the sensitivity curve SF2 of the second forming F2
- diagram 4c represents the sensitivity curve SF3 of the third forming F3
- diagram 4d represents the sensitivity curve SF4 of the fourth forming F4.
- the invention proposes to divide the tube into sections whose limits correspond exactly to the zero crossings of the sensitivity of the formants with which one wishes to make an approximation of speech analysis or synthesis: each passage through zero defines the limit of a section.
- the zero crossings of the formants' sensitivity are located on the x-axis: - A0 for the first forming F1 - B1, A0, B′1 for the second forming F2 - C1, C2, A0, C′2, C′1 for the third forming F3 - D1, D2, D3, A0, D′3, D′3, D′2, D′1 for the fourth forming F4 and so on.
- the tube is cut into four sections which are: - a first section from 0 to B1 (length L / 6) - a second section from B1 to A0 (length L / 3) - a third section from A0 to B′1 (length L / 3) - a fourth section from B′1 to L (length L / 6)
- the tube is divided into eight sections which are: - a first section from 0 to C1 (length L / 10) - a second section from C1 to B1 (length L / 15) - a third section from B1 to C2 (length 2L / 15) - a fourth section from C2 to A0 (length 3L / 15) - And four other symmetrical sections of the first four relative to the middle of the tube.
- the tube is shown in Figure 6.
- the tube is divided into 14 sections which are shown in Figure 7 and which are: - a first section from 0 to D1 (length L / 14) - a second section D1 to C1 (length L / 35) - a third section C1 to B1 (length L / 15) - a fourth section from B1 to D2 (length L / 21) - a fifth section D2 to C2 (length 3L / 35) - a sixth section C2 to D3 (length 2L / 35) - a seventh section D3 to A0 (length L / 7) - and seven other symmetrical sections of the first with respect to the middle of the tube.
- N n (n-1) +2.
- the data processing consists of an action on the section of the sections defined by these parameters.
- the action may relate to a number of sections equal to half the total number, for the reason of symmetry indicated above.
- a data memory can be associated with the computer, memory directly containing for each phoneme the sequences of section variations of the sections thus defined.
- a speech synthesis device In a speech synthesis device, the triggering of these variation sequences results, after processing in the computer, in the generation of electrical signals transmitted to the loudspeaker, and in the production of the desired phoneme.
- a microphone receives the sounds, converts them into electrical signals. These signals are processed by the computer. A comparison is made between data from the processing and data generated by sequences of section variations corresponding to known sounds.
- the invention can be used as an educational speech synthesis toy allowing a better understanding of the development of sounds by the human vocal system.
- the source could be a mouthpiece comprising a reed in which the user will blow.
- We can also use a white noise source.
- We will use 4 or 8 sections whose volumes are controlled by pistons controlled by the fingers of the hand.
- the device can be manufactured by plastic molding.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Prostheses (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
L'invention concerne l'analyse, la synthèse et le codage de la parole.The invention relates to speech analysis, synthesis and coding.
Les procédés d'analyse, de synthèse et de codage de la parole humaine se heurtent à des difficultés considérables qui sont : la grande complexité du spectre de fréquence des sons émis, la proximité des spectres de phonèmes voisins, la multiplicité des différents phonèmes utilisés dans une même langue et a fortiori dans des langues et dialectes différents, et surtout la multiplicité des manières dont les sons sont effectivement émis en fonction des sons qui précèdent ou suivent (phénomènes de coarticulation).The processes of analysis, synthesis and coding of human speech come up against considerable difficulties which are: the great complexity of the frequency spectrum of the sounds emitted, the proximity of the spectra of neighboring phonemes, the multiplicity of the different phonemes used in the same language and a fortiori in different languages and dialects, and especially the multiplicity of the ways in which the sounds are effectively emitted according to the sounds which precede or follow (phenomena of coarticulation).
Il est donc très difficile soit de reconnaître une succession de phonèmes émis à grande cadence, pour reconstituer les mots qui ont été prononcés, soit de synthétiser des suites de sons et des mots qui seront effectivement reconnus avec leur signification par ceux qui les entendent.It is therefore very difficult either to recognize a succession of phonemes emitted at high rate, to reconstruct the words which have been pronounced, or to synthesize sequences of sounds and words which will be effectively recognized with their meaning by those who hear them.
Un procédé connu pour synthétiser la parole consiste à utiliser un dispositif simulant le comportement d'un tube acoustique à section variable qui représente le conduit vocal par lequel la parole humaine est émise.A known method for synthesizing speech consists in using a device simulating the behavior of an acoustic tube with variable section which represents the vocal tract by which human speech is emitted.
Le conduit vocal, qui part de ce qu'il est convenu d'appeler les cordes vocales (qui agissent comme source d'excitation à l'extrémité amont du tube) s'étend du larynx aux lèvres, en passant par le pharynx et la cavité buccale. C'est un conduit dont la section n'est pas uniforme sur sa longueur et varie dans de larges limites (par exemple 2 cm² dans le larynx, de 3 à 7 cm² dans le pharynx, de 0 à 15 cm² pour la cavité buccale, 0 cm² aux lèvres si les lèvres sont fermées, etc).The vocal tract, which starts from the so-called vocal cords (which act as a source of excitation at the upstream end of the tube) extends from the larynx to the lips, passing through the pharynx and the oral cavity. It is a duct whose section is not uniform over its length and varies within wide limits (for example 2 cm² in the larynx, from 3 to 7 cm² in the pharynx, from 0 to 15 cm² for the oral cavity, 0 cm² on the lips if the lips are closed, etc).
Ce conduit vocal peut être représenté comme un tube acoustique constitué par une succession de tronçons individuels de longueur constante dont la section au repos a une valeur déterminée.This vocal tract can be represented as an acoustic tube constituted by a succession of individual sections of constant length whose section at rest has a determined value.
Les livres de G. FANT, Acoustic Theory of Speech Production, 1960, Mouton and CO, Gravenhage, Pays Bas, et J. L. FLANAGAN, Speech Analysis Synthesis and Perception, 1972, SPRINGER-VERLAG - New-York, font étant de ce type de représentation dans lesquelles le conduit vocal est découpé en tronçons successifs de l'ordre d'un centimètre de long dont les sections peuvent être répertoriées. La production des sons peut se modéliser par des variations des aires de sections des tronçons individuels.The books of G. FANT, Acoustic Theory of Speech Production, 1960, Mouton and CO, Gravenhage, Pays Bas, and JL FLANAGAN, Speech Analysis Synthesis and Perception, 1972, SPRINGER-VERLAG - New-York, do being of this type of representation in which the vocal tract is cut into successive sections of the order of a centimeter long whose sections can be listed. The production of sounds can be modeled by variations in the cross-sectional areas of the individual sections.
On peut donc produire des sons se rapprochant des phonèmes de la parole humaine en utilisant une succession de tronçons de tubes acoustiques avec une source de débit d'air à l'entrée, cette source ayant des caractéristiques similaires à celles des cordes vocales humaines, et en faisant varier les sections des différents tronçons.It is therefore possible to produce sounds approaching phonemes of human speech by using a succession of sections of acoustic tubes with a source of air flow at the inlet, this source having characteristics similar to those of human vocal cords, and by varying the sections of the different sections.
Bien entendu, avec les techniques modernes de traitement de signal par calculateur, on n'utilisera pas un tube acoustique matériel ayant des sections pouvant matériellement varier tronçon par tronçon, mais on utilisera une simulation de la source d'air et du conduit vocal soit par des circuits électriques analogiques, soit par un calculateur dans lequel on pourra faire varier des paramètres représentant notamment les sections de tube, la longueur totale du tube, le spectre du débit d'air de la source.Of course, with modern computer signal processing techniques, we will not use a material acoustic tube having sections that can materially vary section by section, but we will use a simulation of the air source and the vocal tract either by analog electrical circuits, or by a computer in which parameters can be varied representing in particular the tube sections, the total length of the tube, the spectrum of the air flow from the source.
Le calculateur fournira en sortie vers un haut-parleur (pour la synthèse de la parole) un signal électrique dont le spectre et les variations de spectre reproduisent aussi fidèlement que possible le spectre et les variations de spectre du son ou des successions de sons qu'on veut émettre. Pour l'analyse de la parole, c'est un microphone qui reçoit le message acoustique, qui le convertit en signaux électriques, reçus et traités par le calculateur, par exemple après des conversions analogiques/numériques pour que le calculateur puisse travailler en mode numérique. Le résultat de l'analyse peut être utilisé directement en reconnaissance de parole ou être codé et transmis pour reconstitution. Le codage peut être de type scalaire ou vectoriel.The computer will provide an output to a loudspeaker (for speech synthesis) of an electrical signal whose spectrum and the variations of spectrum reproduce as faithfully as possible the spectrum and the variations of spectrum of the sound or successions of sounds that we want to broadcast. For speech analysis, it is a microphone which receives the acoustic message, which converts it into electrical signals, received and processed by the computer, for example after analog / digital conversions so that the computer can work in digital mode . The result of the analysis can be used directly in speech recognition or be coded and transmitted for reconstruction. The coding can be of scalar or vectorial type.
Si le principe de la simulation du conduit vocal par une succession de tronçons de tubes acoustiques de section variable est connu, il n'a jamais pu être mis en oeuvre de manière satisfaisante pour permettre l'analyse ou la synthèse de la parole continue. Le plus souvent quelques essais sont faits par exemple avec des voyelles ou des ensembles consonne-voyelle ; mais on est très loin de parvenir à synthétiser ou reconnaître des successions rapides de sons tels qu'ils se présentent dans la parole humaine.If the principle of the simulation of the vocal tract by a succession of sections of acoustic tubes of variable section is known, it has never been able to be implemented in a satisfactory manner to allow the analysis or the synthesis of continuous speech. Most often some tests are made for example with vowels or consonant-vowel sets; but we are very far from being able to synthesize or recognize rapid successions of sounds as they appear in human speech.
La raison en est que la commande automatique à partir d'un texte est difficile et mal connue ; le tube acoustique doit être paramétré par un grand nombre de facteurs : il y a beaucoup de tronçons de tubes, chacun peut subir des variations de section dans de très larges proportions (il n'y a qu'à prononcer un [o] ou un [a] pour voir la variation de section de passage de l'air entre les lèvres), et, si on appelle fonction d'aire la courbe des valeurs d'aires de section des tronçons de tube le long de la succession de tronçons, il n'y a pas de relation directe entre les fonctions d'aire du tube acoustique et les sons émis.The reason is that automatic control from text is difficult and poorly understood; the acoustic tube must be configured by a large number of factors: there are many sections of tubes, each can undergo variations in section in very large proportions (just pronounce a [o] or a [a] to see the variation in cross-section of the air passage between the lips), and, if the area function is called the curve of the values of cross-sectional areas of the pipe sections along the succession of sections, there is no direct relationship between the area functions of the acoustic tube and the sounds emitted.
Par ailleurs, les spectres des sons émis dans la parole humaine sont caractérisés par des "formants" (qui sont des maxima successifs présents dans le spectre : premier formant pour la fré quence de résonance la plus basse, deuxième formant, troisième formant,...). Ces formants représentent des résonances du conduit vocal, résonances qui modulent le spectre de la source sonore (les cordes vocales) pour aboutir à un spectre modulé en sortie de conduit vocal. Les voyelles par exemple sont caractérisées par des valeurs fixes des fréquences de formants (c'est-à-dire les valeurs des fréquences d'amplitude maximale du spectre). Les consonnes sont plutôt caractérisées par les variations relatives des fréquences de formants.Furthermore, the spectra of sounds emitted in human speech are characterized by "formants" (which are successive maxima present in the spectrum: first forming for the frequency lowest resonance quence, second forming, third forming, ...). These formants represent resonances of the vocal tract, resonances which modulate the spectrum of the sound source (the vocal cords) to result in a spectrum modulated at the output of the vocal tract. The vowels for example are characterized by fixed values of the frequencies of formants (that is to say the values of the frequencies of maximum amplitude of the spectrum). Consonants are rather characterized by the relative variations of the frequencies of formants.
Mais la combinaison d'une suite de syllabes est difficile à formaliser sous forme de variations de fréquences des formants car pour un élément de la suite considérée les fréquences des formants dépendent des sons précédents et suivants (phénomène de coarticulation).But the combination of a sequence of syllables is difficult to formalize in the form of variations in the frequencies of the formants because for an element of the sequence considered the frequencies of the formants depend on the preceding and following sounds (coarticulation phenomenon).
Des synthétiseurs de parole dits "synthétiseurs à formants" ont pu être produits : ils consistent à utiliser (ou simuler) des circuits résonants dont la fréquence de résonance peut être commandée individuellement. En combinant plusieurs fréquences de résonances correspondant aux fréquences de formants d'une voyelle déterminée, on peut synthétiser cette voyelle. En faisant varier les fréquences de résonance des circuits de la même manière que varient les fréquences de formant d'une consonne, on peut reproduire artificiellement cette consonne.Speech synthesizers called "formants synthesizers" have been produced: they consist in using (or simulating) resonant circuits whose resonant frequency can be controlled individually. By combining several resonance frequencies corresponding to the formant frequencies of a determined vowel, this vowel can be synthesized. By varying the resonant frequencies of the circuits in the same way as the forming frequencies of a consonant vary, this consonant can be reproduced artificially.
En général la connaissance des trois premiers formants ou de leurs variations au cours du temps représente une bonne approximation pour analyser ou synthétiser les sons. Mais on pourrait se contenter de deux formants pour une analyse ou synthèse simplifiée, ou au contraire aller jusqu'à quatre formants, voire plus, pour une analyse ou synthèse plus élaborée.In general, knowing the first three formants or their variations over time is a good approximation for analyzing or synthesizing sounds. But one could be satisfied with two formants for a simplified analysis or synthesis, or on the contrary go up to four formants, or even more, for a more elaborate analysis or synthesis.
Dans la synthèse à formants, on analyse ou on reconstitue des spectres de signaux présentant des maxima d'amplitude pour des fréquences déterminées, mais évidemment on ne sait pas analyser ou reconstituer exactement tout le spectre et les variations de spectre qui définissent exactement la constitution du son considéré. Et le problème se complique bien sûr considérablement si, par suite des phénomènes de coarticulation entre voyelles et consonnes successives, les spectres et variations de spectre du signal se mélangent.In the synthesis with formants, one analyzes or one reconstitutes spectra of signals presenting maxima of amplitude for given frequencies, but obviously one does not know how to analyze or reconstitute exactly the whole spectrum and the variations of spectrum which exactly define the constitution of the sound considered. And the problem is of course considerably complicated if, as a result of phenomena of coarticulation between successive vowels and consonants, the spectra and variations in spectrum of the signal mix.
La présente invention part de la remarque qu'on peut combiner d'une manière tout à fait originale de particulièrement intéressante les propositions d'analyse et de synthèse de parole utilisant la simulation par un tube acoustique à section variable et les connaissances qu'on a acquises dans l'analyse et la synthèse à formants, pour aboutir à des dispositifs d'analyse et synthèse extrêmement efficaces. Leur efficacité vient du fait qu'ils fournissent une très bonne représentation des sons tout en minimisant le nombre de paramètres de représentation de ces sons et du fait qu'ils fonctionnent sur un mode qui semble très similaire au mode de fonctionnement de la parole humaine.The present invention starts from the remark that one can combine in an entirely original and particularly interesting way the propositions of speech analysis and synthesis using simulation by an acoustic tube with variable section and the knowledge that one has. acquired in formant analysis and synthesis, to achieve extremely effective analysis and synthesis devices. Their effectiveness comes from the fact that they provide a very good representation of sounds while minimizing the number of parameters of representation of these sounds and from the fact that they operate in a mode which seems very similar to the operating mode of human speech.
Selon l'invention, on propose un appareil d'analyse, de codage ou de synthèse de parole utilisant un dispositif de simulation du comportement acoustique d'un tube constitué par une succession de tronçons de sections différentes et variables mis bout à bout, caractérisé en ce que le tube comprend un ensemble de N tronçons, divisé en sous-ensembles de rangs successifs de la manière suivante : l'ensemble de N tronçons est divisé en deux sous-ensembles de rang 1, le premier sous-ensemble, du côté amont du tube, correspondant à une sensibilité négative aux variations de section pour le premier formant et le deuxième à une sensibilité positive, chaque sous-ensemble de rang i étant divisé de la même manière en deux sous-ensembles de rang i+1 s'il y a changement de signe de la sensiblité du formant i+1 dans ce sous-ensemble, l'un des sous-ensembles correspondant à une sensibilité négative pour le (i+1)ème formant et l'autre à une sensibilité positive, chaque sous-ensemble de rang (n-1) étant enfin divisé en deux tronçons, l'un des tronçons correspondant à une sensibilité négative du nème formant et l'autre à une sensibilité positive, la sensibilité du ième formant aux variations de section d'un tronçon représentant la variation relative de la fréquence du ième formant en fonction d'une variation de section de ce tronçon ; le dispositif ayant pour paramètres de commande d'analyse ou de synthèse d'une part les variations de section de certains des tronçons de tube ainsi définis, et d'autre part la longueur totale du tube ; le dispositif recevant des signaux d'un microphone ou fournissant des signaux à un haut-parleur selon qu'il fonctionne en analyseur ou synthétiseur de parole.According to the invention, an apparatus for analyzing, coding or synthesizing speech is proposed using a device for simulating the acoustic behavior of a tube formed by a succession of sections of different and variable sections placed end to end, characterized in that the tube comprises a set of N sections, divided into subsets of successive rows in the following manner: the set of N sections is divided into two subsets of rank 1, the first subset, on the upstream side of the tube, corresponding to a negative sensitivity to variations in section for the first forming and the second to a positive sensitivity, each sub-assembly of rank i being divided in the same way into two sub-assemblies of rank i + 1 if there is a change in sign of the sensitivity of the forming i + 1 in this subset, one of the subsets corresponding to a negative sensitivity for the (i + 1) th forming and the other to a positive sensitivity, each subset of rank (n-1) being e nfin divided into two sections, one of the sections corresponding to a negative sensitivity of the n th forming and the other to a positive sensitivity, the sensitivity of the i th forming to section variations of a section representing the relative variation of the frequency of the i th forming as a function of a section variation of this section; the device having, for analysis or synthesis control parameters, on the one hand the section variations of some of the tube sections thus defined, and on the other hand the total length of the tube; the device receiving signals from a microphone or supplying signals to a loudspeaker depending on whether it functions as a speech analyzer or synthesizer.
Ce qui est important c'est la manière dont on subdivise le tube acoustique en tronçons successifs, manière qui est liée à l'existence de formants et à la sensibilité de ces formants aux variations de section locale du tube.What is important is the way in which the acoustic tube is subdivided into successive sections, which is linked to the existence of formants and to the sensitivity of these formants to variations in the local section of the tube.
Alors que dans le passé la subdivision en tronçons était soit arbitraire soit liée à des données différentes, on propose ici une subdivision très particulière liée aux formants et fonction du nombre de formants avec lesquels l'approximation d'analyse ou de synthèse doit être faite.While in the past the subdivision into sections was either arbitrary or linked to different data, here we propose a very particular subdivision linked to formants and depending on the number of formants with which the analysis or synthesis approximation must be made.
Plus précisément, on montrera que si l'on veut une approximation à deux formants, c'est-à-dire une approximation analogue à celle qu'on obtient dans une analyse, codage ou synthèse à deux formants mais obtenue par simulation du comportement d'un tube à tronçons successifs de section variable, on divisera le tube en quatre tronçons de longueurs successives relatives sensiblement égales à 1/6, 1/3, 1/3, 1/6 (rapportées à une longueur unitaire de tube).More precisely, we will show that if we want an approximation with two formants, that is to say an approximation similar to that which we obtain in an analysis, coding or synthesis with two formants but obtained by simulation of the behavior d 'a tube with successive sections of variable section, the tube will be divided into four sections of successive relative lengths substantially equal to 1/6, 1/3, 1/3, 1/6 (referred to a unit length of tube).
Si on veut une approximation à trois formants, on utilisera une simulation d'un tube divisé en huit tronçons de longueurs successives relatives 3/30, 2/30, 4/30, 6/30, 6/30, 4/30, 2/30, 3/30.If we want an approximation to three formants, we will use a simulation of a tube divided into eight sections of successive lengths relative 3/30, 2/30, 4/30, 6/30, 6/30, 4/30, 2 / 30, 3/30.
On montrera dans la suite comment ces valeurs sont obtenues.We will show in the following how these values are obtained.
Les valeurs théoriques de ces longueurs peuvent être calculées précisément, mais bien entendu les valeurs pratiques peuvent être seulement des approximations des valeurs théoriques sans changer fondamentalement le résultat global d'analyse ou synthèse de parole.The theoretical values of these lengths can be calculated precisely, but of course the practical values can only be approximations of the theoretical values without fundamentally changing the overall result of speech analysis or synthesis.
Pour la détermination de la sensibilité des formants aux variations de sections, on peut faire l'approximation suivante, consistant à tracer la fonction de sensibilité du formant aux variations de section d'un tronçon en fonction de la position de ce tronçons entre l'extrémité amont et l'extrémité aval du tube.For the determination of the sensitivity of the formants to variations in cross-sections, the following approximation can be made, consisting in plotting the function of sensitivity of the formant to variations in cross-section of a section as a function of the position of this sections between the end upstream and downstream end of the tube.
Pour le premier formant, cette fonction peut être assimilée à une demi-période de sinusoïde, la sensibilité étant négative et maximale à l'entrée amont du tube, nulle au milieu, et positive et maximale à la sortie. Par sensibilité positive on entend une croissance de la fréquence du formant pour une croissance de la section considérée. Une sensibilité négative est une décroissance de fréquence pour une croissance de section.For the first component, this function can be assimilated to a half-period of sinusoid, the sensitivity being negative and maximum at the upstream inlet of the tube, zero in the middle, and positive and maximum at the outlet. By positive sensitivity is meant an increase in the frequency of the formant for a growth in the section considered. A negative sensitivity is a decrease in frequency for a growth in section.
Pour le deuxième formant, la fonction de sensibilité peut être assimilée à trois demi-périodes de sinusoïde entre l'entrée et la sortie. Pour le ième formant, la fonction peut être assimilée à une sinusoïde dont la demi-période est L/(2i-1) où L est la longeur totale du tube, la sensibilité étant maximale et négative à l'entrée amont (il y a donc 2i-1 demi-périodes entre l'entrée et la sortie du tube pour la fonction de sensibilité du ième formant).For the second component, the sensitivity function can be compared to three half-periods of sinusoid between the input and the output. For the i th forming, the function can be assimilated to a sinusoid whose half-period is L / (2i-1) where L is the total length of the tube, the sensitivity being maximum and negative at the upstream input (there therefore has 2i-1 half-periods between the entry and exit of the tube for the sensitivity function of the i th forming).
Les zones de passage vers zéro de la sensibilité des différents formants constituent les frontières des tronçons de tubes successifs. Il y a N = 2 + n(n-1) tronçons au total si on fait une approximation à n formants.The zero crossing zones of the sensitivity of the different formants constitute the boundaries of the sections of successive tubes. There are N = 2 + n (n-1) total sections if we make an approximation to n formants.
L'action sur les sections des tronçons de tube du dispositif de simulation peut s'exercer de plusieurs manières différentes :
- action sur la section globale du tronçon
- action sur la section d'une portion locale de tronçon située vers le milieu du tronçon (pour agir sur tous les formants à la fois)
- action sur la section d'une portion locale de tronçon située à la frontière entre deux tronçons (si on veut supprimer volontairement l'action sur l'un des formants : celui dont la sensibilité s'annule à cette frontière).The action on the sections of the pipe sections of the simulation device can be exercised in several different ways:
- action on the overall section of the section
- action on the section of a local portion of section located towards the middle of the section (to act on all the formants at the same time)
- action on the section of a local portion of section located at the border between two sections (if we want to voluntarily remove the action on one of the formants: the one whose sensitivity is canceled out at this border).
Par cette organisation judicieuse de tronçons de tubes bien choisis, on a lié directement l'analyse et la synthèse de la parole humaine à la notion de formants, ce qui permet de minimiser le nombre de paramètres de commande du dispositif de simulation lorsqu'on veut produire des sons dont on a justement répertorié les formants et leurs variations.By this judicious organization of well chosen sections of tubes, we directly linked the analysis and synthesis of human speech to the concept of formants, which minimizes the number of control parameters of the simulation device when we want produce sounds whose formants and their variations have rightly been listed.
Cette organisation se distingue donc fondamentalement des propositions déjà faites en matière de simulation par tubes de section variable puisque jusqu'à maintenant on se contentait de subdiviser les tubes en tronçons d'une manière artificielle : subdivision en tronçons réguliers de l'ordre de 1 cm de long ou, par analogie avec le conduit vocal, subdivision entre une zone de larynx, de pharynx et subdivision arbitraire dans la bouche.This organization is therefore fundamentally different from the proposals already made in terms of simulation by tubes of variable section since until now we have been content to subdivide the tubes into sections in an artificial way: subdivision into regular sections of the order of 1 cm long or, by analogy with the vocal tract, subdivision between an area of larynx, pharynx and arbitrary subdivision in the mouth.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée qui suit et qui est faite en référence aux dessins annexés dans lesquels :
- - la figure 1 représente la forme générale d'un conduit vocal humain ;
- - la figure 2 représente la schématisation de ce conduit sous forme d'un tube divisé en tronçons de sections différentes, variables individuellement ;
- - la figure 3 représente le schéma-bloc d'un dispositif de synthèse de parole ;
- - la figure 4 représente le tracé des courbes de sensibilité des quatre premiers formants d'un tube uniforme ;
- - la figure 5 représente la division d'un tube selon l'invention en quatre tronçons pour une approximation limitée aux deux premiers formants ;
- - la figure 6 représente la division d'un tube selon l'invention en huit tronçons pour une approximation limitée aux trois premiers formants ; et
- - la figure 7 représente la division d'un tube selon l'invention en quatorze tronçons pour une approximation limitée aux quatre premiers formants.
- - Figure 1 shows the general shape of a human vocal tract;
- - Figure 2 shows the diagram of this conduit in the form of a tube divided into sections of different sections, individually variable;
- - Figure 3 shows the block diagram of a speech synthesis device;
- - Figure 4 shows the plot of the sensitivity curves of the first four formants of a uniform tube;
- - Figure 5 shows the division of a tube according to the invention into four sections for an approximation limited to the first two formants;
- - Figure 6 shows the division of a tube according to the invention into eight sections for an approximation limited to the first three formants; and
- - Figure 7 shows the division of a tube according to the invention in fourteen sections for an approximation limited to the first four formants.
la figure 1 représente en coupe l'anatomie simplifiée d'un conduit vocal humain avec différentes régions et organes tels que les cordes vocales CV constituant la source de débit d'air (de forme d'onde périodique très particulière), la luette LU, le palais PL, la langue LN, les dents DN, les lèvres supérieure LS et inférieure LI.FIG. 1 represents in section the simplified anatomy of a human vocal tract with different regions and organs such as the vocal cords CV constituting the source of air flow (of very specific periodic wave form), the LU uvula, palate PL, tongue LN, teeth DN, upper lips LS and lower LI.
La figure 2 représente une schématisation qu'on a pu faire du conduit vocal sous forme d'un tube acoustique 10 composé de tronçons cylindriques T1, T2...T16, adjacents, ayant des sections différentes les unes des autres au repos, ces sections pouvant varier indépendamment les unes des autres ; la combinaison des variations de section des différents tronçons permet de produire des sons. Les voyelles se traduisent essentiellement par des rapports entre les différentes sections. Les consonnes se traduisent plutôt par des transitions entre une première combinaison de sections et une deuxième combinaison.FIG. 2 represents a diagrammatic representation of the vocal tract in the form of an
Pour la synthèse de parole, le tube est placé derrière une source de débit d'air reproduisant les caractéristiques des cordes vocales, c'est-à-dire notamment une onde de débit périodique de période environ 10 millisecondes ayant une forme de dents de scie très arrondies, le front de croissance étant plus lent que le front de décroissance.For speech synthesis, the tube is placed behind an air flow source reproducing the characteristics of the vocal cords, that is to say in particular a periodic flow wave of period approximately 10 milliseconds having a sawtooth shape. very rounded, the growth front being slower than the decreasing front.
Compte-tenu de la difficulté de réaliser mécaniquement un tel tube acoustique, on utilisera plutôt des technologies mo dernes de simulation par calculateur, dans lesquelles le comportement acoustique du tube peut être déterminé c'est-à-dire que le débit et la pression d'air en chaque point et notamment à la sortie du tube, peuvent être calculés ; les caractéristiques du signal électrique qu'il faut appliquer à un haut-parleur pour reproduire ce débit et cette pression sont également calculées, et un signal électrique ayant ces caractéristiques est produit par un générateur commandé par le calculateur.Given the difficulty of mechanically producing such an acoustic tube, we will rather use modern technologies. last computer simulation, in which the acoustic behavior of the tube can be determined, that is to say that the air flow and pressure at each point and in particular at the outlet of the tube, can be calculated; the characteristics of the electrical signal that must be applied to a loudspeaker to reproduce this flow rate and this pressure are also calculated, and an electrical signal having these characteristics is produced by a generator controlled by the computer.
La figure 3 représente très schématiquement ce mode de réalisation matérielle d'un synthétiseur de parole par simulation : un organe d'entrée de données définit la succession des phonèmes à produire. Cet organe peut être par exemple un clavier alphanumérique CL sur lequel des touches ou des combinaisons de touches représentent des phonèmes.FIG. 3 very schematically represents this hardware embodiment of a speech synthesizer by simulation: a data input member defines the succession of phonemes to be produced. This member may for example be an alphanumeric keyboard CL on which keys or combinations of keys represent phonemes.
Ces données sont appliquées au calculateur CALC sous forme de signaux électriques de manière classique, par l'intermédiaire d'un bus de liaison.These data are applied to the CALC computer in the form of electrical signals in a conventional manner, via a link bus.
Le calculateur contrôle un synthétiseur de signaux électriques (GEN) qui lui-même commande un haut-parleur HP.The computer controls an electrical signal synthesizer (GEN) which itself controls an HP speaker.
Le fonctionnement du calculateur est contrôlé de la manière suivante : à partir de la suite des commandes du clavier, un ensemble de paramètres est engendré ; ces paramètres correspondent aux valeurs des sections des tronçons du tube acoustique représentant le conduit vocal et aux variations de ces sections au cours du temps.The operation of the computer is controlled as follows: from the sequence of keyboard commands, a set of parameters is generated; these parameters correspond to the values of the sections of the sections of the acoustic tube representing the vocal tract and to the variations of these sections over time.
Le traitement de données est simplement la simulation par calcul du comportement du tube ayant ces sections et ces variations de sections. Ce comportement est maintenant bien connu et il est décrit par exemple dans l'ouvrage de J.L. Flanagan susmentionné.Data processing is simply simulation by calculation of the behavior of the tube having these sections and these section variations. This behavior is now well known and is described, for example, in the aforementioned work by J.L. Flanagan.
Le traitement aboutit d'abord à des résultats de débit d'air et/ou pression d'air en sortie du tube puis à la génération des caractéristiques du signal électrique qu'il faut appliquer à un haut-parleur pour reproduire la pression en sortie. On peut supposer pour simplifier que la pression d'air provoquée par le haut-parleur est proportionnelle au courant électrique instantané qui l'alimente. Dans ce cas, le traitement consiste à déterminer à chaque instant quelle est la forme d'onde de la pression d'air représentant le son désiré, le synthétiseur de signaux électriques fournissant une forme d'onde de courant correspondant exactement à la forme d'onde de la pression d'air calculée. Bien entendu, si le haut-parleur a une courbe de réponse pression d'air/courant électrique non linéaire, le calcul doit en tenir compte.The treatment first results in air flow and / or air pressure at the outlet of the tube, then in the generation of the characteristics of the electrical signal which must be applied to a loudspeaker to reproduce the pressure at the outlet. We can assume for simplicity that the air pressure caused by the loudspeaker is proportional to the instantaneous electric current which feeds it. In this case, the processing consists in determining at each instant what is the waveform of the air pressure representing the desired sound, the synthesizer of electrical signals providing a waveform of current corresponding exactly to the shape of wave of the calculated air pressure. Of course, if the loudspeaker has a nonlinear air pressure / electric current response curve, the calculation must take this into account.
Etant donné que l'invention ne porte pas sur le principe de synthèse ou d'analyse de la parole par simulation du comportement acoustique d'un tube, principe qui est connu, mais sur le choix des paramètres de la simulation, on va maintenant détailler ce choix.Given that the invention does not relate to the principle of synthesis or analysis of speech by simulation of the acoustic behavior of a tube, principle which is known, but on the choice of the parameters of the simulation, we will now detail this choice.
Le choix porte sur les longueurs des tronçons de tubes utilisés dans le traitement de données.The choice relates to the lengths of the tube sections used in data processing.
C'est-à-dire que les paramètres stockés en mémoire dans le calculateur ne seront pas les variations de section de tronçons d'un tube découpé arbitrairement en tronçons de longueurs quelconques (comme c'est le cas sur la figure 2 où on a pris par commodité des tronçons qui ont tous la même longueur) mais ces paramètres représenteront les variations de section de tronçons de longueurs bien déterminées résultant du découpage selon l'invention qu'on va maintenant expliquer en détail.That is to say that the parameters stored in memory in the computer will not be the section variations of sections of a tube cut arbitrarily into sections of any length (as is the case in FIG. 2 where we have taken for convenience of the sections which all have the same length) but these parameters will represent the section variations of sections of well determined lengths resulting from the cutting according to the invention which will now be explained in detail.
On part d'un tube de longueur totale L (par exemple de 15 à 20 cm, ce qui correspond à la longeur du conduit vocal). La réponse acoustique de ce tube présente des formants, c'est-à-dire des résonances plus ou moins prononcées à certaines fréquences. Le spectre d'un signal acoustique émis à l'entrée du tube sera modulé par ces formants et présentera des maxima locaux aux fréquences des formants.We start from a tube of total length L (for example from 15 to 20 cm, which corresponds to the length of the vocal tract). The acoustic response of this tube presents formants, that is to say more or less pronounced resonances at certain frequencies. The spectrum of an acoustic signal emitted at the entry of the tube will be modulated by these formants and will present local maxima at the frequencies of the formants.
L'étude acoustique théorique d'un tube de longeur L montre que la fréquence des formants varie en fonction de la section du tube. Mais elle ne varie pas de la même manière partout : si on fait varier la section du tube uniquement localement au milieu de la longueur du tube, on s'aperçoit que la fréquence des formants ne varie pas du tout ; si, au contraire, on fait varier la section uniquement à l'embouchure du tube ou à sa sortie, on constate qu'une variation de section fait varier la fréquence des formants : si c'est à l'embouchure du tube que la section varie, la fréquence des formants augmente à mesure que la section diminue ; si, au contraire, c'est à la sortie du tube que la section varie, la fréquence des formants augmente à mesure que la section augmente.The theoretical acoustic study of a tube of length L shows that the frequency of formants varies depending on the section of the tube. But it does not vary in the same way everywhere: if one varies the section of the tube only locally in the middle of the length of the tube, one realizes that the frequency of the formants does not vary at all; if, on the contrary, the section is varied only at the mouth of the tube or at its outlet, it is found that a variation in section varies the frequency of the formants: if it is at the mouth of the tube that the section varies, the frequency of formants increases as the section decreases; if, on the contrary, it is at the outlet of the tube that the section varies, the frequency of formants increases as the section increases.
Enfin, si on fait varier la section du tube en un endroit quelconque, les fréquences des différentes formants varieront avec des amplitudes et des sens différents.Finally, if the section of the tube is varied at any location, the frequencies of the different formants will vary with different amplitudes and directions.
En fait, pour un tube initialement à section uniforme, on peut donner une représentation théorique de la sensibilité des formants, c'est-à-dire du sens de variation des fréquences de formant en fonction d'une variation locale de section du tube, car la sensibilité des formants varie sinusoïdalement le long du tube entre l'embouchure et la sortie, la période de la sinusoïde étant différente pour chacun des formants.In fact, for a tube initially of uniform cross-section, it is possible to give a theoretical representation of the sensitivity of the formants, that is to say of the direction of variation of the frequencies of the forming as a function of a local variation in cross-section of the tube, because the sensitivity of the formants varies sinusoidally along the tube between the mouth and the outlet, the period of the sinusoid being different for each of the formants.
C'est ce qui est représenté à la figure 4 : le diagramme 4a représente la courbe de sensibilité SF1 du premier formant F1 du tube en fonction de la position x (x variant entre 0 et L) à laquelle on produit une variation de section.This is what is shown in FIG. 4: the diagram 4a represents the sensitivity curve SF1 of the first forming F1 of the tube as a function of the position x (x varying between 0 and L) at which a variation in section is produced.
Le diagramme 4b représente la courbe de sensibilité SF2 du deuxième formant F2, le diagramme 4c représente la courbe de sensibilité SF3 du troisième formant F3, et le diagramme 4d représente la courbe de sensibilité SF4 du quatrième formant F4.Diagram 4b represents the sensitivity curve SF2 of the second forming F2, diagram 4c represents the sensitivity curve SF3 of the third forming F3, and diagram 4d represents the sensitivity curve SF4 of the fourth forming F4.
Sur ces courbes, on ne s'est pas préoccupé de la valeur relative des sensibilités SF1, SF2, SF3, SF4 les unes par rapport aux autres. Seuls la forme de variation, les signes, les positions des maxima et minima et des passages par zéro nous intéressent selon l'invention. On a donc donné une valeur maximale unitaire à chacune des sensibilités.On these curves, we did not worry about the relative value of the sensitivities SF1, SF2, SF3, SF4 relative to each other to others. Only the form of variation, the signs, the positions of the maxima and minima and the passages through zero interest us according to the invention. We therefore gave a maximum unit value to each of the sensitivities.
La forme théorique des courbes de sensibilité des formants en fonction de la position x à la laquelle une variation de section est appliquée est très simple : c'est une sinusoïde dont la demi-période est L/(2i-1) où i est le rang du formant : i = 1 pour le premier formant F1, c'est-à-dire pour la fréquence de résonance la plus basse ; i = 2 pour la fréquence de résonance suivant immédiatement ; et ainsi de suite. Cette sinusoïde présente un minimum (sensibilité maximale en valeur absolue mais négative) à l'embouchure du tube (x = 0) et un maximum (sensibilité maximale et positive) à l'extrémité du tube (x = L).The theoretical form of the sensitivity curves of the formants as a function of the position x to which a section variation is applied is very simple: it is a sinusoid whose half-period is L / (2i-1) where i is the rank of the form: i = 1 for the first form F1, that is to say for the lowest resonant frequency; i = 2 for the next resonant frequency immediately; And so on. This sinusoid has a minimum (maximum sensitivity in absolute but negative value) at the mouth of the tube (x = 0) and a maximum (maximum and positive sensitivity) at the end of the tube (x = L).
On peut vérifier que le tube est antisymétrique, c'est-à-dire qu'une action sur la section en un point quelconque d'abscisse x agit sur les différents formants exactement de la même manière, mais avec un signe opposé, qu'une action sur la section en un point d'abcisse L-x.We can verify that the tube is antisymmetrical, that is to say that an action on the section at any point on the abscissa x acts on the different formants in exactly the same way, but with an opposite sign, that an action on the section at a point of abscissa Lx.
Pour x = L/2 l'action est donc nulle : la sensibilité passe par zéro en ce point pour tous les formants quel que soit leur rang.For x = L / 2 the action is therefore zero: the sensitivity goes through zero at this point for all formants regardless of their rank.
Cette remarque sera importante pour la suite car elle permettra de limiter le nombre de paramètres de commande du dispositif d'analyse ou de synthèse de parole : on obtient la même variation de fréquences de formants, pour tous les formants à la fois en agissant sur la section au point d'abscisse x au lieu du point d'abscisse L-x à condition de faire varier la section en ce point dans le sens opposé à celui qu'on aurait utilisé au point L-x.This remark will be important for the rest because it will limit the number of command parameters of the speech analysis or synthesis device: the same variation in frequency of formants is obtained, for all the formants at the same time by acting on the section at the abscissa point x instead of the abscissa point Lx provided that the section at this point is varied in the opposite direction to that which would have been used at point L-x.
Les explications ci-dessus ont été dans le cadre d'un tube initialement à section uniforme aux tronçons duquel on applique de petites variations. Des expériences effectuées par les inventeurs ont montré que dans le cas d'un tube divisé en tronçons de sections variables et dans le cas où des variations importantes sont appliquées à ces sections, les sens de variations sont conservés même si les fonctions de sensibilité ne sont plus sinusoïdales.The explanations above were in the context of a tube initially of uniform section to the sections of which small variations are applied. Experiments carried out by The inventors have shown that in the case of a tube divided into sections of variable sections and in the case where significant variations are applied to these sections, the directions of variation are preserved even if the sensitivity functions are no longer sinusoidal.
L'invention propose de diviser le tube en tronçons dont les limites correspondent exactement aux passages par zéro de la sensibilité des formants avec lesquels on veut faire un approximation d'analyse ou de synthèse de parole : chaque passage par zéro définit la limite d'un tronçon.The invention proposes to divide the tube into sections whose limits correspond exactly to the zero crossings of the sensitivity of the formants with which one wishes to make an approximation of speech analysis or synthesis: each passage through zero defines the limit of a section.
Les passages par zéro de la sensibilité des formants sont situés aux abscisses :
- A0 pour le premier formant F1
- B1, A0, B′1 pour le deuxième formant F2
- C1, C2, A0, C′2, C′1 pour le troisième formant F3
- D1, D2, D3, A0, D′3, D′3, D′2, D′1 pour le quatrième formant F4 et ainsi de suite.The zero crossings of the formants' sensitivity are located on the x-axis:
- A0 for the first forming F1
- B1, A0, B′1 for the second forming F2
- C1, C2, A0, C′2, C′1 for the third forming F3
- D1, D2, D3, A0, D′3, D′3, D′2, D′1 for the fourth forming F4 and so on.
Les valeurs de ces abscisses sont les suivantes :
On va donner trois exemples de découpage selon l'invention puis une règle générale :We will give three examples of cutting according to the invention then a general rule:
Le tube est découpé en quatre tronçons qui sont :
- un premier tronçon de 0 à B1 (longueur L/6)
- un deuxième tronçon de B1 à A0 (longueur L/3)
- un troisième tronçon de A0 à B′1 (longueur L/3)
- un quatrième tronçon de B′1 à L (longueur L/6)The tube is cut into four sections which are:
- a first section from 0 to B1 (length L / 6)
- a second section from B1 to A0 (length L / 3)
- a third section from A0 to B′1 (length L / 3)
- a fourth section from B′1 to L (length L / 6)
Le tube correspondant est représenté à la figure 5.The corresponding tube is shown in Figure 5.
Le tube est divisé en huit tronçons qui sont :
- un premier tronçon de 0 à C1 (longueur L/10)
- un deuxième tronçon de C1 à B1 (longueur L/15)
- un troisième tronçon de B1 à C2 (longueur 2L/15)
- un quatrième tronçon de C2 à A0 (longueur 3L/15)
- et quatre autres tronçons symétriques des quatre premiers par rapport au milieu du tube.The tube is divided into eight sections which are:
- a first section from 0 to C1 (length L / 10)
- a second section from C1 to B1 (length L / 15)
- a third section from B1 to C2 (
- a fourth section from C2 to A0 (
- And four other symmetrical sections of the first four relative to the middle of the tube.
Le tube est représenté à la figure 6.The tube is shown in Figure 6.
Le tube est divisé en 14 tronçons qui sont représentés à la figure 7 et qui sont :
- un premier tronçon de 0 à D1 (longueur L/14)
- un deuxième tronçon D1 à C1 (longueur L/35)
- un troisième tronçon C1 à B1 (longueur L/15)
- un quatrième tronçon de B1 à D2 (longueur L/21)
- un cinquième tronçon D2 à C2 (longueur 3L/35)
- un sixième tronçon C2 à D3 (longueur 2L/35)
- un septième tronçon D3 à A0 (longueur L/7)
- et sept autres tronçons symétriques des premiers par rapport au milieu du tube.The tube is divided into 14 sections which are shown in Figure 7 and which are:
- a first section from 0 to D1 (length L / 14)
- a second section D1 to C1 (length L / 35)
- a third section C1 to B1 (length L / 15)
- a fourth section from B1 to D2 (length L / 21)
- a fifth section D2 to C2 (
- a sixth section C2 to D3 (
- a seventh section D3 to A0 (length L / 7)
- and seven other symmetrical sections of the first with respect to the middle of the tube.
Pour généraliser la méthode à une approximation à n formants (bien qu'il soit peu probable qu'on veuille dépasser n = 4), on détermine l'abscisse Xi,j du jème passage par zéro de la sensibilité du ième formant, pour tous les formants (i = 1 à n) et sur toute la longueur du tube (j = 1 à 2i - 1).To generalize the method to an approximation with n formants (although it is unlikely that we want to exceed n = 4), we determine the abscissa Xi, j of the j th passage through zero of the sensitivity of the i th form, for all formants (i = 1 to n) and over the entire length of the tube (j = 1 to 2i - 1).
On a Xi,j = L (2j - 1) / (2i - 1) x 2.We have Xi, j = L (2j - 1) / (2i - 1) x 2.
On classe tous les Xi,j dans l'ordre croissant le long du tube à leurs positions respectives ; chaque tronçon de tube est délimité par deux abscisses adjacentes de cette suite classée, le premier tronçon commençant à l'abscisse 0 et se terminant à l'abscisse Xn,1 = L/2n-1 et le dernier tronçon commençant à l'abscisse Xn,2n-1 = L - L/(2n-1) et se terminant à l'abscisse L.We classify all Xi, j in ascending order along the tube at their respective positions; each tube section is delimited by two adjacent abscissas of this classified sequence, the first section starting at the
Le nombre total de tronçons est N = n(n-1)+2.The total number of sections is N = n (n-1) +2.
On a ainsi défini précisément une série de paramètres très importants pour faire fonctionner le dispositif d'analyse ou synthèse de parole, ces paramètres étant le nombre de tronçons et la longueur de chacun.We have thus precisely defined a series of very important parameters for operating the speech analysis or synthesis device, these parameters being the number of sections and the length of each.
Ces paramètres sont fournis au calculateur et le traitement de données consiste en une action sur la section des tronçons définis par ces paramètres. L'action peut porter sur un nombre de tronçons égal à la moitié du nombre total, pour la raison de symétrie indiquée précédemment.These parameters are supplied to the computer and the data processing consists of an action on the section of the sections defined by these parameters. The action may relate to a number of sections equal to half the total number, for the reason of symmetry indicated above.
Par des études détaillées on déterminera quelles sont les variations de section à effectuer sur chaque tronçon pour produire tel ou tel phonème (et on est guidé pour cela par les connaissances déjà établies sur les fréquences de formants et variations de fréquences de formants correspondant à ces phonèmes).By detailed studies we will determine what are the section variations to be performed on each section to produce this or that phoneme (and we are guided by the knowledge already established on the frequencies of formants and variations of frequencies of formants corresponding to these phonemes ).
Une mémoire de données pourra être associée au calculateur, mémoire contenant directement pour chaque phonème les séquences de variations de section des tronçons ainsi définis.A data memory can be associated with the computer, memory directly containing for each phoneme the sequences of section variations of the sections thus defined.
Dans un dispositif de synthèse de parole, le déclenchement de ces séquences de variation aboutit, après traitement dans la calculateur, à la génération de signaux électriques transmis au haut-parleur, et à la production du phonème désiré.In a speech synthesis device, the triggering of these variation sequences results, after processing in the computer, in the generation of electrical signals transmitted to the loudspeaker, and in the production of the desired phoneme.
Dans un dispositif d'analyse de parole, on procède par rebouclage : un microphone reçoit les sons, les convertit en signaux électriques. Ces signaux sont traités par le calculateur. Une comparaison est effectuée entre des données issues du traitement et des données générées par des séquences de variations de sections correspondant à des sons connus.In a speech analysis device, this is done by looping back: a microphone receives the sounds, converts them into electrical signals. These signals are processed by the computer. A comparison is made between data from the processing and data generated by sequences of section variations corresponding to known sounds.
L'invention peut être utilisée comme jouet éducatif de synthese de parole permettant de mieux comprendre l'élaboration des sons par le système vocal humain. Dans ce cas, la source pourra être une embouchure comprenant une anche dans laquelle l'utilisateur soufflera. On pourra aussi utiliser une source de bruit blanc. On utilisera 4 ou 8 tronçons dont les volumes sont contrôlés par des pistons commandés par les doigts de la main. L'appareil pourra être fabriqué par moulage plastique.The invention can be used as an educational speech synthesis toy allowing a better understanding of the development of sounds by the human vocal system. In this case, the source could be a mouthpiece comprising a reed in which the user will blow. We can also use a white noise source. We will use 4 or 8 sections whose volumes are controlled by pistons controlled by the fingers of the hand. The device can be manufactured by plastic molding.
Claims (7)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8808255A FR2632725B1 (en) | 1988-06-14 | 1988-06-14 | METHOD AND DEVICE FOR ANALYSIS, SYNTHESIS, SPEECH CODING |
FR8808255 | 1988-06-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP0347338A2 true EP0347338A2 (en) | 1989-12-20 |
EP0347338A3 EP0347338A3 (en) | 1992-01-29 |
Family
ID=9367486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP19890420197 Withdrawn EP0347338A3 (en) | 1988-06-14 | 1989-06-08 | Method and apparatus for speech analysis, synthesis and coding |
Country Status (3)
Country | Link |
---|---|
US (1) | US5121434A (en) |
EP (1) | EP0347338A3 (en) |
FR (1) | FR2632725B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992020064A1 (en) * | 1991-04-30 | 1992-11-12 | Telenokia Oy | Speaker recognition method |
US5522013A (en) * | 1991-04-30 | 1996-05-28 | Nokia Telecommunications Oy | Method for speaker recognition using a lossless tube model of the speaker's |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI96246C (en) * | 1993-02-04 | 1996-05-27 | Nokia Telecommunications Oy | Procedure for sending and receiving coded speech |
FI96247C (en) * | 1993-02-12 | 1996-05-27 | Nokia Telecommunications Oy | Procedure for converting speech |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
US5971613A (en) | 1997-04-11 | 1999-10-26 | Kapak Corp. | Bag constructions having inwardly directed side seal portions |
US6823305B2 (en) * | 2000-12-21 | 2004-11-23 | International Business Machines Corporation | Apparatus and method for speaker normalization based on biometrics |
JP2003255993A (en) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | System, method, and program for speech recognition, and system, method, and program for speech synthesis |
US20060105307A1 (en) * | 2004-01-13 | 2006-05-18 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060073452A1 (en) * | 2004-01-13 | 2006-04-06 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070111173A1 (en) * | 2004-01-13 | 2007-05-17 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060051727A1 (en) * | 2004-01-13 | 2006-03-09 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US8210851B2 (en) * | 2004-01-13 | 2012-07-03 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20070065789A1 (en) * | 2004-01-13 | 2007-03-22 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20060177805A1 (en) * | 2004-01-13 | 2006-08-10 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070134635A1 (en) * | 2005-12-13 | 2007-06-14 | Posit Science Corporation | Cognitive training using formant frequency sweeps |
JP5178607B2 (en) * | 2009-03-31 | 2013-04-10 | 株式会社バンダイナムコゲームス | Program, information storage medium, mouth shape control method, and mouth shape control device |
WO2012003602A1 (en) * | 2010-07-09 | 2012-01-12 | 西安交通大学 | Method for reconstructing electronic larynx speech and system thereof |
US9308445B1 (en) | 2013-03-07 | 2016-04-12 | Posit Science Corporation | Neuroplasticity games |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3280266A (en) * | 1963-05-15 | 1966-10-18 | Bell Telephone Labor Inc | Synthesis of artificial speech |
US3472964A (en) * | 1965-12-29 | 1969-10-14 | Texas Instruments Inc | Vocal response synthesizer |
SU681447A1 (en) * | 1975-04-15 | 1979-08-25 | Институт математики СО АН СССР | Speech imitator |
FI66268C (en) * | 1980-12-16 | 1984-09-10 | Euroka Oy | MOENSTER OCH FILTERKOPPLING FOER AOTERGIVNING AV AKUSTISK LJUDVAEG ANVAENDNINGAR AV MOENSTRET OCH MOENSTRET TILLAEMPANDETALSYNTETISATOR |
-
1988
- 1988-06-14 FR FR8808255A patent/FR2632725B1/en not_active Expired - Fee Related
-
1989
- 1989-06-08 EP EP19890420197 patent/EP0347338A3/en not_active Withdrawn
- 1989-06-14 US US07/365,566 patent/US5121434A/en not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
ICASSP'86 (IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING), Tokyo, 7-11 avril 1986, vol. 3, pages 2011-2014, IEEE, New York, US; W. FRANK et al.: "Improved vocal tract models for speech synthesis" * |
IRE TRANSACTIONS ON CIRCUIT THEORY, vol. CT-3, no. 4, décembre 1956, pages 232-244, New York, US; E.E. DAVID, Jr.: "Signal theory in speech transmission" * |
J.L. FLANAGAN: "Speech Analysis Synthesis and Perception", 1965, pages 166-171, Springer-Verlag, Berlin, DE * |
SPEECH COMMUNICATION, vol. 7, no. 3, octobre 1988, pages 257-286, Amsterdam, NL; M. MRAYATI et al.: "Distinctive regions and modes: a new theory of speech production" * |
THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 22, no. 6, novembre 1950, pages 740-753, New York, US; H.K. DUNN: "The calculation of vowel resonances, and an electrical vocal tract" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992020064A1 (en) * | 1991-04-30 | 1992-11-12 | Telenokia Oy | Speaker recognition method |
AU653811B2 (en) * | 1991-04-30 | 1994-10-13 | Nokia Telecommunications Oy | Speaker recognition method |
US5522013A (en) * | 1991-04-30 | 1996-05-28 | Nokia Telecommunications Oy | Method for speaker recognition using a lossless tube model of the speaker's |
Also Published As
Publication number | Publication date |
---|---|
FR2632725B1 (en) | 1990-09-28 |
FR2632725A1 (en) | 1989-12-15 |
US5121434A (en) | 1992-06-09 |
EP0347338A3 (en) | 1992-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0347338A2 (en) | Method and apparatus for speech analysis, synthesis and coding | |
Dutoit | An introduction to text-to-speech synthesis | |
Scheirer | Music-listening systems | |
US6865533B2 (en) | Text to speech | |
Ainsworth | Mechanisms of Speech Recognition: International Series in Natural Philosophy | |
Halle | From memory to speech and back: Papers on phonetics and phonology 1954-2002 | |
McLoughlin | Speech and Audio Processing: a MATLAB-based approach | |
Dabby | Musical variations from a chaotic mapping | |
Ardaillon | Synthesis and expressive transformation of singing voice | |
Bedoya et al. | Even violins can cry: specifically vocal emotional behaviours also drive the perception of emotions in non-vocal music | |
De Medeiros et al. | A comparative study of fundamental frequency stability between speech and singing | |
Bonada et al. | Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models | |
Fales | Voiceness in musical instruments | |
Fagnan | The acoustical effects of the core principles of the bel canto method on choral singing | |
Gerhard | Computationally measurable differences between speech and song | |
Mehrabi et al. | Vocal imitation for query by vocalisation | |
Wishart | From architecture to chemistry | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Sachs-Mishalanie | “The Theory Is Not Yet Music”: An Analysis of Pierre Schaeffer’s Etude Aux Allures | |
Mitterer | Understanding" gardem bench": studies on the perception of assimilated word forms | |
Morist | Emotional speech synthesis for a radio dj: corpus design and expression modeling | |
Easley | “It's not my imagination, I've got a gun on my back!”: Style and sound in early American hardcore punk, 1978–1983 | |
Gibson | The Role of Accent in Popular Music: An Interdisciplinary Approach | |
Gupta et al. | Text-to-Speech Conversion Technology using Deep Learning Algorithms | |
du Preez | Listener-Based Analysis of Electroacoustic Music: A Selected Chronology of Methods as Applied to Amproprification# 1 and Sorstalanság |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): DE FR GB IT NL |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): DE FR GB IT NL |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 19920730 |