DE19710545C1 - Time scale modification method for speech signals - Google Patents
Time scale modification method for speech signalsInfo
- Publication number
- DE19710545C1 DE19710545C1 DE19710545A DE19710545A DE19710545C1 DE 19710545 C1 DE19710545 C1 DE 19710545C1 DE 19710545 A DE19710545 A DE 19710545A DE 19710545 A DE19710545 A DE 19710545A DE 19710545 C1 DE19710545 C1 DE 19710545C1
- Authority
- DE
- Germany
- Prior art keywords
- section
- segments
- speech signal
- digitized
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000002715 modification method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 11
- 230000000630 rising effect Effects 0.000 claims abstract description 6
- 238000012986 modification Methods 0.000 claims description 16
- 230000004048 modification Effects 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims 2
- 238000004904 shortening Methods 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich, insbesondere eine effiziente Overlap-Add-Methode.The invention relates to a method for speed modification of Speech signals in the time domain, especially an efficient overlap add method.
In verschiedenen Bereichen der Verarbeitung von Sprach- und Audiosignalen ist eine Veränderung der Wiedergabegeschwindigkeit dieser Signale erwünscht, möglichst ohne daß damit eine Beeinträchtigung ihrer Natürlichkeit und - im Fall von Sprache - ihrer Verständlichkeit verbunden wäre. Dieses Ziel, den Klangcharakter zu erhalten, kann man aus technischer Sicht folgendermaßen formulieren: Trotz einer Modifikation der Zeitskala dieser Signale sollen ihre Kurzzeitspektraleigenschaften unverändert bleiben. Insbesondere bedeutet das für Sprachsignale, daß Grundfrequenz und Formanten bei der Geschwindigkeitsmodifikation erhalten bleiben müssen.In various areas of processing voice and audio signals a change in the playback speed of these signals is desired, if possible without impairing their naturalness and - in the case of Language - would be connected to its intelligibility. This goal, the sound character too From a technical point of view, one can formulate the following: Despite one Modification of the time scale of these signals is said to have their short-term spectral properties remain unchanged. In particular, for speech signals, this means that Main frequency and formants obtained in speed modification have to stay.
Die Zeitstauchung oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt, zum Beispiel mit dem Ziel, Werbesendungen auf die vorgesehene Länge zu trimmen. Auch in der Diktiertechnik ist die Anpassung der Wiedergabegeschwindigkeit an die Bedürfnisse bzw. Fähigkeiten der Schreibkraft von Bedeutung. Eine weitere Anwendung besteht bei der Echtzeitübertragung von Sprachsignalen, bei der Datenpakete mit variabler Verzögerung beim Empfänger eintreffen. Durch Anwendung der Geschwindigkeitsmodifikation kann man hier die Über-Alles-Verzögerung im Mittel geringer halten als das Worst-Case Delay der Übertragungsstrecke, ohne daß ein zu spät eintreffendes Datenpaket zu Aussetzern oder anderen, ähnlich störenden Effekten führen würde.The time compression or time expansion of audio signals is used in studios, for example with the goal of advertising mail to the intended length trim. Also in dictation technology is the adaptation of the Playback speed to the needs or skills of the typist significant. Another application is in the real-time transmission of Voice signals in which data packets with variable delay at the receiver arrive. By applying the speed modification you can here Keep the overall delay less than the worst case delay Transmission route without a data packet arriving too late causing dropouts or other, similarly disruptive effects.
Für viele Anwendungen ergeben sich neben dem Wunsch nach möglichst hoher Klangqualität die folgenden zusätzlichen Anforderungen an das Verfahren: For many applications, in addition to the desire for the highest possible Sound quality the following additional process requirements:
Eine kostengünstige Echtzeitrealisierung muß erzielbar sein, und es muß zur Laufzeit eine nach Möglichkeit stufenlose Änderung des Geschwindigkeitsmodifikationsfaktors möglich sein. Von Vorteil ist ohne Zweifel auch, wenn der Algorithmus ohne eine stets fehlerbehaftete Pitch-Schätzung auskommt.Inexpensive real-time implementation must be achievable, and it must be Term an infinitely variable change of the Speed modification factor may be possible. It is an advantage without a doubt even if the algorithm lacks a pitch estimate that is always faulty gets along.
Aus "Method for Time or Frequency Compression-Expansion of Speed", von G. Fairbaks und R. P. Jaeger, Inst. of Radio Engineers Trans. on Audio, Vol. AU-2, No. 1, pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignalstauchung bzw. Sprachsignaldehnung bekannt. Häufig wurden seitdem Frequenzbereichsverfahren eingesetzt - naheliegend, da, wie eingangs erwähnt, die Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. Seit Mitte der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende Overlap-Add-Verfahren bekannt, mit denen sehr gut klingende zeitskalierte Sprachsignale erzeugt werden können.From "Method for Time or Frequency Compression-Expansion of Speed", by G. Fairbaks and R.P. Jaeger, Inst. Of Radio Engineers Trans. On Audio, Vol. AU-2, No. 1, pp. 7-12, Jan. 1954, are the first examinations of speech signal compression or Voice signal stretch known. Frequency domain procedures have been common since then used - obvious, since, as mentioned at the beginning, the Short-term spectral properties of the speech signal should be preserved. Since the middle The eighties are comparatively simple working in the time domain Overlap-add method known, with which very good sounding time-scaled Speech signals can be generated.
In "Signal Estimation from Modified Short-Time Fourier Transform", von D. W. Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, pp. 236-242, Apr. 1984, berichten Griffin und Lim von Experimenten mit einer sehr aufwendigen iterativ arbeitenden Phasenbestimmung. Auf diesen Ansatz nimmt wiederum die Veröffentlichung von S. Roucos und A. M. Wilgus "High Quality Time- Scale Modification for Speech", IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 493-496, 1985, Bezug, die eine Zeitbereichsmethode vorgeschlagen, die mittels eines Overlap-Add-Ansatzes zeitskalierte Sprechsignale erzeugt. Bei diesem sogenannten SOLA-Verfahren (SOLA = Synchronized OverLap-Add) erfolgt eine Synchronisation der in regelmäßigen Abständen dem Originalsignal entnommenen Abschnitte durch Verschiebung vor der jeweils entsprechenden Fensterung und Addition im Zielsignal. Dies entspricht im weiteren Sinne der Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgeführt wird. Eng mit dem SOLA-Algorithmus verwandt ist das sogenannte WSOLA-Verfahren (WSOLA = Waveform Similarity Overlap-Add), das W. Verhelst und M. Roelands in "An Overlapp-Add Technique Based on Waveform Similarity (WSOLa) for High Quality Time-Scale Modification of Speed", IEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Wafeform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation", Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen. Der Hauptunterschied zwischen diesen beiden Ansätzen besteht in der Synchronisation, die im WSOLA-Verfahren durch versetztes Entnehmen von Segmenten aus dem Originalsignal durchgeführt wird, was sich gegenüber dem SOLA-Prinzip vor allem aufwandsmindernd auswirkt.In "Signal Estimation from Modified Short-Time Fourier Transform", by D. W. Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, pp. 236-242, Apr. 1984, Griffin and Lim report experiments with a very elaborate iterative phase determination. Take this approach again the publication of S. Roucos and A. M. Wilgus "High Quality Time- Scale Modification for Speech ", IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 493-496, 1985, reference that suggested a time domain method which generates time-scaled speech signals using an overlap add approach. At this so-called SOLA process (SOLA = Synchronized OverLap-Add) takes place a synchronization of the original signal at regular intervals removed sections by shifting in front of the corresponding one Windowing and addition in the target signal. In a broader sense, this corresponds to Phase optimization as it is carried out in the frequency domain method. The so-called WSOLA method is closely related to the SOLA algorithm (WSOLA = Waveform Similarity Overlap-Add) by W. Verhelst and M. Roelands in "An Overlapp-Add Technique Based on Waveform Similarity (WSOLa) for High Quality Time-Scale Modification of Speed ", IEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, and "Wafeform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation ", Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993. The main difference between these two approaches is that Synchronization in the WSOLA process by staggered removal of Segments from the original signal is performed, which is different from that The SOLA principle primarily has a cost-reducing effect.
Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich anzugeben, das besonders effizient arbeitet und gegenüber dem St.d.T. weniger Aufwand erfordert.The object of the invention is to provide a method for speed modification of To specify voice signals in the time domain that work particularly efficiently and against that St.d.T. requires less effort.
Diese Aufgabe wird durch die Merkmale der Ansprüche 1 und 2 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung angegeben.This object is solved by the features of claims 1 and 2. Beneficial Embodiments of the invention are in the following description given.
Die Erzeugung der mit dem Faktor α zeitskalierten Version y(k) eines Sprachsignals x(k) erfolgt gemäß der SyntheseThe generation of the version y (k) of a speech signal time-scaled by the factor α x (k) follows the synthesis
mit einer Fensterfunktionwith a window function
Die hierin vorkommende für k = 0, . . ., N-1 definierte Funktion v(k) ist dabei sinnvollerweise zwischen ihren Extrema v(0)=ε₀ mit 0<ε₀»1 und v(N-1)=1-ε₁ mit 0<ε₁»1 monoton wachsend.The one for k = 0,. . ., N-1 defined function v (k) is included sensibly between their extremes v (0) = ε₀ with 0 <ε₀ »1 and v (N-1) = 1-ε₁ with 0 <ε₁ »1 growing monotonously.
Die angegebene w(k)-Definition stellt sicher, daß die für sinnvolles Overlap-Add notwendige BedingungThe specified w (k) definition ensures that the useful overlap add necessary condition
erfüllt ist.is satisfied.
Die in obiger Synthesegleichung enthaltene Verschiebevariable Δλ ist zwecks der erwähnten Synchronisation aus einem "Toleranzbereich" -Δmax, . . ., Δmax zu bestimmen. The shift variable Δ λ contained in the above synthesis equation is from a "tolerance range" -Δ max ,. . . To determine Δ max .
Die prinzipielle Vorgehensweise ist wie folgt: Aus dem Originalsignal x(k) werden in - abgesehen von einem synchronisationsbedingten "Jitter" - regelmäßigen αL Werte betragenden Abständen Segmente der Länge L+N entnommen und nach Gewichtung mit w(k) jeweils um L Abtastwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist gegenüber x(k) um den Faktor α beschleunigt, das heißt, daß eine im Originalsignal x(k) enthaltene Äußerung von K Abtastwerten Länge durch dieses Vorgehen auf einen y(k)-Abschnitt der Länge K/α abgebildet, also verkürzt und damit in der Wiedergabe beschleunigt für α<1, bzw. verlängert, das heißt verlangsamt, wird, wenn α<1 ist.The basic procedure is as follows: The original signal x (k) becomes - apart from one Synchronization-related "jitter" - regular intervals of αL values Taken segments of length L + N and after weighting with w (k) each by L Samples added up offset. The signal obtained in this way is y (k) accelerated compared to x (k) by the factor α, that is, one in the original signal x (k) contained utterance of K samples length by this approach depicts a y (k) section of length K / α, i.e. shortened and thus in the Playback accelerates for α <1, or extends, i.e. slows down, if α <1.
Die Synchronisation der zu überlappenden Abschnitte ist für die resultierende Klangqualität von großer Bedeutung. Hierzu wird der folgende Ansatz verwendet: Während der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k) entnommenen Segment für den nächsten Schritt als "Idealsegment" der um L Abtastwerte versetzte Abschnitt von x(k) angesehen werden, da durch diese Wahl die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren würde. Die erwünschte Zeitskalierung erfordert nun aber, daß für die Overlap-Add-Synthese i. a. ein anderer, gegenüber dem "Idealsegment" versetzter Abschnitt von x(k) ausgewählt wird. Die bestmögliche Synchronisation ist gegeben, wenn der für die Overlap-Add-Operation benutzte Abschnitt größtmögliche Ähnlichkeit ("Waveform Similarity") mit dem "Idealsegment" aufweist.The synchronization of the sections to be overlapped is for the resulting one Sound quality of great importance. The following approach is used: During the execution of the method, the signal x (k) removed segment for the next step as the "ideal segment" of L Sampled section of x (k) can be viewed because of this choice the overlap add operation would reproduce the original signal x (k) again. The Desired time scaling, however, now requires that for the overlap-add synthesis i. a. another section of x (k) offset from the "ideal segment" is selected. The best possible synchronization is given when the for the Overlap add operation used section greatest possible similarity ("Waveform Similarity ") with the" ideal segment ".
Als Kriterium für die Ähnlichkeit der genannten Segmente bieten sich verschiedene Maße an. Naheliegend ist beispielsweise die Benutzung des Korrelationskoeffizienten. Während W. Verhelst und M. Roelands in "An Overlap- Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, für die Auswertung des Ähnlichkeitsmaßes das kompette Segment der Länge L+N herangezogen haben, erscheint es als vollkommen ausreichend, die Berechnung auf den Bereich der N Abtastwerte zu beschränken, in dem die Segmente tatsächlich überlappen.There are various criteria for the similarity of the segments mentioned Dimensions. For example, the use of the Correlation coefficients. While W. Verhelst and M. Roelands in "An Overlap- Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed ", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, and "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation "in Int. Conf. On Speech Communication and Technology, pp. 337-340, 1993, for the evaluation of the Similarity measure used the entire segment of length L + N, it appears to be completely sufficient to calculate the range of N Limit samples in which the segments actually overlap.
Für die weiteren Darstellungen ist es hilfreich, die folgende Vektornotation einzuführen: Der N Werte lange Abschnitt des "Idealsegment", in dem die Überlappung mit dem neu zu bestimmenden Segment stattfinden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit xq. Die Gewichtung dieses Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagnoalmatrix V repräsentiert, die mit den Werten v(0), . . ., v(N-1) besetzt ist. Entsprechend wird die Gewichtung des Idealsegmentabschnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1-V dargestellt, wobei 1 die N×N-Einheitsmatrix bezeichnet. Der im kritischen Überlappungsbereich aus der Overlap-Add-Synthese resultierende y(k)-Abschnitt lautet damitFor the further representations, it is helpful to introduce the following vector notation: The section of the "ideal segment" with N values in which the overlap with the segment to be newly determined will take place is denoted by x, the first N values of the shifted segment by x q . The weighting of this section with the rising edge of the window is represented by multiplying this vector by a diagnostic matrix V, which has the values v (0),. . ., v (N-1) is occupied. Accordingly, the weighting of the ideal segment section x is represented by the falling edge of the window by multiplication by 1-V, where 1 denotes the N × N unit matrix. The y (k) section resulting from the overlap-add synthesis in the critical overlap region is thus
y = (1-V)x + Vxq y = (1-V) x + Vx q
Beispielsweise läßt sich nun als Maß für die Ähnlichkeit der hierbei beteiligten Komponenten eine Kreuzkorreliertenberechnung gemäßFor example, you can now measure the similarity of those involved Components according to a cross-correlation calculation
Cδ = xT (1-V)T Vxq C δ = x T (1-V) T Vx q
angeben. Maximierung dieses Ausdrucks bezüglich der sich in xq wiederfindenden Verschiebung δ ∈ {-Δmax, . . ., Δmax} liefert die für das betrachtete Segment im Sinne der angesetzten Ähnlichkeitsmaßes optimale Verschiebung Δλ.specify. Maximizing this expression with respect to the q in x again place shift δ ∈ {-Δ max. . ., Δ max } provides the optimal shift Δ λ for the segment under consideration in the sense of the similarity measure .
Die Berechnung der Cδ erfordert alle L Abtastwerte 2N Multiplikationen für die Vorabberechnung des Ausdrucks xT (1-V)TV sowie anschließend (2Δmax+1)N Multiplikationen und Additionen. The calculation of the C δ requires all L samples 2N multiplications for the pre-calculation of the expression x T (1-V) T V and then (2Δ max +1) N multiplications and additions.
Dies stellt gegenüber W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similary (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similaritiy Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, eine Aufwandsreduktion um den Faktor zwei dar, der sich für L<N sogar noch erhöht. Die Beschränkung der Ähnlichkeitsberechnung auf den Bereich der Überlappung hat keinerlei negative Auswirkungen auf die Qualität der zeitskalierten Sprachproben.This contrasts with W. Verhelst and M. Roelands in "An Overlap-Add Technique Based on Waveform Similary (WSOLA) for High Quality Time-Scale Modification of Speed ", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, and "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech, Signal Processing, pp. 554-557, 1993, and "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation "in Int. Conf. On Speech Communication and Technology, pp. 337-340, 1993, an effort reduction represents the factor two, which even increases for L <N. The limitation of Similarity calculation on the area of overlap has no negative Effects on the quality of the time-scaled speech samples.
Ein anderer Ansatz für die Synchronisation ist, anstelle der Maximierung der "Waveform Similarity" den Fehler zwischen dem synthetisierten Signal y und dem Originalsignal x zu minimieren. Eine einfache willkürliche Wahl ist, für diesen Fehler den quadratischen AusdruckAnother approach to synchronization is instead of maximizing the "Waveform Similarity" the error between the synthesized signal y and the Minimize original signal x. A simple arbitrary choice is for this mistake the square expression
Eδ = || x-y ||²E δ = || xy || ²
anzusetzen.start.
Bei Vernachlässigung der Vorabberechnungen beläuft sich der für die Auswertung von Eδ anfallende Aufwand auf (2Δmax+1)4N DSP-Operationen alle L Abtastwerte. Hierunter werden solche Operationen verstanden, die ein Signalprozessor mit gängiger Architektur in einem Schritt abarbeiten kann.If the precalculations are neglected, the effort for the evaluation of E δ amounts to (2Δ max +1) 4N DSP operations every L samples. These are understood to be operations that a signal processor with common architecture can process in one step.
Ein weiterer Ansatz besteht darin, anstelle des absoluten Fehlers den relativen FehlerAnother approach is to use relative rather than absolute error error
zu minimieren, was als SNR-Maximierung interpretiert werden kann. (2Δmax+1)5N Operationen sind hier vor jeder Overlap-Add-Operation erforderlich.to minimize what can be interpreted as SNR maximization. (2Δ max +1) 5N operations are required here before each overlap add operation.
Claims (4)
- - ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- - ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- - eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- - aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
- - diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- - die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
- an analog speech signal is digitized, resulting in a digitized speech signal which is stored in a memory,
- a factor α is defined by which the speech signal is lengthened or shortened,
- - A window function is defined with a first rising section of length N, a second, constant section of length L directly adjoining the first section and a third falling section directly adjoining the second section, with a superposition of the first rising section of a window with the third falling section of another window and an addition of both sections in the overlap area, the result is one, which corresponds to the value of the second section of the window function,
- segments of a length L + N are taken from the digitized, stored speech signal at irregular intervals of an average length αL,
- these segments, taken from the digitized, stored speech signal, are weighted with the window function in the time domain,
- the weighted segments are each added up offset by a defined number of L samples, as a result of which the resulting speech signal is extended by the factor α or shortened by 1 / α,
- - daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten, Segment unter Ähnlichkeitsaspekten verglichen wird,- That successively at the points of removal of the segments from the digitized speech signal, the extracted there, with the window function weighted segment with the one taken below, also with the Window function weighted, segment compared under similarity aspects becomes,
- - daß zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitten des nachfolgenden Segmentes verglichen wird,- That for a quick comparison of the similarity of the segments only the N values long third section of the weighted with the falling window section Segment with the first long, with increasing N values long Window section weighted sections of the following segment is compared
- - daß diese Segmente zueinander versetzt aufaddiert werden, wenn die Ähnlichkeit beider verglichener Segmentteile maximal ist und- That these segments are added to each other offset if the similarity of both compared segments is maximum and
- - daß zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird.- That a correlation is used to calculate the similarity, as its measure becomes.
- - ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- - ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- - eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- - aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
- - diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- - die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
- an analog speech signal is digitized, resulting in a digitized speech signal which is stored in a memory,
- a factor α is defined by which the speech signal is lengthened or shortened,
- - A window function is defined with a first rising section of length N, a second, constant section of length L directly adjoining the first section and a third falling section directly adjoining the second section, with a superposition of the first rising section of a window with the third falling section of another window and an addition of both sections in the overlap area, the result is one, which corresponds to the value of the second section of the window function,
- segments of a length L + N are taken from the digitized, stored speech signal at irregular intervals of an average length αL,
- these segments, taken from the digitized, stored speech signal, are weighted with the window function in the time domain,
- the weighted segments are each added up offset by a defined number of L samples, as a result of which the resulting speech signal is extended by the factor α or shortened by 1 / α,
- - daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene Segment mit dem Resultat der Synthese mit dem nachfolgend entnommenen Segment verglichen wird,
- - daß zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Originalsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird,
- - daß diese Segmente zueinander versetzt aufaddiert werden, wenn die ermittelte Abweichung minimal ist und
- - daß als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird.
- that, at the points at which the segments are removed from the digitized speech signal, the segment extracted there is compared with the result of the synthesis with the segment subsequently extracted,
- that for the quick comparison of the deviation of the respective synthesis result from the original signal, only the N section, long third section of the last segment taken, is used as a reference,
- - That these segments are added to each other offset when the determined deviation is minimal and
- - That the relative error or the absolute quadratic error is used as a measure of the deviation.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19710545A DE19710545C1 (en) | 1997-03-14 | 1997-03-14 | Time scale modification method for speech signals |
AT98104455T ATE255763T1 (en) | 1997-03-14 | 1998-03-12 | EFFICIENT METHOD FOR SPEED MODIFICATION OF VOICE SIGNALS |
EP98104455A EP0865026B1 (en) | 1997-03-14 | 1998-03-12 | Method for modifying speech speed |
DE59810302T DE59810302D1 (en) | 1997-03-14 | 1998-03-12 | Efficient method for speed modification of speech signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19710545A DE19710545C1 (en) | 1997-03-14 | 1997-03-14 | Time scale modification method for speech signals |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19710545C1 true DE19710545C1 (en) | 1997-12-04 |
Family
ID=7823336
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19710545A Expired - Fee Related DE19710545C1 (en) | 1997-03-14 | 1997-03-14 | Time scale modification method for speech signals |
DE59810302T Expired - Lifetime DE59810302D1 (en) | 1997-03-14 | 1998-03-12 | Efficient method for speed modification of speech signals |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59810302T Expired - Lifetime DE59810302D1 (en) | 1997-03-14 | 1998-03-12 | Efficient method for speed modification of speech signals |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0865026B1 (en) |
AT (1) | ATE255763T1 (en) |
DE (2) | DE19710545C1 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9911737D0 (en) | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
ATE387000T1 (en) | 2001-05-10 | 2008-03-15 | Dolby Lab Licensing Corp | IMPROVE TRANSIENT PERFORMANCE IN LOW BITRATE ENCODERS BY SUPPRESSING PRE-NOISE |
DE10327057A1 (en) * | 2003-06-16 | 2005-01-20 | Siemens Ag | Apparatus for time compression or stretching, method and sequence of samples |
DE102004053093B4 (en) | 2004-11-03 | 2006-08-17 | Siemens Ag | Method for outputting a payload data stream and communication terminal for receiving and outputting a payload data stream |
JP2010017216A (en) | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | Voice data processing apparatus, voice data processing method and imaging apparatus |
CN102855884B (en) * | 2012-09-11 | 2014-08-13 | 中国人民解放军理工大学 | Speech time scale modification method based on short-term continuous nonnegative matrix decomposition |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69024919T2 (en) * | 1989-10-06 | 1996-10-17 | Matsushita Electric Ind Co Ltd | Setup and method for changing speech speed |
DE69428612T2 (en) * | 1993-01-25 | 2002-07-11 | Matsushita Electric Industrial Co., Ltd. | Method and device for carrying out a time scale modification of speech signals |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
-
1997
- 1997-03-14 DE DE19710545A patent/DE19710545C1/en not_active Expired - Fee Related
-
1998
- 1998-03-12 AT AT98104455T patent/ATE255763T1/en not_active IP Right Cessation
- 1998-03-12 DE DE59810302T patent/DE59810302D1/en not_active Expired - Lifetime
- 1998-03-12 EP EP98104455A patent/EP0865026B1/en not_active Expired - Lifetime
Non-Patent Citations (5)
Title |
---|
FAIRBANKS, G., JAEGER, R.P.: "Method for Time Frequency Compression-Expansion of Speed". In: Inst. of Radio Engineers Trans on Audio, Vol. AU-2, No. 1, Jan. 1954, S. 7-12 * |
GRIFFIN, D.W.: "Signal Estimation from Modified Short-Time Fourier Transform". In: IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, Apr. 1984, S. 236-242 * |
ROUCOS, S., WILGUS, A.M.: "High Quality Time- Scale Modification for Speech". In: IEEE Proc.Int.Conf.Acoust., Speech, Signal Processing, 1985, S. 493-496 * |
VERHELST, W., ROELANDS, M.: "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed". In: IEEE Proc.Int.Conf.Acoust., Speech, Signal Processing, 1993, S. 554-557 * |
VERHELST, W., ROELANDS, M.: "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modifi- cation of Speed: Structures and Evaluation". * |
Also Published As
Publication number | Publication date |
---|---|
ATE255763T1 (en) | 2003-12-15 |
EP0865026A2 (en) | 1998-09-16 |
DE59810302D1 (en) | 2004-01-15 |
EP0865026A3 (en) | 1999-02-10 |
EP0865026B1 (en) | 2003-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69428612T2 (en) | Method and device for carrying out a time scale modification of speech signals | |
DE68919637T2 (en) | Method and device for speech synthesis by covering and summing waveforms. | |
DE69024919T2 (en) | Setup and method for changing speech speed | |
DE60127274T2 (en) | FAST WAVE FORMS SYNCHRONIZATION FOR CHAINING AND TIME CALENDAR MODIFICATION OF LANGUAGE SIGNALS | |
DE69230324T2 (en) | Process for time scale modification of signals | |
DE60214358T2 (en) | TIME CALENDAR MODIFICATION OF SIGNALS WITH SPECIFIC PROCEDURE ACCORDING TO DETERMINED SIGNAL TYPE | |
DE69121312T2 (en) | Noise signal prediction device | |
DE69926462T2 (en) | DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND | |
DE60023237T2 (en) | METHOD FOR CHARGING PACKAGE LOSSES | |
DE60305716T2 (en) | METHOD FOR SYNTHETIZING AN UNMATCHED LANGUAGE SIGNAL | |
DE19710545C1 (en) | Time scale modification method for speech signals | |
DE69425935T2 (en) | Method of distinguishing between voiced and unvoiced sounds | |
DE69612958T2 (en) | METHOD AND DEVICE FOR RESYNTHETIZING A VOICE SIGNAL | |
DE69720861T2 (en) | Methods of sound synthesis | |
DE2551632A1 (en) | METHOD AND DEVICE FOR SYNTHETIZING A NATURAL SOUNDING LANGUAGE | |
DE60031812T2 (en) | Apparatus and method for sound synthesis | |
DE2622423A1 (en) | VOCODER SYSTEM | |
DE69717377T2 (en) | Sprachgeschwindigkeitsumwandler | |
DE69824613T2 (en) | A SYSTEM AND METHOD FOR PROSODY ADAPTATION | |
DE2805478A1 (en) | DISCRIMINATOR ARRANGEMENT FOR VOICE SIGNALS | |
DE102004028694B3 (en) | Apparatus and method for converting an information signal into a variable resolution spectral representation | |
DE69723930T2 (en) | Method and device for speech synthesis and data carriers therefor | |
DE60305944T2 (en) | METHOD FOR SYNTHESIS OF A STATIONARY SOUND SIGNAL | |
DE60311482T2 (en) | METHOD FOR CONTROLLING DURATION OF LANGUAGE SYNTHESIS | |
DE2649540A1 (en) | Speech synthesis system using time quantised signals - has discrete sets of amplitudes and phases Fourier transform processed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: GRUNDIG AG, 90471 NUERNBERG, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: GRUNDIG MULTIMEDIA B.V., AMSTERDAM, NL |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: PROELL, J., RECHTSANW., 90471 NUERNBERG |
|
8339 | Ceased/non-payment of the annual fee |