DE10335569A1

DE10335569A1 - Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process

Info

Publication number: DE10335569A1
Application number: DE10335569A
Authority: DE
Inventors: André Dipl.-Inf. Berton; Fritz Dr. Class; Udo Dr. Haiber; Harald Dr. Hüning
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2003-07-31
Filing date: 2003-07-31
Publication date: 2005-02-24

Abstract

Speech recognition method in which both grammatically and statistically based speech models are applied to the same section and or separate sections of a work sequence that is to recognized. Both methods are used a multiple stage evaluation of a whole detection request.

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung von Wortfolgen.The The invention relates to a method for speech recognition of word sequences.

Erste am Markt erhältliche Spracherkennungssysteme sind für den Einsatz in unterschiedlichen Anwendungsgebieten vorgesehen. Beispielsweise werden Spracherkennungssysteme in Verbindung mit Büroapplikationen zur Erfassung von Texten oder in Verbindung mit technischen Einrichtungen zu deren Steuerung und Befehlseingabe eingesetzt. Im Fahrzeugbereich werden Spracherkennungssysteme hauptsächlich zur Steuerung von Informations- und Kommunikationsgeräten wie z.B. Radio, Telefon und Navigationssystemen eingesetzt. Dabei werden bei der automatischen Spracherkennung im Wesentlichen zwei alternative Verfahren zur Bewertung von Wortfolgen, sog. Sprachmodelle, eingesetzt. Einerseits werden Grammatiken eingesetzt, welche eindeutige Satzregeln definieren und den Vorteil einer hohen Erkennungssicherheit aufweisen. Andererseits werden statistische Wortfolgenbewertungen eingesetzt, welche die Erkennung von natürlichsprachlichen Sätzen mit sehr großem Vokabular erlauben.First available on the market Speech recognition systems are for intended for use in different fields of application. For example, speech recognition systems are associated with office applications for capturing texts or in connection with technical facilities used for their control and command input. In the vehicle area Speech recognition systems are mainly used to control information and communication devices such as. Radio, telephone and navigation systems used. there become essentially two in automatic speech recognition alternative methods for evaluating word sequences, so-called language models, used. On the one hand, grammars are used, which are unique Defining sentence rules and the advantage of high recognition security exhibit. On the other hand, statistical word order evaluations become using the recognition of natural language sentences with very big Allow vocabulary.

In der Offenlegungsschrift DE 197 54 957 A1 wird ein Verfahren zur Spracherkennung vorgeschlagen. Das Spracherkennungsverfahren dient zur Spracherkennung von Wortfolgen, welche aus mehreren Wörtern eines gegebenen Wortschatzes zusammengesetzt sind. Dabei kommen zwei unterschiedliche Erkennungsverfahren zum Einsatz, wobei diese auf getrennte Abschnitte einer zu erkennenden Wortfolge angewendet werden. Bei dem ersten Erkennungsverfahren handelt sich um ein grammatikalisches Sprachmodell, insbesondere um ein auf Bigrammen basierendes Erkennungsverfahren mit integrierter eindeutiger Syntax. Hierbei werden insbesondere Wortindizes zur Unterscheidung verschiedener syntaktischer Stellungen eines Wortes verwendet. Bei dem zweiten Erkennungsverfahren handelt es sich um ein n-Gramm Sprachmodell mit statistischer Wortfolgenbewertung, insbesondere um ein auf Trigrammen basierendes statistisches Sprachmodell. Das jeweilige Erkennungsverfahren wird hierbei auf einen kompletten vorab definierten Abschnitt einer Wortfolge angewandt, welcher z.B. aufgrund seiner Position und Länge bekannt ist oder beispielsweise grundsätzlich am Satzanfang steht.In the published patent application DE 197 54 957 A1 a method for speech recognition is proposed. The speech recognition method is for speech recognition of word sequences composed of plural words of a given vocabulary. Two different detection methods are used, these being applied to separate sections of a word sequence to be recognized. The first recognition method is a grammatical language model, in particular a bigram-based recognition method with integrated unique syntax. In particular, word indices are used to distinguish different syntactic positions of a word. The second recognition method is an n-gram language model with statistical word order evaluation, in particular a trigram-based statistical language model. In this case, the respective recognition method is applied to a complete predefined section of a word sequence, which is known, for example, on the basis of its position and length or, for example, basically stands at the beginning of the sentence.

Die Schrift US 6154722 A stellt eine Vorrichtung und ein Verfahren zur Spracherkennung vor. Das Verfahren greift dabei auf zwei unterschiedliche Sprachmodelle zu, wobei das eine Sprachmodell auf den Wahrscheinlichkeiten einer integrierten endlichen Grammatik beruht. Das andere Sprachmodell beruht auf einer statistischen Wortübergangsbewertung mittels n-Gramm Kontext. Bei der Integration der beiden Sprachmodelle werden hierbei die n-Gramm Wahrscheinlichkeiten der Statistik auf der Grundlage der vom grammatikalischen Sprachmodell gelieferten Informationen modifiziert. Ein Nachteil des hier vorgestellten Verfahrens ist es jedoch, dass die mittels dem grammatikalischen Sprachmodell gewonnenen Bewertungen den Wahrscheinlichkeiten des n-Gramm Kontextes aus der Statistik grundsätzlich untergeordnet sind, Ein weiterer Nachteil des Spracherkennungsverfahren ist es, dass zur Bewertung jeweils ganze Sätze herangezogen werden, wobei ein ganzer Satz entwe der aufgrund von statistischen Wortübergangsbewertungen oder anhand der Grammatik bewertet wird.The font US 6154722 A presents an apparatus and method for speech recognition. The method accesses two different language models, whereby the one language model is based on the probabilities of an integrated finite grammar. The other language model is based on a statistical word transition score using n-gram context. In integrating the two language models, the n-gram probabilities of the statistics are modified based on the information provided by the grammatical language model. A disadvantage of the method presented here, however, is that the evaluations obtained by means of the grammatical language model are fundamentally subordinate to the probabilities of the n-gram context from the statistics. A further disadvantage of the speech recognition method is that entire sentences are used for the evaluation a whole sentence may be evaluated on the basis of statistical word crossing scores or grammar.

Der Erfindung liegt daher die Aufgabe zu Grunde, ein Spracherkennungsverfahren gemäß dem Oberbegriff des Patentanspruchs 1 bereitzustellen, welches bei verbesserter Erkennungsleistung gegenüber bekannten Spracherkennungsverfahren weniger Speicherplatz und/oder Rechenzeit erfordert.Of the The invention is therefore based on the object, a speech recognition method according to the generic term of the patent claim 1, which in improved Recognition performance known speech recognition method less storage space and / or Calculation time required.

Die Aufgabe wird gemäß der Erfindung durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung werden in den Unteransprüchen aufgezeigt.The Task is according to the invention solved by a method having the features of claim 1. advantageous Embodiments and developments of the invention are in the dependent claims demonstrated.

Gemäß der Erfindung wird ein Verfahren zur Spracherkennung von Wortfolgen vorgeschlagen. Bei der Erkennung von Wortfolgen wird mittels einem auf einem grammatikalischen Sprachmodell basierenden Erkennungsverfahren eine syntaktische Wortfolgenbewertung und mittels einem auf einem statistischen Sprachmodell basierenden Erkennungsverfahren eine statistische Wortfolgenbewertung durchgeführt. In einer erfinderischen Weise sind dabei beide Erkennungsverfahren zur Anwendung auf denselben Abschnitt und/oder getrennte Abschnitte einer zu erkennenden Wortfolge vorgesehen. In vorteilhafter Weise wird hierbei bei beiden Erkennungsverfahren eine einheitliche Abfrage von n-Gramm Bewertungen durchgeführt. Bei den n-Grammen kann es sich beispielsweise um Bi- oder Trigramme handeln, wobei zwei oder drei aufeinander folgende Wörter bei der Bewertung berücksichtigt werden. Unter Wörtern werden hier und im Folgenden nicht allein Wörter im sprachlichen Sinne als Lautfolgen mit einem zuweisbaren Begriffsinhalt verstanden, sondern unter Wörtern sind allgemein die mittels einem Spracherkenner zu verarbeitenden Lautfolgen gemeint. Mit der Erfindung wird es daher möglich die Vorteile der beiden Erkennungsverfahren gezielt auf einzelne Wörter einer Wortfolge anzuwenden. Hierdurch wird es in besonderem Maße möglich einerseits die Erkennungsleistung des Spracherkennungsverfahrens zu verbessern, andererseits wird durch die Kombination der Erkennungsverfahren weniger Speicherplatz und/oder Rechenzeit benötigt. Beispielsweise bietet hierbei die grammatikalische Wortfolgenbewertung gegenüber einer statistischen Wortfolgenbewertung den Vorteil einer deutlich höheren Erkennungssicherheit. Andererseits schränken Grammatiken die Anzahl erkennbarer Äußerungen auf bestimmte erlaubte Sätze ein. Wohingegen statistische Wortfolgenbewertungen die Erkennung von natürlichsprachlichen Sätzen mit sehr großem Vokabular erlauben und gegenüber grammatikalischen Sprachmodellen, bei entsprechender Komplexität, weniger Ressourcen erfordern. Insbesondere kann bei statistischen Sprachmodellen die Abfrage von n-Gramm Wortübergängen beispielsweise durch eine Umwandlung der Wörter in Indizes sehr effizient in Bezug auf Speicherplatzbedarf und Rechenzeit umgesetzt werden.According to the invention, a method for speech recognition of word sequences is proposed. In the recognition of word sequences, a syntactic word order evaluation is performed by means of a recognition method based on a grammatical language model and a statistical word sequence evaluation by means of a recognition method based on a statistical language model. In an inventive manner, both recognition methods are provided for application to the same section and / or separate sections of a word sequence to be recognized. In an advantageous manner, a uniform query of n-gram evaluations is carried out here in both recognition methods. For example, the n-grams may be bi- or trigrams, with two or three consecutive words taken into account in the evaluation. Here and below, words are understood not only to be words in the linguistic sense as sequences of sounds with an assignable conceptual content, but words are generally to be understood as the sound sequences to be processed by means of a speech recognizer. With the invention it is therefore possible to selectively apply the advantages of the two recognition methods to individual words of a word sequence. On the one hand, this makes it possible, on the one hand, to improve the recognition performance of the speech recognition method; on the other hand, the combination of the recognition methods requires less storage space and / or computing time. For example, the grammatical word sequence evaluation offers the advantage of a significantly higher recognition reliability compared to a statistical word sequence evaluation. On the other hand, grammars limit the number of recognizable utterances to certain allowed sentences. Whereas statistical word order evaluations allow the recognition of very vocabulary natural language sentences and require fewer resources than grammatical language models, with the corresponding complexity. In particular, in statistical language models, the query of n-gram word transitions can be implemented very efficiently in terms of storage space requirements and computation time, for example, by converting the words into indices.

In einer besonders vorteilhaften Ausgestaltung der Erfindung wird getrennt für jedes n-Gramm eine Entscheidung für eine syntaktische Bewertung anhand eines grammatikalischen Sprachmodells und/oder eine statistische Wortfolgenbewertung getroffen. Eine getrennte Entscheidungsfindung für jedes n-Gramm wird dabei erst durch eine einheitliche Abfrage von n-Gramm Bewertungen möglich. Aufgrund dieser einheitlichen Abfrage liegen auch die Ergebnisse der Bewertung in einheitlicher Form vor, wobei diese sodann in vorteilhafter Weise miteinander vergleichbar und kombinierbar sind.In a particularly advantageous embodiment of the invention is separated for each n-gram a decision for a syntactic evaluation based on a grammatical language model and / or made a statistical word order evaluation. A separate one Decision-making for Each n-gram is only by a uniform query of n-gram ratings possible. Because of this unified query, the results are also the evaluation in a uniform form, which then in an advantageous Way comparable and combinable with each other.

In einer gewinnbringenden Weise der Erfindung, werden anhand des grammatikalischen Sprachmodells diejenigen n-Gramme bewertet, welche Wortindizes umfassen. Die Beschreibung der Erfindung bezieht sich hier und im Folgenden zwar auf die Ver wendung eines auf Bigrammen basierenden grammatikalischen Sprachmodells, jedoch ist gleichsam auch der Einsatz eines grammatikalischen Sprachmodells mit einer anderen Modelltiefe möglich. Grammatikalische Sprachmodelle basieren allgemein auf einer regelbasierten Definition von erlaubten Sätzen, aus denen sich erlaubte Wortübergänge ableiten lassen. Im Zusammenhang mit grammatikalischen Sprachmodellen werden Wörtern zusätzlich Wortindizes zugeordnet, welche zur syntaktischen Unterscheidung von ansonsten gleichen Wörtern dienen. Hierbei können wahlweise für alle Wortübergänge dieselben Wortübergangsbewertungen verwendet werden oder es besteht auch die Möglichkeit, Wortübergänge ähnlich zu den Methoden zum Training statistischer Sprachmodelle unterschiedlich zu bewerten. Dabei können die Wörter Gruppen zugeordnet sein, welche jeweils Wörter mit denselben oder ähnlichen Wortübergangsbewertungen umfassen. Mittels dem grammatikalischen Sprachmodell werden auch diejenigen n-Gramme bewertet, welche zwar Wortindizes umfassen aber nicht auf die Satzregeln der Grammatik passen. Derartige n-Gramme werden dabei schlechtmöglichst bewertet und erhalten die niedrigste Bewertungszahl.In a beneficial manner of the invention, will be based on the grammatical language model those n-grams are rated which include word indices. The description The invention relates here and below, although the United use a grammar-based grammatical language model, however, it is also the use of a grammatical language model possible with a different model depth. Grammatical language models are generally based on a rule-based Definition of allowed sentences, from which allowed word transitions derive to let. Related to grammatical language models words additionally Associated with word indexes, which for syntactic differentiation otherwise same words serve. Here you can optional for all word transitions same Used word crossing ratings or there is also the possibility of word transitions similar to the methods for training statistical language models differently rate. It can the words Be assigned to groups, each containing words with the same or similar Word transition reviews include. By means of the grammatical language model also become those n-grams are rated, which include word indexes though do not fit the sentence rules of the grammar. Such n-grams become worst possible rated and received the lowest score.

Im Rahmen der Bewertung ist es für die syntaktische Einschränkung seitens des grammatikalischen Sprachmodells nicht notwendig, dass etwa Wortindizes im Original der zu bewertenden Wortfolge vorkommen. Dabei kann es sich beispielsweise als vorteilhaft erweisen, falls im Erkennungslexikon eines Spracherkennungssystems Wortindizes hinterlegt sind, welche mit den Bigrammen, die im Zusammenhang mit dem grammatikalischen Sprachmodell verwendet werden, korrespondieren. Hierbei enthält dann bereits das Original der zu bewertenden Wortfolge diese Wortindizes. Jedoch besteht im Rahmen der Bewertung auch die Möglichkeit, eine Suche über alle n-Gramme mit passenden Wörtern und unterschiedlichen Wortindizes durchzuführen, wobei die Abfrage der Wortfolgenbewertung dann auch alle gefundenen Wortindizes liefert. Die Behandlung mehrerer mittels einer n-Gramm Bewertung zurückgegebener Wortindizes erfolgt hierbei dadurch, indem die Wörter mit Wortindizes in einen Graphen eingetragen werden. Hierbei entstehen parallele Kanten, auf denen die Wörter mit unterschiedlichen Wortindizes liegen. Jedem dieser Wörter kann dann individuell eine Bewertungszahl zugeordnet werden. Bei der Bewertung werden innerhalb des Graphen alle syntaktischen Alternativen Wort für Wort verglichen bis das Satzende erreicht ist.in the The rating is for the syntactic restriction on the part of the grammatical language model, it is not necessary that For example, word indices occur in the original of the word sequence to be evaluated. It may prove advantageous, for example, if deposited in the recognition dictionary of a speech recognition system word indexes which are related to the bigrams, which are related to the grammatical Language model used to correspond. This then contains already the original of the word order to be evaluated these word indexes. However, in the context of the evaluation, there is also the possibility of a search over all n-grams with matching words and different word indexes, the query being the Word order evaluation then also returns all found word indexes. The treatment of several returned by an n-gram evaluation Word indexes are made by putting words with word indexes into a word index Graphs are entered. This creates parallel edges, on which the words lie with different word indexes. Any of these words can then individually assigned an evaluation number. In the Rating within the graph are all syntactic alternatives Word for Word compared until the end of the sentence is reached.

In einer gewinnbringenden Weise der Erfindung, werden anhand des statistischen Sprachmodells diejenigen n-Gramme bewertet, welche keine Wortindizes umfassen. Die statistische Bewertung basiert dabei in der Regel auf einer Schätzung von bedingten Wortübergangswahrscheinlichkeiten, welche aus Trainingstexten gewonnen werden. Die Schätzung der Wortübergangswahrscheinlichkeiten bezieht dabei meist einen n-Gramm Kontext mit ein, weshalb diese Bewertungsform üblicherweise auch als n-Gramm Sprachmodell bezeichnet wird. Beim erfindungsgemäßen Spracherkennungsverfahren werden daher sowohl das grammatikalische als auch das statistische Sprachmodell mittels der n-Gramm Methode abgefragt. Die Verwendung statistischer Bewertungen hat zum einen Vorteile bei der Spracherkennung mit sehr großem Vokabular, zum anderen kann die Abfrage von n-Gramm Wortübergängen zur statistischen Bewertung durch Umwandlung der Wörter in eindeutige Wortindizes, durch sogenanntes Hashing, sehr effizient in Bezug auf Speicherplatzbedarf und Rechenzeit umgesetzt werden. Dagegen könnten im Zusammenhang mit grammatikalischen Sprachmodellen für natürliche Sprache kaum alle erlaubten Sätze aufgelistet werden. Jedoch bieten grammatikalische Sprachmodelle eine hohe Erkennungssicherheit.In a profitable manner of the invention, are based on the statistical Language model evaluated those n-grams, which no word indexes include. The statistical evaluation is usually based on this on an estimate conditional word transition probabilities, which are won from training texts. The estimate of Word transfer probabilities relates usually an n-gram context, which is why this form of evaluation usually also referred to as n-gram language model. In the speech recognition method according to the invention hence both the grammatical and the statistical language model queried by the n-gram method. The use of statistical ratings has advantages in speech recognition with a very large vocabulary, on the other hand, the query of n-gram word transitions for statistical evaluation by transformation of the words into unique word indexes, so-called hashing, very efficient in terms of storage space and computing time. On the other hand could in the context of grammatical language models for natural language hardly all allowed sentences be listed. However, grammatical language models offer a high recognition security.

Die Kombination der Bigramme des grammatikalischen Sprachmodells mit einem statistischen Sprachmodell, welche eine einheitliche Abfrage von n-Gramm Bewertungen erlaubt, kann dabei auf mehrere Weisen geschehen. Einerseits können die Bigramme des grammatikalischen Sprachmodells in das für ein statistisches Sprachmodell nötige Format gebracht und zu der Menge der n-Gramme des statistischen Sprachmodells hinzugefügt werden, beispielsweise unter Berücksichtigung eines Sprachmodell-Backoffs von Trigrammen zu niedrigeren n-Grammen. Andererseits besteht auch die Möglichkeit, dass die Bigramme des grammatikalischen Sprachmodells separat gehalten werden.The combination of the bigrams of the grammatical language model with a statistical language model, which allows a uniform query of n-gram ratings, can thereby meh other wise happen. On the one hand, the grammar of the grammatical language model may be brought into the format necessary for a statistical language model and added to the set of n-grams of the statistical language model, for example, considering a linguistic model backoff from trigrams to lower n-grams. On the other hand, there is also the possibility that the bigrams of the grammatical language model are kept separate.

Auch hat es sich als Vorteilhaft erwiesen, dass für den Fall, dass Wortindizes erst nach der Abfrage vergeben werden, Alternativen beider Bewertungsarten aus einer einzigen n-Gramm Abfrage generiert werden. Bei der Bewertung eines n-Gramms ist dabei an den Wortindizes erkennbar, durch welche Bewertungsform diese bewertet werden. Beispielsweise sind n-Gramm Bewertungen, welche aus dem grammatikalischen Sprachmodell bewertet werden sollen, daran zu erkennen, dass alle Wörter bis auf die Satzanfangs- und Satzendemarkierungen mit Wortindizes versehen sind. N-Gramme ohne Wortindizes werden dagegen statistisch bewertet. In einer bevorzugten Ausführungsform der Erfindung können anhand des statistischen Sprachmodells auch diejenigen n-Gramme bewertet werden, welche teilweise Wortindizes umfassen. Für den Fall, dass also ein Bigramm Wortindizes umfasst und dabei nicht auf die mittels der Grammatik abgebildeten Satzregeln passt, können dann als Variante auch für Wörter mit Wortindizes statistische Bewertungen durchgeführt werden. Bei einer anderen Variante werden N-Gramme welche Wortindizes umfassen und dabei nicht auf die mittels der Grammatik abgebildeten Satzregeln passen, schlechtmöglichst bewertet und erhalten dabei die niedrigst mögliche Bewertungszahl. Durch diese Mischform von n-Grammen wird ein Übergang zwischen grammatikalischen und statistischen Bewertungen realisiert.Also It has proven to be beneficial that in the event that word indexes only be awarded after the query, alternatives of both types of valuation be generated from a single n-gram query. In the evaluation of an n-gram can be recognized by the word indices, by which form of evaluation these are rated. For example, n-gram ratings, which are to be evaluated from the grammatical language model, to recognize that all words except for the sentence start and sentence end marks with word indexes are provided. N-grams without word indexes become statistically rated. In a preferred embodiment of the invention can be based on of the statistical language model also those n-grams rated which include partially word indexes. In the event that is a bigram Word indexes does not include those by means of grammar can fit then as a variant also for words statistical evaluations are performed using word indexes. In another variant, N-grams will comprise which word indexes and do not fit the grammatical sentence rules, very badly rated and receive the lowest possible rating. Through this Mixed form of n-grams becomes a transition between grammatical and statistical evaluations realized.

Indem die Wörter aus dem grammatikalischen Sprachmodell auch im Trainingstext für statistische Sprachmodelle mit Wortindizes versehen sind, kann gezielt zwischen beiden Bewertungsformen übergegangen werden. Die Entscheidung ob und ggf. welche Wortindizes dabei hinzugefügt werden, kann beispielsweise vom Kontext der jeweiligen Anwendung abhängen oder von der Häufigkeit mit der diese Wörter vorkommen. Falls denjenigen Wörtern im Trainingstext des statistischen Sprachmodells Wortindizes hinzugefügt werden, für welche eine Entsprechung mit der Grammatik gewünscht ist, entstehen gemischte n-Gramme, bei denen Wörter mit und ohne Wortindizes auftreten. In besonders vorteilhafter Weise wird dabei bei einer Übereinstimmung von n-Grammen aus dem grammatikalischen Sprachmodell und solchen n-Grammen inklusive Wortindizes aus dem statistischen Sprachmodell, im Zweifelsfall der Bewertung der n-Gramme anhand des grammatikalischen Sprachmodells der Vorrang gegeben. Alternativ besteht in diesem Zusammenhang jedoch auch die Möglichkeit, dass bei der Übereinstimmung von n-Grammen aus dem grammatikalischen Sprachmodell und solchen n-Grammen inklusive Wortindizes aus dem statistischen Sprachmodell im Zweifelsfall die Einzelbewertungen anhand des grammatikalischen und des statistischen Sprachmodells gemittelt werden.By doing the words from the grammatical language model also in the training text for statistical Language models with word indexes can be targeted between both types of valuation become. The decision whether and, if necessary, which word indexes are added, can for example, depending on the context of the particular application or from the frequency with these words occurrence. If those words in the Training text of the statistical language model word indexes are added for which a correspondence with the grammar is desired, arise mixed n-grams, where words occur with and without word indexes. In a particularly advantageous manner will be at a match of n-grams from the grammatical language model and such n-grams including word indexes from the statistical language model, in case of doubt, the evaluation of the n-grams on the basis of the grammatical Language model given priority. Alternatively, there is this But also the possibility of that at the match of n-grams from the grammatical language model and such n-grams including word indexes from the statistical language model in case of doubt, the individual ratings using the grammatical and statistical language model be averaged.

In einer weiteren vorteilhaften Weise ist ein globaler Gewichtungsfaktor vorgesehen, womit Einzelbewertungen beider Verfahren kontinuierlich einer Gewichtung unterzogen werden. In Abhängigkeit dieses globalen Gewichtungsfaktors wird festgelegt ob eine Bewertung anhand des grammatikalischen Sprachmodells oder anhand des statistischen Sprachmodells überwiegen soll. Beispielsweise wird dadurch festgelegt inwieweit die Vorteile des grammatikalischen Sprachmodells, insbesondere eine hohe Erkennungssicherheit, auch bei einer teilweisen statistischen Wortfolgenbewertung erreicht werden.In Another advantageous way is a global weighting factor provided, whereby individual evaluations of both methods continuously be weighted. Depending on this global weighting factor is determined whether a rating based on the grammatical language model or outweighed by the statistical language model. For example This determines the extent to which the benefits of the grammatical Language model, in particular a high detection security, too achieved at a partial statistical word order evaluation become.

Eine vorteilhafte Ausgestaltungsform der Erfindung sieht es vor, dass die Bewertung einer Wortfolge mittels einem n-Gramm Fenster durchgeführt wird, wobei die Einzelbewertungen aufmultipliziert werden. Zu diesem Zweck wird ein n-Gramm Fenster schrittweise, z.B. von links nach rechts, über eine zu bewertende Wortfolge geschoben. Dabei wird anhand des grammatikalischen Sprachmodells und/oder des statistischen Sprachmodells jeweils eine Einzelbewertung für den jeweiligen Wortübergang ermittelt. Hierbei können die so ermittelten Einzelbewertungen sodann zu einer Gesamtbewertung kombiniert werden, indem diese aufmultipliziert werden. Für die Syntax Einschränkung der Grammatik ist es erforderlich, dass von einer zur nächsten n-Gramm Abfrage ein Wortindex für jedes Wort verwendet wird. Dieser Wortindex wird sodann als Vorgängerwort für weitere n-Gramm Abfragen verwendet.A advantageous embodiment of the invention provides that the evaluation of a word sequence is performed by means of an n-gram window, whereby the individual evaluations are multiplied. To this end an n-gram window is stepped, e.g. from left to right, over one pushed word sequence to be evaluated. It is based on the grammatical Language model and / or the statistical language model one each Individual rating for the respective word transition determined. Here you can the individual assessments thus determined are then combined into an overall assessment be multiplied by multiplying them. For the syntax restriction of Grammar requires that from one to the next n-gram Query a word index for every word is used. This word index is then used as predecessor for further n-gram queries used.

Erfindungsgemäß werden im Rahmen der Bewertung von n-Grammen Bewertungszahlen aus einem fest vorgegebenen Zahlenintervall herangezogen. Dabei werden die Bewertungszahlen aus dem fest vorgegebenen Zahlenintervall sowohl für n-Gramm Bewertungen anhand des grammatikalischen Sprachmodells als auch für Bewertungen anhand des statistischen Sprachmodells herangezogen. Bei einer besonders bevorzugten Ausgestaltung der Erfindung handelt es sich bei dem fest vorgegebenen Zahlenintervall um den Bereich zwischen 0 und 1.According to the invention in the context of the evaluation of n-grams evaluation numbers from one fixed predetermined number interval used. Here are the Rating numbers from the fixed number interval both for n-grams Evaluations based on the grammatical language model as well for reviews based on the statistical language model. At a special preferred embodiment of the invention is in the Fixed number interval around the range between 0 and 1.

Durch den Einsatz von sogenannten Garbage-Modellen werden insbesondere Pausen, Häsitationen und sonstige Geräusche, welche im sprachlichen Sinne keine Informationen mit zuweisbaren Begriffsinhalten liefern, beschrieben. Dabei besteht die Möglichkeit, dass Garbage-Modelle hinsichtlich ihrer Bewertung mittels grammatikalischen und/oder statistischen Sprachmodellen eine besondere Behandlung erfahren, wobei unterschiedlichen Garbage-Wörtern dieselbe oder unterschiedliche Bewertungszahlen zugeordnet sein können. Eine weitere vorteilhafte Ausgestaltungsform der Erfindung sieht es hierbei vor, dass Wortübergänge von Wörtern zu Garbage-Wörtern und umgekehrt nicht als n-Gramme behandelt werden. Dies kann insbesondere dadurch erreicht werden, indem Garbage-Wörter bei der Zusammenstellung von n-Grammen für die Bewertung nicht berücksichtigt werden. Hierdurch wird in vorteilhafter Weise vermieden, dass aus unerlaubten Wortfolgen durch Einfügen von Garbage-Wörtern erlaubte Wortfolgen werden.Through the use of so-called garbage models are in particular pauses, Häsitationen and other sounds, which in sprachli meaning does not provide information with assignable terminology. There is a possibility that garbage models may be given special treatment for their evaluation by means of grammatical and / or statistical language models, whereby different garbage words may be assigned the same or different rating numbers. A further advantageous embodiment of the invention provides that word transitions from words to garbage words and vice versa are not treated as n-grams. This can be achieved, in particular, by ignoring garbage words in the compilation of n-grams for the evaluation. In this way, it is advantageously avoided that illegal sequences of words become permissible word sequences by inserting garbage words.

Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von Ausführungsbeispielen anhand der Figuren. Dabei zeigen:Further Features and advantages of the invention will become apparent from the following Description of exemplary embodiments based on the figures. Showing:

1 einen Ausschnitt aus einem Hypothesengraph 1 a section of a hypothesis graph

2 die Hypothetisierung und Bewertung von Wortfolgen 2 Hypothetizing and evaluating word sequences

3 den Übergang zwischen einem statistischen und einem grammatikalischen Sprachmodell 3 the transition between a statistical and a grammatical language model

In 1 wird ein Ausschnitt aus einem Hypothesengraph, wie es im Zusammenhang mit dem erfindungsgemäßen Spracherkennungssystem erzeugt wird, gezeigt. Die Erzeugung des Hypothesengraphen kann hierbei beispielsweise unter Verwendung eines Hidden Markov Modell (HMM) – Dekoders erfolgen. Allgemein lassen sich mittels einem derartigen Hypothesengraphen alternative Wortfolgen in kompakter Form darstellen. In vorteilhafter Weise erlaubt dabei eine Bigramm-Grammatik eine grammatikalische Bewertung von Wortfolgen unter Einbeziehung von nur einem Vorgängerwort, hierdurch wird ein aufwändiges Zurückverfolgen einer Vielzahl an verzweigten Pfaden überflüs sig. Zu diesem Zweck werden die Wortindizes der Grammatik (hier: "_1") im Hypothesengraph hinterlegt, zumindest soweit diese als Vorgängerwörter in Bigrammen weiter verwendet werden. Die Zuordnung von Wortindizes zu den Wörtern erfolgt hierbei innerhalb des Erkennerlexikons, indem die Lexikoneinträge, welche den HMM-Folgen eine orthographische Beschreibung der Wörter zuordnen, Wortindizes umfassen. Bei der Hypothetisierung treten Wörter mehrfach auf und unterscheiden sich lediglich durch die zugehörigen Wortindizes.In 1 is a section of a hypothesis graph, as it is generated in connection with the speech recognition system according to the invention shown. The generation of the hypothesis graph can be done, for example, using a Hidden Markov Model (HMM) decoder. In general, alternative word sequences can be represented in a compact form by means of such a hypothesis graph. Advantageously, a bigram grammar allows a grammatical evaluation of word sequences with the inclusion of only one predecessor word, as a result of which an elaborate retracing of a multiplicity of branched paths becomes superfluous. For this purpose, the word indexes of the grammar (here: "_1") are deposited in the hypothesis graph, at least as far as they are used as predecessor words in bigrams. The assignment of word indexes to the words in this case takes place within the recognizer lexicon in that the lexicon entries which associate the HMM sequences with an orthographic description of the words comprise word indices. In hypothesis, words occur multiple times and differ only in the associated word indexes.

Die 2 zeigt die zu bewertenden Wortfolgen am Beispiel des in der 1 gezeigten Ausschnitts eines Hypothesengraphen. Auf den in der 1 gezeigten parallelen Kanten befinden sich Wörter mit unterschiedlichen Wortindizes. Im Rahmen der Bewertung der Wortübergänge wird eine einheitliche Abfrage von n-Gramm Bewertungen durchgeführt, wobei es unerheblich ist, ob eine Bewertung aus dem grammatikalischen oder aus dem statistischen Sprachmodellteil stammt. Den Wörtern mit unterschiedlichen Wortindizes werden unterschiedliche Bewertungen zugeordnet, welche sodann im Hypothesengraphen eingetragen werden.The 2 shows the word sequences to be evaluated on the example of in the 1 shown section of a hypothesis graph. On the in the 1 shown parallel edges are words with different word indices. In the context of the evaluation of the word transitions, a uniform query of n-gram evaluations is carried out, whereby it does not matter whether a rating originates from the grammatical or from the statistical language model part. The words with different word indices are assigned different ratings, which are then entered in the hypothesis graph.

Bei der Bewertung der Wortübergänge lässt sich beispielsweise beim Trigramm "einen Namen_1 wählen_1" anhand der vorhandenen Wortindizes erkennen, dass ein Bigramm "Namen_1 wählen_1" mittels dem grammatikalischen Sprachmodell abgefragt werden kann. Für den Fall, dass die Grammatik für diesen Übergang keine Bewertung zulässt, wird anhand des grammatikalischen Sprachmodells automatisch die schlechtmöglichste Bewertungszahl zugeordnet oder alternativ eine statistische Bewertung durchgeführt. Falls nicht alle beiden letzten Wörter des n-Gramms Wortindizes umfassen, wird das n-Gramm einer statistischen Bewertung unterzogen. Durch diese Mischform von n-Grammen werden auch Wortübergänge zwischen dem statistischen und grammatikalischen Sprachmodell realisiert, wie dies im Folgenden anhand der 3 dargestellt wird.In the evaluation of the word transitions, for example, in the trigram "choose a name_1_1" on the basis of the existing word indexes it can be recognized that a bigram "name_1 choose_1" can be queried by means of the grammatical language model. In the event that the grammar does not allow for this transition, the grammatical language model automatically assigns the worst possible score or, alternatively, performs a statistical score. If not all last two words of the n-gram comprise word indices, the n-gram is subjected to a statistical evaluation. This hybrid form of n-grams also implements word transitions between the statistical and grammatical language models, as described below with reference to FIG 3 is pictured.

3 zeigt beispielhaft den Übergang zwischen dem statistischen und dem grammatikalischen Sprachmodell. Hierbei kann für den Wortübergang "Namen_1 wählen_1" eine Bewertung mittels dem grammatikalischen Sprachmodell durchgeführt werden, da beide Wörter Wortindizes umfassen. Ansonsten werden statistische Wortübergangsbewertungen herangezogen. Für die beiden Wörter "Namen_1" und "wählen_1" wird die Grammatik in das statistische Sprachmodell integriert. Hierbei wird vorausgesetzt, dass die statistische Bewertung die Wortfolgen "möchte einen Namen_1" und "Namen_1 wählen_1 bitte" genügend hoch bewertet. Gleichsam müssen durch das statistische Sprachmodell Wortübergange in die anderen Satzregeln der Grammatik und daraus wieder heraus erfasst werden. Hierbei ist ein Einfügen von Wörtern in die Grammatik nicht erlaubt. Für die Wortfolge "einen Namen jetzt wählen bitte" kommen daher nur statistische Bewertungen in Frage. Mit der Erfindung wird für jedes Wort des Hypothesennetzes entschieden, ob die Bewertung anhand des grammatikalischen oder statistischen Sprachmodells durchgeführt wird. Wie bereits erwähnt, müssen zur Abfrage von Wortfolgenbewertungen die Lexikoneinträge im Erkennerlexikon bereits Wortindizes umfassen. Alternativ dazu besteht jedoch auch die Möglichkeit, dass den Wörtern die Wortindizes erst nachträglich zugeordnet werden. Hierbei werden im Hypothesengraph, der vom HMM-Dekoder erzeugt wird, Pfade mit gleichen Wörtern und unterschiedlichen Wortindizes generiert. Dies wird beispielsweise anhand der Wörter "wählen_1" und "wählen_2" deutlich. Die nachträgliche Vergabe der Wortindizes erfolgt dabei beispielsweise dadurch, indem die Abfrage der Wortfolgenbewertung eine Suche über n-Gramme mit passenden, gleichen Worten und verschiedenen Wortindizes einbezieht und dabei alle gefundenen Wortindizes zurückgibt. Aus den pa rallelen Kanten im Hypothesengraph sind dann alle relevanten Wortindizes verfügbar, falls die dazugehörigen Wörter als Vorgängerwörter verwendet werden sollen. 3 exemplifies the transition between the statistical and the grammatical language model. In this case, an evaluation by means of the grammatical language model can be carried out for the word transition "name_1-choose_1" since both words comprise word indices. Otherwise, statistical word transfer assessments are used. For the two words "Namen_1" and "wahl_1", the grammar is integrated into the statistical language model. It is assumed that the statistical evaluation rates the words "would like a name_1" and "name_1 please_1 please" enough high. At the same time, the statistical language model requires word transitions to be recorded in and out of the other sentence rules of the grammar. Here, an insertion of words in the grammar is not allowed. For the phrase "choose a name now please" therefore only statistical reviews in question. With the invention it is decided for each word of the hypothesis network whether the evaluation is performed on the basis of the grammatical or statistical language model. As already mentioned, to query for word order scores, the dictionary entries in the recognizer dictionary must already include word indexes. Alternatively, however, there is also the possibility that the words are added to the words only later. Here, in the hypothesis graph, which is generated by the HMM decoder, Pfa de generated with the same words and different word indices. This becomes clear, for example, from the words "choose_1" and "choose_2". The subsequent assignment of the word indexes takes place, for example, in that the query of the word sequence evaluation involves a search via n-grams with matching, identical words and different word indices and thereby returns all the word indexes found. All the relevant word indices are then available from the parallel edges in the hypothesis graph if the associated words are to be used as predecessor words.

Claims

Method for speech recognition of word sequences, wherein syntactic word order evaluation is performed by means of a grammatical language model based recognition method and wherein a statistical word order evaluation is performed by a statistical language model based recognition method, characterized in that both recognition methods are applied to the same section and / or are provided separate sections of a word sequence to be recognized, wherein in both recognition methods, a uniform query of n-gram ratings is performed.

Method for speech recognition according to one of the preceding Claims, characterized in that separately for each n-gram a decision for one syntactic evaluation using a grammatical language model and / or a statistical phrase evaluation is made.

Method for speech recognition according to one of the preceding Claims, characterized in that based on the grammatical language model those n-grams which comprise word indices.

Method for speech recognition according to one of the preceding Claims, characterized in that based on the statistical language model those n-grams, which do not include word indexes.

Speech recognition method according to one of claims 1 to 3, characterized in that based on the statistical language model those n-grams which include partial word indexes.

Method for speech recognition according to one of the preceding Claims, characterized in that for the case that word indexes are given only after the query, Alternatives of both valuation types are generated from a single n-gram query become.

Method for speech recognition according to one of the preceding Claims, characterized in that the targeted transition between the two types of evaluation words from the grammatical language model also in the training text for statistical Language models are provided with word indexes.

Method for speech recognition according to one of the preceding Claims, characterized in that at a match of n-grams from the grammatical language model and such n-grams included Word indices from the statistical language model, the evaluation of n-grams Priority will be given to the grammatical language model.

Method for speech recognition according to one of the preceding Claims, characterized in that a global weighting factor is provided, with which the individual evaluations of both methods continuously one Weighting be subjected.

Method for speech recognition according to one of the preceding Claims, characterized in that at the match of n-grams from including the grammatical language model and such n-grams Word indices from the statistical language model, the individual ratings using the grammatical and statistical language model be averaged.

Method for speech recognition according to one of the preceding Claims, characterized in that the evaluation of a word sequence means performed an N-gram window with the individual evaluations being multiplied.

Method for speech recognition according to one of the preceding Claims, characterized in that in the context of the evaluation of n-grams evaluation numbers be used from a fixed predetermined interval.

Speech recognition method according to claim 12, characterized in that it is at the fixed predetermined number interval is the range between 0 and 1.

Speech recognition method according to one of the preceding claims, characterized in that word transitions from words to garbage words and vice versa are not treated as n-grams and ignore garbage words in the compilation of n-grams become.