DE10335569A1 - Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process - Google Patents
Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process Download PDFInfo
- Publication number
- DE10335569A1 DE10335569A1 DE10335569A DE10335569A DE10335569A1 DE 10335569 A1 DE10335569 A1 DE 10335569A1 DE 10335569 A DE10335569 A DE 10335569A DE 10335569 A DE10335569 A DE 10335569A DE 10335569 A1 DE10335569 A1 DE 10335569A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- speech recognition
- language model
- grams
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung von Wortfolgen.The The invention relates to a method for speech recognition of word sequences.
Erste am Markt erhältliche Spracherkennungssysteme sind für den Einsatz in unterschiedlichen Anwendungsgebieten vorgesehen. Beispielsweise werden Spracherkennungssysteme in Verbindung mit Büroapplikationen zur Erfassung von Texten oder in Verbindung mit technischen Einrichtungen zu deren Steuerung und Befehlseingabe eingesetzt. Im Fahrzeugbereich werden Spracherkennungssysteme hauptsächlich zur Steuerung von Informations- und Kommunikationsgeräten wie z.B. Radio, Telefon und Navigationssystemen eingesetzt. Dabei werden bei der automatischen Spracherkennung im Wesentlichen zwei alternative Verfahren zur Bewertung von Wortfolgen, sog. Sprachmodelle, eingesetzt. Einerseits werden Grammatiken eingesetzt, welche eindeutige Satzregeln definieren und den Vorteil einer hohen Erkennungssicherheit aufweisen. Andererseits werden statistische Wortfolgenbewertungen eingesetzt, welche die Erkennung von natürlichsprachlichen Sätzen mit sehr großem Vokabular erlauben.First available on the market Speech recognition systems are for intended for use in different fields of application. For example, speech recognition systems are associated with office applications for capturing texts or in connection with technical facilities used for their control and command input. In the vehicle area Speech recognition systems are mainly used to control information and communication devices such as. Radio, telephone and navigation systems used. there become essentially two in automatic speech recognition alternative methods for evaluating word sequences, so-called language models, used. On the one hand, grammars are used, which are unique Defining sentence rules and the advantage of high recognition security exhibit. On the other hand, statistical word order evaluations become using the recognition of natural language sentences with very big Allow vocabulary.
In
der Offenlegungsschrift
Die
Schrift
Der Erfindung liegt daher die Aufgabe zu Grunde, ein Spracherkennungsverfahren gemäß dem Oberbegriff des Patentanspruchs 1 bereitzustellen, welches bei verbesserter Erkennungsleistung gegenüber bekannten Spracherkennungsverfahren weniger Speicherplatz und/oder Rechenzeit erfordert.Of the The invention is therefore based on the object, a speech recognition method according to the generic term of the patent claim 1, which in improved Recognition performance known speech recognition method less storage space and / or Calculation time required.
Die Aufgabe wird gemäß der Erfindung durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung werden in den Unteransprüchen aufgezeigt.The Task is according to the invention solved by a method having the features of claim 1. advantageous Embodiments and developments of the invention are in the dependent claims demonstrated.
Gemäß der Erfindung wird ein Verfahren zur Spracherkennung von Wortfolgen vorgeschlagen. Bei der Erkennung von Wortfolgen wird mittels einem auf einem grammatikalischen Sprachmodell basierenden Erkennungsverfahren eine syntaktische Wortfolgenbewertung und mittels einem auf einem statistischen Sprachmodell basierenden Erkennungsverfahren eine statistische Wortfolgenbewertung durchgeführt. In einer erfinderischen Weise sind dabei beide Erkennungsverfahren zur Anwendung auf denselben Abschnitt und/oder getrennte Abschnitte einer zu erkennenden Wortfolge vorgesehen. In vorteilhafter Weise wird hierbei bei beiden Erkennungsverfahren eine einheitliche Abfrage von n-Gramm Bewertungen durchgeführt. Bei den n-Grammen kann es sich beispielsweise um Bi- oder Trigramme handeln, wobei zwei oder drei aufeinander folgende Wörter bei der Bewertung berücksichtigt werden. Unter Wörtern werden hier und im Folgenden nicht allein Wörter im sprachlichen Sinne als Lautfolgen mit einem zuweisbaren Begriffsinhalt verstanden, sondern unter Wörtern sind allgemein die mittels einem Spracherkenner zu verarbeitenden Lautfolgen gemeint. Mit der Erfindung wird es daher möglich die Vorteile der beiden Erkennungsverfahren gezielt auf einzelne Wörter einer Wortfolge anzuwenden. Hierdurch wird es in besonderem Maße möglich einerseits die Erkennungsleistung des Spracherkennungsverfahrens zu verbessern, andererseits wird durch die Kombination der Erkennungsverfahren weniger Speicherplatz und/oder Rechenzeit benötigt. Beispielsweise bietet hierbei die grammatikalische Wortfolgenbewertung gegenüber einer statistischen Wortfolgenbewertung den Vorteil einer deutlich höheren Erkennungssicherheit. Andererseits schränken Grammatiken die Anzahl erkennbarer Äußerungen auf bestimmte erlaubte Sätze ein. Wohingegen statistische Wortfolgenbewertungen die Erkennung von natürlichsprachlichen Sätzen mit sehr großem Vokabular erlauben und gegenüber grammatikalischen Sprachmodellen, bei entsprechender Komplexität, weniger Ressourcen erfordern. Insbesondere kann bei statistischen Sprachmodellen die Abfrage von n-Gramm Wortübergängen beispielsweise durch eine Umwandlung der Wörter in Indizes sehr effizient in Bezug auf Speicherplatzbedarf und Rechenzeit umgesetzt werden.According to the invention, a method for speech recognition of word sequences is proposed. In the recognition of word sequences, a syntactic word order evaluation is performed by means of a recognition method based on a grammatical language model and a statistical word sequence evaluation by means of a recognition method based on a statistical language model. In an inventive manner, both recognition methods are provided for application to the same section and / or separate sections of a word sequence to be recognized. In an advantageous manner, a uniform query of n-gram evaluations is carried out here in both recognition methods. For example, the n-grams may be bi- or trigrams, with two or three consecutive words taken into account in the evaluation. Here and below, words are understood not only to be words in the linguistic sense as sequences of sounds with an assignable conceptual content, but words are generally to be understood as the sound sequences to be processed by means of a speech recognizer. With the invention it is therefore possible to selectively apply the advantages of the two recognition methods to individual words of a word sequence. On the one hand, this makes it possible, on the one hand, to improve the recognition performance of the speech recognition method; on the other hand, the combination of the recognition methods requires less storage space and / or computing time. For example, the grammatical word sequence evaluation offers the advantage of a significantly higher recognition reliability compared to a statistical word sequence evaluation. On the other hand, grammars limit the number of recognizable utterances to certain allowed sentences. Whereas statistical word order evaluations allow the recognition of very vocabulary natural language sentences and require fewer resources than grammatical language models, with the corresponding complexity. In particular, in statistical language models, the query of n-gram word transitions can be implemented very efficiently in terms of storage space requirements and computation time, for example, by converting the words into indices.
In einer besonders vorteilhaften Ausgestaltung der Erfindung wird getrennt für jedes n-Gramm eine Entscheidung für eine syntaktische Bewertung anhand eines grammatikalischen Sprachmodells und/oder eine statistische Wortfolgenbewertung getroffen. Eine getrennte Entscheidungsfindung für jedes n-Gramm wird dabei erst durch eine einheitliche Abfrage von n-Gramm Bewertungen möglich. Aufgrund dieser einheitlichen Abfrage liegen auch die Ergebnisse der Bewertung in einheitlicher Form vor, wobei diese sodann in vorteilhafter Weise miteinander vergleichbar und kombinierbar sind.In a particularly advantageous embodiment of the invention is separated for each n-gram a decision for a syntactic evaluation based on a grammatical language model and / or made a statistical word order evaluation. A separate one Decision-making for Each n-gram is only by a uniform query of n-gram ratings possible. Because of this unified query, the results are also the evaluation in a uniform form, which then in an advantageous Way comparable and combinable with each other.
In einer gewinnbringenden Weise der Erfindung, werden anhand des grammatikalischen Sprachmodells diejenigen n-Gramme bewertet, welche Wortindizes umfassen. Die Beschreibung der Erfindung bezieht sich hier und im Folgenden zwar auf die Ver wendung eines auf Bigrammen basierenden grammatikalischen Sprachmodells, jedoch ist gleichsam auch der Einsatz eines grammatikalischen Sprachmodells mit einer anderen Modelltiefe möglich. Grammatikalische Sprachmodelle basieren allgemein auf einer regelbasierten Definition von erlaubten Sätzen, aus denen sich erlaubte Wortübergänge ableiten lassen. Im Zusammenhang mit grammatikalischen Sprachmodellen werden Wörtern zusätzlich Wortindizes zugeordnet, welche zur syntaktischen Unterscheidung von ansonsten gleichen Wörtern dienen. Hierbei können wahlweise für alle Wortübergänge dieselben Wortübergangsbewertungen verwendet werden oder es besteht auch die Möglichkeit, Wortübergänge ähnlich zu den Methoden zum Training statistischer Sprachmodelle unterschiedlich zu bewerten. Dabei können die Wörter Gruppen zugeordnet sein, welche jeweils Wörter mit denselben oder ähnlichen Wortübergangsbewertungen umfassen. Mittels dem grammatikalischen Sprachmodell werden auch diejenigen n-Gramme bewertet, welche zwar Wortindizes umfassen aber nicht auf die Satzregeln der Grammatik passen. Derartige n-Gramme werden dabei schlechtmöglichst bewertet und erhalten die niedrigste Bewertungszahl.In a beneficial manner of the invention, will be based on the grammatical language model those n-grams are rated which include word indices. The description The invention relates here and below, although the United use a grammar-based grammatical language model, however, it is also the use of a grammatical language model possible with a different model depth. Grammatical language models are generally based on a rule-based Definition of allowed sentences, from which allowed word transitions derive to let. Related to grammatical language models words additionally Associated with word indexes, which for syntactic differentiation otherwise same words serve. Here you can optional for all word transitions same Used word crossing ratings or there is also the possibility of word transitions similar to the methods for training statistical language models differently rate. It can the words Be assigned to groups, each containing words with the same or similar Word transition reviews include. By means of the grammatical language model also become those n-grams are rated, which include word indexes though do not fit the sentence rules of the grammar. Such n-grams become worst possible rated and received the lowest score.
Im Rahmen der Bewertung ist es für die syntaktische Einschränkung seitens des grammatikalischen Sprachmodells nicht notwendig, dass etwa Wortindizes im Original der zu bewertenden Wortfolge vorkommen. Dabei kann es sich beispielsweise als vorteilhaft erweisen, falls im Erkennungslexikon eines Spracherkennungssystems Wortindizes hinterlegt sind, welche mit den Bigrammen, die im Zusammenhang mit dem grammatikalischen Sprachmodell verwendet werden, korrespondieren. Hierbei enthält dann bereits das Original der zu bewertenden Wortfolge diese Wortindizes. Jedoch besteht im Rahmen der Bewertung auch die Möglichkeit, eine Suche über alle n-Gramme mit passenden Wörtern und unterschiedlichen Wortindizes durchzuführen, wobei die Abfrage der Wortfolgenbewertung dann auch alle gefundenen Wortindizes liefert. Die Behandlung mehrerer mittels einer n-Gramm Bewertung zurückgegebener Wortindizes erfolgt hierbei dadurch, indem die Wörter mit Wortindizes in einen Graphen eingetragen werden. Hierbei entstehen parallele Kanten, auf denen die Wörter mit unterschiedlichen Wortindizes liegen. Jedem dieser Wörter kann dann individuell eine Bewertungszahl zugeordnet werden. Bei der Bewertung werden innerhalb des Graphen alle syntaktischen Alternativen Wort für Wort verglichen bis das Satzende erreicht ist.in the The rating is for the syntactic restriction on the part of the grammatical language model, it is not necessary that For example, word indices occur in the original of the word sequence to be evaluated. It may prove advantageous, for example, if deposited in the recognition dictionary of a speech recognition system word indexes which are related to the bigrams, which are related to the grammatical Language model used to correspond. This then contains already the original of the word order to be evaluated these word indexes. However, in the context of the evaluation, there is also the possibility of a search over all n-grams with matching words and different word indexes, the query being the Word order evaluation then also returns all found word indexes. The treatment of several returned by an n-gram evaluation Word indexes are made by putting words with word indexes into a word index Graphs are entered. This creates parallel edges, on which the words lie with different word indexes. Any of these words can then individually assigned an evaluation number. In the Rating within the graph are all syntactic alternatives Word for Word compared until the end of the sentence is reached.
In einer gewinnbringenden Weise der Erfindung, werden anhand des statistischen Sprachmodells diejenigen n-Gramme bewertet, welche keine Wortindizes umfassen. Die statistische Bewertung basiert dabei in der Regel auf einer Schätzung von bedingten Wortübergangswahrscheinlichkeiten, welche aus Trainingstexten gewonnen werden. Die Schätzung der Wortübergangswahrscheinlichkeiten bezieht dabei meist einen n-Gramm Kontext mit ein, weshalb diese Bewertungsform üblicherweise auch als n-Gramm Sprachmodell bezeichnet wird. Beim erfindungsgemäßen Spracherkennungsverfahren werden daher sowohl das grammatikalische als auch das statistische Sprachmodell mittels der n-Gramm Methode abgefragt. Die Verwendung statistischer Bewertungen hat zum einen Vorteile bei der Spracherkennung mit sehr großem Vokabular, zum anderen kann die Abfrage von n-Gramm Wortübergängen zur statistischen Bewertung durch Umwandlung der Wörter in eindeutige Wortindizes, durch sogenanntes Hashing, sehr effizient in Bezug auf Speicherplatzbedarf und Rechenzeit umgesetzt werden. Dagegen könnten im Zusammenhang mit grammatikalischen Sprachmodellen für natürliche Sprache kaum alle erlaubten Sätze aufgelistet werden. Jedoch bieten grammatikalische Sprachmodelle eine hohe Erkennungssicherheit.In a profitable manner of the invention, are based on the statistical Language model evaluated those n-grams, which no word indexes include. The statistical evaluation is usually based on this on an estimate conditional word transition probabilities, which are won from training texts. The estimate of Word transfer probabilities relates usually an n-gram context, which is why this form of evaluation usually also referred to as n-gram language model. In the speech recognition method according to the invention hence both the grammatical and the statistical language model queried by the n-gram method. The use of statistical ratings has advantages in speech recognition with a very large vocabulary, on the other hand, the query of n-gram word transitions for statistical evaluation by transformation of the words into unique word indexes, so-called hashing, very efficient in terms of storage space and computing time. On the other hand could in the context of grammatical language models for natural language hardly all allowed sentences be listed. However, grammatical language models offer a high recognition security.
Die Kombination der Bigramme des grammatikalischen Sprachmodells mit einem statistischen Sprachmodell, welche eine einheitliche Abfrage von n-Gramm Bewertungen erlaubt, kann dabei auf mehrere Weisen geschehen. Einerseits können die Bigramme des grammatikalischen Sprachmodells in das für ein statistisches Sprachmodell nötige Format gebracht und zu der Menge der n-Gramme des statistischen Sprachmodells hinzugefügt werden, beispielsweise unter Berücksichtigung eines Sprachmodell-Backoffs von Trigrammen zu niedrigeren n-Grammen. Andererseits besteht auch die Möglichkeit, dass die Bigramme des grammatikalischen Sprachmodells separat gehalten werden.The combination of the bigrams of the grammatical language model with a statistical language model, which allows a uniform query of n-gram ratings, can thereby meh other wise happen. On the one hand, the grammar of the grammatical language model may be brought into the format necessary for a statistical language model and added to the set of n-grams of the statistical language model, for example, considering a linguistic model backoff from trigrams to lower n-grams. On the other hand, there is also the possibility that the bigrams of the grammatical language model are kept separate.
Auch hat es sich als Vorteilhaft erwiesen, dass für den Fall, dass Wortindizes erst nach der Abfrage vergeben werden, Alternativen beider Bewertungsarten aus einer einzigen n-Gramm Abfrage generiert werden. Bei der Bewertung eines n-Gramms ist dabei an den Wortindizes erkennbar, durch welche Bewertungsform diese bewertet werden. Beispielsweise sind n-Gramm Bewertungen, welche aus dem grammatikalischen Sprachmodell bewertet werden sollen, daran zu erkennen, dass alle Wörter bis auf die Satzanfangs- und Satzendemarkierungen mit Wortindizes versehen sind. N-Gramme ohne Wortindizes werden dagegen statistisch bewertet. In einer bevorzugten Ausführungsform der Erfindung können anhand des statistischen Sprachmodells auch diejenigen n-Gramme bewertet werden, welche teilweise Wortindizes umfassen. Für den Fall, dass also ein Bigramm Wortindizes umfasst und dabei nicht auf die mittels der Grammatik abgebildeten Satzregeln passt, können dann als Variante auch für Wörter mit Wortindizes statistische Bewertungen durchgeführt werden. Bei einer anderen Variante werden N-Gramme welche Wortindizes umfassen und dabei nicht auf die mittels der Grammatik abgebildeten Satzregeln passen, schlechtmöglichst bewertet und erhalten dabei die niedrigst mögliche Bewertungszahl. Durch diese Mischform von n-Grammen wird ein Übergang zwischen grammatikalischen und statistischen Bewertungen realisiert.Also It has proven to be beneficial that in the event that word indexes only be awarded after the query, alternatives of both types of valuation be generated from a single n-gram query. In the evaluation of an n-gram can be recognized by the word indices, by which form of evaluation these are rated. For example, n-gram ratings, which are to be evaluated from the grammatical language model, to recognize that all words except for the sentence start and sentence end marks with word indexes are provided. N-grams without word indexes become statistically rated. In a preferred embodiment of the invention can be based on of the statistical language model also those n-grams rated which include partially word indexes. In the event that is a bigram Word indexes does not include those by means of grammar can fit then as a variant also for words statistical evaluations are performed using word indexes. In another variant, N-grams will comprise which word indexes and do not fit the grammatical sentence rules, very badly rated and receive the lowest possible rating. Through this Mixed form of n-grams becomes a transition between grammatical and statistical evaluations realized.
Indem die Wörter aus dem grammatikalischen Sprachmodell auch im Trainingstext für statistische Sprachmodelle mit Wortindizes versehen sind, kann gezielt zwischen beiden Bewertungsformen übergegangen werden. Die Entscheidung ob und ggf. welche Wortindizes dabei hinzugefügt werden, kann beispielsweise vom Kontext der jeweiligen Anwendung abhängen oder von der Häufigkeit mit der diese Wörter vorkommen. Falls denjenigen Wörtern im Trainingstext des statistischen Sprachmodells Wortindizes hinzugefügt werden, für welche eine Entsprechung mit der Grammatik gewünscht ist, entstehen gemischte n-Gramme, bei denen Wörter mit und ohne Wortindizes auftreten. In besonders vorteilhafter Weise wird dabei bei einer Übereinstimmung von n-Grammen aus dem grammatikalischen Sprachmodell und solchen n-Grammen inklusive Wortindizes aus dem statistischen Sprachmodell, im Zweifelsfall der Bewertung der n-Gramme anhand des grammatikalischen Sprachmodells der Vorrang gegeben. Alternativ besteht in diesem Zusammenhang jedoch auch die Möglichkeit, dass bei der Übereinstimmung von n-Grammen aus dem grammatikalischen Sprachmodell und solchen n-Grammen inklusive Wortindizes aus dem statistischen Sprachmodell im Zweifelsfall die Einzelbewertungen anhand des grammatikalischen und des statistischen Sprachmodells gemittelt werden.By doing the words from the grammatical language model also in the training text for statistical Language models with word indexes can be targeted between both types of valuation become. The decision whether and, if necessary, which word indexes are added, can for example, depending on the context of the particular application or from the frequency with these words occurrence. If those words in the Training text of the statistical language model word indexes are added for which a correspondence with the grammar is desired, arise mixed n-grams, where words occur with and without word indexes. In a particularly advantageous manner will be at a match of n-grams from the grammatical language model and such n-grams including word indexes from the statistical language model, in case of doubt, the evaluation of the n-grams on the basis of the grammatical Language model given priority. Alternatively, there is this But also the possibility of that at the match of n-grams from the grammatical language model and such n-grams including word indexes from the statistical language model in case of doubt, the individual ratings using the grammatical and statistical language model be averaged.
In einer weiteren vorteilhaften Weise ist ein globaler Gewichtungsfaktor vorgesehen, womit Einzelbewertungen beider Verfahren kontinuierlich einer Gewichtung unterzogen werden. In Abhängigkeit dieses globalen Gewichtungsfaktors wird festgelegt ob eine Bewertung anhand des grammatikalischen Sprachmodells oder anhand des statistischen Sprachmodells überwiegen soll. Beispielsweise wird dadurch festgelegt inwieweit die Vorteile des grammatikalischen Sprachmodells, insbesondere eine hohe Erkennungssicherheit, auch bei einer teilweisen statistischen Wortfolgenbewertung erreicht werden.In Another advantageous way is a global weighting factor provided, whereby individual evaluations of both methods continuously be weighted. Depending on this global weighting factor is determined whether a rating based on the grammatical language model or outweighed by the statistical language model. For example This determines the extent to which the benefits of the grammatical Language model, in particular a high detection security, too achieved at a partial statistical word order evaluation become.
Eine vorteilhafte Ausgestaltungsform der Erfindung sieht es vor, dass die Bewertung einer Wortfolge mittels einem n-Gramm Fenster durchgeführt wird, wobei die Einzelbewertungen aufmultipliziert werden. Zu diesem Zweck wird ein n-Gramm Fenster schrittweise, z.B. von links nach rechts, über eine zu bewertende Wortfolge geschoben. Dabei wird anhand des grammatikalischen Sprachmodells und/oder des statistischen Sprachmodells jeweils eine Einzelbewertung für den jeweiligen Wortübergang ermittelt. Hierbei können die so ermittelten Einzelbewertungen sodann zu einer Gesamtbewertung kombiniert werden, indem diese aufmultipliziert werden. Für die Syntax Einschränkung der Grammatik ist es erforderlich, dass von einer zur nächsten n-Gramm Abfrage ein Wortindex für jedes Wort verwendet wird. Dieser Wortindex wird sodann als Vorgängerwort für weitere n-Gramm Abfragen verwendet.A advantageous embodiment of the invention provides that the evaluation of a word sequence is performed by means of an n-gram window, whereby the individual evaluations are multiplied. To this end an n-gram window is stepped, e.g. from left to right, over one pushed word sequence to be evaluated. It is based on the grammatical Language model and / or the statistical language model one each Individual rating for the respective word transition determined. Here you can the individual assessments thus determined are then combined into an overall assessment be multiplied by multiplying them. For the syntax restriction of Grammar requires that from one to the next n-gram Query a word index for every word is used. This word index is then used as predecessor for further n-gram queries used.
Erfindungsgemäß werden im Rahmen der Bewertung von n-Grammen Bewertungszahlen aus einem fest vorgegebenen Zahlenintervall herangezogen. Dabei werden die Bewertungszahlen aus dem fest vorgegebenen Zahlenintervall sowohl für n-Gramm Bewertungen anhand des grammatikalischen Sprachmodells als auch für Bewertungen anhand des statistischen Sprachmodells herangezogen. Bei einer besonders bevorzugten Ausgestaltung der Erfindung handelt es sich bei dem fest vorgegebenen Zahlenintervall um den Bereich zwischen 0 und 1.According to the invention in the context of the evaluation of n-grams evaluation numbers from one fixed predetermined number interval used. Here are the Rating numbers from the fixed number interval both for n-grams Evaluations based on the grammatical language model as well for reviews based on the statistical language model. At a special preferred embodiment of the invention is in the Fixed number interval around the range between 0 and 1.
Durch den Einsatz von sogenannten Garbage-Modellen werden insbesondere Pausen, Häsitationen und sonstige Geräusche, welche im sprachlichen Sinne keine Informationen mit zuweisbaren Begriffsinhalten liefern, beschrieben. Dabei besteht die Möglichkeit, dass Garbage-Modelle hinsichtlich ihrer Bewertung mittels grammatikalischen und/oder statistischen Sprachmodellen eine besondere Behandlung erfahren, wobei unterschiedlichen Garbage-Wörtern dieselbe oder unterschiedliche Bewertungszahlen zugeordnet sein können. Eine weitere vorteilhafte Ausgestaltungsform der Erfindung sieht es hierbei vor, dass Wortübergänge von Wörtern zu Garbage-Wörtern und umgekehrt nicht als n-Gramme behandelt werden. Dies kann insbesondere dadurch erreicht werden, indem Garbage-Wörter bei der Zusammenstellung von n-Grammen für die Bewertung nicht berücksichtigt werden. Hierdurch wird in vorteilhafter Weise vermieden, dass aus unerlaubten Wortfolgen durch Einfügen von Garbage-Wörtern erlaubte Wortfolgen werden.Through the use of so-called garbage models are in particular pauses, Häsitationen and other sounds, which in sprachli meaning does not provide information with assignable terminology. There is a possibility that garbage models may be given special treatment for their evaluation by means of grammatical and / or statistical language models, whereby different garbage words may be assigned the same or different rating numbers. A further advantageous embodiment of the invention provides that word transitions from words to garbage words and vice versa are not treated as n-grams. This can be achieved, in particular, by ignoring garbage words in the compilation of n-grams for the evaluation. In this way, it is advantageously avoided that illegal sequences of words become permissible word sequences by inserting garbage words.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von Ausführungsbeispielen anhand der Figuren. Dabei zeigen:Further Features and advantages of the invention will become apparent from the following Description of exemplary embodiments based on the figures. Showing:
In
Die
Bei
der Bewertung der Wortübergänge lässt sich
beispielsweise beim Trigramm "einen
Namen_1 wählen_1" anhand der vorhandenen
Wortindizes erkennen, dass ein Bigramm "Namen_1 wählen_1" mittels dem grammatikalischen Sprachmodell
abgefragt werden kann. Für
den Fall, dass die Grammatik für diesen Übergang
keine Bewertung zulässt,
wird anhand des grammatikalischen Sprachmodells automatisch die
schlechtmöglichste
Bewertungszahl zugeordnet oder alternativ eine statistische Bewertung durchgeführt. Falls
nicht alle beiden letzten Wörter des
n-Gramms Wortindizes
umfassen, wird das n-Gramm einer statistischen Bewertung unterzogen. Durch
diese Mischform von n-Grammen
werden auch Wortübergänge zwischen
dem statistischen und grammatikalischen Sprachmodell realisiert,
wie dies im Folgenden anhand der
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10335569A DE10335569A1 (en) | 2003-07-31 | 2003-07-31 | Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10335569A DE10335569A1 (en) | 2003-07-31 | 2003-07-31 | Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10335569A1 true DE10335569A1 (en) | 2005-02-24 |
Family
ID=34089058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10335569A Withdrawn DE10335569A1 (en) | 2003-07-31 | 2003-07-31 | Speech recognition method, in which both grammatically and statistically based speech recognition models are applied to the same word sequence and or different word sequences in a multiple stage evaluation process |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10335569A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
-
2003
- 2003-07-31 DE DE10335569A patent/DE10335569A1/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
Non-Patent Citations (4)
Title |
---|
MARTIN,S.,et.al.: Interpolation of stochastic grammar and word bigram models in natural language understanding. In: Poc.6th,Int.Conference on Spoken Language Processing (ICSLP),Beijing,Vol.1,S.234-237,2000 * |
MARTIN,S.,et.al.: Interpolation of stochastic grammar and word bigram models in natural language understanding. In: Poc.6th,Int.Conference on Spoken Language Processing (ICSLP),Beijing,Vol.1,S.234-237,2000; |
WANG,Y,et.al.: A Unified context-Free Grammar and N-Gram Model for Spoken Language Processing. In: Proc. of the Int. Conf. on Acoustics,Speech and Signal Processing, Istanbul, Turkey,June 2000,S.1-4 * |
WANG,Y,et.al.: A Unified context-Free Grammar and N-Gram Model for Spoken Language Processing. In: Proc. of the Int. Conf. on Acoustics,Speech and Signal Processing, Istanbul, Turkey,June 2000,S.1-4; |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69622565T2 (en) | METHOD AND DEVICE FOR DYNAMICALLY ADJUSTING A LARGE VOCABULARY LANGUAGE IDENTIFICATION SYSTEM AND USING RESTRICTIONS FROM A DATABASE IN A VOICE LABELING LANGUAGE IDENTIFICATION SYSTEM | |
DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
DE69937176T2 (en) | Segmentation method to extend the active vocabulary of speech recognizers | |
EP1927980B1 (en) | Method for classifying spoken language in spoken dialogue systems | |
DE69009522T2 (en) | Diagram analyzer for stochastic unification grammar. | |
DE69625950T2 (en) | Method and device for speech recognition and translation system | |
DE69908047T2 (en) | Method and system for the automatic determination of phonetic transcriptions in connection with spelled words | |
DE69518723T2 (en) | Reduction of the search space in speech recognition using phoneme boundaries and phoneme classes | |
EP1217610A1 (en) | Method and system for multilingual speech recognition | |
DE19721198C2 (en) | Statistical language model for inflected languages | |
DE60316912T2 (en) | Method for speech recognition | |
DE2212472A1 (en) | Procedure and arrangement for the speech synthesis of printed message texts | |
EP0994461A2 (en) | Method for automatically recognising a spelled speech utterance | |
EP1273003B1 (en) | Method and device for the determination of prosodic markers | |
DE60023736T2 (en) | METHOD AND DEVICE FOR VOICE RECOGNITION WITH VARIOUS LANGUAGE MODELS | |
DE102006036338A1 (en) | Method for generating a context-based speech dialog output in a speech dialogue system | |
WO2006111230A1 (en) | Method for the targeted determination of a complete input data set in a voice dialogue system | |
DE60026366T2 (en) | SPEECH RECOGNITION WITH A COMPLEMENTARY LANGUAGE MODEL FOR TYPICAL ERRORS IN THE LANGUAGE DIALOGUE | |
EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
EP1182646A2 (en) | Classification method of phonemes | |
EP1231596B1 (en) | Training methode of the free parameters in a maximum entropy language model | |
WO2001086634A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
EP2034472B1 (en) | Speech recognition method and device | |
DE60021666T2 (en) | Incremental training of a speech recognizer for a new language | |
DE69723449T2 (en) | METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8127 | New person/name/address of the applicant |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8120 | Willingness to grant licences paragraph 23 | ||
8139 | Disposal/non-payment of the annual fee |