JP6002598B2 - Emphasized position prediction apparatus, method thereof, and program - Google Patents
Emphasized position prediction apparatus, method thereof, and program Download PDFInfo
- Publication number
- JP6002598B2 JP6002598B2 JP2013032129A JP2013032129A JP6002598B2 JP 6002598 B2 JP6002598 B2 JP 6002598B2 JP 2013032129 A JP2013032129 A JP 2013032129A JP 2013032129 A JP2013032129 A JP 2013032129A JP 6002598 B2 JP6002598 B2 JP 6002598B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- emphasized
- position prediction
- feature amount
- emphasis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声合成技術に関し、特に音声の強調位置を予測する技術に関する。 The present invention relates to a voice synthesis technique, and more particularly to a technique for predicting a voice enhancement position.
例えば、映画のシーンに応じた台詞を発話する場面、童話の語り聞かせの場面、テレビなどのメディアを通じた商品宣伝の場面、およびコールセンタなどでの電話応対場面などで自然に発せられた「表現豊かな音声」において、強調は頻繁に行われている。音声合成によって生成される合成音においても、適切な強調を行うことにより、合成音の自然性が高まる。 For example, “expressive” naturally uttered in scenes where speech is spoken according to movie scenes, scenes of storytelling of fairy tales, scenes of product promotion through TV and other media, and telephone reception scenes at call centers, etc. In “speech”, the emphasis is frequently made. Even in the synthesized sound generated by speech synthesis, the naturalness of the synthesized sound is enhanced by performing appropriate emphasis.
非特許文献1にあるように、特定の区間が強調されて発話された場合、強調区間の基本周波数が読上げ調で発話された部分に比べて高くなる。従来の音声合成装置で、読み上げとは異なる日常の様々な表現豊かな音声から音声合成用モデルを構築し、そのモデルを用いて音声合成を行っても、このような強調区間での声の高さを十分に再現できない。
As described in
非特許文献1では、原音声と合成音声との基本周波数の差分が閾値よりも大きい区間を強調区間と推定し、推定した強調区間にマーク(強調マーク)を付与し、それらの強調マークを含む学習データを用いて音声合成用モデルを再構築することで、声の高さの再現性能を改善している。
In
非特許文献1の手法によって音声合成を行うためには、合成対象の入力テキストの各区間に強調マークを付与するか否かを決定する必要がある。しかし、非特許文献1の手法では、原音声と合成音声との差分に基づいて強調マークを付与するか否かを決定するため、当該強調マークが付与された区間の性質が、従来の言語処理や音声学の研究で推定されてきたテキストの言語情報に基づく強調区間の性質と同じになるとは限らない。
In order to perform speech synthesis by the method of
この発明は、このような課題に鑑みてなされたものであり、入力テキストの言語情報に基づいて、入力テキストの強調区間を予測することが可能な技術を提供することを目的とする。 This invention is made in view of such a subject, and it aims at providing the technique which can estimate the emphasis area of an input text based on the linguistic information of an input text.
本発明では、テキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される特徴量とテキストの強調位置との関係を表す強調位置予測モデルを格納しておく。音声合成を行う際には、入力テキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される前記の特徴量と同種の特徴量を求め、当該特徴量および強調位置予測モデルを用いて入力テキストの強調位置を識別する。 In the present invention, an emphasized position prediction model representing the relationship between the feature amount composed of at least one of the text morphological analysis result and the dependency analysis result and the emphasized position of the text is stored. When speech synthesis is performed, a feature quantity of the same type as the feature quantity composed of at least one of the morphological analysis result and the dependency analysis result of the input text is obtained, and input using the feature quantity and the emphasized position prediction model. Identifies the highlighted position of the text.
本発明では、入力テキストの言語情報に基づいて、入力テキストの強調区間を予測することができる。また非特許文献1のような方法では、モデル作成時に学習データに依存して強調区間が変化する。本発明では、そのような変化に対応できる強調区間をテキストから予測できる。
In the present invention, it is possible to predict the emphasis section of the input text based on the language information of the input text. Further, in the method as described in
以下、図面を参照して本発明の実施形態を説明する。
図1は、本形態の強調位置予測装置100のブロック図であり、図2はその動作フローを表す。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram of an emphasized
本形態の強調位置予測装置100は、制御部111、特徴量構成部112、強調位置予測部113、および強調位置予測モデル格納部114を有する。強調位置予測装置100は、さらにカテゴリ名辞書を格納したカテゴリ名辞書格納部115を有していてもよい。強調位置予測装置100は、例えば、CPU(central processing unit)やRAM(random-access memory)等を備える公知のコンピュータに所定のプログラムが読み込まれて構成される装置である。強調位置予測装置100の少なくとも一部が集積回路等のハードウェアで構成されていてもよい。強調位置予測装置100は、制御部111の制御のもとで各処理を実行する。
The emphasis
強調位置予測装置100の外部の解析結果格納部101には、形態素解析結果および係り受け解析結果が言語情報として付与された入力テキストが格納されている。入力テキストは、音声合成対象となる1個以上の単語からなる系列であり、この系列は強調生起範囲毎に区切られている。
An analysis result
形態素解析は、テキストを単語ごとに分割し、それぞれの単語に品詞や読みなどの辞書的情報を付与する技術であり、例えば、参考文献1(松本裕治,形態素解析システム『茶筅』,情報処理,41(11),pp.1208-1214, 2000)の方法によって実施できる。 Morphological analysis is a technique for dividing text into words and adding lexical information such as parts of speech and reading to each word. For example, Reference 1 (Yuji Matsumoto, morphological analysis system “tea bowl”, information processing, 41 (11), pp. 1208-1214, 2000).
係り受け解析は、形態素解析結果を入力として、複数の単語列からなる文節を構成し、品詞や単語の出現形や単語のアイディの関係に基づいて、文節間の係り受け関係を予測する技術であり、例えば、参考文献2(工藤拓,松本裕治,チャンキングの段階適用による日本語係り受け解析,情報処理学会論文誌,43(6),pp.1834-1842,2002)の方法によって実施できる。これら自体は、従来技術であり、それらの詳しい説明は省略する。 Dependency analysis is a technology that uses morpheme analysis results as input, constructs a phrase consisting of multiple word strings, and predicts the dependency relation between phrases based on the part-of-speech, the appearance of words, and the relationship between words. Yes, for example, it can be implemented by the method of Reference 2 (Taku Kudo, Yuji Matsumoto, Japanese Dependency Analysis by Chunking Stage Application, IPSJ Transactions, 43 (6), pp.1834-1842, 2002) . These are conventional techniques, and detailed description thereof is omitted.
声の高さのような韻律処理ではアクセント句を単位として処理を行う場合が多い。アクセント句は、1つ以上の文節から構成される系列である。アクセント句の先頭の文節の係り受け情報と最後の文節の係り受け情報をアクセント句間での係り受け情報として用いることができる。アクセント句の境界の予測は、例えば、参考文献3(Nakajima, H., Miyazaki, N., Yoshida, A., Nakamura, T., Mizuno, H., “Creation and Analysis of a Japanese Speaking Style Parallel Database for Expressive Speech Synthesis”, in Proc. Oriental COCOSDA, 2010,https://desceco.org/O-COCOSDA2010/proceedings/paper_30.pdf.)にて実施できることが知られている。 In prosodic processing such as voice pitch, processing is often performed in units of accent phrases. An accent phrase is a sequence composed of one or more phrases. The dependency information of the first phrase and the dependency information of the last phrase of the accent phrase can be used as dependency information between accent phrases. The prediction of the accent phrase boundary can be found in, for example, Reference 3 (Nakajima, H., Miyazaki, N., Yoshida, A., Nakamura, T., Mizuno, H., “Creation and Analysis of a Japanese Speaking Style Parallel Database for Expressive Speech Synthesis ”, in Proc. Oriental COCOSDA, 2010, https://desceco.org/O-COCOSDA2010/proceedings/paper_30.pdf.).
強調生起範囲は、所定の基準に基づいて定められた単語または単語列からなる区間である。どのような区間を強調生起範囲としてもよいが、例えば、ポーズ位置とポーズ位置で挟まれた区間(イントネーション句)にある単語または単語列を1つの強調生起範囲とすることができる。ポーズ位置の予測は、例えば、参考文献4(木暮監修、山森編著,「未来ねっと技術シリーズ4 メディア処理技術」,pp.76-77,電気通信協会)に記載された方法によって実行できる。或いは、アクセント句を強調生起範囲としてもよい。 The emphasis occurrence range is a section composed of words or word strings determined based on a predetermined standard. Any section may be used as the emphasis occurrence range. For example, a word or a word string in a section (intonation phrase) between the pause position and the pause position can be set as one emphasis occurrence range. The pose position can be predicted by the method described in Reference Document 4 (supervised by Kogure, edited by Yamamori, “Future Netto Technology Series 4 Media Processing Technology”, pp. 76-77, Telecommunications Association). Alternatively, an accent phrase may be used as the emphasized occurrence range.
特徴量構成部112は、解析結果格納部101から、入力テキストの各強調生起範囲に対応する形態素解析結果および係り受け解析結果の少なくとも一方を読み出し(ステップS11,S12)、読み出した情報に対応する特徴量を生成して出力する。特徴量構成部112は、入力テキストのすべての強調生起範囲についてそれぞれ特徴量を生成する。特徴量は、形態素解析結果および係り受け解析結果の少なくとも一方から抽出可能な情報である。例えば、以下のa)〜e)の要素の全てまたはそれらの一部の要素の組み合わせからなる列(例えば、ベクトルや要素の結合値)を特徴量とする。この場合、強調位置予測性能の観点から、a)およびb)の両方の要素を含む列を特徴量とすることが望ましい。好ましくは、特徴量がa)およびb)の両方の要素を含む列であることは必須である。また、下記のc−1)〜c−4)の一部またはすべての要素を含む列を加えて特徴量としてもよい。
The feature
a)強調生起範囲内の着目する単語とその前後のそれぞれN個の単語の出現形(あるいは表層形と呼ぶ)を表す情報を特徴量の要素としてもよい。これは形態素解析結果から取り出すことが可能な情報である。強調生起範囲に対してどの位置の単語を「着目する単語」とするか、各強調生起範囲に対していくつの単語を「着目する単語」とするか、ならびにNをどのような値にするかなどの条件は事前に定められる。例えば、事前に学習データを用いた予備実験が行われ、そこで最高性能を示した条件が採用される。例えば、強調生起範囲に対して特定の関係にある単語のうち主辞の単語のみを「着目する単語」としてもよいし、強調生起範囲に対して特定の関係にあるすべての単語を「着目する単語」としてもよい。「強調生起範囲に対して特定の関係にある単語」は、強調生起範囲に属する単語であってもよいし、強調生起範囲から所定の範囲内にある単語であってもよいし、強調生起範囲から所定距離だけ離れた単語であってもよい。Nは0以上の整数であり、すべての入力データ対して同じ値であってもよいし、入力データの種別等に応じて異なってもよい。これらの条件の設定は、以下の他の要素についても同様な方法で行われる。ただし、a)〜e)での条件は同じであってもよいし、異なっていてもよい。 a) Information indicating the word of interest within the emphasis generation range and the appearance form (or surface form) of N words before and after the word may be used as the feature amount element. This is information that can be extracted from the morphological analysis result. Which position is the word to be focused on with respect to the emphasized occurrence range, how many words are to be focused on with respect to each emphasized occurrence range, and what value is N Such conditions are determined in advance. For example, a preliminary experiment using learning data is performed in advance, and the condition that shows the highest performance is adopted there. For example, only the word of the main word among the words having a specific relationship with respect to the emphasized occurrence range may be set as “word of interest”, or all the words having a specific relationship with respect to the emphasized occurrence range may be referred to as “word of interest”. It is good also as. The “word having a specific relationship with the emphasized occurrence range” may be a word belonging to the emphasized occurrence range, a word within a predetermined range from the emphasized occurrence range, or the emphasized occurrence range. The word may be a predetermined distance away from. N is an integer greater than or equal to 0, and may be the same value for all input data, or may differ depending on the type of input data. These conditions are set in the same manner for the following other elements. However, the conditions in a) to e) may be the same or different.
b)上記着目する単語とその前後のそれぞれN個の単語(すなわち、上記a)の2N+1個の単語)の品詞を表す情報を特徴量の要素としてもよい。これも形態素解析結果から取り出すことが可能な情報である。 b) Information representing the part-of-speech of the word of interest and N words before and after it (ie, 2N + 1 words of the above a)) may be used as an element of the feature amount. This is also information that can be extracted from the morphological analysis result.
c)強調生起範囲の前後の単語に関して着目する単語と当該着目する単語と係り受けの関係にある他の単語との関係を表す情報を特徴量の要素としてもよい。これは係り受け解析結果から取り出すことが可能な情報である。例えば、以下を特徴量の要素とすることができる。
c−1)着目する単語から当該着目する単語が係る文末側の他の単語までの単語数で数えた距離を表す情報。
c−2)着目する単語から当該着目する単語に係る文頭側の他の単語までの単語数で数えた最小距離を表す情報。すなわち、着目する単語から当該着目する単語に係る文頭側の最も近い他の単語までの単語数で数えた距離を表す情報。
c−3)着目する単語から当該着目する単語に係る文頭側の他の単語までの単語数で数えた最大距離を表す情報。すなわち、着目する単語から当該着目する単語に係る文頭側の最も遠い他の単語までの単語数で数えた距離を表す情報。
c−4)着目する単語に係る文頭側の単語の個数を表す情報。
なお、c−1)では、着目する単語が文末の単語ではなく、かつ、文末方向に係る単語がない場合には、要素の値を0とする。c−2)とc−3)では、着目する単語が文頭の単語ではなく、かつ、その単語に係る文頭側の単語がない場合には、要素の値を0とする。また、c−1)の「文末側」を「文頭側」に置換した情報を要素としてもよいし、c−2)〜c−4)の「文頭側」を「文末側」に置換した情報を要素としてもよい。また、c)の係り受けは通常は文節単位で得られるが、音声合成で頻繁に用いられるアクセント句単位での係り受け情報を得る場合には、アクセント句境界の前後の単語から「着目する単語」への前記の距離や個数を特徴量の要素として用いることができる。なお、アクセント句境界は、特徴量構成部112に入力されたアクセント句境界やポーズの有無を表す情報によって特定されてもよいし、前述の参考文献3等に基づいて特徴量構成部112によって予測されてもよい。「着目する単語」は、強調生起範囲内の個々の単語である。
c) Information indicating the relationship between the word of interest regarding the words before and after the emphasis occurrence range and other words that are in a dependency relationship with the word of interest may be used as the element of the feature amount. This is information that can be extracted from the dependency analysis result. For example, the following can be used as elements of the feature amount.
c-1) Information representing the distance counted by the number of words from the focused word to other words at the end of the sentence related to the focused word.
c-2) Information representing the minimum distance counted by the number of words from the focused word to other words at the beginning of the sentence related to the focused word. That is, information representing the distance counted by the number of words from the focused word to the nearest other word on the sentence head related to the focused word.
c-3) Information representing the maximum distance counted by the number of words from the focused word to other words at the beginning of the sentence related to the focused word. That is, information representing the distance counted by the number of words from the focused word to the other word farthest on the sentence head related to the focused word.
c-4) Information representing the number of words on the sentence side related to the focused word.
In c-1), if the word of interest is not the word at the end of the sentence and there is no word related to the direction of the sentence end, the value of the element is set to 0. In c-2) and c-3), if the word of interest is not the word at the beginning of the sentence and there is no word at the beginning of the sentence related to the word, the value of the element is set to 0. Information obtained by replacing “end of sentence” in “c-1) with“ beginning of sentence ”may be used as an element, and information obtained by replacing“ start of sentence ”in c-2) to c-4) with“ end of sentence ”. May be an element. In addition, the dependency in c) is usually obtained in units of phrases, but when obtaining dependency information in units of accent phrases frequently used in speech synthesis, the word of interest is extracted from words before and after the accent phrase boundary. The above-mentioned distance and number to "can be used as an element of the feature amount. Note that the accent phrase boundary may be specified by the information indicating the accent phrase boundary and the presence / absence of a pose input to the feature
d)強調生起範囲内の着目するアクセント句の前後の位置でのポーズの有無を表す情報を要素としてもよい。これは参考文献3および4の結果に基づいて得られる情報である。着目するアクセント句のM1個前側のアクセント句の前の位置のポーズの有無、着目するアクセント句のM2個後ろ側のアクセント句の後ろの位置のポーズの有無を要素として含めても良い。なお、M1とM2は事前に定められる。例えば、事前に学習データを用いた予備実験が行われ、そこで最高性能を示した条件が採用される。「着目するアクセント句」は、強調生起範囲内の着目する単語が含まれているアクセント句である。
d) Information indicating the presence or absence of a pose at positions before and after the accent phrase of interest within the emphasis generation range may be used as an element. This is information obtained based on the results of
e)強調位置予測装置100がカテゴリ名辞書格納部115を備える場合、強調生起範囲に対応する単語をキーとしてカテゴリ名辞書を検索することで得られる「単語のカテゴリ」を表す情報を特徴量の要素としてもよい。例えば、上記a)の2N+1個の単語のうちの主要部の単語の、品詞以外のカテゴリ名の全てまたはそれらの部分的な組み合わせを表す情報を特徴量の要素としてもよい。例えば、単語が属する組織名や会社名といった細分類カテゴリを表す情報を特徴量の要素としてもよい。このような細分類カテゴリは、例えば、参考文献5(日本語語彙大系,NTTコミュニケーション科学研究所監修,池原他編集,1997刊,岩波書店)を用いて付与することができる。カテゴリ名としては例えば外来語か和語かといった種別がある。また,独自構築したカテゴリ名辞書を参照することにより得られる単語のカテゴリを表す情報を特徴量の要素としてもよい。例えば、「明るい」「楽しい」といったポジティブなカテゴリや、「暗い」「つらい」といったネガティブなカテゴリを設定することもできる。なお、「主要部」とは「主辞」を意味する。すなわち、「主要部」とは係り受けで係ってくる単語(受け側の単語)を意味する。上記の2N+1個の単語に主要部が複数個存在する場合には、いずれか1つの主要部の単語のみについて特徴量の要素が構成されてもよいし、複数個の主要部の単語について特徴量の要素が構成されてもよい。上記の2N+1個の単語に主要部が存在しない場合には、主要部が存在しないことを表す情報を特徴量の要素としてもよい。
e) When the emphasized
図3に複数の要素からなる列を特徴量とした例を示す。図3の例では、各アクセント句を強調生起範囲とし、アクセント句に対応する主要部の単語の出現形を表す情報(2)の列)、当該主要部の単語の品詞を表す情報(3)の列)、アクセント句の前側にポーズがあるかないかを表す情報(4)の列)、アクセント句の後側にポーズがあるかないかを表す情報(5)の列)、上記主要部の単語から当該単語に係り受けで係ってくる前側の単語までの距離の最小値を表す情報(6)の列)、および上記主要部の単語の品詞以外のカテゴリ名を表す情報(7)の列)を特徴量の要素としている。例えば、アクセント句番号2に対応する特徴量は、a)として図3の2)列の『ソフト』という単語とその前後の『クリーン』や『温風』という単語を表す情報、b)として3)列の『形容詞』と前後の『形容詞』と『名詞』を表す情報、c)として6)列の『1』を表す情報、d)として4)列と5)列の『無』と『無』を表す情報、e)として7)列の『外来語』を表す情報を要素とするベクトルとなる。
FIG. 3 shows an example in which a column composed of a plurality of elements is used as a feature amount. In the example of FIG. 3, each accent phrase is set as an emphasis occurrence range, the information (2) column indicating the appearance of the main word corresponding to the accent phrase), and the part of speech of the main word (3) Column), information indicating whether or not there is a pose on the front side of the accent phrase (column of 4), information indicating whether or not there is a pose on the back side of the accent phrase (column of 5), and the main part word Column of information (6) indicating the minimum value of the distance from the word to the front word related to the word by dependency, and a column of information (7) indicating the category name other than the part of speech of the main word ) As an element of feature quantity. For example, the feature quantity corresponding to
特徴量構成部112から出力された特徴量は、強調位置予測部113に入力される。強調位置予測部113は、強調位置予測モデル格納部114に格納された強調位置予測モデル、および特徴量構成部112で得られた特徴量を用い、入力テキストの強調位置を識別する(ステップS114)。強調位置予測モデルは、テキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される特徴量と当該テキストの強調位置との関係を表すモデルである。すなわち、強調位置予測モデルは、テキストを構成する強調生起範囲(区間)が強調位置であるかと特徴量との関係を表すモデルであり、強調位置予測部113は、特徴量構成部112で得られた特徴量を用い、入力テキストを構成する各強調生起範囲が強調位置であるかを識別する。
The feature value output from the feature
以下に詳細を例示する。各強調生起範囲i=0,…,I−1に対して得られた特徴量をxiとし、各強調生起範囲iが強調位置であるか否かを表す識別情報(強調マークを付与するか否かを表す識別情報)をyiとする。ただし、Iは1以上の整数である。例えば、Iは入力テキストに属するすべての強調生起範囲の個数である。特徴量xiはベクトル等である。識別情報yiの例は、強調生起範囲iが強調位置である場合にyi=1となり、強調生起範囲iが強調位置でない場合にyi=0となる二値情報である。特徴量xiの系列をx=(x0,…,xI−1)とし、識別情報yiの系列をy=(y0,…,yI−1)とする。この場合、強調位置予測モデルは、入力テキストの特徴量の系列xと識別情報の系列yとを対応付けるモデルである。例えば、強調位置予測モデルは、特徴量の系列xを入力変数とし、識別情報の系列yを出力変数とするモデルである。強調位置予測モデルに限定はないが、強調位置予測モデルの具体例は、系列ラベリング等に用いられる隠れマルコフモデル等の確率モデルである。強調位置予測モデルは、例えば、学習用のテキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される特徴量と、当該テキストの各強調生起範囲が強調位置であるか否かを表す識別情報との組からなる学習データを用い、一般の機械学習手法を実施することで構築できる。強調位置予測モデルの学習に用いられる特徴量の構成は、特徴量構成部112で得られる特徴量の構成と同じである。学習データの識別情報は人手で付与されたものであってもよいし、非特許文献1等の従来技術によって自働抽出されたものであってもよい。機械学習手法の詳細は、例えば参考文献6(高村大也ほか著,「言語処理のための機械学習入門」,コロナ社)等に記載されている。強調位置予測モデルは、例えば、強調生起範囲を処理単位として、その処理単位、および、その前後の単位に対応する特徴量から構成した特徴量の系列を入力とし、その処理単位での強調マークの有無を表す識別情報の系列を予測するためのモデルである。以下に隠れマルコフモデルで構築された強調位置予測モデルを例示する。
強調位置予測部113は、強調位置予測モデル格納部114から強調位置予測モデルを読み込み、当該強調位置予測モデルの入力変数に特徴量構成部112から出力された特徴量の系列xを設定し、識別情報の系列yを予測し、当該識別情報の系列yを強調位置予測結果として出力する。例えば、隠れマルコフモデルで強調位置予測モデルが構成されている場合、入力された特徴量の系列xに対してP(x,y)を最大にする識別情報の系列yが出力される。このような識別情報の系列yの探索は、例えば公知のViterbiアルゴリズムを用いて行うことができる。強調生起範囲を処理単位として、その処理単位での強調マークの有無を表す識別情報の系列yを、その単位、および、その前後の単位に対応する特徴量から構成した特徴量の列を入力した強調位置予測モデルを用いて、文頭から文末までの前記の単位ごとに強調マークを付与する場合と付与しない場合のすべての可能性を列挙して、文頭から文末まで大域的に、強調位置予測モデルが与える確率が最大の系列をViterbiアルゴリズムで選択すれば良い。或いは、強調生起範囲に代えて、着目する単語、文節、アクセント句を処理単位として識別情報の系列yを得てもよい。すなわち、特徴量を得る処理単位と識別情報を得る処理単位とは、同一であってもよいし、異なっていてもよい。あるいは、処理単位の前後数単位間で確率の高い識別情報の系列に探索範囲を絞って探索してもよい。また、特徴量の構成に関わった範囲のみについて強調位置の予測を行うことにし、強調位置の予測自体を局所的に行なうことも可能である。これらの探索法自体は周知であり、例えば、参考文献6に記載された方法で実施できる。また、強調位置予測モデルを隠れマルコフモデルに限定はしない。例えば、強調位置予測モデルは、スコアや確率値を付与できるモデルであれば、どのようなモデルによって構成されても良い。決定木によって構成されても良いし、対数線形モデルによって構成されても良いし、ニューラルネットワークで構成されても良い。
The enhancement
以上のように、本形態では、テキストの言語情報に対応する特徴量とテキストの強調位置との関係を表す強調位置予測モデルを用い、入力テキストの強調位置を識別できる。また、本形態の強調位置予測モデルを用いて予測された強調位置は、非特許文献1のモデルに整合した性質を持つ。その結果、声の高さが精度高く再現された自然な音声を合成できる。
As described above, in the present embodiment, the emphasized position of the input text can be identified using the emphasized position prediction model that represents the relationship between the feature amount corresponding to the language information of the text and the emphasized position of the text. Further, the emphasized position predicted using the emphasized position prediction model of the present embodiment has a property consistent with the model of
なお、本発明は上述の実施の形態に限定されるものではない。例えば、強調位置予測装置が、入力テキストの形態素解析や係り受け解析を行う手段を備えていてもよいし、強調位置予測装置が、形態素解析結果や係り受け解析結果を格納する解析結果格納部を備えていてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 The present invention is not limited to the embodiment described above. For example, the emphasis position prediction device may include a unit that performs morphological analysis and dependency analysis of input text, or the emphasis position prediction device includes an analysis result storage unit that stores morphological analysis results and dependency analysis results. You may have. The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capacity of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。 When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。 In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.
100 強調位置予測装置 100 Emphasized position prediction device
Claims (9)
入力テキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される特徴量を得る特徴量構成部と、
前記強調位置予測モデルおよび前記特徴量構成部で得られた前記特徴量を用いて前記入力テキストの強調位置を識別する強調位置予測部と、を有し、
前記特徴量は、主辞の単語の出現形を表す情報および前記主辞の単語の品詞を表す情報を含む、または、前記主辞の単語および前記主辞の単語の前後の所定個数の単語のそれぞれの出現形を表す情報ならびに前記単語のそれぞれの品詞を表す情報を含む、
ことを特徴とする強調位置予測装置。 An emphasis position prediction model storage unit that stores an emphasis position prediction model representing a relationship between a feature amount composed of at least one of a text morpheme analysis result and a dependency analysis result and the emphasis position of the text;
A feature quantity component that obtains a feature quantity composed of at least one of a morphological analysis result and a dependency analysis result of the input text;
An emphasized position prediction unit for identifying an emphasized position of the input text using the feature amount obtained by the emphasized position prediction model and the feature amount configuration unit,
The feature amount includes information representing information and part of speech of the words in the head word representing the appearance form of the words in the head word, or, each occurrence form of the word of words and a predetermined number before and after a word of the head word of the head word As well as information representing each part of speech of the word,
An emphasized position predicting apparatus characterized by that.
前記特徴量は、前記主辞の単語から、当該主辞の単語に係り受けで係ってくる前側の単語まで、の距離の最小値を表す情報を含む、
ことを特徴とする強調位置予測装置。 The emphasized position prediction apparatus according to claim 1,
The feature amount includes information indicating a minimum value of a distance from the word of the main word to a front word that is related to the word of the main word.
An emphasized position predicting apparatus characterized by that.
前記特徴量は、単語のカテゴリを表す情報を含む、 The feature amount includes information representing a word category,
ことを特徴とする強調位置予測装置。 An emphasized position predicting apparatus characterized by that.
前記強調位置予測モデルは、前記テキストを構成する区間が強調位置であるかと前記特徴量との関係を表すモデルであり、
前記強調位置予測部は、前記入力テキストを構成する各区間が強調位置であるかを識別する、
ことを特徴とする強調位置予測装置。 The emphasized position prediction apparatus according to any one of claims 1 to 3 ,
The emphasized position prediction model is a model that represents a relationship between whether the section constituting the text is an emphasized position and the feature amount,
The emphasis position prediction unit identifies whether each section constituting the input text is an emphasis position.
An emphasized position predicting apparatus characterized by that.
入力テキストの形態素解析結果および係り受け解析結果の少なくとも一方から構成される特徴量を得る特徴量構成ステップと、
前記強調位置予測モデルおよび前記特徴量構成ステップで得られた前記特徴量を用いて前記入力テキストの強調位置を識別する強調位置予測ステップと、
を実行し、
前記特徴量が、主辞の単語の出現形を表す情報および前記主辞の単語の品詞を表す情報を含む、または、前記主辞の単語および前記主辞の単語の前後の所定個数の単語のそれぞれの出現形を表す情報ならびに前記単語のそれぞれの品詞を表す情報を含む、
ことを特徴とする強調位置予測方法。 An emphasized position prediction model representing a relationship between a feature amount composed of at least one of a text morpheme analysis result and a dependency analysis result and the emphasized position of the text is stored in the emphasized position prediction model storage unit,
A feature quantity configuration step for obtaining a feature quantity composed of at least one of a morphological analysis result and a dependency analysis result of the input text;
Emphasis position prediction step for identifying an emphasis position of the input text using the feature amount obtained in the enhancement position prediction model and the feature amount configuration step;
Run
The feature amount includes information representing information and part of speech of the words in the head word representing the appearance form of the words in the head word, or, each occurrence form of the word of words and a predetermined number before and after a word of the head word of the head word As well as information representing each part of speech of the word,
An emphasized position prediction method characterized by the above.
前記特徴量は、前記主辞の単語から、当該主辞の単語に係り受けで係ってくる前側の単語まで、の距離の最小値を表す情報を含む、 The feature amount includes information indicating a minimum value of a distance from the word of the main word to a front word that is related to the word of the main word.
ことを特徴とする強調位置予測方法。 An emphasized position prediction method characterized by the above.
前記特徴量は、単語のカテゴリを表す情報を含む、 The feature amount includes information representing a word category,
ことを特徴とする強調位置予測方法。 An emphasized position prediction method characterized by the above.
前記強調位置予測モデルは、前記テキストを構成する区間が強調位置であるかと前記特徴量との関係を表すモデルであり、 The emphasized position prediction model is a model that represents a relationship between whether the section constituting the text is an emphasized position and the feature amount,
前記強調位置予測ステップは、前記入力テキストを構成する各区間が強調位置であるかを識別する、 The emphasized position predicting step identifies whether each section constituting the input text is an emphasized position.
ことを特徴とする強調位置予測方法。 An emphasized position prediction method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013032129A JP6002598B2 (en) | 2013-02-21 | 2013-02-21 | Emphasized position prediction apparatus, method thereof, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013032129A JP6002598B2 (en) | 2013-02-21 | 2013-02-21 | Emphasized position prediction apparatus, method thereof, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014163978A JP2014163978A (en) | 2014-09-08 |
JP6002598B2 true JP6002598B2 (en) | 2016-10-05 |
Family
ID=51614664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013032129A Expired - Fee Related JP6002598B2 (en) | 2013-02-21 | 2013-02-21 | Emphasized position prediction apparatus, method thereof, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6002598B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6436806B2 (en) * | 2015-02-03 | 2018-12-12 | 株式会社日立超エル・エス・アイ・システムズ | Speech synthesis data creation method and speech synthesis data creation device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07199981A (en) * | 1993-12-28 | 1995-08-04 | Matsushita Electric Ind Co Ltd | Accent granting device |
JP4218075B2 (en) * | 1998-03-02 | 2009-02-04 | 沖電気工業株式会社 | Speech synthesizer and text analysis method thereof |
KR100463655B1 (en) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | Text-to-speech conversion apparatus and method having function of offering additional information |
-
2013
- 2013-02-21 JP JP2013032129A patent/JP6002598B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014163978A (en) | 2014-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4215418B2 (en) | Word prediction method, speech recognition method, speech recognition apparatus and program using the method | |
JP4571822B2 (en) | Language model discrimination training for text and speech classification | |
Le et al. | Automatic speech recognition for under-resourced languages: application to Vietnamese language | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
JP5929909B2 (en) | Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program | |
CN104750677A (en) | Speech translation apparatus, speech translation method and speech translation program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
Rajendran et al. | Language dialect based speech emotion recognition through deep learning techniques | |
Moyal et al. | Phonetic search methods for large speech databases | |
JP6082657B2 (en) | Pose assignment model selection device, pose assignment device, method and program thereof | |
Chen et al. | Speaker and expression factorization for audiobook data: Expressiveness and transplantation | |
JP6002598B2 (en) | Emphasized position prediction apparatus, method thereof, and program | |
JP6309852B2 (en) | Enhanced position prediction apparatus, enhanced position prediction method, and program | |
JP6067616B2 (en) | Utterance generation method learning device, utterance generation method selection device, utterance generation method learning method, utterance generation method selection method, program | |
JP2014102345A (en) | Text creation device for acoustic model learning, method of the same, and program | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models | |
JP2006107353A (en) | Information processor, information processing method, recording medium and program | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium | |
JP5888723B2 (en) | Pronunciation dictionary creation device, pronunciation dictionary production method, and program | |
Tsai et al. | Automatic identification of the sung language in popular music recordings | |
JP3981619B2 (en) | Recording list acquisition device, speech segment database creation device, and device program thereof | |
JP2008305291A (en) | Information processor, information processing method and program | |
JP4705535B2 (en) | Acoustic model creation device, speech recognition device, and acoustic model creation program | |
JP6151162B2 (en) | Fundamental frequency prediction apparatus, fundamental frequency prediction method, program | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6002598 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |