JP6468519B2 - Basic frequency pattern prediction apparatus, method, and program - Google Patents

Basic frequency pattern prediction apparatus, method, and program Download PDF

Info

Publication number
JP6468519B2
JP6468519B2 JP2016032412A JP2016032412A JP6468519B2 JP 6468519 B2 JP6468519 B2 JP 6468519B2 JP 2016032412 A JP2016032412 A JP 2016032412A JP 2016032412 A JP2016032412 A JP 2016032412A JP 6468519 B2 JP6468519 B2 JP 6468519B2
Authority
JP
Japan
Prior art keywords
time
fundamental frequency
probability distribution
speech
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016032412A
Other languages
Japanese (ja)
Other versions
JP2017151224A (en
Inventor
弘和 亀岡
弘和 亀岡
田中 宏
宏 田中
戸田 智基
智基 戸田
中村 哲
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Nara Institute of Science and Technology NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC, Nippon Telegraph and Telephone Corp filed Critical Nara Institute of Science and Technology NUC
Priority to JP2016032412A priority Critical patent/JP6468519B2/en
Publication of JP2017151224A publication Critical patent/JP2017151224A/en
Application granted granted Critical
Publication of JP6468519B2 publication Critical patent/JP6468519B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、基本周波数パターン予測装置、方法、及びプログラムに係り、特に、ソース音声から、ターゲット音声の基本周波数パターンを予測する基本周波数パターン予測装置、方法、及びプログラムに関する。   The present invention relates to a fundamental frequency pattern prediction apparatus, method, and program, and more particularly, to a fundamental frequency pattern prediction apparatus, method, and program for predicting a fundamental frequency pattern of a target voice from a source voice.

他者とのコミュニケーションにおいて音声は利便性に優れた手段ではあるが、時として物理的制約により様々な障壁が必然的にもたらされる。例えば、発声器官の内、わずか一か所でも正常に動作しなくなると、深刻な発声障害を患い、音声コミュニケーションに支障をきたす。また、音声生成という物理的行為は、秘匿性の高い意思伝達には不向きであるし、周囲の騒音に脆弱である。これらの障壁を無くすためには、身体的制約を超えて発声器官を動作させて音声を生成したり、適切な発音動作を指定して音声を生成したり、聴取困難なほど微かな音声発声時の発声器官動作から通常音声を生成するなど、物理的・身体的制約を超えた音声生成機能の拡張が必要である。   In communication with others, voice is a convenient means, but sometimes physical barriers inevitably cause various barriers. For example, if even one of the vocal organs does not operate normally, it suffers from serious vocal disturbances and hinders voice communication. Moreover, the physical action of voice generation is not suitable for highly confidential communication and is vulnerable to ambient noise. In order to eliminate these barriers, voices can be generated by moving the vocal organs beyond physical constraints, voices can be generated by specifying an appropriate pronunciation, or when voices are so fine that it is difficult to hear It is necessary to expand the speech generation function beyond physical and physical constraints, such as generating normal speech from the vocal organ movements.

例えば、喉頭癌などで喉頭を失った喉頭摘出者に対して、残存器官を用いた代替発声法により生成される自然性に乏しい音声を、より自然な音声へと変換する発声補助技術が提案されている(非特許文献1〜非特許文献3を参照)。この他にも、非可聴つぶやき音声を自然な音声に変換する技術も提案されており、秘匿性に優れた通話技術としての応用が期待されている。上述の技術はいずれも音声のスペクトル特徴量系列から自然音声の基本周波数(F0) パターンを予測する問題を扱っている点で共通しており、学習処理と変換処理で構成される。学習処理では、対象音声(前者であれば電気音声、後者であれば非可聴つぶやき音声)と通常音声の同一発話データを用いる。まず各離散時刻(以後,フレーム)において、前後数フレームから得られる対象音声のスペクトル特徴量と、通常音声の対数F0とその動的成分(時間微分または時間差分)を抽出し、スペクトル距離尺度に基づく動的時間伸縮によりこれらを対応付けた結合ベクトルを得る。これをパラレルデータと呼ぶ。各フレームのパラレルデータを用い、対象音声のスペクトル特徴量と通常音声の対数F0 の静的・動的成分の結合確率密度関数を混合正規分布モデル(Gaussian Mixture Model; GMM)で表現する。GMM のパラメータはExpectation-Maximization アルゴリズムにより学習することができる。変換処理では、学習されたGMM を用いて、系列内変動を考慮した最尤系列変換法により、対象音声のスペクトル特徴量系列から通常音声のF0 パターンへと変換することができる。 For example, for laryngectomy patients who have lost their larynx due to laryngeal cancer, etc., voice assist technology has been proposed to convert less natural speech generated by alternative vocalization methods using residual organs into more natural speech. (See Non-Patent Document 1 to Non-Patent Document 3). In addition to this, a technique for converting a non-audible murmur voice into a natural voice has been proposed, and application as a call technique with excellent secrecy is expected. All of the above-mentioned techniques are common in that they deal with the problem of predicting the fundamental frequency (F 0 ) pattern of natural speech from the spectral feature quantity sequence of speech, and are composed of learning processing and conversion processing. In the learning process, the same speech data of the target voice (electric voice in the former case, non-audible murmur voice in the latter case) and normal voice is used. First, at each discrete time (hereinafter referred to as a frame), the spectral feature of the target speech obtained from several frames before and after, the logarithm F 0 of the normal speech and its dynamic component (time differential or time difference) are extracted, and the spectral distance measure A combined vector corresponding to these is obtained by dynamic time expansion and contraction based on. This is called parallel data. Using the parallel data of each frame, the spectral probability of the target speech and the combined probability density function of the static and dynamic components of the logarithm F 0 of the normal speech are expressed by a mixed normal distribution model (GaMMian Mixture Model; GMM). GMM parameters can be learned using the Expectation-Maximization algorithm. In the conversion process, the learned GMM can be used to convert the spectral feature quantity sequence of the target speech into the F 0 pattern of the normal speech by the maximum likelihood sequence conversion method considering intra-sequence variation.

Keigo Nakamura, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano, "Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech," Speech Communication, vol. 54, no. 1, pp. 134-146, 2012.Keigo Nakamura, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano, "Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech," Speech Communication, vol. 54, no. 1, pp. 134-146, 2012. Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation," IEICE Transactions on Information and Systems, vol. E97-D, no. 6, pp. 1429-1437, Jun. 2014.Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation," IEICE Transactions on Information and Systems, vol.E97-D, no. 6, pp. 1429-1437, Jun. 2014. Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "Direct F0 controlof an electrolarynx based on statistical excitation feature prediction and its evaluation through simulation," Proc. INTERSPEECH, pp. 31-35, Sep. 2014.Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "Direct F0 controlof an electrolarynx based on statistical excitation feature prediction and its evaluation through simulation," Proc. INTERSPEECH, pp. 31-35, Sep. 2014. Hirokazu Kameoka, Jonathan Le Roux, Yasunori Ohishi, "A statistical model of speech F0 contours," ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2010), pp. 43-48, Sep. 2010.Hirokazu Kameoka, Jonathan Le Roux, Yasunori Ohishi, "A statistical model of speech F0 contours," ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2010), pp. 43-48, Sep. 2010. Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc.The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.

従来技術では、学習処理や変換処理において音声のF0 パターンの物理的な生成過程を考慮したモデルが用いられていなかったため、物理的に人間が発声しえないような不自然なF0 パターンを生成することが起こりえた。この問題に対し、F0パターンの物理的な生成過程を考慮した予測を行うことで、より自然なF0 パターンを生成できる可能性がある。 In the prior art, a model that takes into account the physical generation process of the voice F 0 pattern was not used in the learning process or conversion process, so an unnatural F 0 pattern that could not be physically spoken by humans was used. It could happen. To solve this problem, by performing prediction in consideration of the physical process of generating F 0 pattern, it may be possible to generate a more natural F 0 pattern.

F0パターンは声帯に張力を与える甲状軟骨の運動によって生み出されており、非特許文献4、5ではその制御機構の確率モデルに基づき、フレーズ・アクセント指令と呼ぶ甲状軟骨の運動に関係するパラメータを推定する技術が提案されている。この技術では,フレーズ・アクセント指令の時系列の生成プロセスを隠れマルコフモデル(HMM) により表現した点がポイントの一つであり,HMM のトポロジーの設計や遷移確率の学習を通して、指令列に関する言語学的ないし先験的な知識をパラメータ推定に組み込むことが可能である。 The F 0 pattern is generated by the movement of the thyroid cartilage that gives tension to the vocal cords. In Non-Patent Documents 4 and 5, parameters related to the movement of the thyroid cartilage called phrase / accent command are based on the probability model of the control mechanism. An estimation technique has been proposed. In this technology, the time series generation process of the phrase / accent command is expressed by a hidden Markov model (HMM). One of the points is the linguistics about the command sequence through the design of the topology of the HMM and learning of the transition probability. Or a priori knowledge can be incorporated into the parameter estimation.

本発明は、上記事情を鑑みてなされたものであり、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる基本周波数パターン予測装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, the fundamental frequency can be estimated optimal F 0 pattern corresponding to the spectral feature amount sequence taking into account the constraints of the physical process of generating F 0 pattern An object is to provide a pattern prediction apparatus, method, and program.

上記の目的を達成するために本発明に係る基本周波数パターン予測装置は、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータを学習する第1モデルパラメータ学習部と、前記ターゲット音声の各時刻の基本周波数に基づいて、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを学習する第2モデルパラメータ学習部と、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記第1モデルパラメータ学習部によって学習された前記第1確率分布のパラメータと、前記第2モデルパラメータ学習部によって学習された前記第2確率分布のパラメータとに基づいて、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する基本周波数予測部と、を含んで構成されている。   In order to achieve the above object, a fundamental frequency pattern predicting apparatus according to the present invention receives, as input, parallel data composed of time series data of source speech of a learning sample and time series of target speech, and the time series of the source speech. Based on the spectral feature vector at each time extracted from the data and the fundamental frequency at each time extracted from the time-series data of the target speech, the spectral feature vector at each time of the source speech, A first model parameter learning unit that learns a parameter of a first probability distribution that models a relationship between the fundamental frequency at each time of the target speech, and a fundamental frequency pattern based on the fundamental frequency at each time of the target speech A second model parameter learning unit for learning a parameter of a second probability distribution modeling the generation process; Using the time series data of the source speech to be measured as an input, the spectral feature quantity vector of each time extracted from the time series data of the source speech to be predicted and the first model learned by the first model parameter learning unit Based on the parameters of the probability distribution and the parameters of the second probability distribution learned by the second model parameter learning unit, the criterion expressed using the first probability distribution and the second probability distribution is increased. And a fundamental frequency predicting unit that predicts a fundamental frequency at each time of the target speech corresponding to the source speech to be predicted.

本発明に係る基本周波数パターン予測方法は、第1モデルパラメータ学習部と、第2モデルパラメータ学習部と、基本周波数予測部とを含む基本周波数パターン予測装置における基本周波数パターン予測方法であって、前記第1モデルパラメータ学習部が、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータを学習し、前記第2モデルパラメータ学習部が、前記ターゲット音声の各時刻の基本周波数に基づいて、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを学習し、前記基本周波数予測部が、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記第1モデルパラメータ学習部によって学習された前記第1確率分布のパラメータと、前記第2モデルパラメータ学習部によって学習された前記第2確率分布のパラメータとに基づいて、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する。   A fundamental frequency pattern prediction method according to the present invention is a fundamental frequency pattern prediction method in a fundamental frequency pattern prediction apparatus including a first model parameter learning unit, a second model parameter learning unit, and a fundamental frequency prediction unit, The first model parameter learning unit receives the parallel data composed of the time series data of the source speech and the target speech of the learning sample as input, and the spectral feature quantity at each time extracted from the time series data of the source speech Based on a vector and a fundamental frequency at each time of the source speech based on a fundamental frequency at each time extracted from the time series data of the target speech and a fundamental frequency at each time of the target speech Learning the parameters of the first probability distribution modeling the relationship of A learning unit learns a parameter of a second probability distribution obtained by modeling a fundamental frequency pattern generation process based on a fundamental frequency at each time of the target speech, and the fundamental frequency predicting unit is a source speech to be predicted. Using the series data as an input, the spectral feature vector at each time extracted from the time series data of the source speech to be predicted, the parameters of the first probability distribution learned by the first model parameter learning unit, Based on the parameters of the second probability distribution learned by the second model parameter learning unit, the prediction target is increased so as to increase the criterion expressed using the first probability distribution and the second probability distribution. The basic frequency at each time of the target speech corresponding to the source speech of is predicted.

本発明に係るプログラムは、上記の基本周波数パターン予測装置の各部としてコンピュータを機能させるためのプログラムである。   A program according to the present invention is a program for causing a computer to function as each unit of the above-described basic frequency pattern prediction apparatus.

以上説明したように、本発明の基本周波数パターン予測装置、方法、及びプログラムによれば、ソース音声の各時刻のスペクトル特徴量ベクトルと、ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータを学習し、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる、という効果が得られる。 As described above, according to the fundamental frequency pattern predicting apparatus, method, and program of the present invention, the relationship between the spectrum feature vector at each time of the source speech and the fundamental frequency at each time of the target speech is modeled. Of the first probability distribution obtained by learning, the parameter of the second probability distribution modeling the fundamental frequency pattern generation process is learned, and the spectral feature amount at each time extracted from the time series data of the source speech to be predicted F 0 is predicted from the vector by predicting the fundamental frequency at each time of the target speech corresponding to the source speech to be predicted so as to increase the criterion expressed using the first probability distribution and the second probability distribution. it is possible to estimate the optimal F 0 pattern corresponding to the spectral feature amount sequence taking into account the constraints of the physical process of generating patterns, called Results can be obtained.

HMMの状態遷移ネットワークの一例を説明するための図である。It is a figure for demonstrating an example of the state transition network of HMM. HMMの状態遷移ネットワークの一例を説明するための図である。It is a figure for demonstrating an example of the state transition network of HMM. HMMの状態遷移ネットワークの一例を説明するための図である。It is a figure for demonstrating an example of the state transition network of HMM. 状態の分割を説明するための図である。It is a figure for demonstrating the division | segmentation of a state. 本発明の第1の実施の形態に係る基本周波数パターン予測装置の構成を示す概略図である。It is the schematic which shows the structure of the fundamental frequency pattern prediction apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る基本周波数パターン予測装置の学習部の構成を示す概略図である。It is the schematic which shows the structure of the learning part of the fundamental frequency pattern prediction apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る基本周波数パターン予測装置の変換処理部の構成を示す概略図である。It is the schematic which shows the structure of the conversion process part of the fundamental frequency pattern prediction apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る基本周波数パターン予測装置における学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the learning process routine in the fundamental frequency pattern prediction apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る基本周波数パターン予測装置における基本周波数パターン予測処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the fundamental frequency pattern prediction process routine in the fundamental frequency pattern prediction apparatus which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係る基本周波数パターン予測装置の変換処理部の構成を示す概略図である。It is the schematic which shows the structure of the conversion process part of the fundamental frequency pattern prediction apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る基本周波数パターン予測装置における学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the learning process routine in the fundamental frequency pattern prediction apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る基本周波数パターン予測装置における基本周波数パターン予測処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the fundamental frequency pattern prediction process routine in the fundamental frequency pattern prediction apparatus which concerns on the 2nd Embodiment of this invention. 実験データに用いた音声のF0パターンを示す図である。It is a figure which shows the F0 pattern of the audio | voice used for experiment data. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声の特徴量系列から基本周波数パターンを予測し、原音声の基本周波数パターンを予測した基本周波数パターンに置き換えることで音声の自然性を向上させることを目的とした音声処理技術である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The technique proposed in the present invention predicts a fundamental frequency pattern from a feature sequence of speech and replaces the fundamental frequency pattern of the original speech with the predicted fundamental frequency pattern to improve speech naturalness. Processing technology.

<関連技術1:スペクトル特徴量系列からのF0 パターン予測方法>
まず、スペクトル特徴量系列からのF0 パターン予測方法について説明する。
<Related technology 1: F 0 pattern prediction method from spectral feature sequence>
First, the F 0 pattern prediction method from the spectral feature quantity sequence will be described.

上記非特許文献1〜非特許文献3では、スペクトル特徴量系列からF0 パターンを予測する方法が提案されている。当該従来手法はスペクトル特徴量系列とF0 パターンの同時確率分布モデルのパラメータを学習する処理と学習した当該モデルを用いて所与のスペクトル特徴量系列からF0 パターンに変換する処理からなる。 Non-Patent Document 1 to Non-Patent Document 3 propose a method for predicting an F 0 pattern from a spectrum feature amount sequence. The conventional method consists of the process of converting from a given spectral feature amount sequence in F 0 pattern using the model trained with the processing for learning the parameters of the joint probability distribution model of the spectral feature amount sequence and F 0 pattern.

<学習処理>
ソース音声(例えば電気音声)とターゲット音声(例えば自然音声)のパラレルデータが与えられているものとする。ソース音声のスペクトル特徴量ベクトルをc[k] とし,ターゲット音声の対数F0 とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k];Δy[k])T とする。ここでk は離散時刻のインデックスである。音声特徴量c[k] としては例えば時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものを用いる。本手法ではc[k] とq[k] の同時確率分布を混合正規分布モデル(Gaussian Mixture Model; GMM)
<Learning process>
It is assumed that parallel data of a source sound (for example, electric sound) and a target sound (for example, natural sound) is given. The spectral feature vector of the source speech is c [k], and the combined vector (called F 0 feature) of the logarithm F 0 of the target speech and its dynamic component (time differential or time difference) is q [k] = (y [k]; Δy [k]) T. Where k is an index of discrete time. As the speech feature value c [k], for example, a vector obtained by performing dimension compression by principal component analysis on a vector obtained by connecting a series of mel cepstrum (vector) for several frames around the time k is used. In this method, the joint probability distribution (Gaussian Mixture Model; GMM) of the joint probability distribution of c [k] and q [k] is used.

でモデル化し、学習処理では所与のパラレルデータ{c[k]; q[k]}K k=1 から当該GMM のパラメータ(各正規分布の重み,平均、分散共分散行列)を学習する。ただし、N(x;μ,Σ) は、xの確率密度関数が平均がμ、分散共分散行列がΣの正規分布で与えられることを意味する。 In the learning process, the GMM parameters (weight, mean, variance-covariance matrix) of the GMM are learned from given parallel data {c [k]; q [k]} K k = 1 . However, N (x; μ, Σ) means that the probability density function of x is given by a normal distribution having an average of μ and a variance-covariance matrix of Σ.

GMM のパラメータはExpectation-Maximization (EM) アルゴリズムにより推定することができる。学習したGMM パラメータをγとすると,条件付分布P(q[k]|c[k],γ) はスペクトル特徴量c[k] からF0 特徴量q[k] を予測するための分布と見ることができ、 GMM parameters can be estimated by the Expectation-Maximization (EM) algorithm. If the learned GMM parameter is γ, the conditional distribution P (q [k] | c [k], γ) is the distribution for predicting the F 0 feature q [k] from the spectrum feature c [k]. Can see,

のようにP(c[k],q[k]|γ) と同様にGMM で与えられる。ただし、 As in P (c [k], q [k] | γ), it is given by GMM. However,

でありe(q|c) mおよびD(q|c) mAnd e (q | c) m and D (q | c) m are

で与えられる。 Given in.

<変換処理>
変換処理では。所与のスペクトル特徴量系列
<Conversion processing>
In the conversion process. A given spectral feature series

の下で,最尤のF0パターン Maximum likelihood F 0 pattern under

を以下の式(8)により求めることが目的である。 Is obtained by the following equation (8).

ただし、   However,

であり、Wはyとqの関係を記述した変換行列(定数)である。ここで、P(q|c,γ) は学習処理により学習したパラメータγで与えられるGMM であり、 W is a transformation matrix (constant) describing the relationship between y and q. Here, P (q | c, γ) is a GMM given by the parameter γ learned by the learning process,

で与えられる。ただし、m= (m1,...,mK) であり、mk は時刻k におけるGMMの成分インデックスを表す。ここで、P(q[k]|c[k],γ) が Given in. Here, m = (m 1 ,..., M K ), and m k represents the component index of the GMM at time k. Where P (q [k] | c [k], γ) is

により近似できるとする。式(12)より、^mkは、データc[k]を生成したらしい確率が最も高い正規分布のインデックスを意味する。よって、式(9)よりP(q|c,m,^γ)はすべてのkについて Can be approximated by From equation (12), ^ m k means a normal distribution index having the highest probability of generating data c [k]. Therefore, from equation (9), P (q | c, m, ^ γ) is for all k.

の積をとったもので与えられる。式(11)の近似によりP(q|c,γ)は It is given by taking the product of By approximation of equation (11), P (q | c, γ) is

を連結したベクトルe(q|c)を平均、 The vector e (q | c) concatenated with

を対角成分としたブロック対角行列D(q|c) を分散共分散行列とした正規分布 Distribution with block diagonal matrix D (q | c) as a variance-covariance matrix

となる。これにq=Wyを代入し、yの分布となるように正規化すると、 It becomes. Substituting q = Wy into this and normalizing to be the distribution of y,

となるため、 So that

のようにyの条件付き分布を得る。よって、式(8)の解は、 A conditional distribution of y is obtained as follows. Therefore, the solution of equation (8) is

となる。 It becomes.

<関連技術2:F0パターン生成過程モデル>
次に、F0パターン生成過程の確率モデルについて説明する。
<Related technology 2: F 0 pattern generation process model>
Next, a probability model of the F 0 pattern generation process will be described.

音声のF0パターンの生成過程を記述したモデルに、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献6)。 Fujisaki's fundamental frequency (F 0 ) pattern generation process model (Fujisaki model) is known as a model that describes the F 0 pattern generation process of speech (Non-patent Document 6).

[非特許文献6]:H. Fujisaki, "In Vocal Physiology: Voice Production, Mechanisms and Functions," Raven Press, 1988. [Non-Patent Document 6]: H. Fujisaki, “In Vocal Physiology: Voice Production, Mechanisms and Functions,” Raven Press, 1988.

藤崎モデルとは、甲状軟骨の運動によるF0 パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t) が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンxp(t)をフレーズ成分、回転運動によって生じるF0 パターンxa(t) をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0 パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分b を足し合わせたものとして、 The Fujisaki model is a physical model describing the process of generating F 0 pattern due to the motion of the thyroid cartilage. The Fujisaki model, the total elongation of the vocal cords with each two independent movement of the thyroid cartilage (translational motion and rotational motion) is interpreted to result temporal variation of F 0, pairs of elongation and F 0 pattern of the vocal cords The F 0 pattern is modeled on the assumption that the numerical value y (t) is proportional. The F 0 pattern x p (t) generated by the translational motion of the thyroid cartilage is called a phrase component, and the F 0 pattern x a (t) generated by the rotational motion is called an accent component. In the Fujisaki model, the F 0 pattern y (t) of speech is the sum of these components plus the baseline component b determined by the physical constraints of the vocal cords.

と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、 It is expressed. These two components are assumed to be the output of the second-order critical braking system,

と表される(* は時刻t に関する畳み込み演算)。ここでup(t) はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t) はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3 rad/s、β=20 rad/s 程度であることが経験的に知られている。 (* Is a convolution operation with respect to time t). Here, u p (t) is called a phrase command function and consists of a sequence of delta functions (phrase commands), and u a (t) is called an accent command function and consists of a sequence of rectangular waves (accent commands). These command sequences have a constraint condition that a phrase command occurs at the beginning of an utterance, phrase commands do not occur twice in succession, and two different commands do not occur at the same time. Α and β are the natural angular frequencies of the phrase control mechanism and the accent control mechanism, respectively. It is experiential that α is approximately 3 rad / s and β is 20 rad / s, regardless of the speaker or utterance content. Known to.

<関連技術3:F0パターン生成過程モデルパラメータ推定法>
上述の藤崎モデルは以下のような確率モデルで記述することができる(非特許文献4、5、7参照)。
<Related technology 3: F 0 pattern generation process model parameter estimation method>
The above-mentioned Fujisaki model can be described by the following probability model (see Non-Patent Documents 4, 5, and 7).

[非特許文献7]:石原達馬, 吉里幸太, 亀岡弘和, 齋藤大輔, 嵯峨山茂樹, \音声基本周波数の藤崎モデル指令列の統計的語彙モデル," 日本音響学会2013 年春季研究発表会講演論文集, 1-7-9, pp. 283-286, Mar. 2013. [Non-Patent Document 7]: Tatsuma Ishihara, Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Hiyama, \ Statistical vocabulary model of the Fujisaki model command sequence of the fundamental speech frequency, "Lecture at the 2013 Acoustical Society of Japan Proceedings, 1-7-9, pp. 283-286, Mar. 2013.

まずフレーズ、アクセント指令関数のペアo[k] = (up[k], ua[k])T を出力するHMM を考える。ただし、k は離散時刻のインデックスを表す。状態出力分布は正規分布とし、各時刻の状態が与えられた下で First phrase, a pair o of accent command function [k] = (u p [ k], u a [k]) consider the HMM to output the T. Here, k represents an index of discrete time. The state output distribution is a normal distribution.

により指令関数ペアo[k] が生成されるものとする。ここで{skK k=1 はHMMの状態系列であり、平均ベクトルρ[k] はHMM の状態遷移の結果として定まる値である。具体的なHMM の構成の例を図1〜図3に示す。 The command function pair o [k] is generated by Here, {s k } K k = 1 is an HMM state sequence, and the average vector ρ [k] is a value determined as a result of the state transition of the HMM. Examples of specific HMM configurations are shown in FIGS.

図1に示すHMM の状態遷移ネットワークの例では、状態t = r0 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r0 からは状態p0 にのみ遷移することができ、状態t = p0 においてμ(p) t [k] は非負値A(p)[k] をとり、μ(a) t は0 となる。状態t = p0の次は状態r1 にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a) t は非負値A(a) nをとり、μ(p) t [k] は0 となる。状態t = anの次は状態r0 またはr1にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。 In the example of the state transition network of the HMM shown in FIG. 1, both μ (p) t [k] and μ (a) t are 0 in the state t = r 0 . The state t = r 0 can only transition to the state p 0 , and in the state t = p 0 , μ (p) t [k] takes a non-negative value A (p) [k], and μ (a) t Becomes 0. The transition after state t = p 0 is allowed only to state r 1 . Similar to state t = r 0 , μ (p) t [k] and μ (a) t are both 0 in state t = r 1 . A transition from state t = r 1 to only one of states a 0 , ..., a N-1 is possible, and in state t = a n μ (a) t is a non-negative value A (a) n Therefore, μ (p) t [k] is 0. Next state t = a n is allowed to transition only in the state r 0 or r 1. This guarantees that μ a [k] is a rectangular pulse train.

図2に示すHMMの状態遷移ネットワークの例では、状態t = r0 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r0 からは状態p0,...,pM-1のいずれかにのみ遷移することができ、状態t = pm においてμ(p) t は非負値A(p) mをとり、μ(a) t は0 となる。状態t = pmの次は状態r1にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a) t は非負値A(a) nをとり、μ(p) t は0 となる。状態t = anの次は状態r0 またはr1 にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。 In the example of the state transition network of the HMM shown in FIG. 2, both μ (p) t [k] and μ (a) t are 0 in the state t = r 0 . A transition from state t = r 0 to only one of states p 0 , ..., p M-1 is possible, and μ (p) t is a non-negative value A (p) m in state t = p m Therefore, μ (a) t becomes 0. Next state t = p m is allowed to transition only in state r 1. Similar to state t = r 0 , μ (p) t [k] and μ (a) t are both 0 in state t = r 1 . A transition from state t = r 1 to only one of states a 0 , ..., a N-1 is possible, and in state t = a n μ (a) t is a non-negative value A (a) n Therefore, μ (p) t becomes 0. Next state t = a n is allowed to transition only in the state r 0 or r 1. This guarantees that μ a [k] is a rectangular pulse train.

図3に示すHMMの状態遷移ネットワークの例では、それぞれの終点と始点が連結された複数のLeft-to-Right 型HMM からなる。図1、2と同様、状態t = rlにおいてμ(p) t [k] とμ(a) t はいずれも0 である。また、状態t = pm においてμ(p) tは非負値A(p) m をとり、μ(a) t は0 となる。状態t = anにおいてμ(a) tは非負値A(a) nをとり、μ(p) tは0となる。 The example of the state transition network of the HMM shown in FIG. 3 is composed of a plurality of Left-to-Right type HMMs in which respective end points and start points are connected. Similar to Figure 1 and 2, both the state t = r l in μ (p) t [k] and mu (a) t is 0. The state t = In p m μ (p) t takes a nonnegative value A (p) m, μ ( a) t is 0. State t = in a n μ (a) t takes a nonnegative value A (a) n, μ ( p) t is zero.

ρ[k]は、図1 の例では、以下の式(24)で表わされる。   In the example of FIG. 1, ρ [k] is expressed by the following equation (24).

また、図2, 3 の例では、ρ[k]は、以下の式(25)で表わされる。   2 and 3, ρ [k] is expressed by the following equation (25).

いずれの例においても、図4のようにそれぞれの状態を同じ出力分布をもついくつかの小状態に分割し、Left-to-Right 型の状態遷移経路を制約することで同一状態に停留する時間長の確率をパラメータ化することができる。図4 は状態an を分割した例である。例えばこの図のように全てのm≠0 に対してan,n′からan,n′+1 への状態遷移確率を1に設定することで,an,0からan,n′への遷移確率が状態an がn′ステップだけ持続する確率に対応し、アクセント指令の持続長の確率を設定したり学習したりできるようになる。同様にpm とrl も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。以後、状態集合を In either example, as shown in FIG. 4, the time for each state to stay in the same state by dividing it into several small states with the same output distribution and restricting the left-to-right state transition path Long probabilities can be parameterized. Figure 4 is an example of dividing the state a n. For example, by setting the state transition probability from a n, n ′ to a n, n ′ + 1 to 1 for all m ≠ 0 as shown in this figure, a n, 0 to a n, n ′ transition probabilities to correspond to the probability that state a n lasts only n 'step, it becomes possible or to learn to set the probability of persistence length of accent command. Similarly, by dividing p m and r l into small states, it becomes possible to parameterize the distribution of the duration of the phrase command and the length of the interval between commands. After that, the state set

と表記する。上記のHMM の構成は次のように書ける。 Is written. The configuration of the above HMM can be written as follows.

状態系列s = {skK k=1 が与えられたとき、このHMM はフレーズ指令関数up[k] とアクセント指令関数ua[k] のペアを出力する。式(18) と式(20) で示した通り、up[k] とua[k] にそれぞれgp[k] とga[k] が畳み込まれてフレーズ成分xp[k] とアクセント成分xa[k] が出力される。これを式で表すと、 When the state sequence s = {s k } K k = 1 is given, the HMM outputs a pair of a phrase command function u p [k] and an accent command function u a [k]. As shown in Eqs. (18) and (20), g p [k] and g a [k] are convolved with u p [k] and u a [k], respectively, and the phrase component x p [k] And the accent component x a [k] are output. This can be expressed as an expression:

と書ける(* は離散時刻k に関する畳み込み演算)。このとき,F0 パターンx[k] は (* Is a convolution operation for discrete time k). At this time, the F 0 pattern x [k] is

と三種類の成分の重ね合わせで書ける。ただしb は時刻によらないベースライン成分である。 And can be written by superimposing three kinds of components. Where b is a baseline component that does not depend on time.

また、実音声においては、いつも信頼のできるF0 の値が観測できるとは限らない。藤崎モデルのパラメータ推定を行うにあたっては、信頼のおける観測区間のF0 値のみを考慮に入れて、そうでない区間は無視することが望ましい。例えば音声の無声区間においては通常声帯の振動に伴う周期的な粗密波は観測されないので、仮に自動ピッチ抽出によって音声の無声区間から何らかの値がF0 の推定値として得られたとしても、その値を声帯から発せられる信号のF0 の値と見なすのは適当ではない。そこで、提案モデルに観測F0値の時刻k における不確かさの程度v2 n[k] を導入する。具体的には、観測F0 値y[k] を、真のF0 値x[k] とノイズ成分 In real speech, reliable F 0 values are not always observable. When estimating the parameters of the Fujisaki model, it is desirable to consider only the F 0 value of the reliable observation interval and ignore the other intervals. For example, in a voiceless section, periodic coarse / fine waves associated with normal vocal cord vibration are not observed, so even if some value is obtained as an estimated value of F 0 from the voiceless section by automatic pitch extraction, its value Is not considered to be the value of F 0 of a signal emitted from the vocal cords. Therefore, the degree of uncertainty v 2 n [k] at time k of the observed F 0 value is introduced into the proposed model. Specifically, the observed F 0 value y [k], the true F 0 value x [k] and the noise component

との重ね合わせで With overlay

と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。 This means that all observation intervals can be handled uniformly regardless of whether they are reliable intervals.

xn[k] を周辺化することで、出力値系列o = {o[k]}K k=1 が与えられたときのy = {y[k]}K k=1 の確率密度関数 Probability density function of y = {y [k]} K k = 1 given the output value sequence o = {o [k]} K k = 1 by marginalizing x n [k]

が得られる。状態系列s = {skK k=1 と指令の振幅を表すパラメータ Is obtained. State series s = {s k } K k = 1 and parameter indicating command amplitude

および遷移確率行列φ = (φi,j)I×I が与えられたとき、出力値系列o は And the transition probability matrix φ = (φ i, j ) I × I , the output value sequence o is

に従って生成される。また、P(s|φ) は状態遷移確率の積として Is generated according to P (s | φ) is the product of the state transition probabilities.

と書ける。ただし、 Can be written. However,

は初期状態がs1である確率をあらわす。式(30)、(32) および式(33) よりP(y,o,s|θ,φ) は Represents the probability that the initial state is s 1 . From equations (30), (32) and (33), P (y, o, s | θ, φ) is

と書ける。これをo に関して周辺化すると Can be written. If this is marginalized with respect to o,

が得られる。ただし、 Is obtained. However,





である。一方、s に関して周辺化すると It is. On the other hand, if you marginalize s


が得られる。ただし、Σs はあらゆる状態系列に関して和をとる操作を意味する。

Is obtained. However, Σ s means an operation for taking a sum for all state sequences.

<パラメータ推定アルゴリズム1>
yとoを完全データと見なすことで、式(35) を局所最大化するsとθ をExpectation-Maximization アルゴリズムにより探索することができる。導出は省略するが、
<Parameter estimation algorithm 1>
By regarding y and o as complete data, s and θ that locally maximize Equation (35) can be searched by the Expectation-Maximization algorithm. Although derivation is omitted,

が大きくなるようにsとθを更新するステップと、更新したsとθを用いて Updating s and θ so that becomes large, and using the updated s and θ

とRを And R

により更新するステップを繰り返すことで式(35) を単調増加させることができる(詳細は、上記非特許文献4参照)。 (35) can be monotonously increased by repeating the updating step according to the above (refer to Non-Patent Document 4 above for details).

具体的には、以下の初期設定、Eステップ、及びMステップが実行される。   Specifically, the following initial setting, E step, and M step are executed.

(初期設定)
sとθを初期設定する。
(Initial setting)
s and θ are initialized.

(E ステップ)
フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値
(E step)
Conditional expected values for phrase, accent, and baseline components

と条件付き分散共分散行列Rを And the conditional covariance matrix R

により更新する。ただし、 Update with However,



である。また、Rにおける It is. Also in R

に対応するブロック対角成分を The block diagonal component corresponding to

とする。 And

すなわち、   That is,

である(* は以後用いないブロック成分である)。 (* Is a block component not used later).

(Mステップ)
Q(s,θ) が最大となる状態系列s= (s1,...,sK) を探索する。γp とγaは対角行
(M step)
A state series s = (s 1 ,..., S K ) that maximizes Q (s, θ) is searched. γ p and γ a are diagonal

列なので、 Since it is a column,



はいずれも Are both

のようにkごとの項の和の形で書ける。従って、Q(s,θ) はsに依らない項を除けば Can be written in the form of the sum of terms for every k. Therefore, Q (s, θ) is aside from terms that do not depend on s.

と書ける。従って、Q(s,θ) を最大にする状態系列s= (s1,...,sK)はViterbiアルゴリズムにより求めることができる(詳細は上記非特許文献4参照)。ただし、[・]k,k は行列のk 行k 列の要素、[・]kはベクトルの第k 要素を表す。 Can be written. Therefore, the state sequence s = (s 1 ,..., S K ) that maximizes Q (s, θ) can be obtained by the Viterbi algorithm (refer to Non-Patent Document 4 for details). Here, [·] k, k represents a k-by-k element of the matrix, and [·] k represents a k-th element of the vector.

続いて、Q(s,θ)を最大にするようにθを更新する。Q(s,θ)を最大にするθは、Q(s,θ)の各変数に関する偏微分を0 と置くことにより得られる((詳細は上記非特許文献4参照)。   Subsequently, θ is updated to maximize Q (s, θ). Θ that maximizes Q (s, θ) can be obtained by setting the partial differential for each variable of Q (s, θ) to 0 (for details, see Non-Patent Document 4 above).

また、推定された状態系列sから、状態遷移確率φが求められる。   Further, a state transition probability φ is obtained from the estimated state sequence s.

[第1の実施の形態]
<本発明の実施の形態の概要>
本発明の実施の形態の技術は、上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法と同様、学習処理と変換処理からなるが、式(8) の代わりに、上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法の確率分布と、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法の確率分布の積を規準とすることにより、上述したF0パターン生成過程モデルにできるだけ即したF0パターンをスペクトル特徴量から統計的に予測することを可能にする技術である。
[First Embodiment]
<Outline of Embodiment of the Present Invention>
The technique according to the embodiment of the present invention includes a learning process and a conversion process as in the F 0 pattern prediction method from the spectral feature quantity sequence of the related technique 1 described above, but instead of the expression (8), By using as a criterion the product of the probability distribution of the F 0 pattern prediction method from the spectral feature amount sequence of Technology 1 and the probability distribution of the F 0 pattern generation process model parameter estimation method of Related Technology 3 described above, the above-described F 0 is used. This is a technique that makes it possible to statistically predict the F 0 pattern that is as close as possible to the pattern generation process model from the spectral feature amount.

学習処理ではパラレルデータの学習サンプル{c[k],q[k]}K k=1 が与えられた下で In the learning process, the parallel data learning sample {c [k], q [k]} K k = 1

ができるだけ大きくなるようにγを学習する。また、学習サンプルの基本周波数パターン{y[k]}K k=1 が与えられた下でP(y,s|θ、φ)ができるだけ大きくなるようにθ とφを学習する。 Γ is learned so that becomes as large as possible. Also, θ and φ are learned so that P (y, s | θ, φ) becomes as large as possible under the basic frequency pattern {y [k]} K k = 1 of the learning sample.

一方、変換処理では入力音声の{c[k]}K k=1 が与えられた下でP(q|c,γ)P(y,s|θ,φ)またはこれらを近似する確率密度関数ができるだけ大きくなるようにyを求める。 On the other hand, in the conversion process, P (q | c, γ) P (y, s | θ, φ) or a probability density function approximating these is given under the condition that {c [k]} K k = 1 of the input speech is given. Y is determined so that becomes as large as possible.

<システム構成>
次に、ソース音声のスペクトル特徴量系列から、ターゲット音声の基本周波数パターンを予測する基本周波数パターン予測装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
<System configuration>
Next, an embodiment of the present invention will be described by taking as an example a case where the present invention is applied to a fundamental frequency pattern prediction apparatus that predicts a fundamental frequency pattern of a target speech from a spectral feature quantity sequence of a source speech.

図5に示すように、本発明の第1の実施の形態に係る基本周波数パターン予測装置は、CPUと、RAMと、後述する学習処理ルーチン、及び基本周波数パターン予測処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。   As shown in FIG. 5, the fundamental frequency pattern prediction apparatus according to the first embodiment of the present invention includes a CPU, a RAM, a learning processing routine, and a program for executing a fundamental frequency pattern prediction processing routine, which will be described later. The computer is provided with a ROM that stores the above, and is functionally configured as follows.

図5に示すように、基本周波数パターン予測装置100は、入力部10と、演算部20と、出力部90とを備えている。   As shown in FIG. 5, the fundamental frequency pattern prediction apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90.

入力部10は、学習サンプルのソース音声(例えば電気音声)の時系列データとターゲット音声(例えば自然音声)の時系列データとからなるパラレルデータを受け付ける。また、入力部10は、予測対象のソース音声の時系列データを受け付ける。   The input unit 10 accepts parallel data composed of time-series data of the source sound (for example, electric sound) of the learning sample and time-series data of the target sound (for example, natural sound). In addition, the input unit 10 receives time-series data of the source audio to be predicted.

演算部20は、学習部30と、パラメータ記憶部40と、変換処理部50とを備えている。   The calculation unit 20 includes a learning unit 30, a parameter storage unit 40, and a conversion processing unit 50.

図6に示すように、学習部30は、特徴量抽出部32と、基本周波数系列抽出部34と、第1モデルパラメータ学習部36と、第2モデルパラメータ学習部38とを備えている。   As shown in FIG. 6, the learning unit 30 includes a feature amount extraction unit 32, a fundamental frequency series extraction unit 34, a first model parameter learning unit 36, and a second model parameter learning unit 38.

特徴量抽出部32は、入力部10によって受け付けた学習サンプルのソース音声の時系列データから、ソース音声のスペクトグラム特徴量ベクトルc[k]を抽出する。ここでk は離散時刻のインデックスである。例えば、非特許文献1〜3と同様に時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものをc[k] として用いる。   The feature quantity extraction unit 32 extracts the source speech spectogram feature quantity vector c [k] from the time series data of the source speech of the learning sample received by the input unit 10. Where k is an index of discrete time. For example, as in Non-Patent Documents 1 to 3, c [k] is obtained by performing dimensional compression by principal component analysis on a vector obtained by concatenating a series of mel cepstrum (vector) for several frames around the time k. Used as

基本周波数系列抽出部34は、入力部10によって受け付けた学習サンプルのターゲット音声の時系列データから、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、y = (y[1],..., y[K])Tとする。 The fundamental frequency series extraction unit 34 extracts the fundamental frequency y [k] at each time k of the target speech from the time series data of the target speech of the learning sample received by the input unit 10, and y = (y [1], ..., y [K]) T.

この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献8(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。   This fundamental frequency extraction process can be realized by a well-known technique. For example, Non-Patent Document 8 (H. Kameoka, “Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model,” in Tech. Rep. IEICE, 2010, in Japanese.), The fundamental frequency is extracted every 8 ms.

また、y とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k],Δy[k])T とする。 Also, let q [k] = (y [k], Δy [k]) T be the combined vector (called F 0 feature) of y and its dynamic component (time derivative or time difference).

以上より、{c[k],q[k]}K k=1 というデータが得られる。 As described above, data {c [k], q [k]} K k = 1 is obtained.

第1モデルパラメータ学習部36は、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、ソース音声の各時刻のスペクトル特徴量ベクトルc[k]とターゲット音声の各時刻kの基本周波数の結合ベクトルq[k]との同時確率分布を表す混合正規分布である第1確率分布のパラメータを学習する。   The first model parameter learning unit 36 combines the spectral feature vector c [k] at each time k extracted by the feature extraction unit 32 and the fundamental frequency at each time k extracted by the fundamental frequency sequence extraction unit 34. Based on the vector q [k], a mixed normal representing a joint probability distribution of the spectral feature vector c [k] at each time of the source speech and the combined vector q [k] of the fundamental frequency at each time k of the target speech A parameter of the first probability distribution which is a distribution is learned.

具体的には、第1モデルパラメータ学習部36は、上述したスペクトル特徴量系列からのF0パターン予測方法の学習処理と同様に、式(1) のGMM のパラメータγを学習する。学習したGMM パラメータを^γとする。 Specifically, the first model parameter learning unit 36 learns the GMM parameter γ in Expression (1) in the same manner as the learning process of the F 0 pattern prediction method from the spectral feature quantity sequence described above. Let the learned GMM parameter be ^ γ.

第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、隠れマルコフモデルの各時刻の状態からなる状態系列sとの組み合わせの確率分布である第2確率分布のパラメータを学習する。   The second model parameter learning unit 38, based on the fundamental frequency y [k] at each time k extracted by the fundamental frequency sequence extraction unit 34, each of the fundamental frequency y [k] at each time k and the hidden Markov model. A parameter of the second probability distribution, which is a probability distribution of a combination with the state series s composed of time states, is learned.

具体的には、第2モデルパラメータ学習部38は、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム1に従って、F0パターン生成過程モデルのパラメータθ、φを学習する。 Specifically, the second model parameter learning unit 38 learns the parameters θ and φ of the F 0 pattern generation process model according to the parameter estimation algorithm 1 of the F 0 pattern generation process model parameter estimation method of the related technique 3 described above. .

もし学習サンプルのフレーズ指令系列とアクセント指令系列のペアのデータo = {okK k=1 が入手できるのであれば,o からθ、φを学習しても良い(HMM の通常の学習に相当)。学習したF0パターン生成過程モデルのパラメータを^θ、^φとする。 If data o = {o k } K k = 1 is available for the phrase command sequence and accent command sequence in the learning sample, θ and φ may be learned from o (for normal learning in HMM). Equivalent). Let the parameters of the learned F 0 pattern generation process model be ^ θ and ^ φ.

変換処理部50は、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、第1確率分布と第2確率分布との積を用いて表される規準を大きくするように、各時刻の基本周波数yと、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。   The conversion processing unit 50 receives the time-series data of the source speech to be predicted as an input, the spectral feature vector at each time extracted from the time-series data of the source speech, and the first model parameter learning unit 36 learned the first time. Based on the parameter γ of one probability distribution and the parameters θ and φ of the second probability distribution learned by the second model parameter learning unit 38, the product of the first probability distribution and the second probability distribution is expressed. The basic frequency y at each time is estimated by estimating the basic frequency y at each time and the state sequence s consisting of the state at each time so as to increase the criterion. To do.

ここで、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する原理について説明する。   Here, the principle of predicting the fundamental frequency y at each time of the target speech corresponding to the source speech to be predicted will be described.

学習処理で学習したパラメータ^γ、^θ、^φと、予測対象のソース音声の特徴量系列c = {c[k]}K k=1 を用いて、式(9)と式(35) の積 Using the parameters ^ γ, ^ θ, ^ φ learned in the learning process, and the feature amount sequence c = {c [k]} K k = 1 of the source speech to be predicted, Equations (9) and (35) Product of


ができるだけ大きくなるようにy、sを推定する。ただし、q = Wyであり、

Y and s are estimated so that becomes as large as possible. Where q = Wy and

である。ωはF0パターンの予測においてF0パターン生成過程のモデルをどれだけ考慮に入れるかを意味した非負の定数である。 It is. The ω is a non-negative constant mean or put how much consideration model of F 0 pattern generation process in the prediction of F 0 pattern.

以下に、   less than,

を大きくするためのアルゴリズムについて述べる。上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法と同様、 The algorithm for increasing Similar to the F 0 pattern prediction method from the spectral feature amount sequence of Related Technique 1 described above,

と近似することで以下の反復処理によりy、sを推定することができる(ステップ1と2の実行順序は任意)。 And y and s can be estimated by the following iterative process (the execution order of steps 1 and 2 is arbitrary).

(ステップ1)上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法の変換処理によりyを初期設定する。 (Step 1) y is initially set by the conversion process of the F 0 pattern prediction method from the spectral feature quantity sequence of Related Technique 1 described above.

(ステップ2)cを用いて^mを式(87) により求める。 (Step 2) ^ m is obtained by using equation (87) using c.

(ステップ3)yを固定し、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム1によりsを推定する。 (Step 3) y is fixed, and s is estimated by the parameter estimation algorithm 1 of the F0 pattern generation process model parameter estimation method of the related technique 3 described above.

(ステップ4)sと^mを固定して以下の式によりyを更新し、ステップ3に戻る。 (Step 4) s and ^ m are fixed, y is updated by the following formula, and the process returns to Step 3.

(GγGT-1は大きなサイズの行列の逆行列であるが、以下に示すやり方で効率的に計算することができる。GγGT(GγG T ) −1 is an inverse matrix of a large matrix, but can be efficiently calculated in the following manner. GγG T

であること、G-1 p とG-1 aG −1 p and G −1 a are

のような下三角帯行列で近似できることより、(GγGT-1(GγG T ) −1 can be approximated by a lower triangular band matrix such as

と書け、さらにWoodbury の公式 And then Woodbury's official

を式(95) 右辺に適用することで(GγGT-1(GγG T ) -1 by applying Eq. (95) to the right-hand side

と書ける。さらにWoodbury の公式より Can be written. Also from Woodbury's official

 Is

と書ける。式(93)、(94) より Can be written. From equations (93) and (94)

はいずれも帯行列になるので Are both banded

の形の計算はCholesky 分解により効率的に計算することができる。ただし、a は任意のベクトル,A は任意の行列である。 The calculation of the form of can be calculated efficiently by Cholesky decomposition. Where a is an arbitrary vector and A is an arbitrary matrix.

以上説明した原理を実現するために、本実施の形態では、図7に示すように、変換処理部50は、特徴量抽出部52と、基本周波数系列予測部54と、正規分布系列予測部56と、状態系列推定部58と、基本周波数系列更新部60と、収束判定部62とを備えている。   In order to realize the principle described above, in the present embodiment, as shown in FIG. 7, the conversion processing unit 50 includes a feature amount extraction unit 52, a basic frequency sequence prediction unit 54, and a normal distribution sequence prediction unit 56. A state sequence estimation unit 58, a fundamental frequency sequence update unit 60, and a convergence determination unit 62.

特徴量抽出部52は、入力部10によって受け付けた予測対象のソース音声の時系列データから、特徴量抽出部32と同様に、ソース音声の各時刻kのスペクトグラム特徴量ベクトルc[k]を抽出する。   Similar to the feature quantity extraction unit 32, the feature quantity extraction unit 52 obtains the spectrogram feature quantity vector c [k] of the source speech at each time k from the time series data of the prediction target source voice received by the input unit 10. Extract.

基本周波数系列予測部54は、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、特徴量抽出部52によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]とに基づいて、上述したF0パターン予測方法の変換処理と同様に、上記式(16)に従って、各時刻kの基本周波数y[k]を推定することにより、各時刻kの基本周波数y[k]を初期設定する。 The fundamental frequency sequence prediction unit 54 includes the parameter γ of the first probability distribution learned by the first model parameter learning unit 36, the spectrum feature quantity vector c [k] at each time k extracted by the feature quantity extraction unit 52, and In the same manner as the conversion processing of the F 0 pattern prediction method described above, the fundamental frequency y [k] at each time k is estimated by estimating the fundamental frequency y [k] at each time k according to the above equation (16). ] Is initialized.

正規分布系列予測部56は、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、特徴量抽出部52によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]とに基づいて、上記式(87)に従って、各時刻kのスペクトル特徴量ベクトルc[k]を生成したらしい確率が最も高い正規分布のインデックス^mkを推定する。 The normal distribution series prediction unit 56 includes the parameter γ of the first probability distribution learned by the first model parameter learning unit 36, the spectral feature quantity vector c [k] at each time k extracted by the feature quantity extraction unit 52, and Based on the above, according to the above equation (87), the index ^ m k of the normal distribution having the highest probability that the spectral feature vector c [k] at each time k is generated is estimated.

状態系列推定部58は、基本周波数系列予測部54によって初期設定された、または状態系列推定部58によって前回更新された各時刻kの基本周波数y[k]を固定して、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム1と同様に、上記式(35)を局所最大化する状態系列sと各時刻kにおける状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを、EMアルゴリズムにより探索することにより、状態系列sを推定する。 The state sequence estimation unit 58 fixes the fundamental frequency y [k] at each time k that is initially set by the basic frequency sequence prediction unit 54 or updated last time by the state sequence estimation unit 58, and the related technique 3 described above. Similarly to the parameter estimation algorithm 1 of the F 0 pattern generation process model parameter estimation method, the state sequence s that locally maximizes the above equation (35), the amplitude of the phrase command according to the state at each time k, and the accent command The state series s is estimated by searching the parameter θ representing the amplitude by the EM algorithm.

基本周波数系列更新部60は、状態系列推定部58によって推定された状態系列sと、正規分布系列予測部56によって推定された各時刻の正規分布のインデックス^mkとに基づいて、上記式(88)に従って、各時刻kの基本周波数y[k]を更新する。 Based on the state sequence s estimated by the state sequence estimation unit 58 and the normal distribution index ^ m k at each time estimated by the normal distribution sequence prediction unit 56, the fundamental frequency sequence update unit 60 88), the fundamental frequency y [k] at each time k is updated.

収束判定部62は、予め定められた収束判定条件を満たすまで、状態系列推定部58及び基本周波数系列更新部60による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。   The convergence determination unit 62 repeats each process by the state sequence estimation unit 58 and the fundamental frequency sequence update unit 60 until a predetermined convergence determination condition is satisfied. The convergence determination condition is, for example, reaching a predetermined number of repetitions.

収束判定条件を満たしたときに、最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力する。   When the convergence determination condition is satisfied, the fundamental frequency y [k] finally obtained at each time k is output as a prediction result of the fundamental frequency at each time of the target speech corresponding to the source speech to be predicted. 90 for output.

<基本周波数パターン予測装置の作用>
次に、本実施の形態に係る基本周波数パターン予測装置100の作用について説明する。まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図8に示す学習処理ルーチンが実行される。
<Operation of fundamental frequency pattern prediction device>
Next, the operation of basic frequency pattern prediction apparatus 100 according to the present embodiment will be described. First, when parallel data composed of time series data of source speech and target speech of a learning sample is input to the fundamental frequency pattern prediction device 100, the fundamental frequency pattern prediction device 100 performs the learning process shown in FIG. The routine is executed.

まず、ステップS101において、入力されたソース音声の時系列データを読み込み、   First, in step S101, input time-series data of the source sound is read,

各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。 A spectral feature vector c [k] at each time k is extracted. In step S102, the time-series data of the input target speech is read, the fundamental frequency y [k] at each time k of the target speech is extracted, and the combined vector q of the fundamental frequency y [k] and its dynamic component is extracted. Extract [k].

そして、ステップS103において、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、上記式(1) のGMM のパラメータγを学習する。   In step S103, based on the spectral feature vector c [k] at each time k extracted in step S101 and the combined vector q [k] of the fundamental frequency at each time k extracted in step S102. Thus, the GMM parameter γ in the above equation (1) is learned.

ステップS104では、状態系列sと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。   In step S104, the state series s and the parameter θ representing the amplitude of the phrase command and the amplitude of each accent command corresponding to the state at each time are initialized.

そして、ステップS105において、上記式(49)、式(50)に従って、フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとを更新する。   In step S105, the conditional expected value  ̄x of the phrase component, the accent component, and the baseline component and the conditional variance-covariance matrix R are updated according to the above formulas (49) and (50).

次のステップS106では、上記ステップS104で初期設定された、又は後述するステップS107で前回更新されたパラメータθと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、上記式(63)式を用いて、Q(s,θ) を最大にする状態系列s= (s1,...,sK)をViterbiアルゴリズムにより求めて、状態系列sを更新する。 In the next step S106, the parameter θ initially set in step S104 or updated last time in step S107, which will be described later, and the conditional expected values of the phrase component, accent component, and baseline component updated in step S105. Based on  ̄x and the conditional covariance matrix R, the state sequence s = (s 1 ,..., S K , which maximizes Q (s, θ), using the above equation (63). ) Is obtained by the Viterbi algorithm, and the state sequence s is updated.

ステップS107では、上記ステップS106で更新された状態系列sと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、Q(s,θ)の各変数に関する偏微分を0 と置くことにより、Q(s,θ) を最大にするパラメータθを求めて、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを更新する。   In step S107, the state series s updated in step S106, the conditional expected value  ̄x of the phrase component, accent component, and baseline component updated in step S105, and the conditional variance-covariance matrix R are included. Based on this, the parameter θ that maximizes Q (s, θ) is obtained by setting the partial differential for each variable of Q (s, θ) to 0, and the amplitude of the phrase command corresponding to the state at each time and The parameter θ representing the amplitude of each accent command is updated.

ステップS108において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS105へ戻る。一方、収束判定条件を満たした場合には、ステップS109において、上記ステップS103で学習されたパラメータγ、上記ステップS107で最終的に得られたパラメータθとを、パラメータ記憶部40に格納する。また、上記ステップS106で最終的に得られた状態系列sから、状態遷移確率φを求め、パラメータ記憶部40に格納する。   In step S108, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S105. On the other hand, if the convergence determination condition is satisfied, in step S109, the parameter γ learned in step S103 and the parameter θ finally obtained in step S107 are stored in the parameter storage unit 40. Further, the state transition probability φ is obtained from the state series s finally obtained in step S106 and stored in the parameter storage unit 40.

次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図9に示す基本周波数パターン予測処理ルーチンが実行される。   Next, when the time-series data of the source speech to be predicted is input to the fundamental frequency pattern predicting apparatus 100, the fundamental frequency pattern predicting process routine shown in FIG.

まず、ステップS121において、入力された予測対象のソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS122において、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、上記式(16)に従って、各時刻kの基本周波数y[k]を推定することにより、各時刻kの基本周波数y[k]を初期設定する。   First, in step S121, the input time-series data of the target speech to be predicted is read, and the spectrum feature vector c [k] at each time k is extracted. In step S122, based on the parameter γ stored in the parameter storage unit 40 and the spectral feature quantity vector c [k] at each time extracted in step S121, according to the above equation (16), at each time k. By estimating the fundamental frequency y [k], the fundamental frequency y [k] at each time k is initialized.

そして、ステップS123では、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻kのスペクトル特徴量ベクトルc[k]とに基づいて、上記式(87)に従って、各時刻kのスペクトル特徴量ベクトルc[k]を生成したらしい確率が最も高い正規分布のインデックス^mkを推定する。 In step S123, based on the parameter γ stored in the parameter storage unit 40 and the spectral feature quantity vector c [k] at each time k extracted in step S121, according to the equation (87), Estimate the normal distribution index ^ m k with the highest probability of generating the spectral feature vector c [k] at time k.

ステップS124では、上記ステップS122で初期設定された、または後述するステップS125で前回更新された各時刻kの基本周波数y[k]を固定して、上記式(35)を局所最大化する状態系列sと各時刻kにおける状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを、EMアルゴリズムにより探索することにより、状態系列sを推定する。   In step S124, a state sequence that is initially set in step S122 or that is updated last time in step S125, which will be described later, is fixed at the fundamental frequency y [k], and the above equation (35) is locally maximized. The state series s is estimated by searching for s and the parameter θ representing the amplitude of the phrase command and the amplitude of each accent command according to the state at each time k using the EM algorithm.

ステップS125では、上記ステップS124で推定された状態系列sと、上記ステップS123で推定された各時刻の正規分布のインデックス^mkとに基づいて、上記式(88)に従って、各時刻kの基本周波数y[k]を更新する。 In step S125, based on the state series s estimated in step S124 and the normal distribution index ^ m k of each time estimated in step S123, the basics of each time k are calculated according to the above equation (88). Update the frequency y [k].

ステップS126では、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、ステップS124へ戻る。一方、収束判定条件を満たした場合には、ステップS127において、上記ステップS125で最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力し、基本周波数パターン予測処理ルーチンを終了する。   In step S126, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S124. On the other hand, if the convergence determination condition is satisfied, in step S127, the fundamental frequency y [k] at each time k finally obtained in step S125 is changed to each of the target speech corresponding to the source speech to be predicted. As a result of prediction of the fundamental frequency of time, the output unit 90 outputs the result, and the fundamental frequency pattern prediction processing routine is finished.

以上説明したように、第1の実施の形態に係る基本周波数パターン予測装置によれば、ソース音声の各時刻のスペクトル特徴量ベクトルと、ターゲット音声の各時刻の基本周波数との間の関係をモデル化したGMMである第1確率分布P(q[k],c[k]|γ)のパラメータγを学習し、基本周波数パターン生成過程をモデル化した第2確率分布P(y,s|θ,φ)のパラメータθ、φを学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布P(q[k],c[k]|γ)と第2確率分布P(y,s|θ,φ)との積を用いて表される規準を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる。 As described above, according to the fundamental frequency pattern predicting apparatus according to the first embodiment, the relationship between the spectrum feature vector at each time of the source speech and the fundamental frequency at each time of the target speech is modeled. Learning the parameter γ of the first probability distribution P (q [k], c [k] | γ), which is a generalized GMM, and modeling the fundamental frequency pattern generation process, the second probability distribution P (y, s | θ , Φ) parameters θ and φ are learned, and the first probability distribution P (q [k], c [k] | is obtained from the spectral feature quantity vector at each time extracted from the time series data of the source speech to be predicted. The basic frequency at each time of the target speech corresponding to the source speech to be predicted is set so as to increase the criterion expressed using the product of γ) and the second probability distribution P (y, s | θ, φ). by predicting, Do given the constraints of the physical process of generating F 0 pattern It is possible to estimate the optimal F 0 pattern corresponding to Luo spectral feature amount sequence.

[第2の実施の形態]
次に、本発明の第2の実施の形態に係る基本周波数パターン予測装置について説明する。なお、第1の実施の形態と同様の構成となる部分については同一符号を付して説明を省略する。
[Second Embodiment]
Next, a fundamental frequency pattern prediction apparatus according to the second embodiment of the present invention will be described. In addition, the same code | symbol is attached | subjected about the part which becomes the same structure as 1st Embodiment, and description is abbreviate | omitted.

第2の実施の形態では、第2の確率分布及びパラメータを推定する方法と、各時刻の基本周波数の予測方法とが第1の実施の形態と異なっている。   In the second embodiment, the method for estimating the second probability distribution and parameters and the method for predicting the fundamental frequency at each time are different from those in the first embodiment.

第2の実施の形態に係る基本周波数パターン予測装置の学習部30の第2モデルパラメータ学習部38によるパラメータを学習する原理について説明する。   The principle of learning parameters by the second model parameter learning unit 38 of the learning unit 30 of the fundamental frequency pattern prediction apparatus according to the second embodiment will be described.

まず、関連技術3のF0パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズムについて説明する。 First, the parameter estimation algorithm of the F 0 pattern generation process model parameter estimation method of the related technique 3 will be described.

<パラメータ推定アルゴリズム2>
観測F0系列yが与えられたもとで、モデルパラメータθとoの事後確率P(o,θ|y)の局所最適解を求める反復アルゴリズムを以下に示す。状態系列sを隠れ変数とし、事後確率P(o,θ|y) が、
<Parameter estimation algorithm 2>
Given an observation F 0 sequence y, an iterative algorithm for obtaining a local optimal solution of the posterior probabilities P (o, θ | y) of model parameters θ and o is shown below. The state series s is a hidden variable, and the posterior probability P (o, θ | y) is

をsについて周辺化することで得られる点に注意すると、Q関数Q(o,θ,o´,θ´)は Note that the Q function Q (o, θ, o ′, θ ′) is


と置ける。ただし、

I can put it. However,

は定数項を除いて等しいことを表す。また、gb[k] = δ[k] (クロネッカーのデルタ) である。よって、P(sk = t|y,o´,θ´)をForward-Backward アルゴリズムにより計算するステップ、oとθについてQ(o,θ,o´,θ´)を増加させるステップを繰り返すことで、P(o,θ|y) が局所最大となる解を得ることができる。oはフレーズ・アクセント指令系列のペアであるため、Q(o,θ,o´,θ´)を増加させるステップにおいては、oの非負制約を考慮する必要がある。oの非負制約を満たしながらQ(o,θ,o´,θ´)を増加させるような更新則は以下により導くことができる。まず、Q(o,θ,o´,θ´)の下界はJensen の不等式より Represents equality except for the constant term. G b [k] = δ [k] (Kronecker delta). Therefore, the step of calculating P (s k = t | y, o ′, θ ′) by the Forward-Backward algorithm and the step of increasing Q (o, θ, o ′, θ ′) for o and θ are repeated. Thus, a solution in which P (o, θ | y) is locally maximum can be obtained. Since o is a phrase / accent command sequence pair, in the step of increasing Q (o, θ, o ′, θ ′), it is necessary to consider the non-negative constraint of o. An update rule that increases Q (o, θ, o ′, θ ′) while satisfying the non-negative constraint of o can be derived as follows. First, the lower bound of Q (o, θ, o ′, θ ′) is from Jensen's inequality.

のように設計することができる。また、i,k,l は、 Can be designed as follows. I, k, and l are

を満たす任意の変数である。従ってQ関数の下界は、  Any variable that satisfies So the lower bound of the Q function is



と表される。この下界関数をλi,k,l≧0 に関して最大化するステップとo に関して最大化するステップを交互に繰り返せばQ(o,θ,o´,θ´)を増加させることができる。いずれのステップの更新則も解析的に求めることができ、それぞれ It is expressed. Q (o, θ, o ′, θ ′) can be increased by alternately repeating the step of maximizing the lower bound function with respect to λ i, k, l ≧ 0 and the step of maximizing with respect to o 1. The update rule for any step can be determined analytically,

で表される。以上の反復が収束したあと、続けてθを更新する。更新式は、図1の場合、 It is represented by After the above iterations converge, θ is continuously updated. In the case of FIG.

図2、3の場合、   In the case of FIGS.

である。これらの更新値をo´とθ´に代入したのちに、P(sk = t|y,o´,θ´)の更新を再度行い、以後同様の処理を繰り返すことで事後確率P(o,θ|y)を単調増加させることができる。 It is. After substituting these update values for o ′ and θ ′, P (s k = t | y, o ′, θ ′) is updated again, and thereafter the same processing is repeated to thereby determine the posterior probability P (o , Θ | y) can be monotonously increased.

以上の反復アルゴリズムが収束した後、上述したパラメータ推定アルゴリズム1のViterbi アルゴリズムにより求まる最適なsを状態系列の推定結果とする。   After the above iterative algorithm has converged, the optimum s obtained by the Viterbi algorithm of the parameter estimation algorithm 1 described above is taken as the state sequence estimation result.

また、推定された状態系列sから、状態遷移確率φが求められる。   Further, a state transition probability φ is obtained from the estimated state sequence s.

以上説明した原理に従って、第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアからなる指令関数o[k]との組み合わせの確率分布である第2確率分布のパラメータθ、φを学習する。 In accordance with the principle described above, the second model parameter learning unit 38 determines the fundamental frequency y [k] at each time k based on the fundamental frequency y [k] at each time k extracted by the fundamental frequency sequence extraction unit 34. , A command composed of a pair of a phrase command u p [k] representing a fundamental frequency pattern generated by parallel movement of thyroid cartilage at each time k and an accent command u a [k] representing a fundamental frequency pattern generated by rotational motion of thyroid cartilage The parameters θ and φ of the second probability distribution, which is a probability distribution in combination with the function o [k], are learned.

第2の実施の形態における変換処理部50は、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻kのスペクトル特徴量ベクトルc[k]と、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、第1確率分布と第2確率分布とを用いて表される規準を大きくするように、各時刻kの基本周波数y[k]と、各時刻kのフレーズ指令及びアクセント指令のペアからなる指令関数o[k]とを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻kの基本周波数y[k]を予測する。   The conversion processing unit 50 according to the second embodiment receives the time-series data of the source speech to be predicted as an input, the spectral feature quantity vector c [k] at each time k extracted from the time-series data of the source speech, Based on the parameter γ of the first probability distribution learned by the first model parameter learning unit 36 and the parameters θ and φ of the second probability distribution learned by the second model parameter learning unit 38, the first probability distribution and In order to increase the criterion expressed using the second probability distribution, a fundamental frequency y [k] at each time k and a command function o [k] composed of a pair of phrase command and accent command at each time k To estimate the fundamental frequency y [k] at each time k of the target speech corresponding to the source speech to be predicted.

ここで、予測対象のソース音声に対応するターゲット音声の各時刻kの基本周波数y[k]を予測する原理について説明する。   Here, the principle of predicting the fundamental frequency y [k] at each time k of the target sound corresponding to the source sound to be predicted will be described.

<変換処理>
学習処理で学習したパラメータ^γ、^θ、^ψと、予測対象のソース音声の特徴量系列c={c[k]}K k=1 を用いて、式(9) と式(45) の積
<Conversion processing>
Using the parameters {circumflex over (γ)}, {circumflex over (θ)}, {circumflex over (ψ)} learned in the learning process, and the feature amount sequence c = {c [k]} K k = 1 of the source speech to be predicted, Equations (9) and (45) Product of

ができるだけ大きくなるようにy、oを推定する。ただし、q = Wyであり、 Y and o are estimated so that becomes as large as possible. Where q = Wy and

である。 It is.

次に、   next,

を大きくするためのアルゴリズムについて述べる。上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法と同様に、 The algorithm for increasing Similar to the F 0 pattern prediction method from the spectral feature amount sequence of Related Technique 1 described above,

と近似することで以下の反復処理によりy、oを推定することができる(ステップ1 と2 の実行順序は任意)。 And y and o can be estimated by the following iterative process (the execution order of steps 1 and 2 is arbitrary).

(ステップ1)上述した関連技術1のスペクトル特徴量系列からのF0 パターン予測方法の変換処理によりyを初期設定する。 (Step 1) y is initially set by the conversion process of the F 0 pattern prediction method from the spectral feature quantity sequence of Related Technique 1 described above.

(ステップ2)cを用いて^mを式(100) により求める。 (Step 2) Using c, ^ m is obtained by equation (100).

(ステップ3)yを固定し、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム2によりoを推定する。 (Step 3) y is fixed, and o is estimated by the parameter estimation algorithm 2 of the F 0 pattern generation process model parameter estimation method of the related technique 3 described above.

(ステップ4)oと^mを固定して以下の式によりyを更新し、ステップ3に戻る。 (Step 4) Fix o and ^ m, update y by the following formula, and return to Step 3.

以上説明した原理を実現するために、第2の実施の形態では、図10に示すように、変換処理部50は、特徴量抽出部52と、基本周波数系列予測部54と、正規分布系列予測部256と、指令系列推定部258と、基本周波数系列更新部260と、収束判定部62とを備えている。   In order to realize the principle described above, in the second embodiment, as shown in FIG. 10, the conversion processing unit 50 includes a feature amount extraction unit 52, a fundamental frequency sequence prediction unit 54, and a normal distribution sequence prediction. Unit 256, command sequence estimation unit 258, fundamental frequency sequence update unit 260, and convergence determination unit 62.

正規分布系列予測部256は、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、特徴量抽出部52によって抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、上記式(100)に従って、各時刻kのスペクトル特徴量ベクトルc[k]を生成したらしい確率が最も高い正規分布のインデックス^mkを推定する。   The normal distribution series prediction unit 256 converts the first probability distribution parameter γ learned by the first model parameter learning unit 36 and the spectral feature quantity vector c [k] at each time extracted by the feature quantity extraction unit 52. Based on the above equation (100), the normal distribution index ^ mk having the highest probability of generating the spectral feature vector c [k] at each time k is estimated.

指令系列推定部258は、基本周波数系列予測部54によって初期設定された、または状態系列推定部58によって前回更新された各時刻kの基本周波数y[k]を固定して、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム2と同様に、事後確率P(o,θ|y)を局所最大化する指令系列oを推定する。   The command sequence estimator 258 fixes the fundamental frequency y [k] at each time k that is initially set by the fundamental frequency sequence predictor 54 or updated last time by the state sequence estimator 58, and the related technique 3 described above. The command sequence o that locally maximizes the posterior probability P (o, θ | y) is estimated in the same manner as the parameter estimation algorithm 2 of the F0 pattern generation process model parameter estimation method.

基本周波数系列更新部260は、指令系列推定部258によって推定された指令系列oと、正規分布系列予測部56によって推定された各時刻の正規分布のインデックス^mkとに基づいて、上記式(101)に従って、各時刻kの基本周波数y[k]を更新する。   Based on the command sequence o estimated by the command sequence estimation unit 258 and the index ^ mk of the normal distribution at each time estimated by the normal distribution sequence prediction unit 56, the fundamental frequency sequence update unit 260 ), The basic frequency y [k] at each time k is updated.

収束判定部62は、予め定められた収束判定条件を満たすまで、指令系列推定部258及び基本周波数系列更新部260による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。   Convergence determining unit 62 repeats the processes by command sequence estimating unit 258 and fundamental frequency sequence updating unit 260 until a predetermined convergence determination condition is satisfied. The convergence determination condition is, for example, reaching a predetermined number of repetitions.

収束判定条件を満たしたときに、最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力する。   When the convergence determination condition is satisfied, the fundamental frequency y [k] finally obtained at each time k is output as a prediction result of the fundamental frequency at each time of the target speech corresponding to the source speech to be predicted. 90 for output.

<基本周波数パターン予測装置の作用> <Operation of fundamental frequency pattern prediction device>

次に、第2の実施の形態に係る基本周波数パターン予測装置100の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。   Next, the operation of the fundamental frequency pattern prediction apparatus 100 according to the second embodiment will be described. In addition, about the process similar to 1st Embodiment, the same code | symbol is attached | subjected and detailed description is abbreviate | omitted.

まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図11に示す学習処理ルーチンが実行される。   First, when parallel data composed of time series data of source speech and target speech of a learning sample is input to the fundamental frequency pattern prediction device 100, the fundamental frequency pattern prediction device 100 performs the learning process shown in FIG. The routine is executed.

まず、ステップS101において、入力されたソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、各時刻kの基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。   First, in step S101, input time series data of source speech is read, and a spectral feature vector c [k] at each time k is extracted. In step S102, the time-series data of the input target voice is read, the fundamental frequency y [k] at each time k of the target voice is extracted, and the fundamental frequency y [k] at each time k and its dynamic component are extracted. Extract the coupling vector q [k].

そして、ステップS103において、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、上記式(1) のGMM のパラメータγを学習する。   In step S103, based on the spectral feature vector c [k] at each time k extracted in step S101 and the combined vector q [k] of the fundamental frequency at each time k extracted in step S102. Thus, the GMM parameter γ in the above equation (1) is learned.

ステップS200では、指令系列oと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。また、ターゲット音声の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。 In step S200, the command series o and the parameter θ representing the amplitude of the phrase command and the amplitude of each accent command according to the state at each time are initialized. Further, based on the time series data of the target speech, the voiced and unvoiced sections are specified, and the degree of uncertainty v n 2 [k] of the fundamental frequency at each time k is estimated.

そして、ステップS201において、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k,t)の全ての組み合わせについて、事後確率P(sk=t|y,o′,θ′)を更新する。 In step S201, the posterior probabilities are calculated for all combinations of (k, t) based on the initial value of the command sequence o set in step S200 or the command sequence o updated last time in step S203 described later. Update P (s k = t | y, o ′, θ ′).

ステップS202では、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k、l)の全ての組み合わせについて、上記の式(71)に従って、補助変数λp,k,l、λa,k,l、λb,k,lを算出して更新する。 In step S202, based on the initial value of the command sequence o set in step S200 or the command sequence o updated last time in step S203, which will be described later, all the combinations of (k, l) 71), the auxiliary variables λ p, k, l , λ a, k, l and λ b, k, l are calculated and updated.

次のステップS203では、上記ステップS102で抽出されたされた基本周波数系列yと、上記ステップS200で算出された各時刻kの不確かさの程度vn 2 [k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)と、上記ステップS202で更新された補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、上記式(72)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列oとベース成分ubとを更新する。 In the next step S203, the fundamental frequency sequence y extracted in step S102, the degree of uncertainty v n 2 [k] calculated in step S200, and updated in step S201 are updated. Posterior probability P (s k = t | y, o ′, θ ′) and auxiliary variables λ p, k, l , λ a, k, l , λ b, k, l updated in step S202 Based on the above, the command sequence o composed of the phrase command u p [l] and the accent command u a [l] at each time l which is a non-negative value and the base component u b are updated according to the above equation (72).

次のステップS204では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS202へ戻る。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS205で、上記ステップS203で更新された各時刻kのフレーズ指令up[k]及びアクセント指令ua[k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)とに基づいて、上記式(73)、式(74)、又は式(75)、式(76)に従って、各時刻kのフレーズ指令の振幅A(p)[k]、及び各位置nのアクセント指令の振幅Aa (a)を更新することにより、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθを更新する。 In the next step S204, it is determined whether or not the number of repetitions s has reached S as the convergence condition. If the number of repetitions s has not reached S, it is determined that the convergence condition is not satisfied. Then, the process returns to step S202. On the other hand, when the number of repetitions s reaches S, it is determined that the convergence condition is satisfied, and in step S205, the phrase command u p [k] and the accent command u a at each time k updated in step S203 above. Based on [k] and the posterior probability P (s k = t | y, o ′, θ ′) updated in step S201, the above equation (73), equation (74), or equation (75) In accordance with the equation (76), the amplitude A (p) [k] of the phrase command at each time k and the amplitude A a (a) of the accent command at each position n are updated to correspond to the state at each time. The parameter θ representing the amplitude of the phrase command and the amplitude of each accent command is updated.

ステップS206において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS201へ戻る。一方、収束判定条件を満たした場合には、ステップS207において、   In step S206, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S201. On the other hand, when the convergence determination condition is satisfied, in step S207,

上記ステップS203で最終的に更新された指令系列oに基づいて、Viterbi アルゴリズムにより、状態系列sを推定する。また、推定された状態系列sから、状態遷移確率φを求める。 Based on the command sequence o finally updated in step S203, the state sequence s is estimated by the Viterbi algorithm. Further, the state transition probability φ is obtained from the estimated state sequence s.

そして、ステップS208において、上記ステップS103で学習されたパラメータγ、上記ステップS205で最終的に得られたパラメータθと、上記ステップS106で得られた状態遷移確率φとを、パラメータ記憶部40に格納する。   In step S208, the parameter γ learned in step S103, the parameter θ finally obtained in step S205, and the state transition probability φ obtained in step S106 are stored in the parameter storage unit 40. To do.

次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図12に示す基本周波数パターン予測処理ルーチンが実行される。   Next, when time series data of the source speech to be predicted is input to the fundamental frequency pattern prediction apparatus 100, the fundamental frequency pattern prediction apparatus 100 executes a fundamental frequency pattern prediction processing routine shown in FIG.

まず、ステップS121において、入力された予測対象のソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS122において、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、各時刻の基本周波数y[k]を初期設定する。   First, in step S121, the input time-series data of the target speech to be predicted is read, and the spectrum feature vector c [k] at each time k is extracted. In step S122, the basic frequency y [k] at each time is initialized based on the parameter γ stored in the parameter storage unit 40 and the spectrum feature vector c [k] at each time extracted in step S121. Set.

そして、ステップS123では、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、各時刻kの正規分布のインデックス^mkを推定する。 In step S123, based on the parameter γ stored in the parameter storage unit 40 and the spectral feature vector c [k] at each time extracted in step S121, the index ^ of the normal distribution at each time k Estimate m k .

ステップS221では、上記ステップS122で初期設定された、または後述するステップS125で前回更新された各時刻kの基本周波数y[k]を固定して、上記ステップS201〜ステップS206と同様に、事後確率P(o,θ|y)を局所最大化する指令系列oを推定する。   In step S221, the basic frequency y [k] at each time k initially set in step S122 or updated last time in step S125 described later is fixed, and the posterior probability is the same as in steps S201 to S206. A command sequence o that locally maximizes P (o, θ | y) is estimated.

そして、ステップS222において、上記ステップS221で推定された指令系列oと、上記ステップS123で推定された各時刻の正規分布のインデックス^mkとに基づいて、上記式(101)に従って、各時刻kの基本周波数y[k]を更新する。 Then, in step S222, based on the command sequence o estimated in step S221 and the normal distribution index ^ m k of each time estimated in step S123, each time k Update the fundamental frequency y [k].

ステップS126では、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、ステップS221へ戻る。一方、収束判定条件を満たした場合には、ステップS127において、上記ステップS222で最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力し、基本周波数パターン予測処理ルーチンを終了する。   In step S126, it is determined whether or not a predetermined convergence determination condition is satisfied. If the convergence determination condition is not satisfied, the process returns to step S221. On the other hand, if the convergence determination condition is satisfied, in step S127, the fundamental frequency y [k] at each time k finally obtained in step S222 is set to each of the target speech corresponding to the source speech to be predicted. As a result of prediction of the fundamental frequency of time, the output unit 90 outputs the result, and the fundamental frequency pattern prediction processing routine is finished.

以上説明したように、第2の実施の形態に係る基本周波数パターン予測装置によれば、ソース音声の各時刻のスペクトル特徴量ベクトルと、ターゲット音声の各時刻の基本周波数との間の関係をモデル化したGMMである第1確率分布P(q[k],c[k]|γ)のパラメータγを学習し、基本周波数パターン生成過程をモデル化した第2確率分布P(y,o|θ,φ)のパラメータθ、φを学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布P(q[k],c[k]|γ)と第2確率分布P(y,o|θ,φ)との積を用いて表される規準を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる。 As described above, according to the fundamental frequency pattern predicting apparatus according to the second embodiment, the relationship between the spectral feature vector at each time of the source speech and the fundamental frequency at each time of the target speech is modeled. Learning the parameter γ of the first probability distribution P (q [k], c [k] | γ), which is a generalized GMM, and modeling the fundamental frequency pattern generation process, the second probability distribution P (y, o | θ , Φ) parameters θ and φ are learned, and the first probability distribution P (q [k], c [k] | is obtained from the spectral feature quantity vector at each time extracted from the time series data of the source speech to be predicted. The basic frequency at each time of the target speech corresponding to the source speech to be predicted is increased so that the criterion expressed using the product of γ) and the second probability distribution P (y, o | θ, φ) is increased. by predicting, Do given the constraints of the physical process of generating F 0 pattern It is possible to estimate the optimal F 0 pattern corresponding to Luo spectral feature amount sequence.

<実験> <Experiment>

図13に示すF0パターンの音声データに対し、上述した従来手法である関連技術1のスペクトル特徴量系列からのF0 パターン予測方法と、本発明の第1の実施の形態に係る手法とによりスペクトル特徴量系列からF0 パターンの予測を行う実験を行った。図14に、両手法により予測されたF0パターンを示す。図14では、実線が、従来手法による音声特徴量系列からのF0 パターンの予測結果の例を示し、点線が、第1の実施の形態に係る手法による音声特徴量系列からのF0 パターンの予測結果の例を示す。 For the F 0 pattern audio data shown in FIG. 13, the F 0 pattern prediction method from the spectral feature quantity sequence of Related Technique 1 as the conventional method described above and the method according to the first embodiment of the present invention are used. An experiment was conducted to predict the F 0 pattern from the spectral feature series. FIG. 14 shows the F 0 pattern predicted by both methods. In FIG. 14, the solid line shows an example of the prediction result of the F 0 pattern from the speech feature amount sequence by the conventional method, and the dotted line shows the F 0 pattern from the speech feature amount sequence by the method according to the first embodiment. An example of the prediction result is shown.

図13のF0パターンとの近さがF0パターンの良さの指標になる。そこで、それぞれの手法で得られたF0パターンと、図13のF0パターンとのコサイン距離(1 に近いほど近いこと意味する)を測ったところ、従来手法が0.55、第1の実施の形態に係る手法が0.59 であった。このことから、本発明の第1の実施の形態の手法の、従来手法に対する優位性が示された。 The proximity to the F 0 pattern in FIG. 13 is an indicator of the goodness of the F 0 pattern. Therefore, the F 0 patterns obtained by each method, was measured the cosine distance (meaning closer closer to 1) the F 0 pattern of FIG. 13, the conventional method is 0.55, the first embodiment This method was 0.59. From this, the superiority of the technique of the first embodiment of the present invention over the conventional technique was shown.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上述の基本周波数パターン予測装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, although the basic frequency pattern prediction apparatus described above has a computer system inside, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. Shall be.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
20 演算部
30 学習部
32 特徴量抽出部
34 基本周波数系列抽出部
36 第1モデルパラメータ学習部
38 第2モデルパラメータ学習部
40 パラメータ記憶部
50 変換処理部
52 特徴量抽出部
54 基本周波数系列予測部
56 正規分布系列予測部
58 状態系列推定部
60 基本周波数系列更新部
62 収束判定部
90 出力部
100 基本周波数パターン予測装置
256 正規分布系列予測部
258 指令系列推定部
260 基本周波数系列更新部
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 30 Learning part 32 Feature-value extraction part 34 Fundamental frequency series extraction part 36 1st model parameter learning part 38 2nd model parameter learning part 40 Parameter memory | storage part 50 Conversion process part 52 Feature-value extraction part 54 Fundamental frequency Sequence prediction unit 56 Normal distribution sequence prediction unit 58 State sequence estimation unit 60 Fundamental frequency sequence update unit 62 Convergence determination unit 90 Output unit 100 Fundamental frequency pattern prediction device 256 Normal distribution sequence prediction unit 258 Command sequence estimation unit 260 Basic frequency sequence update unit

Claims (8)

学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータを学習する第1モデルパラメータ学習部と、
前記ターゲット音声の各時刻の基本周波数に基づいて、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを学習する第2モデルパラメータ学習部と、
予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記第1モデルパラメータ学習部によって学習された前記第1確率分布のパラメータと、前記第2モデルパラメータ学習部によって学習された前記第2確率分布のパラメータとに基づいて、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する基本周波数予測部と、
を含む基本周波数パターン予測装置。
Using parallel data composed of time-series data of source speech and target speech of the learning sample as input, a spectral feature vector at each time extracted from the time-series data of the source speech, and the time of the target speech Based on the fundamental frequency at each time extracted from the sequence data, the first modeled the relationship between the spectral feature quantity vector at each time of the source speech and the fundamental frequency at each time of the target speech. A first model parameter learning unit for learning parameters of the probability distribution;
A second model parameter learning unit that learns a parameter of a second probability distribution obtained by modeling a fundamental frequency pattern generation process based on a fundamental frequency at each time of the target speech;
Using the time series data of the source speech to be predicted as an input, the spectral feature vector at each time extracted from the time series data of the source speech to be predicted, and the first model parameter learning unit learns the first Based on the parameters of the probability distribution and the parameters of the second probability distribution learned by the second model parameter learning unit, the criterion expressed using the first probability distribution and the second probability distribution is increased. A fundamental frequency prediction unit that predicts a fundamental frequency at each time of the target speech corresponding to the source speech to be predicted;
A fundamental frequency pattern prediction apparatus including:
前記第1確率分布を、前記ソース音声の各時刻のスペクトル特徴量ベクトルと前記ターゲット音声の各時刻の基本周波数と前記基本周波数の動的成分との同時確率分布を表す混合正規分布とし,
前記第2確率分布を、
各時刻の基本周波数と、
隠れマルコフモデルの各時刻の状態からなる状態系列、又は各時刻における甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令のペアからなる指令関数との組み合わせの確率分布とした請求項1記載の基本周波数パターン予測装置。
The first probability distribution is a mixed normal distribution representing a joint probability distribution of a spectral feature vector at each time of the source speech, a fundamental frequency at each time of the target speech, and a dynamic component of the fundamental frequency,
The second probability distribution is
The fundamental frequency of each time,
From a series of states consisting of states at each time of the Hidden Markov Model, or a pair of phrase commands representing the fundamental frequency pattern generated by the translational movement of the thyroid cartilage at each time and an accent command representing the fundamental frequency pattern generated by the rotational movement of the thyroid cartilage The fundamental frequency pattern prediction apparatus according to claim 1, wherein the probability distribution is a combination with a command function.
前記規準を、
前記第1確率分布と前記第2確率分布との積を用いて表される、各時刻の基本周波数と、前記状態系列との組み合わせに応じた関数、または
前記第1確率分布と前記第2確率分布との積を用いて表される、各時刻の基本周波数と、各時刻の前記指令関数との組み合わせに応じた関数とした請求項2記載の基本周波数パターン予測装置。
The criteria
A function corresponding to a combination of the fundamental frequency at each time and the state series, represented by a product of the first probability distribution and the second probability distribution, or the first probability distribution and the second probability The fundamental frequency pattern prediction apparatus according to claim 2, wherein the function is a function corresponding to a combination of a fundamental frequency at each time and a command function at each time, which is expressed using a product of the distribution.
前記第1モデルパラメータ学習部は、EM(Expectation-Maximization)アルゴリズムにより、前記第1確率分布から求められる前記ソース音声の各時刻のスペクトル特徴量ベクトル及び前記ターゲット音声の各時刻の基本周波数の尤もらしさが大きくなるように、前記第1確率分布のパラメータを学習する請求項1〜請求項3の何れか1項記載の基本周波数パターン予測装置。   The first model parameter learning unit uses a EM (Expectation-Maximization) algorithm to determine the likelihood of the spectrum feature vector at each time of the source speech and the fundamental frequency at each time of the target speech obtained from the first probability distribution. The fundamental frequency pattern prediction apparatus according to any one of claims 1 to 3, wherein a parameter of the first probability distribution is learned so as to increase. 前記第2モデルパラメータ学習部は、EM(Expectation-Maximization)アルゴリズムにより、前記第2確率分布から求められる、各時刻の基本周波数と、隠れマルコフモデルの各時刻の状態からなる状態系列との尤もらしさが大きくなるように、前記第2確率分布のパラメータとして、前記状態系列における状態遷移確率、及び各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータ群を学習するか、又は
各時刻の基本周波数が与えられたときの、各時刻のフレーズ指令及びアクセント指令のペアからなる指令関数及び前記パラメータ群の対数事後確率を目的関数として、前記目的関数を増加させるように、前記指令関数及び前記パラメータ群を、前記第2確率分布のパラメータとして学習する請求項1〜請求項4の何れか1項記載の基本周波数パターン予測装置。
The second model parameter learning unit uses a EM (Expectation-Maximization) algorithm to determine the likelihood of a fundamental frequency at each time and a state sequence including a state at each time of a hidden Markov model, obtained from the second probability distribution. Or a parameter group representing the state transition probability in the state series, the amplitude of the phrase command and the amplitude of each accent command according to the state at each time, as a parameter of the second probability distribution, Or, when a basic frequency at each time is given, a command function consisting of a pair of phrase command and accent command at each time and a logarithmic posterior probability of the parameter group as an objective function, the objective function is increased. A command function and the parameter group are learned as parameters of the second probability distribution. The fundamental frequency pattern prediction apparatus according to any one of claims 4.
前記基本周波数予測部は、
前記第1確率分布と前記第2確率分布との積を用いて表される、各時刻の基本周波数と、隠れマルコフモデルの各時刻の状態からなる状態系列との組み合わせに応じた関数が大きくなるように、各時刻の基本周波数と前記状態系列とを推定することにより、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測するか、又は
前記第1確率分布と前記第2確率分布との積を用いて表される、各時刻の基本周波数、各時刻のフレーズ指令及びアクセント指令のペアからなる指令関数との組み合わせに応じた関数が大きくなるように、各時刻の基本周波数と、各時刻の前記指令関数を推定することにより、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する請求項1〜請求項5の何れか1項記載の基本周波数パターン予測装置。
The fundamental frequency prediction unit
The function corresponding to the combination of the fundamental frequency at each time and the state sequence composed of the state at each time of the hidden Markov model, expressed using the product of the first probability distribution and the second probability distribution, is increased. As described above, by estimating the fundamental frequency at each time and the state series, the fundamental frequency at each time of the target speech corresponding to the source speech to be predicted is predicted, or the first probability distribution and the The function corresponding to the combination of the basic frequency at each time, the command function consisting of the phrase command and the accent command pair at each time, expressed using the product with the second probability distribution, is increased. The basic frequency at each time of the target speech corresponding to the prediction target source speech is predicted by estimating the fundamental frequency and the command function at each time. The fundamental frequency pattern prediction apparatus according to any one of 5.
第1モデルパラメータ学習部と、第2モデルパラメータ学習部と、基本周波数予測部とを含む基本周波数パターン予測装置における基本周波数パターン予測方法であって、
前記第1モデルパラメータ学習部が、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータを学習し、
前記第2モデルパラメータ学習部が、前記ターゲット音声の各時刻の基本周波数に基づいて、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを学習し、
前記基本周波数予測部が、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記第1モデルパラメータ学習部によって学習された前記第1確率分布のパラメータと、前記第2モデルパラメータ学習部によって学習された前記第2確率分布のパラメータとに基づいて、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する
基本周波数パターン予測方法。
A fundamental frequency pattern prediction method in a fundamental frequency pattern prediction apparatus including a first model parameter learning unit, a second model parameter learning unit, and a fundamental frequency prediction unit,
Spectral characteristics at each time extracted from the time series data of the source speech, with the first model parameter learning unit receiving parallel data composed of the time series data of the source speech and the target speech of the learning sample. A spectral feature vector at each time of the source speech and a fundamental frequency at each time of the target speech based on a quantity vector and a fundamental frequency at each time extracted from the time-series data of the target speech. Learn the parameters of the first probability distribution that models the relationship between
The second model parameter learning unit learns a parameter of a second probability distribution obtained by modeling a fundamental frequency pattern generation process based on a fundamental frequency at each time of the target speech;
The fundamental frequency prediction unit receives the time-series data of the source speech to be predicted as an input, the spectral feature quantity vector at each time extracted from the time-series data of the source speech to be predicted, and the first model parameter learning unit The first probability distribution and the second probability distribution are used on the basis of the parameter of the first probability distribution learned by the parameter and the parameter of the second probability distribution learned by the second model parameter learning unit. A basic frequency pattern prediction method for predicting a fundamental frequency at each time of the target speech corresponding to the source speech to be predicted so as to increase a criterion expressed as follows.
請求項1〜請求項6の何れか1項に記載の基本周波数パターン予測装置の各部としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as each part of the fundamental frequency pattern prediction apparatus of any one of Claims 1-6.
JP2016032412A 2016-02-23 2016-02-23 Basic frequency pattern prediction apparatus, method, and program Active JP6468519B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032412A JP6468519B2 (en) 2016-02-23 2016-02-23 Basic frequency pattern prediction apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032412A JP6468519B2 (en) 2016-02-23 2016-02-23 Basic frequency pattern prediction apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2017151224A JP2017151224A (en) 2017-08-31
JP6468519B2 true JP6468519B2 (en) 2019-02-13

Family

ID=59739712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032412A Active JP6468519B2 (en) 2016-02-23 2016-02-23 Basic frequency pattern prediction apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6468519B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6876642B2 (en) * 2018-02-20 2021-05-26 日本電信電話株式会社 Speech conversion learning device, speech conversion device, method, and program
JP6876641B2 (en) * 2018-02-20 2021-05-26 日本電信電話株式会社 Speech conversion learning device, speech conversion device, method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5226867B2 (en) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Basic frequency moving amount learning device, fundamental frequency generating device, moving amount learning method, basic frequency generating method, and moving amount learning program for speaker adaptation
JP5665780B2 (en) * 2012-02-21 2015-02-04 株式会社東芝 Speech synthesis apparatus, method and program
CN104205214B (en) * 2012-03-09 2016-11-23 国际商业机器公司 noise reduction method and device
JP5885210B2 (en) * 2013-01-11 2016-03-15 日本電信電話株式会社 Basic frequency model parameter estimation apparatus, method, and program
JP6137477B2 (en) * 2013-08-22 2017-05-31 日本電信電話株式会社 Basic frequency model parameter estimation apparatus, method, and program
JP5807921B2 (en) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program

Also Published As

Publication number Publication date
JP2017151224A (en) 2017-08-31

Similar Documents

Publication Publication Date Title
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
US6523005B2 (en) Method and configuration for determining a descriptive feature of a speech signal
WO2019163849A1 (en) Audio conversion learning device, audio conversion device, method, and program
CN107615376B (en) Voice recognition device and computer program recording medium
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP6884946B2 (en) Acoustic model learning device and computer program for it
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
KR101120765B1 (en) Method of speech recognition using multimodal variational inference with switching state space models
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
CN113053356A (en) Voice waveform generation method, device, server and storage medium
JP6472005B2 (en) Basic frequency pattern prediction apparatus, method, and program
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6142401B2 (en) Speech synthesis model learning apparatus, method, and program
JP6137477B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
US20130117026A1 (en) Speech synthesizer, speech synthesis method, and speech synthesis program
CN104485099A (en) Method for improving naturalness of synthetic speech
US11798579B2 (en) Device, method, and program for analyzing speech signal
Sarma et al. Speaker identification model for Assamese language using a neural framework
JP2018097115A (en) Fundamental frequency model parameter estimation device, method, and program
JP6468518B2 (en) Basic frequency pattern prediction apparatus, method, and program
JP6665079B2 (en) Fundamental frequency model parameter estimation device, method, and program
US20220139381A1 (en) Prediction device, prediction method, and program
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190107

R150 Certificate of patent or registration of utility model

Ref document number: 6468519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250