JP6846237B2 - 音声合成装置及びプログラム - Google Patents
音声合成装置及びプログラム Download PDFInfo
- Publication number
- JP6846237B2 JP6846237B2 JP2017042169A JP2017042169A JP6846237B2 JP 6846237 B2 JP6846237 B2 JP 6846237B2 JP 2017042169 A JP2017042169 A JP 2017042169A JP 2017042169 A JP2017042169 A JP 2017042169A JP 6846237 B2 JP6846237 B2 JP 6846237B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- label
- speaker
- dnn
- time length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 claims description 126
- 230000015572 biosynthetic process Effects 0.000 claims description 62
- 238000003786 synthesis reaction Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 description 21
- 238000000034 method Methods 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000007781 pre-processing Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000001568 sexual effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
まず、本発明の実施形態による音声合成装置について説明する。図1は、本発明の実施形態による音声合成装置の構成例を示すブロック図である。この音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備えている。
次に、図1に示した事前学習部3の構成について詳細に説明する。図2は、事前学習部3の構成例を示すブロック図である。この事前学習部3は、テキスト解析部11、話者感情ラベル処理部12及び音響分析部13を備えている。
次に、図2に示した事前学習部3の処理について説明する。図10は、事前学習部3の処理例を示すフローチャートである。事前学習部3のテキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い(ステップS1001)、音素の言語特徴量を生成する。そして、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成する(ステップS1002)。
次に、時間長DNN及び音響特徴量DNNの入出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量の関係について説明する。図8は、言語特徴量及び音響特徴量の関係について説明する図である。
次に、図2に示したテキスト解析部11について詳細に説明する。図3は、テキスト解析部11の構成例を示すブロック図である。このテキスト解析部11は、テキスト解析手段31、前処理手段32及びフレーム処理手段33を備えている。
次に、図2に示した音響分析部13について詳細に説明する。図4は、音響分析部13の構成例を示すブロック図である。この音響分析部13は、音素区切り処理手段34及び音響分析手段35を備えている。
次に、図1に示した合成処理部5の構成について詳細に説明する。図5は、合成処理部5の構成例を示すブロック図である。この合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えている。
次に、図5に示した合成処理部5の処理について説明する。図11は、合成処理部5の処理例を示すフローチャートである。合成処理部5のテキスト解析部21は、合成対象の音声波形に対応するテキストに対し、テキスト解析を行い(ステップS1101)、音素の言語特徴量を生成する(ステップS1102)。
2,4 記憶部
3 事前学習部
5 合成処理部
11,21 テキスト解析部
12,22 話者感情ラベル処理部
13 音響分析部
23 時間長及び音響特徴量生成部
24 音声波形合成部
31 テキスト解析手段
32 前処理手段
33 フレーム処理手段
34 音素区切り処理手段
35 音響分析手段
Claims (4)
- 事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、
音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、
音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、
テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、
前記合成処理部は、
前記テキストをテキスト解析して音素の言語特徴量を生成し、
前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、
前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、
当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
前記合成処理部は、
前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、
前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、
前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、
前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、
前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、
を備えたことを特徴とする音声合成装置。 - 請求項1または2に記載の音声合成装置において、
さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、
前記学習部は、
前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、
前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、
前記音声コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、
前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、
前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする音声合成装置。 - コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042169A JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042169A JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146803A JP2018146803A (ja) | 2018-09-20 |
JP6846237B2 true JP6846237B2 (ja) | 2021-03-24 |
Family
ID=63592055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017042169A Active JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6846237B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6748607B2 (ja) * | 2017-06-09 | 2020-09-02 | 日本電信電話株式会社 | 音声合成学習装置、音声合成装置、これらの方法及びプログラム |
CN111201692B (zh) | 2018-08-03 | 2023-07-25 | Jvc建伍株式会社 | 信息显示装置、信息显示系统、信息显示方法以及程序 |
JP7125608B2 (ja) * | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
JP6747489B2 (ja) | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
CN113167704A (zh) * | 2018-12-05 | 2021-07-23 | 里沃恩株式会社 | 信息处理装置、信息处理方法、学习模型生成方法以及程序 |
CN112216307B (zh) * | 2019-07-12 | 2023-05-16 | 华为技术有限公司 | 语音情感识别方法以及装置 |
JP7469015B2 (ja) * | 2019-10-02 | 2024-04-16 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
CN112365881A (zh) | 2020-11-11 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及对应模型的训练方法、装置、设备与介质 |
CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
CN113808572B (zh) * | 2021-08-18 | 2022-06-17 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272399A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声規則合成方式 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN104538024B (zh) * | 2014-12-01 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
-
2017
- 2017-03-06 JP JP2017042169A patent/JP6846237B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018146803A (ja) | 2018-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6846237B2 (ja) | 音声合成装置及びプログラム | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US12032920B2 (en) | Direct speech-to-speech translation via machine learning | |
US11443733B2 (en) | Contextual text-to-speech processing | |
JP2023525002A (ja) | 非発話テキストおよび音声合成を使う音声認識 | |
JP2024510679A (ja) | 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US12080272B2 (en) | Attention-based clockwork hierarchical variational encoder | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
KR20240035548A (ko) | 합성 트레이닝 데이터를 사용하는 2-레벨 텍스트-스피치 변환 시스템 | |
Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
Louw et al. | The Speect text-to-speech entry for the Blizzard Challenge 2016 | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
Mamatov et al. | Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems | |
KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
Kambali et al. | Real Time Voice Cloning System | |
Ahmed et al. | (Voick): Enhancing Accessibility in Audiobooks Through Voice Cloning Technology | |
Saleh et al. | Arabic Text-to-Speech Service with Syrian Dialect | |
Oralbekova et al. | Current advances and algorithmic solutions in speech generation | |
Xu et al. | End-to-End Speech Synthesis Method for Lhasa-Tibetan Multi-speaker | |
Skare et al. | Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output | |
Madaminjonov | Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6846237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |