深層学習とささやきフィルタによる音声変換

依存モジュール

numpy (v1.13.0)
scipy (v0.17.1)
pyworld (v0.2.1b0)
pysptk (v0.1.7)
h5py (v2.6.0)
chainer (v2.0.1)
cupy (v1.0.1)
Cython (v0.26)

Ubuntu 14.04 (64 bit) w/ NVIDIA Quadro K620

音声データを用意する (同一発話内容・同名の wav ファイルを data/wav 以下に配置, ディレクトリ名とかは適宜変更)
F0分析パラメータを調整する → python scripts/pyworld_test.py {minF0} {maxF0} {name_of_spearker} で頑張って探す
良さ気なパラメータを train.csh の minf0_s, maxf0_s, minf0_t, maxf0_t にセットする (s: 変換元話者, t: 変換先話者)
その他のパラメータも適当に設定する (特に気にしなければデフォルトでOK)
csh train.csh {input_wav} {output_wav}

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
data/wav		data/wav
scripts		scripts
LICENSE.md		LICENSE.md
README.md		README.md
train.csh		train.csh