JP7152791B2

JP7152791B2 - クロスリンガル音声変換システムおよび方法

Info

Publication number: JP7152791B2
Application number: JP2020215179A
Authority: JP
Inventors: セヴァト，イエルリ
Original assignee: ティーエムアールダブリューファウンデーションアイピーエスエーアールエル
Priority date: 2019-12-30
Filing date: 2020-12-24
Publication date: 2022-10-13
Anticipated expiration: 2040-12-24
Also published as: EP4270255A3; CN113129914A; US11797782B2; EP4270255A2; JP2021110943A; HUE064070T2; US20240028843A1; US20210200965A1; EP3855340B1; DK3855340T3; EP3855340A2; ES2964322T3; KR20210086974A; EP3855340A3

Description

（単数または複数の）関連出願に対する（単数または複数の）相互参照
この出願は、参照によって本明細書に組み込まれている、２０１９年１２月３０日に出願された米国仮出願特許第６２／９５５２２７号の利益を主張する。

音声（例えば、アプリケーション、映画、オーディオブックおよびゲーム）を含むメディア作品は、典型的には、台本に沿ったパフォーマンスを演じるオリジナルの演技者によって作成される。音声は、多くの場合、「声優」の助けを借りて異なる言語に翻訳されることが多い。オリジナルの俳優はこれらの作品を視聴可能にする言語の全てを通常話すことができないので、多くの聴衆は、さまざまな言語に対する代わりの声優に頼る必要がある。

音声変換（ＶＣ）は、ある話者の音声を別の話者の音声のような音に変換する。より具体的には、ほとんどの現在のＶＣ技法は、元話者の音声を対象話者の音声のように聞こえるようにすることに焦点を合わせており、これは、元話者および対象話者の両方のスペクトル特徴マッピングを実行することを伴う。既存のＶＣ技法のほとんどは、元話者と対象話者の言語が同じであることを意味する、単一言語ＶＣ用に設計されている。パラレルデータ（すなわち、両方の言語で同じ音声内容を含むデータ）が実際には常に利用可能であるとは限らないので、クロスリンガルＶＣは、単一言語ＶＣよりも難しい技法であり得る。したがって、ノンパラレルデータを用いて動作することができるクロスリンガルＶＣ技法は、メディア作品翻訳で使用され得るクロスリンガルＶＣに使用され得る。

この概要は、「発明を実施するための形態」において以下でさらに詳細に説明する概念の選択を簡略化した形で紹介するために提供されている。この概要は、特許請求される主題の重要な特徴を特定することを意図するものではなく、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。

本開示は、全般的に、音声変換に関し、より詳細には、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法およびシステムに関する。

本開示の実施形態によれば、機械学習システム（例えば、敵対的生成ネットワーク（ＧＡＮ）システム）によって実行されるクロスリンガル音声変換の方法は、音声特徴抽出器によって、第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントを受信することを含む。該方法は、音声特徴抽出器を通して、第１の音声オーディオセグメントおよび第２の音声オーディオセグメントからそれぞれ、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むオーディオ特徴を抽出する。該方法は、１つ以上の生成器を通して、トレーニング済みデータセットから、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を有する第３の音声候補であって、第２の言語を話す第３の音声候補を生成する。該方法は、第３の音声候補を第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較する１つ以上の識別器によって進行する。該システムは、第３の音声候補を改良するために、比較ステップの結果を生成器に返す。

一実施形態では、１つ以上の識別器は、第３の音声候補と第１の音声話者依存音響特徴と第２の音声話者非依存言語特徴との間に少なくとも１つの不一致があるかどうかを判定する。このような実施形態では、少なくとも１つの不一致が存在する場合、該システムは、第３の音声候補と第１の音声の話者依存音響特徴と第２の音声の話者非依存言語特徴との間の一貫性損失に関する情報を生成する。

いくつかの実施形態では、抽出された話者依存音響特徴は、話者の音声の実際の音を特徴付ける音声特徴を指し、聴取者が、同じピッチ、アクセント、振幅、および抑揚で同じ単語を話す話者を区別することを可能にする。さらなる実施形態では、話者依存音響特徴は、音色、共鳴、スペクトル包絡、および平均ピッチ強度などの声道特性に関連する短時間的特徴（例えば、短いオーディオセグメントから判定され得る特徴）である分節的特徴を含む。話者非依存言語特徴は、２つ以上のセグメントにわたるドメインの音響特性に関連する超分節的特徴を含み得、ピッチ曲線、単語の持続時間、リズム、調音、音節、音素、イントネーション曲線、またはストレスパターンなどの特徴に関連し得る。これらの超分節的特徴は、言語または方言のアクセントを定める特徴などの特定の言語または方言に特有の言語特徴と高い相関を有し得る。

いくつかの実施形態では、該方法は、複数の第３の音声候補を生成することであって、各第３の音声候補が、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むことをさらに含む。このような実施形態では、該システムは、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済みの第３の音声候補を使用し得る。

ＧＡＮは、競合的または敵対的なニューラルネットワークベースのシステムとして説明することができる。いくつかの実施形態では、ＧＡＮはディープニューラルネットワーク（ＤＮＮ）システムである。ＧＡＮは、例えば、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）システムまたはＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＧＡＮ（ＣｙｃｌｅＧＡＮ）システムを含み得る。機械学習システムは、学習された出力の一部として１つ以上の第３の音声候補を生成するために、第１の音声および第２の音声からのデータセットに基づいてトレーニングするための上記または他の同様の機械学習ベースのネットワークシステムを使用し得る。

ＣｙｃｌｅＧＡＮが使用される実施形態では、ＣｙｃｌｅＧＡＮシステムのトレーニングは、少なくとも敵対的損失関数およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含む。

一実施形態では、順方向マッピング関数は、特徴抽出器によって、第１の言語の第１の音声オーディオセグメントを受信し、特徴抽出器によって、第１の音声の話者依存音響特徴を抽出することによって進行する。順方向マッピング関数は、第１の生成器の一部である第１から第３への話者生成器に第１の音声の話者依存音響特徴を送信することによって進行する。その後、順方向マッピング関数は、第１から第３への話者生成器によって、逆方向マッピング関数から第２の音声の話者非依存言語特徴を受信することによって継続する。順方向マッピング関数は、第１から第３への話者生成器を介して、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を使用して第３の音声候補を生成する。順方向マッピング関数は、第１の識別器によって、第３の音声候補と第１の音声話者依存音響特徴との間に矛盾があるかどうかを判定する。

一実施形態では、逆方向マッピング関数は、特徴抽出器によって、第２の言語の第２の音声オーディオセグメントを受信することを含み、特徴抽出器によって、第２の音声の話者非依存言語特徴を抽出することによって継続する。逆方向マッピング関数は、第２の音声の話者非依存言語特徴を、第２の生成器モジュールの一部であり得る第２から第３への音声候補生成器に送信することによって継続する。逆方向マッピング関数は、第２から第３への音声候補生成器によって、順方向マッピング関数から第１の音声の話者依存音響特徴を受信する。逆方向マッピング関数は、第２から第３への音声候補生成器によって、第２の音声の話者非依存言語特徴および第１の音声の話者依存音響特徴を使用して第３の音声候補を生成することによって継続する。逆方向マッピング関数は、第２の識別器によって、第３の音声候補と第２の音声の話者非依存言語特徴との間に矛盾があるかどうかを判定することによって継続する。

一実施形態では、第１の識別器が第３の音声候補と第１の音声の話者依存音響特徴とが一致していないと判定した場合、第１の識別器は、第３の音声候補を改良するために第１の不一致情報を第１から第３への音声候補生成器に返す。該方法は、第３の音声候補を第１の生成器の一部である第３から第１への話者生成器に送信することによって継続し、第３から第１への話者生成器は、第３の音声候補を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第１の音声の話者依存音響特徴を生成する。変換済み第１の音声の話者依存音響特徴は、その後、第３の音声候補をさらに改良するために、トレーニングプロセスを継続するように第１から第３への音声候補生成器に返される。一実施形態では、第３の音声候補が第１の音声の話者依存音響特徴と一致する場合、順方向マッピング関数は終了し得る。

一実施形態では、第２の識別器は、第３の音声候補を改良するために、第２の不一致情報を第２から第３への音声候補生成器に返す。次に、第３の音声候補は、第２の生成器の一部である第３から第２への話者生成器に送られ、第３から第２への話者生成器は、第３の音声候補を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第２の音声の話者非依存言語特徴を生成する。変換済み第２の音声の話者非依存言語特徴は、その後、第３の音声候補をさらに改良するために、トレーニングプロセスを継続するように第２から第３への音声候補生成器に返される。一実施形態では、第３の音声候補が第２の音声の話者非依存音響特徴と一致する場合、逆方向マッピング関数は終了し得る。

いくつかの実施形態では、該方法は、音声翻訳中に使用するために複数の第３の音声のうちの１つ以上を選択することをさらに含む。さらなる実施形態では、該方法は、選択された１つ以上の第３の音声を、機械学習システムに接続されたデータベースに記憶することによって継続し、データベースは、複数の異なるトレーニング済み第３の音声を含む。

いくつかの実施形態では、第１の音声は、第１の言語を話すオリジナルの俳優の音声であり、第２の音声は、第２の言語を話す声優である。

さらに別の実施形態では、該方法は、オリジナル版、オリジナルの俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳中に実施される。これらの実施形態では、該方法は、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済み第３の音声を使用することをさらに含む。一実施形態では、該方法は、次に、最適な吹替版のオーディオファイルを選択する。

いくつかの実施形態では、サーバのメモリに記憶され、少なくとも１つのプロセッサによって実装される機械学習システムは、第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントを受信し、第１の音声オーディオセグメントおよび第２の音声オーディオセグメントからそれぞれ、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むオーディオ特徴を抽出するように構成された音声特徴抽出器を備える。該システムは、抽出された特徴を受信し、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を有する第３の音声候補であって、第２の言語を話す第３の音声候補を生成するように構成された１つ以上の生成器を備えるＧＡＮをさらに備える。ＧＡＮは、第３の音声候補を第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較し、第３の音声候補を改良するために比較の結果を生成器に返すように構成された１つ以上の識別器をさらに備える。

いくつかの実施形態では、該システムは、機械学習システムに接続され、選択された１つ以上の第３の音声を記憶するように構成され、複数の異なるトレーニング済み第３の音声を含むデータベースをさらに備える。

いくつかの実施形態では、該システムは、オリジナル版、オリジナルの俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳のために構成される。またさらなる実施形態では、機械学習システムはさらに、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済み第３の音声を使用するように構成される。該システムは、最適な吹替版のオーディオファイルのような吹替版のオーディオファイルを選択するようにさらに構成され得る。

上記の概要は、本開示のすべての態様の網羅的なリストを含むものではない。本開示は、上記で要約された様々な態様の全ての適切な組み合わせから実施され得る全てのシステムおよび方法、ならびに以下の「発明を実施するための形態」において開示され、本願とともに出願された請求項において特に指示されるシステムおよび方法を含むことが企図される。そのような組み合わせは、上記の概要に具体的に列挙されていない特定の利点を有する。他の特徴および利点は、添付図面および以下の詳細な説明から明らかになるであろう。

前述の態様および付随する利点の多くは、添付図面と併せて以下の詳細な説明を参照することによってよりよく理解されるので、より容易に理解されるであろう。

一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの概略図である。ノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの別の実施形態を示す図である。一実施形態に係る、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの概略図である。一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用する順方向マッピング関数の概略図である。一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用する逆方向マッピング関数の概略図である。一実施形態に係る、トレーニング済みクロスリンガル音声変換システムを実装するサンプルオンライン映画ストリーミングプラットフォームの概略図である。一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法の概略図である。一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にする順方向マッピング関数を説明する方法の概略図である。一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にする逆方向マッピング関数を説明する方法の概略図である。

以下の説明では、様々な実施形態を例示した図面を参照する。また、以下では、いくつかの実施例を参照して様々な実施形態について説明する。実施形態は、特許請求される主題の範囲から逸脱することなく、設計および構造の変更を含み得ることを理解されたい。

本開示のいくつかの態様では、ノンパラレルデータを用いたクロスリンガル音声変換システムは、第１の言語の第１の音声の音特徴と第２の言語の第２の音声の音特徴と組み合わせて第２の言語の第３の音声候補を生成することによって、音声のリアルタイムまたはほぼリアルタイムの変換および翻訳を可能にする。生成された第３の音声候補は、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含み、そのことにより、第３の音声候補は、第２の言語に特有の言語特徴を保持しながら、第１の音声が第２の言語を話しているかのように聞こえるようになる。これらの目的のために、該システムは、リアルタイムまたはほぼリアルタイムのクロスリンガル音声変換において使用するための第３の音声候補を生成することができる状態になる前に、話者の各々からの複数の音声サンプルを用いてトレーニングされる機械学習システム（例えば、ディープニューラルネットワーク（ＤＮＮ）システム、または敵対的生成ネットワーク（ＧＡＮ）システムのような競合的もしくは敵対的ニューラルネットワークベースのシステム）を備える。クロスリンガル音声変換システムは、第３の音声候補の生成のための機械学習システムのトレーニング中に、音声の各々から音特徴を抽出し、それらを適用するように構成される。

ＧＡＮシステムを使用する実施形態では、前記システムのいくつかの利点は、二言語データおよびそれらのアライメントに依存せず、また自動音声認識（ＡＳＲ）などの任意の外部プロセスにも依存しないことを含む。これらの実施形態では、ＧＡＮシステムはさらに、任意の２つの言語の限られた量のノンパラレルトレーニングデータでトレーニングされ得る。いくつかの実施形態では、ＧＡＮによって最適化された目的関数により、実データまたはグラウンドトゥルースデータと区別不能な人工データが生成される。パラレルデータは、両方の言語において同じ言語内容を含む発話を含むデータであり、これは通常収集することが困難であるが、ノンパラレルデータは、両方の言語において異なる言語内容を含む発話を含むデータである。

図１Ａは、一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換システム１００ａの概略図である。

図１Ａは、第１の言語の第１の音声オーディオセグメント１０４を生成する第１の音声源１０２と、第２の言語の第２の音声オーディオセグメント１０８を生成する第２の音声源１０６とを示す。第１の音声オーディオセグメント１０４および第２の音声オーディオセグメント１０８は、インターネットなどのネットワーク１１０を介して、メモリ１１６内に機械学習システム１１４を記憶するサーバ１１２に送信される。サーバ１１２は、第１および第２のオーディオセグメント１０４、１０６に含まれるデータを、機械学習システム１１４に含まれる命令を用いて処理するように構成された少なくとも１つのプロセッサ１１８をさらに備える。少なくとも１つのプロセッサ１１８は、機械学習システム１１４に含まれるコンピュータコードを実行して、第２の言語の少なくとも１つの第３の音声候補１２０を生成する。例示を容易にするために、本明細書内では単一のサーバを参照して実施例が説明されるが、サーバによって提供されるものとして本明細書内で説明される任意の機能は１つ以上のサーバコンピュータを備えるサーバコンピュータシステムによって提供され得ることを理解されたい。

いくつかの実施形態では、第１および第２の音声オーディオセグメント１０４および１０８は、ユーザがネットワークに接続された電子ユーザデバイス（例えば、ＰＣまたは携帯電話などのコンピュータ）を介してアクセスすることができるユーザインターフェースを介して機械学習システム１１４に転送される。ユーザデバイスは、ユーザが音声セグメントを記録することができる一体化されたマイクロホンまたは補助マイクロホンを有し得る。他の実施形態では、音声セグメントは、予め記録されたデジタルファイルとしてアップロードされ得る。他の実施形態では、オーディオセグメントのうちの１つ以上は合成的に生成され、したがって、オーディオセグメントに記録されたオーディオ信号を生成するのに人間のユーザを必要としない。

いくつかの実施形態では、クロスリンガル音声変換システム１００ａは、機械学習システム１１４に接続された音声データベース１２２をさらに備える。音声データベース１２２は、選択された１つ以上の第３の音声候補を記憶するように構成され、複数のトレーニング済み第３の音声を含む。したがって、システム１００ａは、第１の音声オーディオセグメントおよび第２の音声オーディオセグメントを用いてクロスリンガル変換システム１１４をトレーニングし、音声変換および翻訳中に、将来使用するために音声データベース１２２に記憶されている第３の音声の選択を可能にし得る適切な量の第２の言語の第３の音声オーディオセグメント１２０を生成し得る。これらの選択された第３の音声は、フィルム、オーディオブック、ゲーム、および他のアプリケーションを含む、音声翻訳および変換を必要とし得るメディア作品などの複数の用途で使用され得る。

図１Ｂは、別の実施形態のノンパラレルデータを用いたクロスリンガル変換システム１００ｂを示す。クロスリンガル変換システム１００ｂは、音声オーディオセグメント１０４および１０８の各々からの音声オーディオ特徴に関するさらなる詳細を含む。したがって、図１Ｂの実施形態では、機械学習システム１１４は、第１の音声セグメント１０４から抽出された話者依存音響特徴１２４および第２の音声セグメント１０８から抽出された話者非依存言語特徴１２６を含むデータを用いて、クロスリンガル音声変換のためにトレーニングされるように構成される。クロスリンガル変換の結果、話者依存音響特徴および話者非依存言語特徴を含む第２の言語の第３の音声候補１２０が得られる。

抽出された話者依存音響特徴１２４は、話者の音声の実際の音を特徴付ける音声特徴を指し、聴取者が、例えば、同じピッチ、アクセント、振幅、および抑揚で、同じ単語を話している話者を区別することを可能にする。いくつかの実施形態では、話者依存音響特徴１２４は、音色、共鳴、スペクトル包絡、および平均ピッチ強度などの声道特性に関係する短時間的特徴（例えば、短いオーディオセグメントから判定され得る特徴）である分節的特徴を含む。話者非依存言語特徴１２６は、２つ以上のセグメントにわたるドメインの音響特性に関連する超分節的特徴を含み得、ピッチ曲線、単語の持続時間、リズム、調音、音節、音素、イントネーション曲線、または強勢パターンなどの特徴に関連し得る。これらの超分節的特徴は、言語または方言のアクセントを定める特徴などの特定の言語または方言に特有の言語特徴と高い相関を有し得る。

例として、音色は、話者が特定の音に対して発生させる周波数成分のセットから生じる生理学的特性である、話者依存音響特徴１２４と見なされ得る。したがって、例えば、第３の音声候補１２０は、とりわけ、第１の音声源１０２の音色および第２の音声源１０６のアクセントを含み得、一方で、第１の言語の第１の音声オーディオセグメント１０４の同じ言語内容を保持し、第１の言語から第２の言語へ言語変換され得る。

いくつかの実施形態では、機械学習システム１１４は、ディープニューラルネットワーク（ＤＮＮ）システムなどのニューラルネットワークベースのシステム、または、例えば、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）システムまたはＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＧＡＮ（ＣｙｃｌｅＧＡＮ）システムを含む敵対的生成ネットワーク（ＧＡＮ）システムなどの競合的または敵対的ニューラルネットワークベースのシステムである。機械学習システム１１４は、学習された出力の一部として１つ以上の第３の音声候補を生成するために、第１の音声および第２の音声からのデータセットに基づいてトレーニングするための上記または他の同様の機械学習ベースのネットワークシステムを使用し得る。

図２は、ノンパラレルデータを用いたＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）クロスリンガル変換システムを採用する、別の実施形態のクロスリンガル変換システム２００を示す。

システム２００は、第１の言語の第１の音声オーディオセグメント１０４および第２の言語の第２の音声オーディオセグメント１０８を処理し、これらは機械学習システム１１４に送信される。

機械学習システム１１４は、第２の言語の第３の音声オーディオセグメント１２０が生成され得るように、第１の音声源および第２の音声源の両方から生成された発話を用いてトレーニングされるように構成され得る。開示されているように、図２の機械学習システム１１４において使用されるトレーニングアルゴリズムは、例えば、トレーニング中に整列パラレルコーパスを必要としないＶＡＷ－ＧＡＮアルゴリズムであり得る。

図２に示されている実施例では、機械学習システム１１４は、第１の音声オーディオセグメント１０４および第２の音声オーディオセグメント１０８の両方の表現をマッピングし、各々の音声によって作られた各々の音に関連する周波数成分を抽出するために、音声プロファイルマッピング２０４を行うように構成された音声特徴抽出器２０２を備える。音声特徴抽出器２０２の機能は、エンコーダまたは電話の認識装置の機能と同様である。したがって、音声特徴抽出器２０２は、第１の音声オーディオセグメント１０４の周波数の振幅と第２の音声オーディオセグメント１０８の周波数の振幅との関係を抽出して、各々の音声オーディオセグメントに関係し、正確な音声マッピングを可能にする音声特徴を学習し得る。このような抽出は、特に、スペクトル特徴、ピッチ（基本周波数（ｆ（０））、エネルギー、非周期性関連パラメータなどを抽出することを伴い得る。例えば、音声は、抽出された周波数成分に基づいて互いに対してベクトル空間においてマッピングされ得、音声オーディオセグメントにおいて生成されない音の合成周波数成分の外挿を可能にする。ベクトル空間における音声のマッピングに関するさらなる詳細は、米国特許出願公開第２０１８／０３４２２５６号に開示されている。この特許の内容は、参照により本願明細書に引用したものとする。

第１のオーディオセグメント１０４および第２の音声オーディオセグメント１０８の表現のマッピングは、第１の音声オーディオセグメント１０４および第２の音声オーディオセグメント１０８の各々の話者非依存言語特徴１２６から話者依存音響特徴１２４を分離するために行われる。したがって、音声特徴抽出器２０２は、第１の音声の話者依存音響特徴１２４および第２の音声の話者非依存言語特徴１２６を含む第３の音声候補１２０が生成され得るように、機械学習システム１１４をトレーニングするために周波数成分からこれらの音声特徴を抽出する。

いくつかの実施形態では、機械学習システム１１４は、第１の言語の第１の音声オーディオセグメント１０４および第２の言語の第２の音声オーディオセグメント１０８を、例えば時間的受容フィルタを使用して、分析オーディオセグメントへとフィルタリングする。これらの実施形態では、音声特徴抽出器２０２は、ベクトル空間における各々の音声の表現の後続のマッピングのために、分析オーディオセグメントから周波数成分を抽出する。

機械学習システム１１４は、少なくとも１つの生成器２０６および少なくとも１つの識別器２０８をさらに備え、これらは、ＧＡＮシステムにおいて一緒にトレーニングされる２つのニューラルネットワークである。生成器２０６は、第１の音声セグメント１０４および第２の音声セグメント１０８にそれぞれ含まれる第１の音声の話者依存音響特徴１２４と第２の音声の話者非依存言語特徴１２６との間のマッピング関数を推定し、データを使用して、識別器２０８に送信される第３の音声候補１２０を生成する。生成器２０６は、復号器または合成器として動作する。識別器２０８は、最初に生成された第１の音声の話者依存音響特徴１２４および第２の音声の話者非依存言語特徴１２６を含む音声特徴抽出器２０２からのグラウンドトゥルースデータを受け取り、そのグラウンドトゥルースデータを生成器２０６によって合成的に生成された第３の音声候補１２０と比較するバイナリ分類器として動作する。識別器２０８はさらに、第３の音声候補１２０と第１の音声話者依存音響特徴１２４と第２の音声話者非依存言語特徴１２６との間に少なくとも１つの不一致があるかどうかを判定する。一実施形態では、少なくとも１つの不一致が存在する場合、識別器２０８は、第３の音声候補１２０と第１の音声の話者依存音響特徴１２４と第２の音声の話者非依存言語特徴１２６との間の一貫性損失に関する不一致情報を生成する。最後に、識別器２０８は、第３の音声候補１２０を改良するために、不一致情報を生成器２０６に返す。

いくつかの実施形態では、機械学習システム１１４は、異なるレベルの第１の音声の話者依存音響特徴１２４および第２の音声の話者非依存言語特徴１２６をそれぞれ含む、複数の第３の音声候補１２０を生成するように構成される。例えば、第３の音声候補１２０の各々は、音色の変化を表示し得、またはより強い／より軽いアクセントを有し得、このことは、最適な第３の音声を選択するための様々なオプションを人間またはソフトウェアプログラムに提供し得る。さらなる実施形態では、機械学習システム１１４はさらに、音声翻訳中に使用するために複数の第３の音声候補１２０のうちの１つ以上を選択するように構成される。またさらなる実施形態では、機械学習システム１１４はさらに、選択された１つ以上の第３の音声を機械学習システム１１４に接続されているデータベース（例えば、図１Ａの音声データベース１２２）に記憶するように構成され、データベースは、選択された第３の音声に対応する複数のトレーニング済みＧＡＮニューラルネットワークを含む。

図３Ａ～図３Ｂは、少なくとも敵対的損失関数およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含むＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＧＡＮ（ＣｙｃｌｅＧＡＮ）アルゴリズムを採用するクロスリンガル変換システム３００の実施形態を示す。敵対的損失は、生成されたデータ（例えば、生成された第３の音声候補）の分布と、実際の対象データ（例えば、実際の話者依存音響特徴および話者非依存言語特徴）の分布とを区別不能にするために使用される。一方、サイクル一貫性損失は、入力情報がネットワーク全体を通して処理されるときに不変であるように、入力情報の一部を制約するために導入され得る。このことにより、対になっていないクロスリンガルデータから最適な擬似対を見つけることが可能になる。さらに、敵対的損失は、変換された特徴シーケンスの過剰平滑化を低減することに寄与する。ＣｙｃｌｅＧＡＮは、対になったトレーニングデータが存在しないいくつかのタスクに対して顕著な結果をもたらすことが知られている。いくつかの実施形態では、ＣｙｃｌｅＧＡＮトレーニング中に、変換された第３の候補において使用すべき第１の音声オーディオセグメントおよび第２の音声オーディオセグメントの各々の識別関連特徴を維持するのに役立つ識別マッピング損失も考慮され得る。これらの損失を組み合わせることによって、対になっていないトレーニングサンプルからモデルを学習することができ、学習されたマッピングは、入力を所望の出力にマッピングすることができる。

図３Ａは、一実施形態に係る、機械学習システム１１４で採用され得るＣｙｃｌｅＧＡＮアルゴリズム３００を使用する順方向マッピング関数３０２の概略図である。順方向マッピング関数３０２は、特徴抽出器２０２から、第１の言語の第１の音声オーディオセグメント１０２を受信し、音声特徴抽出器２０２によって、第１の音声の話者依存音響特徴１２４を抽出することによって進行する。第１の音声の話者依存音響特徴１２４は、第１の言語の第１の音声オーディオセグメント１０２から直接抽出されるので、これらの特徴は、本明細書では、プロセスにおいて後で生成された作成済み第１の音声の話者依存音響特徴と区別するためにグラウンドトゥルースの第１の音声の話者依存音響特徴１２４とも呼ばれる。

順方向マッピング関数３０２は、第１の生成器３０６の一部である第１から第３への音声候補生成器３０４に対して、グラウンドトゥルースの第１の音声の話者依存音響特徴１２４を送信することによって進行する。次に、順方向マッピング関数３０２は、第１から第３への音声候補生成器３０４によって、逆方向マッピング関数３０８Ａから抽出されたグラウンドトゥルースの第２の音声の話者非依存言語特徴１２６を受信する。その後、順方向マッピング関数３０２は、第１から第３への音声候補生成器３０４を介して、第１の言語の第１の音声オーディオセグメント１０４から抽出されたグラウンドトゥルースの第１の音声の話者依存音響特徴１２４、および逆方向マッピング関数３０８Ａから受信されたグラウンドトゥルースの第２の音声の話者非依存言語特徴１２６を使用して、第２の言語の第３の音声候補３１０を生成する。したがって、第１の言語の第１の音声オーディオセグメント１０４に含まれる言語内容と共に第３の音声候補３１０に含まれる作成済み第１の音声の話者依存音響特徴は、グラウンドトゥルースの話者依存音響特徴１２４と区別不能なはずであるが、第３の音声候補３１０が第２の言語に特有の第２の音声の話者非依存言語特徴１２６を含み、結果として生じるメッセージが第２の言語に翻訳されるという違いを有する。

順方向マッピング関数３０２は、第１の識別器３１２を通して、第３の音声候補３１０に含まれる作成済み第１の音声の話者依存音響特徴とグラウンドトゥルースの第１の音声の話者依存音響特徴１２４との間に不一致があるかどうかの判定を行う３１４。不一致がある場合、第１の識別器３１２は、一貫性損失に関する不一致情報３１６を生成する。最後に、第１の識別器３１２は、第３の音声候補３１０を改良するために、不一致情報３１６を第１から第３への音声候補生成器３０４に返す。

第３の音声候補３０８は、第１の生成器３０６の一部である第３から第１への話者生成器３１８に送信し、第３から第１への話者生成器３１８は、第３の音声候補３１０を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第１の音声の話者依存音響特徴３２０を生成する。変換済み第１の音声の話者依存音響特徴３２０は、その後、第３の音声候補３１０をさらに改良するために、トレーニングプロセスを継続するように第１から第３への音声候補生成器３０４に返される。第３の音声候補３１０が第１の音声の話者依存音響特徴１２４と一致する場合、順方向マッピング関数３０２は終了し得る３２２。

順方向マッピング関数３０２は、逆方向マッピング関数３０８と並行して実行され、これは、図３Ａに示されている平行線３２４で表される。

図３Ｂは、一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用する逆方向マッピング関数３１０の概略図である。

順方向マッピング関数３０８は、特徴抽出器２０２から、第２の言語の第２の音声オーディオセグメント１０８を受信し、音声特徴抽出器２０２によって、第２の音声の話者非依存言語特徴１２６を抽出することによって進行する。第２の音声の話者非依存言語特徴１２６は、第２の言語の第２の音声オーディオセグメント１０４から直接抽出されるので、これらの特徴は、本明細書では、プロセスにおいて後で生成された作成済み第２の音声の話者非依存言語特徴と区別するためにグラウンドトゥルースの第２の音声の話者非依存言語特徴１２６とも呼ばれる。

逆方向マッピング関数３０８は、第２の生成器３２８の一部である第２から第３への音声候補生成器３２６に対して、グラウンドトゥルースの第２の音声の話者非依存言語特徴１２６を送信することによって進行する。次に、逆方向マッピング関数３０８は、第２から第３への音声候補生成器３２６によって、順方向マッピング関数３０２Ｂからグラウンドトゥルースの第１の音声の話者依存音響特徴１２４を受信する。その後、逆方向マッピング関数３０８は、第２から第３への音声候補生成器３２６を介して、第２の言語の第２の音声オーディオセグメント１０８から抽出されたグラウンドトゥルースの第２の音声の話者非依存音響特徴１２６および順方向マッピング関数３０２Ａから受信されたグラウンドトゥルースの第１の音声の話者依存音響特徴１２４を使用して、第２の言語の第４の音声候補３３０を生成する。したがって、第４の音声候補３３０に含まれる作成済み第２の音声の話者非依存言語特徴は、グラウンドトゥルースの第２の音声の話者非依存言語特徴１２６と区別不能であるはずであるが、第４の音声候補３３０が第１の言語の第１の音声オーディオセグメント１０４に特有の第１の音声の話者依存音響特徴１２４を含み、第１の言語の第１の音声オーディオセグメント１０４によって生成されたメッセージの元の言語内容を伝え、結果として生じるメッセージが第２の言語に翻訳されるという違いを有する。

逆方向マッピング関数３０８は、第２の識別器３３２を通して、第４の音声候補３３０に含まれる作成済み第２の音声の話者非依存言語特徴とグラウンドトゥルースの第２の音声の話者非依存音響特徴１２６との間に不一致があるかどうかの判定を行う３３４。不一致がある場合、第２の識別器３３２は、一貫性損失に関する不一致情報３３６を生成する。第２の識別器３３２は、第４の音声候補３３０を改良するために、不一致情報３３６を第２から第３への音声候補生成器３２６に返す。

次に、第４の音声候補３３０は、第２の生成器３２８の一部である第３から第２への話者生成器３３８に送られ、第３から第２への話者生成器３３８は、第４の音声候補３３０を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第２の音声の話者非依存言語特徴３４０を生成する。変換済み第２の音声の話者非依存言語特徴３４０は、その後、第４の音声候補３３０をさらに改良するために、トレーニングプロセスを継続するように第２から第３への音声候補生成器３２６に返される。第４の音声候補３３０が第２の音声の話者非依存音響特徴１２６と一致する場合、逆方向マッピング関数３０８は終了し得る３４２。

図４は、一実施形態に係る、トレーニング済みクロスリンガル音声変換システムを実装するサンプルオンライン映画ストリーミングプラットフォーム４００の概略図である。

オンライン映画ストリーミングプラットフォーム４００は、ユーザが、オリジナル版４０６のフィルム４０２のオーディオ、オリジナルの俳優の音声４０８による第２の言語の吹替版、および声優４１０による第２の言語の吹替版を有するような様々なオプションの選択を可能にする言語メニュー４０４を含むフィルム４０２を選択することを可能にする。第１の言語を話すオリジナルの声優から生成された第１の音声オーディオは、オリジナル版４０６のために使用され得、第２の音声オーディオは、声優４１０による第２の言語を含む言語選択オプション４０４のために第２の言語を話す声優から生成され得る。オリジナルのオーディオの第２の言語への翻訳および第１の話者と第２の話者との間の特徴の変換は、例えば、図１Ａ～図３Ｂのシステム１００ａ～３００で示されているシステムを通して、声優４１０による第２の言語の吹替版を可能にするための本開示のクロスリンガル音声変換システムの実装を伴う。

したがって、本開示の図１Ａ～図３Ｂの１００ａ～３００のクロスリンガル変換システムは、オリジナル俳優の音声が所望の言語に翻訳された映画のバージョンを視聴者に提供するように構成され得る。例として、図１Ｂを参照すると、オリジナル俳優の音声は、言語内容（例えば、オリジナル俳優が役を演じる映画の台本に関連する）と共に話者依存音響特徴１２４を伝え、声優によって生成された第２の音声オーディオセグメント１０８は、声優の非依存言語特徴１２６を用いて機械学習システム１１４をトレーニングするのに役立つ。話者依存音響特徴１２４と話者非依存言語特徴１２６との組み合わせは、十分な回数のトレーニングおよび改良の後に、オリジナルの俳優の音声による吹替版４０８としての機能を果たすために第２の言語の選択された第３の音声候補１２０として使用され得る、１つ以上の第３の音声候補を生成する。いくつかの実施形態では、複数の生成済み第３の音声は、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において使用され得、最適な吹替版のオーディオファイルを選択するための幅広いオプションを可能にする。選択は、人間（例えば、システム管理者）によって手動で、またはコンピュータコード（例えば、人工知能プログラム）によって自動的に実行され得る。

図５は、一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法５００の概略図である。

方法５００は、ステップ５０２から開始し、５０４において、音声特徴抽出器によって、第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントを受信する。方法５００は、ステップ５０６に進み、音声特徴抽出器を通して、第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントからそれぞれ、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むオーディオ特徴（本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータとも呼ばれる）を抽出する。ステップ５０８において、方法５００は、第１の音声の話者非依存音響特徴および第２の音声の話者非依存言語特徴を用いて生成器をトレーニングする。ステップ５１０において、該方法は、トレーニング済みデータセットから、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を保持する第３の音声候補であって、第２の言語を話す第３の音声候補を生成する。

その後、方法５００はステップ５１２に進み、１つ以上の識別器が第３の音声候補を第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較する。この比較によって、１つ以上の識別器は、チェック５１４において、第３の音声候補と第１の音声の話者依存音響特徴と第２の音声の話者非依存言語特徴との間に少なくとも１つの不一致があるかどうかを判定する。少なくとも１つの不一致が存在する場合、識別器は、ステップ５１６において、第３の音声候補と第１の音声の話者依存音響特徴と第２の音声の話者非依存言語特徴との間の一貫性損失に関する不一致情報を生成する。ステップ５１８において、識別器は、第３の音声候補を改良するために不一致情報を生成器に返し、ステップ５１０にループバックする。第３の音声候補が第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと一致する場合、該方法は終了し得る５２０。

いくつかの実施形態では、方法５００は、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）アルゴリズムを使用して実装される。

図６は、一実施形態に係る、Ｃｙｃｌｅ－Ｃｏｎｓｉｓｔｅｎｔ（ＣｙｃｌｅＧＡＮ）アルゴリズムを使用することによってノンパラレルデータを用いたクロスリンガル音声変換を可能にする順方向マッピング関数を説明する方法６００の概略図である。順方向マッピング関数は、図７を参照して方法７００で説明される逆方向マッピング関数と同時に実行される。

方法６００の順方向マッピング関数は、ステップ６０２から開始し、ステップ６０４において、特徴抽出器によって第１の言語の第１の音声オーディオセグメントを受信し、ステップ６０６に進み、特徴抽出器によって第１の音声の話者依存音響特徴を抽出する。順方向マッピング関数は、ステップ６０８に進み、第１の生成器の一部である第１から第３への話者生成器に第１の音声の話者依存音響特徴を送信する。その後、順方向マッピング関数は、続けてステップ６１０に進み、第１から第３への話者生成器によって、逆方向マッピング関数から第２の言語の第２の音声の話者非依存言語特徴を受信する。第１の音声オーディオセグメントから抽出された第１の音声の話者依存音響特徴および逆方向マッピング関数からの第２の音声の話者非依存言語特徴は、本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータと呼ばれる。続いて、順方向マッピング関数は、ステップ６１２において、第１の生成器を介して、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータを使用して、第３の音声候補を生成する。

順方向マッピング関数は、チェック６１４において、第１の識別器によって、第３の音声候補とグラウンドトゥルースの第１の音声の話者依存音響特徴との間に矛盾があるかどうかを判定する。矛盾がある場合、第１の識別器は、ステップ６１６において、一貫性損失に関する不一致情報を生成する。ステップ６１８において、第１の識別器は、第３の音声候補を改良するために、不一致情報を第１から第３への音声候補生成器に返す。該方法は、続いてステップ６２０に進み、第１の識別器が第３の音声候補を第１の生成器の一部である第３から第１への話者生成器に送信する。第３から第１への話者生成器は、ステップ６２２において、第３の音声候補を利用して、変換された特徴の過剰平滑化の低減に寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第１の音声の話者依存音響特徴を生成する。変換済み第１の音声の話者依存音響特徴は、その後、ステップ６２４に示されているように、第３の音声候補をさらに改良するために、トレーニングプロセスを継続するように第１から第３への音声候補生成器に返され、ステップ６１２にループバックされる。第３の音声候補が第１の音声の話者依存音響特徴と一致する場合、順方向マッピング関数は終了し得る６２６。

図７は、一実施形態に係る、ＣｙｃｌｅＧＡＮアルゴリズムを使用することによってノンパラレルデータを用いたクロスリンガル音声変換を可能にする逆方向マッピング関数を説明する方法７００の概略図である。方法６００の順方向マッピング関数と方法７００の逆方向マッピング関数の両方が、ＣｙｃｌｅＧＡＮアルゴリズムトレーニングの一部として同時に実行される。

方法７００の逆方向マッピング関数は、ステップ７０２から開始し、ステップ７０４において、特徴抽出器によって第２の言語の第２の音声オーディオセグメントを受信し、続けて、ステップ７０６に進み、特徴抽出器によって第２の音声の話者非依存言語特徴を抽出する。次に、逆方向マッピング関数は、ステップ７０８に進み、第２の生成器の一部である第２から第３への音声候補生成器に第２の音声の話者非依存言語特徴を送信する。続いて、ステップ７１０において、逆方向マッピング関数は、第２から第３への音声候補生成器によって、順方向マッピング関数から第１の音声の話者依存音響特徴を受信する。第２の音声オーディオセグメントから抽出された第２の音声の話者非依存言語特徴および順方向マッピング関数からの第１の音声の話者依存音響特徴は、本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータと呼ばれる。逆方向マッピング関数は、続けて、ステップ７１２に進み、第２から第３への音声候補生成器によって、第２の音声の話者依存音響特徴および第１の音声の話者依存音響特徴を使用して、第３の音声候補を生成する。

逆方向マッピング関数は、チェック７１４において、第２の識別器によって、第３の音声候補と第２の音声の話者非依存言語特徴との間に矛盾があるかどうかを判定する。矛盾がある場合、第２の識別器は、ステップ７１６において、一貫性損失に関する不一致情報を生成する。ステップ７１８において、第２の識別器は、第３の音声候補を改良するために、不一致情報を第２から第３への音声候補生成器に返す。次に、第３の音声候補は、ステップ７２０において、第２の生成器の一部である第３から第２への話者生成器に送信される。第３から第２への話者生成器は、ステップ７２２において、第３の音声候補を利用して、変換された特徴の過剰平滑化の低減に寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第２の音声の話者非依存言語特徴を生成する。変換済み第２の音声の話者非依存言語特徴は、その後、ステップ７２４において、第３の音声候補をさらに改良するために、トレーニングプロセスを継続するように第２から第３への音声候補生成器に返され、ステップ７１２にループバックされる。第３の音声候補が第２の音声の話者非依存音響特徴と一致する場合、逆方向マッピング関数は終了し得る７２６。

図５～図７の方法５００～７００の実装を可能にする、図１Ａ～図３Ｂに示されている機械学習システム１１４およびその中に含まれる様々な要素（例えば、１つ以上の音声特徴抽出器２０２、生成器２０６、または識別器２０８）は、ソフトウェアまたはファームウェアを実行する複数のマイクロプロセッサを使用する少なくとも１つのプロセッサ１１８によって実装され得る、または１つ以上の特定用途向け集積回路（ＡＳＩＣ）および関連ソフトウェアを使用して実装され得る。他の実施例では、図５～図７の方法５００～７００の実施を可能にする、機械学習システム１１４およびその中に含まれる様々な要素は、ＡＳＩＣ、個別の電子部品（例えば、トランジスタ）、およびマイクロプロセッサの組み合わせを使用して実装され得る。いくつかの実施形態では、機械学習システム１１４は、複数の異なる機械にわたって分散され得る。いくつかの実施形態では、別個のものとして示される構成要素は、単一の構成要素によって置き換えられてもよい。さらに、表示されている構成要素のいくつかは、追加の構成要素であり得る、または他の構成要素で置き換えられ得る。

さらに、１つ以上のコンピュータに本明細書内で説明する方法のいずれかを実行させるように構成された命令を記憶したコンピュータ可読媒体について説明する。コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶することができる任意の方法または技術で実装された揮発性または不揮発性の媒体、取り外し可能もしくは取り外し不可能な媒体を含み得る。一般に、本明細書内で説明されるコンピューティングデバイスの機能は、Ｃ、Ｃ＋＋、ＣＯＢＯＬ、ＪＡＶＡ（登録商標）、ＰＨＰ、Ｐｅｒｌ、Ｐｙｔｈｏｎ、Ｒｕｂｙ、ＨＴＭＬ、ＣＳＳ、ＪａｖａＳｃｒｉｐｔ、ＶＢＳｃｒｉｐｔ、ＡＳＰＸ、Ｃ＃のようなＭｉｃｒｏｓｏｆｔ．ＮＥＴ（登録商標）言語などのプログラミング言語で書かれ得るハードウェア命令またはソフトウェア命令で具現化されたコンピューティング論理で実装され得る。コンピューティング論理は、実行可能プログラムにコンパイルされ得る、または解釈されたプログラミング言語で書かれ得る。一般に、本明細書内で説明されている機能は、より大きい処理能力を提供するために複製され得るか、他のモジュールとマージされ得るか、またはサブモジュールに分割され得る論理モジュールとして実装され得る。コンピューティング論理は、任意のタイプのコンピュータ可読媒体（例えば、メモリもしくは記憶媒体などの非一時的な媒体）またはコンピュータ記憶装置に記憶され、１つ以上の汎用もしくは専用プロセッサ上に記憶されて、そのプロセッサによって実行され得、その結果、本明細書内で説明する機能を提供するように構成された専用コンピューティングデバイスが作成され得る。

特定の実施形態が説明され、添付図面に示されているが、そのような実施形態は例示的なものに過ぎず、広範な発明を限定するものではなく、当業者は様々な他の修正形態に気付き得るので、本発明は図示され説明されている特定の構成および配置に限定されないことを理解されたい。したがって、説明は、限定ではなく例示と見なされるべきである。

Claims

機械学習システムによって実行されるクロスリンガル音声変換の方法であって、前記方法は、
音声特徴抽出器によって、第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントを受信することと、
前記音声特徴抽出器によって、前記第１の音声オーディオセグメントおよび前記第２の音声オーディオセグメントからそれぞれ、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むオーディオ特徴を抽出することと、
敵対的生成ネットワーク（ＧＡＮ）システムの生成器を介して、トレーニング済みデータセットから、前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を有する第３の音声候補であって、前記第２の言語を話す第３の音声候補を生成することと、
前記ＧＡＮシステムの１つ以上の識別器を介して、前記第３の音声候補を前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較することと、
前記第３の音声候補を改良するために、前記比較ステップの結果を前記生成器に返すことと、
を含む、方法。
前記話者依存音響特徴は、声道特性に関連する短時間分節的特徴を含み、前記話者非依存言語特徴は、２つ以上のセグメントにわたる音響特性に関連する超分節的特徴を含む、請求項１に記載の方法。
複数の第３の音声候補を生成することであって、各第３の音声候補は、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むことをさらに含む、請求項１に記載の方法。
音声翻訳中に使用するために前記複数の第３の音声候補のうちの１つ以上を選択することをさらに含む、請求項３に記載の方法。
選択された１つ以上の第３の音声候補を、前記機械学習システムに接続され、複数の異なるトレーニング済み第３の音声を含むデータベースに記憶することをさらに含む、請求項４に記載の方法。
前記ＧＡＮシステムは、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）システムまたはＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＧＡＮ（ＣｙｃｌｅＧＡＮ）システムである、請求項１に記載のシステム。
前記第１の音声は、前記第１の言語を話すオリジナルの俳優の音声であり、前記第２の音声は、前記第２の言語を話す声優である、請求項１に記載の方法。
オリジナル版、前記オリジナルの俳優の音声による吹替版、または前記声優の音声による吹替版の選択を可能にする映画音声翻訳中に実施される、請求項７に記載の方法。
複数の第３の音声候補を生成することであって、各第３の音声候補は、異なるレベルの第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むことと、
異なるレベルの前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、前記複数の生成済み第３の音声候補を使用することと、
をさらに含む、請求項８に記載の方法。
サイクル一貫性のある敵対的生成ネットワーク（ＣｙｃｌｅＧＡＮ）システムをトレーニングする方法であって、前記方法は、少なくとも敵対的損失およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含み、前記順方向マッピング関数は、
音声特徴抽出器によって、第１の言語の第１の音声オーディオセグメントを受信すること、
前記音声特徴抽出器によって、第１の音声の話者依存音響特徴を抽出すること、
前記第１の音声の話者依存音響特徴を前記ＣｙｃｌｅＧＡＮシステムの第１から第３への話者生成器に送信すること、
前記第１から第３への話者生成器によって、前記逆方向マッピング関数から第２の音声の話者非依存言語特徴を受信すること、
前記第１から第３への話者生成器によって、前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を使用して第３の音声候補を生成すること、および
前記ＣｙｃｌｅＧＡＮシステムの第１の識別器によって、前記第３の音声候補と前記第１の音声の話者依存音響特徴との間に矛盾があるかどうかを決定すること
を含み、
前記逆方向マッピング関数は、
前記特徴抽出器によって、第２の言語の第２の音声オーディオセグメントを受信すること、
前記特徴抽出器によって、前記第２の音声の話者非依存言語特徴を抽出すること、
前記第２の音声の話者非依存言語特徴を第２から第３への音声候補生成器に送信すること、
前記第２から第３への音声候補生成器によって、前記順方向マッピング関数から第１の音声の話者依存音響特徴を受信すること、
前記第２から第３への音声候補生成器によって、前記第２の音声の話者非依存言語特徴および前記第１の音声の話者依存音響特徴を使用して第４の音声候補を生成すること、および
第２識別器によって、前記第４の音声候補と前記第２の音声の話者非依存言語特徴との間に矛盾があるかどうかを決定すること
を含む、方法。
前記順方向マッピング関数は、前記第１の識別器が前記第３の音声候補と前記第１の音声の話者依存音響特徴とが一致しないと判定した場合に、前記方法をトリガして、続けて、
前記第３の音声候補を改良するために、第１の不一致情報を前記第１から第３への音声候補生成器に返し、
前記第３の音声候補を第３から第１への話者生成器に送信し、
変換済み第１の音声の話者依存音響特徴を生成し、
前記変換済み第１の音声の話者依存音響特徴を前記第１から第３への音声候補生成器に返し、
前記逆方向マッピング関数は、前記第２の識別器が前記第４の音声候補と前記第２の音声の話者非依存言語特徴とが一致しないと判定した場合に、前記方法をトリガして、続けて、
前記第４の音声候補を改良するために、第２の不一致情報を前記第２から第３への音声候補生成器に返し、
前記第４の音声候補を第３から第２への話者生成器に送信し、
変換済み第２の音声の話者非依存言語特徴を生成し、
前記変換済み第２の音声の話者非依存言語特徴を前記第２から第３への音声候補生成器に返す、請求項１０に記載の方法。
前記第１の音声オーディオセグメントおよび前記第２の音声オーディオセグメントの各々の識別関連特徴を維持するための識別マッピング損失を採用することをさらに含む、請求項１０に記載の方法。
サーバコンピュータシステムのメモリに記憶され、少なくとも１つのプロセッサによって実装される機械学習システムであって、前記機械学習システムが、
音声特徴抽出器であって、
第１の言語の第１の音声オーディオセグメントおよび第２の言語の第２の音声オーディオセグメントを受信し、
前記第１の音声オーディオセグメントおよび前記第２の音声オーディオセグメントからそれぞれ、第１の音声の話者依存音響特徴および第２の音声の話者非依存言語特徴を含むオーディオ特徴を抽出する
ように構成された、音声特徴抽出器と、
１つ以上の生成器および１つ以上の識別器を備える敵対的生成ネットワーク（ＧＡＮ）であって、前記１つ以上の生成器は、
抽出された特徴を受信し、
前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を有する第３の音声候補であって、前記第２の言語を話す第３の音声候補を生成する
ように構成され、
前記１つ以上の識別器は、
前記第３の音声候補を前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較し、
前記第３の音声候補を改良するために、前記比較の結果を前記生成器に返す
ように構成される、敵対的生成ネットワーク（ＧＡＮ）と、
を備える、機械学習システム。
前記話者依存音響特徴は、声道特性に関連する短時間分節的特徴を含み、前記話者非依存言語特徴は、２つ以上のセグメントにわたる音響特性に関連する超分節的特徴を含む、請求項１３に記載のシステム。
前記１つ以上の生成器は、選択のための複数の第３の音声候補を生成するようにさらに構成される、請求項１３に記載のシステム。
前記ＧＡＮシステムは、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｉｎｇＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＶＡＷ－ＧＡＮ）システムまたはＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＧＡＮ（ＣｙｃｌｅＧＡＮ）システムである、請求項１３に記載のシステム。
前記機械学習システムに接続され、選択された１つ以上の第３の音声を記憶するように構成され、複数の異なるトレーニング済み第３の音声を含むデータベースをさらに備える、請求項１３に記載のシステム。
前記第１の音声は、前記第１の言語を話すオリジナルの俳優の音声であり、前記第２の音声は、前記第２の言語を話す声優である、請求項１３に記載のシステム。
オリジナル版、オリジナル俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳のために構成される、請求項１３に記載のシステム。
前記機械学習システムはさらに、
異なるレベルの前記第１の音声の話者依存音響特徴および前記第２の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルを生成する
ように構成される、請求項１３に記載のシステム。