JP4543919B2 - Language learning device - Google Patents
Language learning device Download PDFInfo
- Publication number
- JP4543919B2 JP4543919B2 JP2004371875A JP2004371875A JP4543919B2 JP 4543919 B2 JP4543919 B2 JP 4543919B2 JP 2004371875 A JP2004371875 A JP 2004371875A JP 2004371875 A JP2004371875 A JP 2004371875A JP 4543919 B2 JP4543919 B2 JP 4543919B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- difference
- user
- model
- user voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、語学学習を支援する語学学習システムに関する。 The present invention relates to a language learning system that supports language learning.
外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。ここで、学習をより効果的に進めるためには、模範音声と自分の音声との差を客観的に評価する必要がある。しかし、CDに記録された模範音声を聞いてその真似をするだけでは、自分の発した音声と模範音声との差を具体的に把握することが困難であるという問題があった。 In language learning of foreign languages or native languages, especially self-study of pronunciation or utterance, a model voice recorded on a recording medium such as a CD (Compact Disk) is played, and the model voice is imitated to pronounce or speak. The learning method is widely used. The purpose of this is to acquire correct pronunciation by imitating model voices. Here, in order to advance learning more effectively, it is necessary to objectively evaluate the difference between the model voice and one's own voice. However, there is a problem that it is difficult to specifically grasp the difference between the voice produced by the user and the model voice only by listening to the model voice recorded on the CD and imitating the model voice.
このような問題を解決する技術として、例えば特許文献1〜3に記載の技術がある。特許文献1には、模範音声とユーザ音声とを同時に再生する技術が開示されている。特許文献2には、模範音声の波形(模範波形)とユーザ音声の波形(自声波形)とを同時に出力する技術が開示されている。特許文献3には、模範音声とユーザ音声との比較を行う際に両者の頭を揃えたり、両者の長さを同一にするために一方の音声を一律に引き伸ばす技術が開示されている。
特許文献1に記載の技術においては、模範音声とユーザ音声とが同時に再生されるのみで、両者の差異点が分かりにくいという問題があった。また、特許文献2に記載の技術においても、模範音声の波形とユーザ音声の波形とが同時に出力されるのみで、両者の差異点が分かりにくいという問題があった。さらに、特許文献3に記載の技術においては、模範音声とユーザ音声の長さを揃えるために、一方の音声の長さを一律に引き伸ばすのみであり、時間軸に対して両者の音韻が必ずしも一致しないという問題があった。
The technique described in
本発明は上述の事情に鑑みてなされたものであり、模範音声とユーザ音声との差異点を提示することができる語学学習装置を提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a language learning device capable of presenting differences between a model voice and a user voice.
上述の課題を解決するため、本発明は、模範音声を記憶する記憶手段と、ユーザ音声を入力する入力手段と、前記模範音声および前記ユーザ音声をそれぞれ、子音部分と母音部分とに分離する分離手段と、前記模範音声および前記ユーザ音声の長さが同一となるように、前記模範音声あるいは前記ユーザ音声の母音部分の長さを変化させる処理手段と、前記処理手段により長さが揃えられた模範音声とユーザ音声とを比較し、差異点を抽出する比較手段とを有する語学学習装置を提供する。 In order to solve the above-described problem, the present invention provides a storage unit that stores an exemplary voice, an input unit that inputs a user voice, and a separation that separates the exemplary voice and the user voice into a consonant part and a vowel part, respectively. And the processing unit for changing the length of the vowel part of the exemplary voice or the user voice so that the lengths of the exemplary voice and the user voice are the same. Provided is a language learning device having comparison means for comparing a model voice and a user voice and extracting a difference point.
好ましい態様において、この語学学習装置は、前記模範音声および前記ユーザ音声のいずれか一方の子音部分を、他方の子音部分と時間軸上の位置が同じとなるように再配置する再配置手段をさらに有し、前記処理手段が、前記再配置手段により再配置された子音部分と、時間軸上でその子音部分の次に現れる子音部分との間に位置する母音部分の長さをそれぞれ変化させることにより、前記模範音声および前記ユーザ音声の長さを同一としてもよい。
別の好ましい態様において、この語学学習装置は、前記ユーザ音声および前記模範音声に対し所定のパラメータを抽出し、該パラメータの変化量に応じた図形を示す画像データを生成する画像生成手段と、前記画像生成手段により生成された画像データを、前記比較手段により抽出された差異点で異なる表示態様で表示を行う表示手段とをさらに有してもよい。
In a preferred embodiment, the language learning device further includes a rearrangement unit that rearranges the consonant part of either the model voice or the user voice so that the position on the time axis is the same as that of the other consonant part. And the processing means changes a length of a vowel part positioned between a consonant part rearranged by the rearrangement means and a consonant part appearing next to the consonant part on the time axis. Thus, the model voice and the user voice may have the same length.
In another preferred embodiment, the language learning device extracts predetermined parameters for the user voice and the model voice, and generates image data indicating a graphic corresponding to a change amount of the parameter; You may further have a display means to display the image data produced | generated by the image production | generation means in a different display mode by the difference extracted by the said comparison means.
さらに別の好ましい態様において、この語学学習装置は、前記比較手段により抽出された差異点を強調する差異点強調手段と、前記差異点強調手段により差異点が強調された音声を出力する出力手段とをさらに有してもよい。
この態様において、前記差異点強調手段が、前記比較手段により差異点が抽出された部分については模範音声の音量をユーザ音声の音量より大きくし、前記比較手段により差異点が抽出されなかった部分については模範音声の音量をユーザ音声の音量より小さくすることとしてもよい。
あるいは、前記差異点強調手段が、前記比較手段により差異点が抽出された部分については模範音声のうち特定の周波数領域を増幅することとしてもよい。
In still another preferred embodiment, the language learning device includes a difference point emphasizing unit that emphasizes the difference points extracted by the comparison unit, and an output unit that outputs a voice in which the difference points are emphasized by the difference point emphasizing unit. May further be included.
In this aspect, the difference highlighting means makes the volume of the model voice higher than the volume of the user voice for the part where the difference is extracted by the comparison means, and the part where the difference is not extracted by the comparison means The volume of the model voice may be made smaller than the volume of the user voice.
Alternatively, the difference point emphasizing unit may amplify a specific frequency region in the model voice for the portion from which the difference point is extracted by the comparison unit.
本発明によれば、ユーザは自分の音声と模範音声との差異がある部分を具体的に特定することができる。 According to the present invention, the user can specifically specify a portion where there is a difference between the user's voice and the model voice.
以下、図面を参照して本発明の実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態に係る語学学習装置1の機能構成を示すブロック図である。記憶部10は、語学学習においてお手本となる音声を示す模範音声データを記憶する。入力部20は、ユーザ(学習者あるいは生徒)の音声を取得し、ユーザ音声データを出力する。データ処理部30は、ユーザ音声と模範音声とが同一の長さとなるようにユーザ音声データの処理を行う。差異点抽出部40は同一の長さに揃えられたユーザ音声データと模範音声データとを比較して、両者の差異点を抽出する。差異点強調部50は、模範音声データおよびユーザ音声データに対して差異点抽出部40で抽出された差異点を強調する処理を行う。音声出力部60は、差異点が強調された模範音声およびユーザ音声を再生する。各構成要素の機能の詳細については後述する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<First Embodiment>
FIG. 1 is a block diagram showing a functional configuration of a
図2は、語学学習装置1のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)101は、RAM(Random Access Memory)102を作業エリアとして、ROM(Read Only Memory)103あるいはHDD(Hard Disk Drive)104に記憶されているプログラムを読み出して実行する。HDD104は、各種アプリケーションプログラムやデータを記憶する記憶装置である。本実施形態に関して、特に、HDD104は、語学学習プログラム、この語学学習プログラムで使用する模範音声データを記録した模範音声データベースDB1を記憶している。
FIG. 2 is a block diagram illustrating a hardware configuration of the
ディスプレイ105は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等、CPU101の制御下で文字や画像を表示する表示装置である。マイク106は、ユーザの音声を取得するための集音装置であり、ユーザの発した音声に対応する音声信号を出力する。音声処理部107は、マイク106により出力されたアナログ音声信号をデジタル音声データに変換する機能や、HDD104に記憶された音声データを音声信号に変換してスピーカ108に出力する機能を有する。また、ユーザはキーボード109を操作することにより、語学学習装置1に対して指示入力を行うことができる。以上で説明した各構成要素は、バス110を介して相互に接続されている。
The
図3は、模範音声データベースDB1の内容を示す図である。模範音声データベースDB1には、語学学習に用いる例文(例えば、英語の学習において「Good to see you again. How are you?」等の例文)のテキストデータと、例文単位の音声波形をデジタル化した音声波形データと、その例文を特定する識別子とが複数記憶されている。例文テキストデータ、音声波形データ、識別子はそれぞれ対応付けられている。 FIG. 3 is a diagram showing the contents of the model voice database DB1. In the exemplary speech database DB1, text data of example sentences used for language learning (for example, “Good to see you again. How are you?” Etc. in English learning) and voices obtained by digitizing speech waveforms in units of example sentences. A plurality of waveform data and identifiers specifying the example sentences are stored. Example sentence text data, speech waveform data, and an identifier are associated with each other.
続いて、語学学習装置1の動作について説明する。本実施形態においては、CPU101がHDD104に記憶された語学学習プログラムを実行することにより、語学学習装置1において図1に示される各機能構成要素に相当する機能が実現される。
Next, the operation of the
図4は、本実施形態に係る語学学習装置1の動作を示すフローチャートである。語学学習プログラムを実行すると、CPU101は、ディスプレイ105上に例文の選択を促すメッセージを表示する。ユーザはディスプレイ105上に表示されたメッセージに従い、模範音声データベースDB1に記録された例文から1の例文を選択する。CPU101は選択された例文の音声を再生する(ステップS101)。具体的には次のとおりである。CPU101は、模範音声データベースDB1から、選択された例文に対応する模範音声データを抽出する。CPU101は、抽出した模範音声データを音声処理部107に出力する。音声処理部107は入力された模範音声データをデジタル/アナログ変換してアナログ音声信号としてスピーカ108に出力する。こうして模範音声が再生される。
FIG. 4 is a flowchart showing the operation of the
ユーザはスピーカ108から再生された模範音声を聞き、マイク106に向かって模範音声を真似して例文を発声する。すなわち、ユーザ音声の入力が行われる(ステップS102)。具体的には次のとおりである。模範音声の再生が終了すると、CPU101は、「次はあなたの番です。例文を発音してください」等、ユーザに例文の発生を促すメッセージをディスプレイ105に表示する。さらにCPU101は、「スペースキーを押してから発音し、発音が終わったらもう一度スペースキーを押してください」等、ユーザ音声の入力を行うための操作を指示するメッセージをディスプレイ105に表示する。ユーザは、ディスプレイ105に表示されたメッセージに従ってキーボード109を操作し、ユーザ音声の入力を行う。すなわち、キーボード109のスペースキーを押した後に、マイク106に向かって例文を発声する。発声が終了したら、ユーザはもう一度スペースキーを押す。
The user listens to the model voice reproduced from the
ユーザの音声はマイク106により電気信号に変換される。マイク106は、ユーザ音声信号を出力する。ユーザ音声信号は、音声処理部107によりデジタル音声データに変換され、ユーザ音声データとしてHDD104に記録される。CPU101は、模範音声の再生が完了した後、スペースキーの押下をトリガとしてユーザ音声データの記録を開始し、再度のスペースキーの押下をトリガとしてユーザ音声データの記録を終了する。すなわち、ユーザが最初にスペースキーを押してから、もう一度スペースキーを押すまでの間のユーザ音声がHDD104に記録される。
The user's voice is converted into an electric signal by the
続いてCPU101は、ユーザ音声と模範音声の長さが同一となるようにユーザ音声データを処理する(ステップS103)。具体的には次のとおりである。図5は、模範音声(図5(A))およびユーザ音声(図5(B))の波形を例示する図である。図5に示される例では、模範音声およびユーザ音声はともに同一の例文を発声したものであるが、発話の速度が異なっているため、長さが異なっている。すなわち、ユーザ音声の方が発話速度が遅いため、音声の長さが長くなっている。CPU101は、以下のようにしてユーザ音声の長さを模範音声と同一にする。
Subsequently, the
図6は、ステップS103における、ユーザ音声と模範音声の長さを同一にする処理をより詳細に示すフローチャートである。CPU101は、まず、データサイズを計測する等の方法により、模範音声およびユーザ音声の長さを算出する(ステップS103−1)。CPU101は、この算出結果から、模範音声とユーザ音声の長さの差(図5のΔt)をさらに算出する。
FIG. 6 is a flowchart showing in more detail the process of making the lengths of the user voice and the model voice the same in step S103. First, the
続いてCPU101は、ユーザ音声データのうち、子音に係る部分および母音に係る部分のそれぞれに識別子を付加する(ステップS103−2)。これは次のような目的による。すなわち、一般に子音の長さは話者によらずほぼ同一であるのに対し、母音の長さは話者によって大きく異なる。したがって、ユーザ音声の長さを変更する際に、子音の長さはそのままで母音の長さのみ変化させれば、聴感上の不自然さを生じさせずに音声の長さを変更することができる。従来技術においては、子音であるか母音であるかにかかわらず一様に音声の長さが変更されるので、不自然な聴感を与えてしまうという問題があった。しかし、本実施形態によればこのような問題は起こらない。
Subsequently, the
母音部分と子音部分の分離は例えば次のように行う。CPU101は、選択された例文のテキストデータから、その例文に含まれる母音を抽出する。例えばテキストデータの先頭から順に「a」「u」「i」「e」という母音が抽出された場合を考える。CPU101は、音声データをあらかじめ決められた時間(フレーム)毎に分割する。CPU101は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。CPU101は、こうして得られたスペクトル包絡から第1フォルマントおよび第2、第3フォルマントのフォルマント周波数を抽出する。一般に母音は第1および第2、第3フォルマントの分布により特徴付けられる。CPU101は、音声データの先頭からまず母音「a」のフォルマント周波数分布とマッチングを行う。マッチングによりそのフレームが母音「a」に相当するものであると判断された場合、CPU101は、検出された母音の種類および音声データ上の位置を示すデータCを生成する。既にデータCが生成されているときは、データCに新たな情報を追加する。CPU101は、後続するフレームについても母音「a」とのマッチングを行い、マッチしなくなったら続いて母音「u」とのマッチングを行う。このようにして先頭から母音を検索し、データCを生成する。なお、母音の種類および位置を示すデータを生成する代わりに、子音の位置を示すデータを生成してもよいし、母音と子音両方の位置を示すデータを生成してもよい。また、音と音のリエゾン区間(中間的な音)の区間位置データや、無音区間データを生成してもよい。
For example, the vowel part and the consonant part are separated as follows. The
続いて、CPU101は、模範音声データのうち、子音に係る部分について、データの先頭から順に番号を付し、子音に係る部分それぞれの先頭位置を示す情報(例えば、データの先頭からの時間)と共にテーブルTB1としてRAM102に記憶する。ここで、模範音声データにおける母音と子音の分離は、上述のユーザ音声データの場合と同様に行ってもよいし、あらかじめ模範音声データベースDB1に母音の位置または子音の位置を示す情報を記憶しておき、その情報に基づいて子音部分を特定してもよい。続いてCPU101は、ユーザ音声データから子音に係る部分を切り出し、テーブルTB1を参照して、模範音声と子音の位置が一致するように、切り出した子音部分を再配置する(ステップS103−3)。さらにCPU101は、ユーザ音声データのうち、子音と子音の間に位置する母音に係る部分について、模範音声と同じ長さとなるようにデータの加工を行う(ステップS103−3)。これは例えば、ユーザ音声の母音部分の方が模範音声の母音部分よりも長い場合には、その長い部分のデータを削除することにより実現できる。あるいは、ユーザ音声の母音部分の方が模範音声の母音部分よりも短い場合には、所望の長さになるまで母音部分の波形を繰り返し足しつなげていけばよい。このようにして、ユーザ音声の長さは模範音声と同一となり、また、時間軸上の子音および母音の位置も一致することとなる。
Subsequently, the
再び図4を参照して説明する。CPU101は、模範音声とユーザ音声との差異点を抽出する(ステップS104)。この処理は例えば次のように行われる。CPU101は、前述のように模範音声データが示す波形をあらかじめ決められた時間(フレーム)ごとに分割する。また、CPU101は、ユーザ音声データが示す波形についてもフレームごとに分割する。CPU101は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。
A description will be given with reference to FIG. 4 again. The
図7は、模範音声(上)およびユーザ音声(下)のスペクトル包絡を例示する図である。図7に示されるスペクトル包絡は、フレームI〜フレームIIIの3つのフレームから構成されている。CPU101は、得られたスペクトル包絡をフレームごとに比較する。CPU101は、模範音声のスペクトル包絡とユーザ音声のスペクトル包絡との差異が、あらかじめ決められたしきい値を超えた場合は、そのフレームにおいて模範音声とユーザ音声とに差異があるものと判断する。模範音声とユーザ音声との差異は、例えば、特徴的なフォルマントの周波数とスペクトル密度とをスペクトル密度−周波数図に表したときの2点間の距離によって求めてもよいし、特定の周波数においてスペクトル密度を比較することによって求めてもよい。あるいは、1以上の特定のフォルマントのフォルマント周波数を比較することにより模範音声とユーザ音声との差異を求めてもよい。図5に示される例では、CPU101はフレームIIについて差異があるものと判断する。CPU101は、模範音声とユーザ音声に差異があったことを示すフラグを記録したデータFを生成し、RAM102に記憶する。模範音声とユーザ音声とに差異が無い場合は、CPU101は、そのことを示すデータFを生成し、RAM102に記憶する。さらに、CPU101は、そのフレームにおける模範音声とユーザ音声との差異の有無を示すフラグを記録したデータDを生成し、RAM102に記憶する。すなわち、データDは、フレームごとにユーザの発音の良否(模範音声との差異の有無)を示している。CPU101はこのようにしてすべてのフレームについて模範音声のスペクトルとユーザ音声のスペクトルを比較する。RAM102には、模範音声と差異があると判断されたフレームを特定するデータDが記憶されている。
FIG. 7 is a diagram illustrating a spectrum envelope of an exemplary voice (upper) and a user voice (lower). The spectrum envelope shown in FIG. 7 is composed of three frames, frame I to frame III. The
再び図4を参照して説明する。CPU101は、データFに基づいてユーザ音声に模範音声と異なっている部分が存在するか否か判断する(ステップS105)。ユーザ音声に模範音声と異なっている部分がある場合(ステップS105:YES)、CPU101は、以下で説明する差異点強調処理を行う(ステップS106)。CPU101は、ステップS105、S106の処理を全フレームに渡って行う(ステップS108)。これにより、差異点が強調された模範音声が再生される。ユーザの発音に悪い部分が無い場合(ステップS105:NO)、CPU101は「良好です」等のメッセージをディスプレイ105に表示し、処理を終了する。
A description will be given with reference to FIG. 4 again. Based on the data F, the
ステップS106における差異点強調処理は、例えば以下のように行われる。ユーザが自分の発音を確認するという目的から、後述するステップS107において、基本的にはユーザ音声が再生される。しかし、模範音声との差異があった部分については、強調処理として、ユーザ音声ではなく模範音声を再生する。これにより、ユーザが模範音声との差異があった部分を具体的に特定することができるという効果、および差異があった部分について正しい発音をユーザに示すことができるという効果が奏される。差異点強調処理は具体的には、次のように行われる。CPU101は、ステップS103において長さを揃えられた模範音声およびユーザ音声に対し、それぞれ音量係数を乗じて加算する。音量係数は、再生される音声の音量を示すパラメータである。例えばユーザ音声の音量係数が1で模範音声の音量係数が0である場合は、スピーカ108からはユーザ音声のみが再生される。逆にユーザ音声の音量係数が0で模範音声の音量係数が1である場合にはスピーカ108からは模範音声のみが再生される。
The difference point emphasis process in step S106 is performed as follows, for example. For the purpose of the user confirming his / her pronunciation, the user voice is basically reproduced in step S107 described later. However, with respect to a portion that is different from the model voice, the model voice is reproduced instead of the user voice as the enhancement process. As a result, an effect that the user can specifically specify a portion where there is a difference from the model voice and an effect that the correct pronunciation can be shown to the user regarding the portion where there is a difference are exhibited. Specifically, the difference highlighting process is performed as follows. The
CPU101は、データDを参照してフレーム毎に音量係数を決定する。すなわち、ユーザ音声データにおいて、データDが差異点ありを示している場合には、CPU101はそのフレームの音量係数を0に設定する。逆に、データDが模範音声との差異点なしを示している場合には、CPU101はそのフレームの音量係数を1に設定する。一方、模範音声データにおいて、データDが差異点ありを示している場合には、CPU101はそのフレームの音量係数を1に設定する。逆に、データDが模範音声との差異点なしを示している場合には、CPU101はそのフレームの音量係数を0に設定する。CPU101は、このようにして求められた音量係数をユーザ音声データおよび模範音声データに乗じて、ユーザ音声データと模範音声データとを混合する。CPU101は、こうして得られた混合音声データを音声処理部107に出力する。
The
続いて音声処理部107は、入力された混合音声データをデジタル/アナログ変換し、音声信号としてスピーカ108に出力する。スピーカ108からは、強調処理を施された音声が再生される(ステップS107)。この音声を聞くことにより、ユーザは自分の音声と模範音声との差異がある部分を具体的に特定することができ、また、その差異がある部分については正しい発音を知ることができる。
Subsequently, the
<第2実施形態>
続いて、本発明の第2実施形態について説明する。なお、以下の説明において第1実施形態と共通の要素には共通の参照符号を付与し、その説明を省略する。
図8は、本発明の第2実施形態に係る語学学習装置2の機能構成を示すブロック図である。第1実施形態に係る語学学習装置1と異なる部分についてのみ説明すると、差異点強調部51は、模範音声データおよびユーザ音声データに対して差異点抽出部40で抽出された差異点に基づいて、模範音声およびユーザ音声を視覚化した画像であって、両者の差異点が強調された画像を示す画像データを生成する。差異点表示部61は、差異点強調部51により生成された画像データに基づいて画像表示を行う。なお、語学学習装置2のハードウェア構成は図2に示される語学学習装置1のハードウェア構成と同一であるのでその説明を省略する。
<Second Embodiment>
Subsequently, a second embodiment of the present invention will be described. In the following description, common reference numerals are assigned to elements common to the first embodiment, and description thereof is omitted.
FIG. 8 is a block diagram showing a functional configuration of the
図9は、本発明の第2実施形態に係る語学学習装置2の動作を示すフローチャートである。ステップS101〜S105の処理は第1実施形態と同じであるのでその説明を省略する。ユーザ音声に模範音声と異なっている部分がある場合(ステップS105:YES)、CPU101は、差異点強調処理を行う(ステップS206)。本実施形態において、模範音声とユーザ音声との差異点は画像で視覚的に表される。
FIG. 9 is a flowchart showing the operation of the
図10は、本実施形態において出力される画像を例示する図である。模範音声画像Aおよびユーザ音声画像Bが、縦に並べられて表示される。各音声画像は、音量および音程を示す図(A−1、A−2)と、周波数特性を示す図(B−1、B−2)と、主として2つの図から構成される。これらの図はいずれも、水平方向が時間軸となっている。ステップS206において、CPU101は、模範音声データおよびユーザ音声データに基づいて、図10に示されるような画像を示す画像データを生成する。すなわち、CPU101は各音声データから、フレーム毎に音程(ピッチ)および音量を算出する。CPU101は、図10に示されるように、音量に対応させて図形の幅を、音程に対応させて図形の上下方向の位置(座標)を決定する。CPU101は、処理対象となっているフレームに相当する時間軸上の位置に、決定された位置(上下方向の座標)に決定された幅を有する図形を表示させる画像データを生成する。また、CPU101は、音声波形に対しフレーム毎にフーリエ変換を行い、周波数分析を行う。すなわち、フーリエ変換により得られたスペクトルから、振幅が最大となる周波数(最大振幅周波数)を求める。CPU101は、最大振幅周波数を、ディスプレイ105に表示する色を特定する識別子(色コード)に変換する。これは、例えばHDD104に、周波数と色コードとを対応付けて記録したテーブルをあらかじめ記憶させておき、CPU101はこのテーブルを参照して最大振幅周波数を色コードに変換する。CPU101は処理対象となっているフレームに相当する位置に、この色コードで特定される色を表示させる画像データを生成する。そして、模範音声とユーザ音声の差異点において表示の色や明るさを変えることにより、ユーザは模範音声と自分の音声の差異を視覚的に認識することができる。
FIG. 10 is a diagram illustrating an image output in the present embodiment. The model audio image A and the user audio image B are displayed vertically arranged. Each audio image is mainly composed of two diagrams, a diagram (A-1, A-2) showing the volume and pitch, a diagram (B-1, B-2) showing the frequency characteristics, and the like. In these figures, the horizontal direction is the time axis. In step S206, the
CPU101は生成した画像データをディスプレイ105に出力する。ディスプレイ105は、画像データに従って図10に示されるような画像を表示する(ステップS207)。
The
<変形例>
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の各実施形態では、CPU101がHDD104に記憶された語学学習プログラムを実行することにより語学学習装置1あるいは語学学習装置2としての機能が実現されたが、図1あるいは図8に示される機能構成要素に相当する電子回路等を用いて、語学学習装置としての機能をハードウェア的に実現してもよい。
<Modification>
The present invention is not limited to the above-described embodiment, and various modifications can be made.
In each of the above-described embodiments, the function as the
また、上述の各実施形態では、模範音声およびユーザ音声の長さを揃える処理(ステップS103)において、ユーザ音声の長さを模範音声に合わせる態様について説明したが、模範音声の長さをユーザ音声の長さに合わせるようにしてもよい。 Further, in each of the above-described embodiments, the mode in which the length of the user voice is matched with the model voice in the process of aligning the lengths of the model voice and the user voice (step S103) has been described. You may make it match with the length of.
また、第1実施形態では、模範音声とユーザ音声との差異点を強調する処理は、音量の調整により行う態様について説明したが、さらに付加的な処理を行ってもよい。例えば、模範音声とユーザ音声とで差異があった部分が子音である場合について、模範音声を再生する際に、より模範音声を明確に聞かせるために特定の周波数領域を増幅する構成としてもよい。あるいは、例えば一般に英語におけるlとrの発音においては第2フォルマントおよび第3フォルマントの位置が異なることが知られているため、特定のフォルマントを増幅する強調処理を行ってもよい。この強調処理は、語学学習プログラムに従ってCPU101が行ってもよいし、バンドパスフィルタと増幅器とを用いてハードウェア的に実現してもよい。
また、音量の調整によって差異点の強調を行う態様においても、音量は「0」「1」の2段階だけでなく、中間の音量値を用いてもよい。
In the first embodiment, the process for emphasizing the difference between the model voice and the user voice has been described by adjusting the volume. However, an additional process may be performed. For example, in the case where the part where the model voice and the user voice are different is a consonant, when reproducing the model voice, a specific frequency region may be amplified in order to hear the model voice more clearly. . Alternatively, for example, in general, it is known that the positions of the second formant and the third formant are different in pronunciation of l and r in English, and therefore, an emphasis process for amplifying a specific formant may be performed. This enhancement processing may be performed by the
Also, in the aspect in which the difference is emphasized by adjusting the volume, the volume may be an intermediate volume value as well as the two levels “0” and “1”.
また、第2実施形態では、模範音声画像およびユーザ音声画像を縦に並べて表示する態様について説明したが、両画像の表示の態様はこれに限定されない。例えば、両画像を横に並べても良いし、重ねて表示してもよい。重ねて表示する場合には、模範音声とユーザ音声とで表示色を変えることが望ましい。
また、模範音声画像およびユーザ音声画像を並べて表示する態様において、図10の例では、音程および音量を示す画像と、周波数特性を示す画像とをそれぞれ別個に表示する態様について説明したが、これらを1つの画像で表現してもよい。例えば、第2実施形態では、音程および音量を示す画像は単一の色で表示されたが、これに周波数特性を示す色をつけて表示してもよい。
また、音声画像は図10で例示したものに限定されない。例えば、音声波形を直接表示してもよい。
また、ステップS206における周波数分析の手法は、第2実施形態で説明したものに限定されない。例えば、フレーム毎に音声波形のスペクトル包絡を求め、フォルマント周波数を求めることとしてもよい。フォルマント周波数としては、例えば、第1〜第3フォルマントのいずれかを用いることができる。
Moreover, although 2nd Embodiment demonstrated the aspect which displays a model audio | voice image and a user audio | voice image vertically, the display aspect of both images is not limited to this. For example, both images may be arranged side by side or displayed in an overlapping manner. In the case of overlapping display, it is desirable to change the display color between the model voice and the user voice.
Further, in the aspect in which the model voice image and the user voice image are displayed side by side, the example in FIG. 10 has described the aspect in which the image indicating the pitch and the volume and the image indicating the frequency characteristic are separately displayed. You may express by one image. For example, in the second embodiment, the image indicating the pitch and volume is displayed in a single color, but it may be displayed with a color indicating the frequency characteristic.
Further, the audio image is not limited to that illustrated in FIG. For example, the voice waveform may be displayed directly.
Further, the method of frequency analysis in step S206 is not limited to that described in the second embodiment. For example, the spectral envelope of the speech waveform may be obtained for each frame, and the formant frequency may be obtained. As the formant frequency, for example, any of the first to third formants can be used.
また、第1実施形態で説明した差異点強調処理を行う機能と、第2実施形態で説明した画像生成・表示機能とを同時に具備する語学学習装置を提供することもできる。 In addition, it is possible to provide a language learning device that simultaneously has the function of performing the difference enhancement process described in the first embodiment and the image generation / display function described in the second embodiment.
1…語学学習装置、2…語学学習装置、10…記憶部、20…入力部、30…音声処理部、40…差異点抽出部、50…差異点強調部、51…差異点強調部、60…音声出力部、61…差異点表示部、101…CPU、102…RAM、103…ROM、104…HDD、105…ディスプレイ、106…マイク、107…音声処理部、108…スピーカ、109…キーボード、110…バス
DESCRIPTION OF
Claims (4)
ユーザ音声を入力する入力手段と、
前記模範音声および前記ユーザ音声をそれぞれ、子音部分と母音部分とに分離する分離手段と、
前記模範音声および前記ユーザ音声の長さが同一となるように、前記模範音声あるいは前記ユーザ音声の母音部分の長さを変化させる処理手段と、
前記処理手段により長さが揃えられた模範音声とユーザ音声とを比較し、差異点を抽出する比較手段と、
前記比較手段により抽出された差異点を強調する差異点強調手段と、
前記差異点強調手段により差異点が強調された音声を出力する出力手段と
を有し、
前記差異点強調手段が、前記比較手段により差異点が抽出された部分については模範音声の音量をユーザ音声の音量より大きくし、前記比較手段により差異点が抽出されなかった部分については模範音声の音量をユーザ音声の音量より小さくする
ことを特徴とする語学学習装置。 Storage means for storing the model voice;
An input means for inputting user voice;
Separating means for separating the exemplary voice and the user voice into a consonant part and a vowel part, respectively;
Processing means for changing the length of the vowel part of the exemplary voice or the user voice so that the lengths of the exemplary voice and the user voice are the same;
Comparison means for comparing the model voice and the user voice whose lengths are aligned by the processing means, and extracting a difference point ;
Difference highlighting means for highlighting the difference extracted by the comparison means;
Possess and output means for outputting sound differences is emphasized by the differences highlighted means,
The difference enhancement means increases the volume of the model voice for the part from which the difference is extracted by the comparison means, and increases the volume of the model voice for the part from which the difference is not extracted by the comparison means. Make the volume lower than the volume of the user voice
Language learning device characterized by that .
前記処理手段が、前記再配置手段により再配置された子音部分と、時間軸上でその子音部分の次に現れる子音部分との間に位置する母音部分の長さをそれぞれ変化させることにより、前記模範音声および前記ユーザ音声の長さを同一とする
ことを特徴とする請求項1に記載の語学学習装置。 Re-arrangement means for rearranging the consonant part of either one of the exemplary voice and the user voice so that the position on the time axis is the same as the other consonant part;
The processing means changes the length of the vowel part located between the consonant part rearranged by the rearrangement means and the consonant part appearing next to the consonant part on the time axis, respectively. The language learning device according to claim 1, wherein the exemplary voice and the user voice have the same length.
前記画像生成手段により生成された画像データを、前記比較手段により抽出された差異点で異なる表示態様で表示を行う表示手段と
をさらに有する請求項1に記載の語学学習装置。 Image generating means for extracting predetermined parameters for the user voice and the model voice, and generating image data indicating a figure corresponding to the amount of change of the parameters;
The language learning apparatus according to claim 1, further comprising: a display unit configured to display the image data generated by the image generation unit in a different display mode at the difference extracted by the comparison unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004371875A JP4543919B2 (en) | 2004-12-22 | 2004-12-22 | Language learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004371875A JP4543919B2 (en) | 2004-12-22 | 2004-12-22 | Language learning device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006178214A JP2006178214A (en) | 2006-07-06 |
JP4543919B2 true JP4543919B2 (en) | 2010-09-15 |
Family
ID=36732383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004371875A Expired - Fee Related JP4543919B2 (en) | 2004-12-22 | 2004-12-22 | Language learning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4543919B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6256379B2 (en) * | 2015-02-24 | 2018-01-10 | ブラザー工業株式会社 | Display control apparatus, display control method, and program |
JP7166580B2 (en) * | 2017-09-19 | 2022-11-08 | 有限会社オフィス・アイカワ | language learning methods |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0282287A (en) * | 1988-09-20 | 1990-03-22 | Ringafuon Japan Kk | Speech learning device |
JPH033950U (en) * | 1989-06-02 | 1991-01-16 | ||
JPH03273280A (en) * | 1990-03-22 | 1991-12-04 | Nec Corp | Voice synthesizing system for vocal exercise |
JPH05232856A (en) * | 1991-09-05 | 1993-09-10 | C S K Sogo Kenkyusho:Kk | Method and device for speech visualization and language learning device using the same |
JPH07295465A (en) * | 1994-04-22 | 1995-11-10 | Matsushita Electric Ind Co Ltd | Language learning apparatus |
JPH11143496A (en) * | 1997-11-12 | 1999-05-28 | Fuji Xerox Co Ltd | Sound recording and reproducing device |
JP2000075778A (en) * | 1998-08-26 | 2000-03-14 | Sony Corp | Pronunciation display device and method and computer- readable information storage medium storing program having pronunciation display function |
JP2000162954A (en) * | 1998-11-27 | 2000-06-16 | Sony Corp | Device for learning language and electronic apparatus provided therewith |
JP2000250401A (en) * | 1999-02-25 | 2000-09-14 | Anritsu Corp | Method and device for learning language, and medium where program is recorded |
JP2003162291A (en) * | 2001-11-22 | 2003-06-06 | Ricoh Co Ltd | Language learning device |
-
2004
- 2004-12-22 JP JP2004371875A patent/JP4543919B2/en not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0282287A (en) * | 1988-09-20 | 1990-03-22 | Ringafuon Japan Kk | Speech learning device |
JPH033950U (en) * | 1989-06-02 | 1991-01-16 | ||
JPH03273280A (en) * | 1990-03-22 | 1991-12-04 | Nec Corp | Voice synthesizing system for vocal exercise |
JPH05232856A (en) * | 1991-09-05 | 1993-09-10 | C S K Sogo Kenkyusho:Kk | Method and device for speech visualization and language learning device using the same |
JPH07295465A (en) * | 1994-04-22 | 1995-11-10 | Matsushita Electric Ind Co Ltd | Language learning apparatus |
JPH11143496A (en) * | 1997-11-12 | 1999-05-28 | Fuji Xerox Co Ltd | Sound recording and reproducing device |
JP2000075778A (en) * | 1998-08-26 | 2000-03-14 | Sony Corp | Pronunciation display device and method and computer- readable information storage medium storing program having pronunciation display function |
JP2000162954A (en) * | 1998-11-27 | 2000-06-16 | Sony Corp | Device for learning language and electronic apparatus provided therewith |
JP2000250401A (en) * | 1999-02-25 | 2000-09-14 | Anritsu Corp | Method and device for learning language, and medium where program is recorded |
JP2003162291A (en) * | 2001-11-22 | 2003-06-06 | Ricoh Co Ltd | Language learning device |
Also Published As
Publication number | Publication date |
---|---|
JP2006178214A (en) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136687B (en) | Voice training based cloned accent and rhyme method | |
US20090197224A1 (en) | Language Learning Apparatus, Language Learning Aiding Method, Program, and Recording Medium | |
KR100405061B1 (en) | Apparatus for training language and Method for analyzing language thereof | |
KR100659212B1 (en) | Language learning system and voice data providing method for language learning | |
JP4543919B2 (en) | Language learning device | |
JP2006139162A (en) | Language learning system | |
JP6314879B2 (en) | Reading aloud evaluation device, reading aloud evaluation method, and program | |
JP2002525663A (en) | Digital voice processing apparatus and method | |
JPH06337876A (en) | Sentence reader | |
JP2000250401A (en) | Method and device for learning language, and medium where program is recorded | |
JP4564416B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2008058379A (en) | Speech synthesis system and filter device | |
JPH08272388A (en) | Device and method for synthesizing voice | |
JP2536169B2 (en) | Rule-based speech synthesizer | |
JP2011232775A (en) | Pronunciation learning device and pronunciation learning program | |
JP2007139868A (en) | Language learning device | |
JP6957069B1 (en) | Learning support system | |
JP4678672B2 (en) | Pronunciation learning device and pronunciation learning program | |
JP2013195928A (en) | Synthesis unit segmentation device | |
JP4654889B2 (en) | Playback device | |
JP2638151B2 (en) | Conversation aid | |
JP3292218B2 (en) | Voice message composer | |
JPH02223983A (en) | Presentation support system | |
JPH11149293A (en) | Voice monitoring system and voice monitoring method | |
JP4842393B2 (en) | Pronunciation learning device and pronunciation learning program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100621 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |