WO2022024183A1 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents
音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDFInfo
- Publication number
- WO2022024183A1 WO2022024183A1 PCT/JP2020/028717 JP2020028717W WO2022024183A1 WO 2022024183 A1 WO2022024183 A1 WO 2022024183A1 JP 2020028717 W JP2020028717 W JP 2020028717W WO 2022024183 A1 WO2022024183 A1 WO 2022024183A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- conversion
- audio signal
- input
- unit
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 304
- 238000000034 method Methods 0.000 title claims description 124
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims description 159
- 230000006870 function Effects 0.000 claims description 65
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 description 53
- 238000002474 experimental method Methods 0.000 description 31
- 238000012986 modification Methods 0.000 description 26
- 230000004048 modification Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 12
- 125000004122 cyclic group Chemical group 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Definitions
- the present invention relates to a voice signal conversion model learning device, a voice signal conversion device, a voice signal conversion model learning method, and a program.
- the technique of converting only non-language / para-language (speaker, speech style, etc.) while retaining the linguistic information (speech sentence) of the input speech is called voice quality conversion. It is expected to be applied to support, voice enhancement, pronunciation conversion, etc.
- machine learning As one of the technologies using such machine learning, it is a technology using a system or device equipped with a generator and a classifier such as a hostile generation network and updated by learning, and generates information indicating a conversion destination.
- a technique to be introduced into a vessel and a classifier has been proposed (Non-Patent Document 1). Further, a technique has been proposed in which a system or device provided with a generator and a classifier and updated by learning is used, and a constraint condition is imposed so that the conversion result belongs to the target attribute (Non-Patent Document 1).
- the present invention provides a technique capable of converting speech having a more appropriate empirical distribution even when there are a large number of candidates for both the conversion source attribute and the conversion destination attribute.
- the purpose is.
- One aspect of the present invention is an input audio signal which is an audio signal of an input audio, a conversion source attribute information which is information indicating an attribute of an input audio which is an audio represented by the input audio signal, and a conversion source attribute information of the input audio signal.
- the generation unit that executes the generation process to generate the conversion destination voice signal based on the conversion destination attribute information indicating the voice attribute represented by the conversion destination voice signal, which is the conversion destination voice signal, and the voice signal to be processed are described above.
- the conversion destination voice signal includes an identification unit that executes a voice estimation process for estimating whether or not the voice signal represents a voice actually emitted by a person.
- a voice signal conversion model learning device that is input to the identification unit and the processing target is a voice signal input to the identification unit, and the generation unit and the identification unit learn based on the estimation result of the voice estimation process. be.
- FIG. 1 is a first diagram showing an example of a flow of processing executed by the audio signal conversion model learning device 1 of the embodiment.
- FIG. 1 is an explanatory diagram illustrating an outline of the audio signal generation system 100 of the embodiment.
- the voice signal generation system 100 is a voice signal representing a voice (hereinafter referred to as “first speaker voice”) emitted by a first speaker (hereinafter referred to as “first speaker”) (hereinafter referred to as “conversion target voice signal”). ”) Is converted into a converted voice signal.
- the converted voice signal has the same content as the voice signal to be converted, but has the acoustic characteristics of the voice emitted by the second speaker rather than the acoustic characteristics of the voice emitted by the first speaker. It is an audio signal representing.
- the second speaker is a speaker who has been instructed in advance by the user or the like to the voice signal generation system 100 as a speaker of the voice represented by the converted voice signal.
- the audio signal generation system 100 includes an audio signal conversion model learning device 1 and an audio signal conversion device 2.
- the audio signal conversion model learning device 1 updates a machine learning model for converting a conversion target audio signal into a converted audio signal (hereinafter referred to as “audio signal conversion model”) by machine learning until a predetermined end condition is satisfied. ..
- machine learning model For the sake of simplicity of the explanation below, performing machine learning is called learning. Further, updating a machine learning model (hereinafter referred to as “machine learning model”) by machine learning means that the values of parameters in the machine learning model are appropriately adjusted. Note that “for learning” means that it is used for updating a machine learning model. In the following description, learning to be A means that the value of the parameter in the machine learning model is adjusted to satisfy A. A represents a condition.
- FIG. 2 is an explanatory diagram illustrating an outline of the audio signal conversion model learning device 1 according to the embodiment.
- the audio signal conversion model learning device 1 updates the audio signal conversion model by performing learning using the first learning data and the second learning data.
- learning data when the first learning data and the second learning data are not distinguished, they are referred to as learning data.
- the first learning data is data having a voice signal, conversion source speaker information, and conversion destination speaker information.
- the conversion source speaker information indicates a speaker of the voice (hereinafter referred to as “first learning voice”) represented by the voice signal (hereinafter referred to as “first learning voice signal”) indicated by the first learning data.
- the conversion destination speaker information is referred to as a voice (hereinafter referred to as "type 1 generated voice") represented by the voice signal of the conversion destination (hereinafter referred to as "type 1 generated signal”) by the voice signal conversion model of the first learning voice signal. ) Indicates a preset speaker. The setting is made by the user, for example.
- the speaker indicated by the conversion source speaker information and the speaker indicated by the conversion destination speaker information may be the same or different.
- the first learning voice signal is S 0
- the speaker indicated by the conversion source speaker information is C 1
- the speaker indicated by the conversion destination speaker information is C 2
- the training data is expressed as (S 0 , C 1 , C 2 ).
- the symbol (A1, A2, A3) indicates that a set of information of information A1, information A2, and information A3 is information to be input to the generation unit 110 described later.
- the second learning data includes a voice signal, random speaker information, and speaker identification information.
- the speaker identification information is preset as a speaker of the voice (hereinafter referred to as "second learning voice") represented by the voice signal indicated by the second learning data (hereinafter referred to as "second learning voice signal"). Show the speaker.
- the random speaker information is information indicating a speaker randomly determined by a determination unit 130, which will be described later, among a plurality of speakers prepared in advance. Random determination is made using a technique that generates random numbers, such as a random number generator.
- the second learning voice signal is S'0
- the speaker indicated by the random speaker information is C'2
- the speaker indicated by the speaker identification information is C'1 .
- the training data is expressed as [ S'0 , C'2 , C'1 ].
- the symbols [A1, A2, A3] indicate that a set of information of information A1, information A2, and information A3 is information to be input to the identification unit 120 or the loss acquisition unit 140, which will be described later.
- the audio signal conversion model learning device 1 includes a generation unit 110, an identification unit 120, a determination unit 130, and a loss acquisition unit 140.
- the generation unit 110 acquires the first learning data, and executes the first type data generation processing and the second type data generation processing using the acquired first learning data (S 0 , C 1 , C 2 ). ..
- the first-class data generation process is a process of generating first-class generated data by an audio signal conversion model based on the acquired first-class learning data.
- the first-class generated data is data having a first-class generated signal, conversion source speaker information, and conversion destination speaker information. Therefore, if the type 1 generated data is represented by a symbol following the expression of the type 1 learning data, when the type 1 generated signal is S 1 , the type 1 generated data is [S 1 , C 1 , C 2 ] is expressed.
- the type 2 data generation process is a process of generating type 2 generated data based on the type 1 generated data generated by the type 1 data generation process.
- the second-class generated data has a second-class generated signal, conversion source speaker information, and conversion destination speaker information.
- the type 2 generated signal is an audio signal (hereinafter referred to as “reverse audio signal”) indicated by the execution result of the type 1 data generation process for the reverse generation data.
- the conversion source speaker information of the first type generated data is used as the conversion destination speaker information
- the conversion destination speaker information of the first type generated data is used as the conversion source speaker information
- the first type generation signal is used.
- This is the first learning data used as the first learning voice signal. Therefore, if the reverse generation data is represented by a symbol following the representation of the first learning data, the reverse generation data is expressed as (S 1 , C 2 , C 1 ).
- the reverse generation data is expressed as (S 1 , C 2 , C 1 )
- the type 2 generated data is expressed by a symbol following the expression of the first learning data
- the reverse audio signal is S.
- the type 2 generated data is expressed as [S 2 , C 2 , C 1 ].
- the type 2 data generation process is the type 1 data generation process for the back generation data.
- the generation unit 110 outputs the generated type 1 generated data to the identification unit 120.
- the generation unit 110 outputs the generated type 2 generation data to the loss acquisition unit 140.
- the pair of information of the conversion source speaker information and the conversion destination speaker information possessed by the type 1 generated data is referred to as the first pair information.
- the pair of information of the random speaker information and the speaker identification information of the second learning data is referred to as the second pair information.
- Both the first pair of information and the second pair of information are a pair of information indicating a speaker. Therefore, hereinafter, when the first pair information and the second pair information are not distinguished, they are referred to as pair information.
- both the first pair information and the second pair information indicate a speaker preset by a user or the like as a speaker of a voice signal included in the first type generated data including the pair information or the second learning data. Contains information.
- the conversion destination speaker information included in the first-class generated data is information included in the first pair of information and indicates a preset speaker, and the speaker identification included in the second learning data.
- the information is information included in the second pair of information and is information indicating a preset speaker.
- speaker setting information when the conversion destination speaker information included in the first type generated data and the speaker identification information included in the second learning data are not distinguished, it is referred to as speaker setting information.
- the identification unit 120 executes voice estimation processing.
- voice estimation processing whether or not the voice signal to be processed is a voice signal representing the voice actually emitted by the speaker indicated by the speaker setting information among the information indicated by the pair information based on the pair information of the voice signal to be processed. Is the process of estimating.
- the audio signal to be processed by the identification unit 120 is the data input to the identification unit 120 and is represented by the audio signal represented by the data including the audio signal (hereinafter referred to as "identification input data") (hereinafter referred to as "identification audio”). That is.).
- the identification input data is the first type generated data and the second learning data.
- the estimation result of the identification unit 120 is output to the loss acquisition unit 140.
- the determination unit 130 determines whether the identification input data is the first type generated data or the second learning data according to a predetermined rule.
- the predetermined rule may be any rule as long as the identification input data can be determined. For example, a random number generated by a random number generator is used, and the first learning data and the second learning data have equal probabilities. It is a rule to determine the identification input data in.
- the determination unit 130 determines the type 1 generated data as the identification input data
- the determination unit 130 causes the generation unit 110 to input the first learning data according to a predetermined rule from a plurality of data included in the first learning data group. decide.
- the first learning data group is a set of first learning data.
- the predetermined rule may be any rule as long as the first learning data to be input to the generation unit 110 can be determined from a plurality of data included in the first learning data group.
- the predetermined rule may be, for example, a rule that follows the order given to each data in advance.
- the predetermined rule may be a rule that follows random sampling.
- the determination unit 130 determines the second learning data as the identification input data
- the determination unit 130 causes the identification unit 120 to input the second learning data according to a predetermined rule from a plurality of data included in the second learning data group. decide.
- the predetermined rule may be, for example, a rule that follows the order given to each data in advance.
- the predetermined rule may be a rule that follows random sampling.
- the second learning data group is a set of second learning data. Each of the data of the first learning data group and the second learning data group is the data already stored in the storage unit described later included in the voice signal conversion model learning device 1.
- the determination unit 130 outputs information (hereinafter referred to as "route information") indicating whether the identification input data is determined to be the first type generation data or the second learning data to the loss acquisition unit 140.
- the generation unit 110 determines the first learning data as the first learning data to be input to the generation unit 110 by the determination unit 130. To get.
- the identification unit 120 determines the second learning data as the second learning data to be input to the identification unit 120 by the determination unit 130. To get.
- the determination unit 130 determines the second learning data as the identification input data
- the determination unit 130 also determines the random speaker information.
- the loss acquisition unit 140 acquires the identification input data, the second type generation data, and the route information, and the value of the objective function L represented by the following equations (1) to (4) (hereinafter referred to as “objective loss”). To get.
- the objective function L is an extended hostile loss function represented by the following equation (2), a cyclic loss function represented by the following equation (3), and an identity expressed by the following equation (4). Includes an identity function.
- D represents a mapping from the identification input data to the estimation result by the natural voice estimation process and the speaker estimation process executed by the identification unit 120.
- G represents a map representing the conversion of data by the first-class data generation process executed by the generation unit 110.
- x represents an audio signal indicated by the identification input data.
- (x, c 1 ) to P (x, c 1 ) are the acoustic features x from the training data distribution P (x, c 1 ). It is shown that the speaker information c1 corresponding to the acoustic feature amount x is sampled.
- the speaker information means conversion source speaker information, conversion destination speaker information, random speaker information, or speaker identification information.
- the distribution of the training data specifically represents a probability distribution in which the feature amount of the first training data in the first training data group is used as a random variable. That is, P (x, c 1 ) is a multidimensional distribution, and the horizontal axis represents each dimension of (x, c 1 ).
- E represents the expected value.
- c2 to P (c2) indicate that speaker information is randomly sampled.
- x, c 1 , and c 2 of the first term on the right side of the equation ( 2 ) represent S'0 , C'1 , and C'2 of the second learning data in order.
- c 1 and c 2 of the second term on the right side of the equation (2) represent C 1 and C 2 of the first learning data and the first kind generated data in order
- x is S 0 of the first learning data.
- G (x, c 1 , c 2 ) represents S 1 of the first kind generated data.
- c 1 and c 2 on the right side of the equation (3) represent C 1 and C 2 of the first learning data, the reverse generation data, and the second type generation data in order.
- x on the right side of the equation (3) represents S0 of the first learning data.
- G (x, c 1 , c 2 ) on the right side of the equation (3) represents S 1 of the reverse generation data, and G (G (x, c 1 , c 2 ) c 2 , c 1 ) is Represents S2 of the second type generated data.
- x on the right side of the equation (4) represents S 0 of the first learning data, and c 1 represents C 1 and C 2 of the first learning data.
- the value of the extended hostile loss function indicates the difference between the sound quality type and speaker estimated by the identification unit 120 and the sound quality type and speaker of the identified voice.
- the speaker of the identification voice is the speaker indicated by the conversion destination speaker information when the route information indicates that the type 1 generated data is the identification input data, and the second learning data is the identification input data.
- the speaker identification information indicates the speaker.
- the identification voice is the second learning voice
- the sound quality of the identification voice is a natural voice set
- the identification voice is the first type generated voice
- the sound quality of the identification voice is a synthetic voice set.
- the value of the cyclic loss function (hereinafter referred to as “circular loss”) is the audio signal indicated by the type 2 generated data (that is, the type 2 generated signal) and the audio signal indicated by the first learning data (that is, the first learning). The difference from the audio signal) is shown.
- the uniform loss function is when the speaker indicated by the conversion source speaker information of the first learning data input to the generation unit 110 and the speaker indicated by the conversion destination speaker information of the first learning data are the same. In addition, it is a loss function introduced to constrain the first-class learning voice and the first-class generated voice to be the same.
- the target loss acquired by the loss acquisition unit 140 is output to the generation unit 110 and the identification unit 120.
- the generation unit 110 and the identification unit 120 learn based on the target loss. More specifically, for example, the generation unit 110 learns to reduce the target loss, and the identification unit 120 learns to increase the extended hostile loss function.
- the generation unit 110 and the identification unit 120 may be any as long as they can be learned based on the target loss, and the generation unit 110 and the identification unit 120 are, for example, a neural network.
- FIG. 3 is an explanatory diagram illustrating an example of the flow of the first-class data generation process in the embodiment.
- the generation unit 110 acquires the first learning data (step S101).
- the generation unit 110 generates the first type generation data based on the first learning data (step S102).
- FIG. 4 is an explanatory diagram illustrating an example of the flow of the type 2 data generation process in the embodiment.
- the generation unit 110 acquires the first type generation data (step S201).
- the process of step S201 may be the process of step S102, or may be the process of reacquiring the first-class generated data generated in the process of step S102 by the generation unit 110.
- the generation unit 110 generates the type 2 generated data by executing the type 1 data generation process for the back generation data based on the type 1 generated data (step S202).
- FIG. 5 is an explanatory diagram illustrating an example of a flow of processing executed by the identification unit 120 in the embodiment.
- the identification unit 120 acquires the identification input data (step S301).
- the identification unit 120 executes voice estimation processing (step S302).
- FIG. 6 is a first diagram showing an example of the flow of processing executed by the audio signal conversion model learning device 1 of the embodiment. The same processing as that shown in FIGS. 3 to 5 will be omitted by using the same reference numerals as those in FIGS. 3 to 5.
- the determination unit 130 determines the identification input data as the first type generated data (step S401). Next, the process of step S101 is executed. Next, the process of step S102 is executed. Next, the process of step S202 is executed. Next, the process of step S301 is executed. Next, the process of step S302 is executed. Next, the loss acquisition unit 140 acquires the target loss based on the first learning data acquired in step S101, the second type generation data, and the estimation result of step S302 (step S402). The generation unit 110 and the identification unit 120 learn based on the target loss (step S403).
- FIG. 7 is a diagram showing an example of the hardware configuration of the audio signal conversion model learning device 1 of the embodiment.
- the voice signal conversion model learning device 1 includes a control unit 10 including a processor 91 such as a CPU (Central Processing Unit) connected by a bus and a memory 92, and executes a program.
- the audio signal conversion model learning device 1 functions as a device including a control unit 10, an input unit 11, an interface unit 12, a storage unit 13, and an output unit 14 by executing a program. More specifically, the processor 91 reads out the program stored in the storage unit 13, and stores the read program in the memory 92. By executing the program stored in the memory 92 by the processor 91, the voice signal conversion model learning device 1 functions as a device including a control unit 10, an input unit 11, an interface unit 12, a storage unit 13, and an output unit 14. do.
- a control unit 10 including a processor 91 such as a CPU (Central Processing Unit) connected by a bus and a memory 92, and executes a program.
- the audio signal conversion model learning device 1 functions as a device including a control unit 10, an input unit 11, an interface unit 12, a storage
- the control unit 10 controls the operation of various functional units included in the audio signal conversion model learning device 1.
- the control unit 10 executes, for example, a type 1 data generation process.
- the control unit 10 executes, for example, a type 2 data generation process.
- the control unit 10 executes, for example, natural voice estimation processing.
- the control unit 10 executes, for example, a speaker estimation process.
- the input unit 11 includes an input device such as a mouse, a keyboard, and a touch panel.
- the input unit 11 may be configured as an interface for connecting these input devices to its own device.
- the input unit 11 receives input of various information to its own device.
- the input unit 11 receives, for example, an input instructing the start of learning.
- the input unit 11 receives, for example, input of data to be added to the first learning data group.
- the input unit 11 receives, for example, input of data to be added to the second learning data group.
- the interface unit 12 includes a communication interface for connecting the own device to an external device.
- the interface unit 12 communicates with an external device via wired or wireless.
- the external device may be, for example, a storage device such as a USB (Universal Serial Bus) memory.
- the interface unit 12 acquires the first learning data output by the external device by communicating with the external device.
- the external device outputs, for example, the second learning data
- the interface unit 12 acquires the second learning data output by the external device by communicating with the external device.
- the interface unit 12 includes a communication interface for connecting the own device to the audio signal conversion device 2.
- the interface unit 12 communicates with the audio signal conversion device 2 via wire or wireless.
- the interface unit 12 outputs the learned audio signal conversion model to the audio signal conversion device 2 by communicating with the audio signal conversion device 2. Learned means that a predetermined termination condition has been met.
- the storage unit 13 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 13 stores various information about the audio signal conversion model learning device 1.
- the storage unit 13 stores, for example, an audio signal conversion model.
- the storage unit 13 stores, for example, the first learning data group in advance.
- the storage unit 13 stores, for example, a second learning data group in advance.
- the storage unit 13 stores, for example, the first learning data and the second learning data input via the input unit 11 or the interface unit 12.
- the storage unit 13 stores, for example, the estimation result of the identification unit 120.
- the output unit 14 outputs various information.
- the output unit 14 includes, for example, a display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display, and an organic EL (Electro-Luminence) display.
- the output unit 14 may be configured as an interface for connecting these display devices to its own device.
- the output unit 14 outputs, for example, the information input to the input unit 11.
- FIG. 8 is a diagram showing an example of the functional configuration of the control unit 10 in the embodiment.
- the control unit 10 includes a controlled unit 101 and a management unit 102.
- the managed unit 101 includes a generation unit 110, an identification unit 120, a determination unit 130, and a loss acquisition unit 140.
- the managed unit 101 updates the audio signal conversion model using the first learning data and the second learning data until the end condition is satisfied.
- the management unit 102 controls the operation of the managed unit 101.
- the management unit 102 controls the timing of each process executed by, for example, the generation unit 110, the identification unit 120, the determination unit 130, and the loss acquisition unit 140 included in the managed unit 101.
- the management unit 102 controls, for example, the operations of the input unit 11, the interface unit 12, the storage unit 13, and the output unit 14.
- the management unit 102 reads various information from the storage unit 13 and outputs it to the managed unit 101.
- the management unit 102 acquires, for example, the information input to the input unit 11 and outputs the information to the managed unit 101.
- the management unit 102 acquires, for example, the information input to the input unit 11 and records it in the storage unit 13.
- the information input to the management unit 102, for example, the interface unit 12 is acquired and output to the managed unit 101.
- the information input to the management unit 102, for example, the interface unit 12, is acquired and recorded in the storage unit 13.
- the management unit 102 causes the output unit 14, for example, to output the information input to the input unit 11.
- the management unit 102 records, for example, the type 1 generated data generated by the generation unit 110 in the storage unit 13.
- the management unit 102 records, for example, the result of the identification unit 120 in the storage unit 13.
- the management unit 102 records, for example, the determination result of the determination unit 130 in the storage unit 13.
- the management unit 102 records, for example, the loss acquired by the loss acquisition unit 140 in the storage unit 13.
- FIG. 9 is a diagram showing an example of the hardware configuration of the audio signal conversion device 2 in the embodiment.
- the audio signal conversion device 2 includes a control unit 20 including a processor 93 such as a CPU connected by a bus and a memory 94, and executes a program.
- the audio signal conversion device 2 functions as a device including a control unit 20, an input unit 21, an interface unit 22, a storage unit 23, and an output unit 24 by executing a program.
- the processor 93 reads out the program stored in the storage unit 23, and stores the read program in the memory 94.
- the voice signal conversion device 2 functions as a device including a control unit 20, an input unit 21, an interface unit 22, a storage unit 23, and an output unit 24.
- the control unit 20 controls the operation of various functional units included in the audio signal conversion device 2.
- the control unit 20 converts the conversion target audio signal into the converted audio signal by using, for example, the learned audio signal conversion model obtained by the audio signal conversion model learning device 1.
- the input unit 21 includes an input device such as a mouse, a keyboard, and a touch panel.
- the input unit 21 may be configured as an interface for connecting these input devices to its own device.
- the input unit 21 receives input of various information to its own device.
- the input unit 21 receives, for example, an input instructing the start of a process of converting a conversion target audio signal into a converted audio signal.
- the input unit 21 receives, for example, the input of the conversion target audio signal to be converted.
- the interface unit 22 includes a communication interface for connecting the own device to an external device.
- the interface unit 22 communicates with an external device via wired or wireless.
- the external device is, for example, an output destination of the audio signal to be converted.
- the interface unit 22 outputs the conversion target audio signal to the external device by communicating with the external device.
- the external device for outputting the audio signal to be converted is an audio output device such as a speaker.
- the external device may be, for example, a storage device such as a USB memory that stores the learned audio signal conversion model.
- the interface unit 22 acquires the learned audio signal conversion model by communicating with the external device.
- the external device is, for example, an output source of the audio signal to be converted.
- the interface unit 22 acquires the conversion target audio signal from the external device by communicating with the external device.
- the interface unit 22 includes a communication interface for connecting the own device to the voice signal conversion model learning device 1.
- the interface unit 22 communicates with the audio signal conversion model learning device 1 via wire or wireless.
- the interface unit 22 acquires the learned audio signal conversion model from the audio signal conversion model learning device 1 by communicating with the audio signal conversion model learning device 1.
- the storage unit 23 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 23 stores various information about the audio signal conversion device 2.
- the storage unit 23 stores, for example, the learned audio signal conversion model acquired via the interface unit 22.
- the output unit 24 outputs various information.
- the output unit 24 includes display devices such as a CRT display, a liquid crystal display, and an organic EL display.
- the output unit 24 may be configured as an interface for connecting these display devices to the own device.
- the output unit 24 outputs, for example, the information input to the input unit 21.
- FIG. 10 is a diagram showing an example of the functional configuration of the control unit 20 in the embodiment.
- the control unit 20 includes a conversion target acquisition unit 201, a conversion unit 202, and an audio signal output control unit 203.
- the conversion target acquisition unit 201 acquires the conversion target audio signal to be converted.
- the conversion target acquisition unit 201 acquires, for example, the conversion target audio signal input to the input unit 21.
- the conversion target acquisition unit 201 acquires, for example, the conversion target audio signal input to the interface unit 22.
- the conversion unit 202 converts the conversion target acquired by the conversion target acquisition unit 201 into a converted audio signal using the learned audio signal conversion model.
- the converted audio signal is output to the audio signal output control unit 203.
- the audio signal output control unit 203 controls the operation of the interface unit 22.
- the audio signal output control unit 203 controls the operation of the interface unit 22 to cause the interface unit 22 to output the converted audio signal.
- FIG. 11 is a flowchart showing an example of the flow of processing executed by the audio signal conversion device 2 in the embodiment.
- the control unit 20 acquires the conversion target audio signal input to the interface unit 22 (step S501).
- the control unit 20 converts the conversion target audio signal into the converted audio signal using the learned audio signal conversion model stored in the storage unit 23 (step S502).
- the control unit 20 controls the operation of the interface unit 22 to output the converted audio signal to the output destination (step S503).
- the output destination is, for example, an external device such as a speaker.
- the voice signal generation system 100 of the embodiment configured in this way learns using the conversion source speaker information, the conversion destination speaker information, and the speaker identification information, and obtains a learned voice signal conversion model. Therefore, the voice signal generation system 100 makes the voice represented by the voice signal to be converted closer to the speaker's voice indicated by the conversion destination speaker information than the voice signal converted based only on the conversion destination speaker information. It can be converted into a voice signal to represent. Therefore, the voice signal generation system 100 can enable voice conversion having a more appropriate empirical distribution even when there are a large number of candidates for both the conversion source attribute and the conversion destination attribute.
- the objective function need only include the extended hostile loss function, and does not necessarily have to include the cyclic loss function and the identity loss function.
- the objective function may be, for example, an extended hostile loss function, an extended hostile loss function, a cyclic loss function, and no constant loss function, or an extended hostile function. It may include a loss function and a constant loss function but not a cyclic loss function.
- the one using cross entropy as a scale was described, but the one based on an arbitrary scale such as L2 distance or Wasserstein metric may be used.
- the one using the L1 distance has been described, but the one based on an arbitrary scale such as the L2 distance may be used.
- the one using the identity loss function has been described, but the one based on an arbitrary scale such as the L2 distance may be used.
- the generation unit 110 does not necessarily have to use the conversion source speaker information in the type 1 data generation process.
- Such a generation unit 110 has, for example, the configuration shown in FIG. 12 below.
- FIG. 12 is a diagram showing an example of the functional configuration of the generation unit 110 in the second modification.
- the generation unit 110 includes an encoder 111 and a decoder 112.
- the encoder 111 is a neural network having a convolution layer.
- the encoder 111 encodes the first learning data.
- the encoder 111 includes a data acquisition unit 113, a first characteristic extraction unit 114, a second characteristic extraction unit 115, an extraction result conversion unit 116, and an encoding result output unit 117.
- the data acquisition unit 113 acquires the first learning data input to the encoder 111.
- the data acquisition unit 113 is an input layer of a neural network constituting the encoder 111.
- the first characteristic extraction unit 114 executes the first characteristic extraction process.
- the first characteristic extraction process is a process of acquiring information indicating the characteristics of the first learning audio signal of the first learning data (hereinafter referred to as “characteristic information”).
- the first characteristic extraction process is, for example, a process of sequentially executing a short-time Fourier transform for each predetermined interval in the time axis direction.
- the first characteristic extraction process may be a process of extracting mel cepstrum, or may be a conversion process by a neural network.
- the first characteristic extraction unit 114 is specifically a circuit that executes the first characteristic extraction process. Therefore, the first characteristic extraction unit 114 is one of the intermediate layers of the neural network constituting the encoder 111 when the first characteristic extraction process is the conversion process by the neural network.
- the second characteristic extraction unit 115 executes the second characteristic extraction process.
- the second characteristic extraction process is a process of executing a convolution process in machine learning for the characteristic information.
- the convolution process in machine learning is a process of extracting the characteristics of the process target from the process target. Therefore, the second characteristic extraction process is a process of extracting information having a characteristic different from the characteristic indicated by the characteristic information of the processing target of the first characteristic extraction process among the characteristics of the first learning audio signal. That is, the second characteristic extraction process is also a process of acquiring characteristic information in the same manner as the first characteristic extraction process.
- the second characteristic extraction unit 115 is a convolution layer of the neural network constituting the encoder 111.
- the extraction result conversion unit 116 executes the extraction result conversion process.
- the extraction result conversion process converts the execution result of the second characteristic extraction process by the extraction result conversion map based on the conversion destination speaker information.
- the extraction result conversion map is a map updated according to the estimation result of the identification unit 120, is a map according to the conversion destination speaker information, and is the execution result of the conversion destination speaker information and the second characteristic extraction process (that is,). It is a mapping that converts only the execution result of the second characteristic extraction process of the characteristic information).
- the extraction result conversion unit 116 is one of the intermediate layers of the neural network constituting the encoder 111.
- the extraction result conversion map executes affine transformation at least according to the conversion destination speaker information on the execution result of the second characteristic extraction process.
- the extraction result conversion map may be an affine transformation according to not only the conversion destination speaker information but also the conversion source speaker information.
- An example of the affine transformation for the execution result of the second characteristic extraction process is the function CIN represented by the following equation (5).
- the tensor f is characteristic information. More specifically, the tensor f is a feature quantity tensor in which each element represents a feature quantity related to the first learning data. The tensor f is a tensor of at least the third floor. ⁇ (f) represents the average value of the element values in each second-order tensor for each second-order tensor orthogonal to a predetermined one direction of the tensor f. Therefore, ⁇ (f) is a C-dimensional vector if the number of elements in a predetermined direction is C.
- a predetermined direction is, for example, a direction indicating a channel of a feature amount tensor on the third floor of height ⁇ width ⁇ channel extracted by CNN.
- ⁇ (f) represents the standard deviation of the element values in each second-order tensor from which ⁇ (f) is obtained. Therefore, ⁇ (f) is a vector having the same number of elements as ⁇ (f).
- the coefficient ⁇ c2 and the coefficient ⁇ c2 are parameters that are updated for each speaker indicated by the converted speaker information by learning using the objective function L.
- a series of processes of the first characteristic extraction, the second characteristic extraction, and the extraction result conversion process is the encoding of the first learning data by the encoder 111.
- the encoding result output unit 117 outputs the encoded first learning data to the decoder 112. Specifically, the encoding result output unit 117 is an output layer of a neural network constituting the encoder 111.
- the decoder 112 generates type 1 generated data based on the output result of the encoder 111.
- the process of generating the first-class generated data based on the first learning data which is the process by the encoder 111 and the decoder 112, is an example of the first-class data generation process.
- FIG. 13 is a flowchart showing an example of the flow of processing executed by the generation unit 110 in the second modification.
- the data acquisition unit 113 acquires the first learning data (step S601).
- the first characteristic extraction unit 114 executes the first characteristic extraction process (step S602).
- the second characteristic extraction unit 115 executes the second characteristic extraction process for the characteristic information obtained by the first characteristic extraction process in step S602 (step S603).
- the extraction result conversion unit 116 executes the extraction result conversion process for the characteristic information obtained by the second characteristic extraction process in step S603 (step S604).
- the encoding result output unit 117 outputs the information obtained by the process of step S604 to the decoder (step S605).
- the decoder 112 decodes the information output in step S605 (step S606).
- the information obtained by the decoding in step S606 is the first type generated data.
- steps S603 and S604 may be repeatedly executed a plurality of times after the execution of the first characteristic extraction process and before the execution of the process of step S605.
- the execution target of the second characteristic extraction process after the second time is the information obtained by the extraction result conversion process of the characteristic information extracted by the immediately preceding second characteristic extraction process.
- the second characteristic extraction process for the characteristic information is executed in the encoding process by the generation unit 110 in the second modification. Then, even when the processes of steps S603 and S604 are executed a plurality of times, the second characteristic extraction process for the characteristic information is executed at least once in the encoding process by the generation unit 110 in the second modification.
- the voice signal conversion model learning device 1 of the second modification configured in this way, when the convolution process is executed by the convolution layer, the convolution process is executed for the information that does not depend on the conversion destination speaker information, and the convolution process is executed. The execution result of is converted according to the conversion destination speaker information. Therefore, the voice signal conversion model learning device 1 of the second modification has a space and characteristics for expressing the conversion destination speaker information, as compared with the technique of performing convolution including the conversion destination speaker information at the time of executing the convolution processing. Information can be processed while maintaining a high degree of orthogonality with the space in which the information is expressed.
- the orthogonality means the degree to which the expression space representing the audio signal and the expression space representing the information indicating the conversion destination are orthogonal to each other.
- the voice signal conversion model learning device 1 of the second modification which can maintain the orthogonality, reduces the amount of calculation as compared with the technique of performing convolution including the converted speaker information at the time of executing the convolution process. be able to.
- the audio signal conversion model learning device 1 of the second modification configured in this way, it is possible to efficiently perform conversion of characteristic information different for each speaker for the following reasons.
- the reason is as follows.
- the speaker information is used as a part of the convolved information, so that the characteristics according to the speaker information are used. It does not directly execute the selection of information.
- the audio signal conversion model learning device 1 of the second modification the strength of the characteristic information is directly expressed for each speaker using learnable parameters as in the affine transformation shown in the equation (5). It is possible. Therefore, the audio signal conversion model learning device 1 of the second modification can efficiently perform conversion of characteristic information different for each speaker as compared with the conventional technique.
- the learnable parameters represent the coefficient ⁇ c2 and the coefficient ⁇ c2 . That is, the voice signal conversion model learning device 1 of the second modification configured in this way can provide a technique for suppressing an increase in the number of parameters used in the mathematical model representing the voice conversion.
- the generation unit 110 of the second modification is a device including a generator such as a hostile generation network (GAN) and a discriminator, which are updated by learning, and the generator is a value based on the conversion destination speaker information. It may be applied to any device as long as it is a device that outputs (hereinafter referred to as "generative network").
- the generation unit 110 of the second modification operates as a generation unit of the general generation network.
- StarGAN of Non-Patent Document 1 is an example of a general generation network, and in StarGAN of Non-Patent Document 1, even if the generation unit 110 of the second modification is used instead of the Generator possessed by StarGAN of Non-Patent Document 1. good.
- the tribute in Non-Patent Document 1 is the converted speaker information in the audio signal generation system 100.
- the voice conversion of the voice signal generation system 100 does not necessarily mean that the attributes of the voice signal can be converted. It does not have to be a conversion of the person.
- the conversion source attribute information is used instead of the conversion source speaker information
- the conversion destination attribute information is used instead of the conversion destination speaker information
- the conversion destination attribute information is used instead of the speaker identification information. Attribute identification information is used.
- the conversion source attribute information indicates the attribute to which the first learning voice belongs.
- the conversion destination speaker information is a preset attribute and indicates an attribute to which the first-class generated voice belongs.
- the attribute identification information is a preset attribute and indicates an attribute to which the second learning voice belongs.
- the random speaker information is information indicating an attribute randomly determined by the determination unit 130 among a plurality of attributes prepared in advance. Further, in such a case, the voice estimation process is a process of estimating whether or not the voice signal has the attribute to which the processing target belongs and represents the voice actually emitted.
- the speaker is also one of the attributes, but as another attribute, the attribute may be, for example, gender.
- the voice signal generation system 100 converts, for example, the voice signal of the male voice into the voice signal of the female voice.
- the attribute may be, for example, an emotion.
- the voice signal generation system 100 converts, for example, a voice expressing a happy emotion into a voice expressing a sad emotion.
- the attribute may be, for example, a pronunciation type.
- the audio signal generation system 100 converts, for example, non-native English into native English.
- the attribute may be an attribute relating to voice quality.
- the attribute related to the quality of voice is, for example, an attribute indicating either synthetic voice or natural voice. Natural voice is a sound actually emitted by a person, and synthetic voice is a voice generated by a device such as a computer. In such a case, the voice signal generation system 100 converts, for example, synthetic voice into natural voice.
- FIG. 14 is an experiment showing the difference in mel-cepstrum distortion (MCD) and the difference in modulation spectral distance (MSD) due to the difference in the objective function used for learning the voice signal conversion model (MSD).
- MCD mel-cepstrum distortion
- MSD modulation spectral distance
- a voice signal conversion model is learned using the speaker identification loss function L cls , the hostile loss function La dv, the cyclic loss function L'cyc , and the uniform loss function L' id as the objective function L.
- An experiment (hereinafter referred to as "1-1 experiment") was carried out.
- the voice signal conversion model is trained by using the hostile loss function Lt-adv , the cyclic loss function L' cyc , and the identity loss function L' id as the objective function L (hereinafter, "the first”. "1-2 Experiment”) was carried out.
- a voice signal conversion model is used as the objective function L by using the speaker identification loss function L cls , the hostile loss function L t-adv , the cyclic loss function L' cyc , and the uniform loss function L' id .
- 1st-3rd experiment was carried out.
- an experiment (hereinafter referred to as "1st-4th experiment") was conducted in which the audio signal conversion model was trained using the function represented by the equation (1) as the objective function L.
- ⁇ cyc was 10 and ⁇ id was 1.
- the speaker identification loss function L cls is expressed by the sum of the following equations (6) and (7), and the hostile loss function La dv is expressed by the following equation (8), and the hostile loss function L t-adv . Is expressed by the following equation (9), the cyclic loss function L' cyc is expressed by the equation (10), and the constant loss function L' id is expressed by the equation (11).
- x and c 1 on the right side of the equation (6) represent S ′ 0 and C ′ 1 of the second learning data in order.
- x and c 2 on the right side of the equation (7) represent S 0 and C 2 of the first learning data in order.
- x in the first term on the right side of the equation (8) represents S'0 of the second learning data.
- x and c 2 of the second term on the right side of the equation (8) represent S 0 and C 2 of the first learning data in order.
- x and c 1 of the first term on the right side of the equation (9) represent S ′ 0 and C ′ 1 of the second learning data in order.
- x and c 2 of the second term on the right side of the equation (9) represent S 0 and C 2 of the first learning data in order.
- x, c 1 , and c 2 on the right side of the equation (10) represent S 0 , C 1 , and C 2 of the first learning data in order.
- x and c 1 on the right side of the equation (11) represent S 0 and C 1 of the first learning data in order.
- FIG. 14 shows that the experimental results of Experiment 1-4 are the smallest MCD and the smallest MSD. This is because the trained voice signal conversion model obtained by learning using the objective function L represented by the equation (1) is a conversion predecessor than the trained voice signal conversion model obtained by the other learning in FIG. It shows that it is possible to convert into a voice signal representing a voice close to the voice of the speaker indicated by the person information.
- L cls represents the 1-1 experiment
- L t-adv represents the 1-2 experiment
- L t-adv + L cls (StarGAN-VC) represents the 1-first experiment.
- 3 experiments are represented, and "L st-adv (StarGAN-VC2)” represents the 1-4 experiments.
- FIG. 15 is a diagram of the results of an experiment (hereinafter referred to as “second experiment”) showing the difference between MCD and MSD due to the difference in the functional configuration of the generation unit 110 used for learning the audio signal conversion model.
- “Cannel-wise (StarGAN-VC)” is a technique for performing convolution including conversion destination speaker information at the time of executing the convolution process by the encoder 111. That is, the result of the line of “Cannel-wise (StarGAN-VC)” is the learned voice signal conversion model obtained by learning to perform convolution including the conversion destination speaker information at the time of executing the convolution process by the encoder 111. MSD and MCD are shown.
- Modulation-based (StarGAN-VC2) is a technique for encoding the first learning data by the process shown in FIG. That is, the result of the line of “Modulation-based (StarGAN-VC2)” shows the MSD and MCD of the trained audio signal conversion model obtained by learning using the generation unit 110 of the second modification.
- FIG. 15 shows that the value of MCD is substantially the same in "Cannel-wise (StarGAN-VC)" and “Modulation-based (StarGAN-VC2)".
- FIG. 15 shows that the MSD value of "Modulation-based (StarGAN-VC2)” is smaller than the MSD value of "Cannel-wise (StarGAN-VC)".
- FIG. 15 shows that the trained speech signal conversion model obtained by the learning of "Modulation-based (StarGAN-VC2)" is the learning obtained by the learning of "Cannel-wise (StarGAN-VC)". It shows that it is possible to convert to a voice signal representing a voice closer to the speaker's voice indicated by the conversion destination speaker information than the completed voice signal conversion model.
- FIG. 16 shows the results of an experiment (hereinafter referred to as “third experiment”) showing MOS (mean opinion score) due to the difference in the combination of the objective function used for learning the audio signal conversion model and the functional configuration of the generation unit 110. It is a figure.
- the MOS had a maximum evaluation of 5 and a minimum evaluation of 1.
- the “StarGAN-VC2” in FIG. 16 is an audio signal conversion model learning device 1 in which the objective function is represented by the equation (1) and the generation unit 110 encodes the first learning data by the process described in FIG. Represents the trained audio signal conversion model obtained by.
- “StarGAN-VC” in FIG. 16 represents a trained audio signal conversion model obtained by the comparison target device.
- the objective function is represented by the linear sum of equations (6), (7), (8) and (10) and (11), and the generator 110 is convolved by the encoder 111. It differs from the voice signal conversion model learning device 1 in that it convolves including the conversion destination speaker information at the time of executing the processing of.
- Inter gender indicates the MOS for the conversion of audio signals between the opposite sexes by the trained audio signal conversion model.
- “Intra gender” indicates a MOS for same-sex audio signal conversion by a trained audio signal conversion model.
- All is the sum of the result of “Inter gender” and the result of “Intra gender”.
- FIG. 16 shows that the audio signal obtained by "StarGAN-VC2" has a higher MOS than the audio signal obtained by "StarGAN-VC” in all of "Inter gender", “Intra gender” and “All”. Indicates that.
- FIG. 17 shows the results of an experiment (hereinafter referred to as “fourth experiment”) showing an Average preference shells on speaker simility due to a difference in the combination of the objective function used for learning the audio signal conversion model and the functional configuration of the generation unit 110. It is a figure.
- the Average preference scores on speaker simility is a subject that determines whether the voice generated by the trained voice signal conversion model resembles or cannot be said to be the actual voice of the speaker to which the voice signal is converted. This is an experiment to be judged by.
- the identification unit 120 may further execute the speaker identification process.
- the speaker identification process is executed when the second learning data is input to the identification unit 120.
- the speaker identification process estimates the speaker for the second learning audio signal S'0 of the input second learning data.
- the speaker identification process is executed by a neural network that executes the speaker identification process.
- the neural network that executes the speaker identification process is updated based on the value of the equation (6) or the equation (7) acquired by the loss acquisition unit 140. More specifically, the neural network that executes the speaker identification process is an equation based on the value of the equation (6) acquired by the loss acquisition unit 140 when the second learning data is input to the identification unit 120. It is updated so that the value of (6) becomes smaller.
- the neural network that executes the speaker identification process has the formula (7) based on the value of the formula (7) acquired by the loss acquisition unit 140 when the first learning data is input to the generation unit 110. Updated to reduce the value. Further, when the first learning data is input to the generation unit 110, the generation unit 110 reduces the value of the equation (7) based on the value of the equation (7) acquired by the loss acquisition unit 140. learn.
- the function represented by C in the equation (6) represents the speaker identification process. Further, when the speaker identification process is executed, the identification unit 120 may or may not use either or both of the conversion source speaker information and the conversion destination speaker information.
- the identification unit 120 uses the identification input data without using either or both of the conversion source speaker information and the conversion destination speaker information. It is estimated whether or not the indicated audio signal is an audio signal representing the actually emitted audio.
- the generation unit 110 does not necessarily have to use the conversion source speaker information.
- the identification unit 120 may or may not use the conversion source speaker information.
- the identification unit 120 estimates whether or not the voice signal indicated by the identification input data is a voice signal representing the actually emitted voice without using the conversion source speaker information.
- the process executed in the second characteristic extraction process does not necessarily have to be a convolution process.
- the process executed in the second characteristic extraction process may be any process as long as it is a process by a neural network, and may be, for example, Recurrent Neural Network or Fully Connected Neural Network. ..
- the second characteristic extraction process is an example of the characteristic process.
- the first-class data generation process is an example of the generation process.
- the first learning data is an example of an input audio signal.
- the first-class generated data is an example of the conversion destination audio signal.
- Natural voice estimation processing is an example of voice estimation processing.
- the speaker estimation process is an example of the attribute estimation process.
- the first-class generated voice is an example of the converted voice.
- the first learning voice is an example of the input voice.
- the audio signal conversion model learning device 1 may be implemented by using a plurality of information processing devices connected so as to be communicable via a network.
- each functional unit included in the audio signal conversion model learning device 1 may be distributed and mounted in a plurality of information processing devices.
- the audio signal conversion device 2 may be mounted by using a plurality of information processing devices connected so as to be able to communicate via a network.
- each functional unit included in the audio signal conversion device 2 may be distributed and mounted in a plurality of information processing devices.
- the program may be recorded on a computer-readable recording medium.
- the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a storage device such as a hard disk built in a computer system.
- the program may be transmitted over a telecommunication line.
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置。
Description
本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。
入力された音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。音質変換の技術の1つとして、例えば機械学習を用いることが提案されている。そのような機械学習を用いる技術の1つとして、敵対的生成ネットワーク等の生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用いる技術であって、変換先を示す情報を生成器及び識別器に導入する技術が提案されている(非特許文献1)。また、生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用い、変換結果が対象の属性に属するような制約条件を課すという技術も提案されている(非特許文献1)。
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo,"STARGAN-VC: NON-PARALLEL MANY-TO-MANY VOICE CONVERSION WITH STAR GENERATIVE ADVERSARIAL NETWORKS", arXiv:1806.02169v2
しかしながら、上述の従来技術等では、変換元の属性と変換先の属性との候補がどちらも多数ある場合に、適切に音声の変換ができない場合があった。例えば、男性の音声から女性の音声に変換する場合、男性との違いが明確に表れる高音の音域に重心を置いて変換されるため、対象とする女性の通常の音域よりも高音に偏りが出ることがある。また、例えば多対多変換の場合、女性の音声から女性の音声への変換と、女性の音声から男性の音声への変換のように、変換の難しさが異なる変換を同時に学習する必要がある。このような場合に、全ての組合せに対して均等に学習することができなくなることがあった。その結果、学習結果のモデルによる変換の結果の経験分布は、学習データの経験分布と乖離する場合があった。なお経験分布とは、データの特徴量を確率変数とする確率分布を意味する。
上記事情に鑑み、本発明は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することを目的としている。
本発明の一態様は、入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置である。
本発明により、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することが可能となる。
(実施形態)
図1及び図2を用いて、実施形態の音声信号生成システム100の概要を説明する。図1は、実施形態の音声信号生成システム100の概要を説明する説明図である。音声信号生成システム100は、第1の話者(以下「第1話者」という。)が発した音声(以下「第1話者音声」という。)を表す音声信号(以下「変換対象音声信号」という。)を変換済み音声信号に変換する。変換済み音声信号は、内容は変換対象音声信号と同一でありながら第1話者が発した音声が有する音響特徴(Acoustic Feature)よりも第2話者が発した音声が有する音響特徴を有する音声を表す音声信号である。第2話者は、変換済み音声信号が表す音声の話者としてユーザ等により音声信号生成システム100に予め指示された話者である。
図1及び図2を用いて、実施形態の音声信号生成システム100の概要を説明する。図1は、実施形態の音声信号生成システム100の概要を説明する説明図である。音声信号生成システム100は、第1の話者(以下「第1話者」という。)が発した音声(以下「第1話者音声」という。)を表す音声信号(以下「変換対象音声信号」という。)を変換済み音声信号に変換する。変換済み音声信号は、内容は変換対象音声信号と同一でありながら第1話者が発した音声が有する音響特徴(Acoustic Feature)よりも第2話者が発した音声が有する音響特徴を有する音声を表す音声信号である。第2話者は、変換済み音声信号が表す音声の話者としてユーザ等により音声信号生成システム100に予め指示された話者である。
音声信号生成システム100は、音声信号変換モデル学習装置1及び音声信号変換装置2を備える。音声信号変換モデル学習装置1は、変換対象音声信号を変換済み音声信号に変換する機械学習のモデル(以下「音声信号変換モデル」という。)を所定の終了条件が満たされるまで機械学習によって更新する。
以下説明の簡単のため、機械学習を行うことを学習という。また、機械学習のモデル(以下「機械学習モデル」という。)を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。なお、学習用とは、機械学習モデルの更新に用いられることを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは条件を表す。
図2は、実施形態における音声信号変換モデル学習装置1の概要を説明する説明図である。音声信号変換モデル学習装置1は、第1学習用データ及び第2学習用データを用いて学習を行うことで音声信号変換モデルを更新する。なお、以下第1学習用データと第2学習用データとを区別しない場合、それらを学習用データという。
第1学習用データは、音声信号、変換元話者情報及び変換先話者情報を有するデータである。変換元話者情報は、第1学習用データが示す音声信号(以下「第1学習用音声信号」という。)が表す音声(以下「第1学習用音声」という。)の話者を示す。変換先話者情報は、第1学習用音声信号の音声信号変換モデルによる変換先の音声信号(以下「第1種生成信号」という。)が表す音声(以下「第1種生成音声」という。)の話者として予め設定された話者を示す。設定は例えばユーザが行う。変換元話者情報が示す話者と変換先話者情報が示す話者とは同一であってもよいし、異なってもよい。以下説明の簡単のため、第1学習用音声信号がS0であり、変換元話者情報が示す話者がC1であり、変換先話者情報が示す話者がC2である第1学習用データを(S0、C1、C2)と表現する。なお、(A1、A2、A3)の記号は、情報A1、情報A2及び情報A3の一組の情報が後述する生成部110に入力される情報であることを示す。
第2学習用データは、音声信号、ランダム話者情報及び話者識別情報を含む。話者識別情報は、第2学習用データが示す音声信号(以下「第2学習用音声信号」という。)が表す音声(以下「第2学習用音声」という。)の話者として予め設定された話者を示す。ランダム話者情報は、予め用意された複数の話者のうち後述する決定部130によりランダムに決定された話者を示す情報である。ランダムな決定は、乱数発生器等の乱数を発生する技術を用いて決定される。以下説明の簡単のため、第2学習用音声信号がS´0であり、ランダム話者情報が示す話者がC´2であり、話者識別情報が示す話者がC´1である第2学習用データを[S´0、C´2、C´1]と表現する。なお、以下、[A1、A2、A3]の記号は情報A1、情報A2及び情報A3の一組の情報が後述する識別部120又は損失取得部140へ入力される情報であることを示す。
音声信号変換モデル学習装置1は、生成部110、識別部120、決定部130及び損失取得部140を備える。生成部110は、第1学習用データを取得し、取得した第1学習用データ(S0、C1、C2)を用いて第1種データ生成処理及び第2種データ生成処理を実行する。
第1種データ生成処理は、取得した第1学習用データに基づき音声信号変換モデルにより第1種生成データを生成する処理である。第1種生成データは、第1種生成信号、変換元話者情報及び変換先話者情報を有するデータである。そのため、第1学習用データの表現に倣って第1種生成データを記号で表現すれば、第1種生成信号がS1である場合に、第1種生成データは[S1、C1、C2]と表現される。
第2種データ生成処理は、第1種データ生成処理によって生成した第1種生成データに基づき第2種生成データを生成する処理である。第2種生成データは、第2種生成信号、変換元話者情報及び変換先話者情報を有する。第2種生成信号は、逆生成用データに対する第1種データ生成処理の実行結果が示す音声信号(以下「逆音声信号」という。)である。
逆生成用データは、第1種生成データの変換元話者情報を変換先話者情報とし、第1種生成データの変換先話者情報を変換元話者情報とし、第1種生成信号を第1学習用音声信号とする第1学習用データである。そのため、第1学習用データの表現に倣って逆生成用データを記号で表現すれば、逆生成用データは(S1、C2、C1)と表現される。
また、逆生成用データが(S1、C2、C1)と表現されるため、第1学習用データの表現に倣って第2種生成データを記号で表現すれば、逆音声信号がS2である場合、第2種生成データは[S2、C2、C1]と表現される。このように、第2種データ生成処理は、逆生成用データに対する第1種データ生成処理である。
生成部110は、生成した第1種生成データを識別部120に出力する。生成部110は、生成した第2種生成データを損失取得部140に出力する。
以下、第1種生成データが有する変換元話者情報と変換先話者情報との1対の情報を第1対情報という。以下、第2学習用データが有するランダム話者情報及び話者識別情報との1対の情報を第2対情報という。第1対情報と第2対情報とはどちらも、話者を示す1対の情報である。そこで、以下、第1対情報と第2対情報とを区別しない場合、対情報という。また、第1対情報と第2対情報とはどちらも、対情報を含む第1種生成データ又は第2学習用データが含む音声信号の話者としてユーザ等により予め設定された話者を示す情報を含む。具体的には、第1種生成データが含む変換先話者情報は第1対情報が含む情報であって予め設定された話者を示す情報であり、第2学習用データが含む話者識別情報は第2対情報が含む情報であって予め設定された話者を示す情報である。以下、第1種生成データが含む変換先話者情報と、第2学習用データが含む話者識別情報とを区別しない場合、話者設定情報という。
識別部120は、音声推定処理を実行する。音声推定処理は、処理対象の音声信号について、処理対象の音声信号の対情報に基づき対情報が示す情報のうち話者設定情報が示す話者が実際に発した音声を表す音声信号か否かを推定する処理である。
識別部120の処理対象の音声信号は、識別部120に入力されたデータであって音声信号を含むデータ(以下「識別入力データ」という。)が示す音声信号の表す音声(以下「識別音声」という。)である。識別入力データは、具体的には第1種生成データと第2学習用データとである。識別部120の推定結果は、損失取得部140に出力される。
決定部130は、識別入力データを第1種生成データと第2学習用データとのいずれにするかを所定の規則に従って決定する。所定の規則は識別入力データを決定可能であればどのような規則であってもよく、例えば乱数発生器で発生させた乱数を用い、第1学習用データと第2学習用データとを等確率で識別入力データに決定する規則である。
決定部130は、第1種生成データを識別入力データに決定した場合、生成部110に入力させる第1学習用データを第1学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。第1学習用データ群は、第1学習用データの集合である。所定の規則は、生成部110に入力させる第1学習用データを第1学習用データ群に含まれる複数のデータの中から決定可能であればどのような規則であってもよい。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。
決定部130は、第2学習用データを識別入力データに決定した場合、識別部120に入力させる第2学習用データを第2学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。第2学習用データ群は、第2学習用データの集合である。第1学習用データ群及び第2学習用データ群の各データは、音声信号変換モデル学習装置1が備える後述する記憶部に記憶済みのデータである。
決定部130は、識別入力データを第1種生成データに決定したか第2学習用データに決定したかを示す情報(以下「経路情報」という。)を損失取得部140に出力する。
決定部130によって第1種生成データが識別入力データに決定された場合には、生成部110は、決定部130により生成部110に入力させる第1学習用データとして決定された第1学習用データを取得する。決定部130によって第2学習用データが識別入力データに決定された場合には、識別部120は、識別部120に入力させる第2学習用データとして決定部130により決定された第2学習用データを取得する。
また決定部130は、第2学習用データを識別入力データに決定した場合、ランダム話者情報も決定する。
損失取得部140は、識別入力データ、第2種生成データ及び経路情報を取得し、以下の式(1)~(4)で表される目的関数Lの値(以下「目的損失」という。)を取得する。目的関数Lは、以下の式(2)で表される拡張型敵対的損失関数と、以下の式(3)で表される循環型損失関数と、以下の式(4)で表される恒等損失関数とを含む。
Dは、識別部120が実行する自然音声推定処理及び話者推定処理による識別入力データから推定結果への写像を表す。Gは、生成部110が実行する第1種データ生成処理によるデータの変換を表現する写像を表す。
xは、識別入力データが示す音声信号を表す。式(2)~(4)におけるEの下付き文字のうち、(x、c1)~P(x、c1)は、学習データの分布P(x、c1)から音響特徴量xと音響特徴量xに対応する話者情報c1とをサンプリングすることを示す。なお、話者情報とは、変換元話者情報、変換先話者情報、ランダム話者情報又は話者識別情報を意味する。なお学習データの分布とは、具体的には、第1学習用データ群における第1学習用データの特徴量を確率変数とする確率分布を表す。すなわち、P(x、c1)は多次元分布で、横軸は、(x、c1)の各次元を表す。Eは期待値を表す。
式(2)~(4)のにおけるEの下付き文字のうち、c2~P(c2)は話者情報をランダムにサンプリングすることを示す。
なお式(2)の右辺第1項のx、c1、c2は順に、第2学習用データのS´0、C´1,C´2を表す。なお式(2)の右辺第2項のc1、c2は順に、第1学習用データ及び第1種生成データのC1、C2を表し、xは、第1学習用データのS0を表し、G(x、c1、c2)は、第1種生成データのS1を表す。なお式(3)の右辺のc1、c2は順に、第1学習用データ及び逆生成用データ及び第2種生成データのC1、C2を表す。なお式(3)の右辺のxは、第1学習用データのS0を表す。なお式(3)の右辺のG(x、c1、c2)は、逆生成用データのS1を表し、G(G(x、c1、c2)c2、c1)は、第2種生成データのS2を表す。なお式(4)の右辺のxは、第1学習用データのS0を表し、c1は、第1学習用データのC1及びC2を表す。
拡張型敵対的損失関数の値(以下「拡張型敵対的損失」という。)は、識別部120が推定した音質類及び話者と、識別音声の音質類及び話者との違いを示す。なお、識別音声の話者は、第1種生成データが識別入力データであることを経路情報が示す場合には変換先話者情報が示す話者であり、第2学習用データが識別入力データであることを経路情報が示す場合には話者識別情報が示す話者である。なお、識別音声が第2学習用音声である場合には識別音声の音質類は自然音声集合であり、識別音声が第1種生成音声である場合には識別音声の音質類は合成音声集合である。
循環型損失関数の値(以下「循環型損失」という。)は、第2種生成データが示す音声信号(すなわち第2種生成信号)と第1学習用データが示す音声信号(すなわち第1学習用音声信号)との違いを示す。
恒等損失関数は、生成部110へ入力される第1学習用データの変換元話者情報が示す話者と第1学習用データの変換先話者情報が示す話者とが同一である場合に、第1学習用音声と第1種生成音声とが同一になるよう制約をかけるために導入される損失関数である。
損失取得部140が取得した目的損失は、生成部110及び識別部120に出力される。生成部110及び識別部120は、目的損失に基づき学習する。より具体的には、例えば生成部110は目的損失を小さくするように学習し、識別部120は拡張型敵対的損失関数を大きくするように学習する。生成部110及び識別部120は、目的損失に基づいて学習可能であればどのようなものであってもよく、生成部110及び識別部120は、例えばニューラルネットワークである。
図3は、実施形態における第1種データ生成処理の流れの一例を説明する説明図である。
生成部110が第1学習用データを取得する(ステップS101)。次に生成部110は第1学習用データに基づき第1種生成データを生成する(ステップS102)。
生成部110が第1学習用データを取得する(ステップS101)。次に生成部110は第1学習用データに基づき第1種生成データを生成する(ステップS102)。
図4は、実施形態における第2種データ生成処理の流れの一例を説明する説明図である。
生成部110が第1種生成データを取得する(ステップS201)。ステップS201の処理はステップS102の処理であってもよいし、ステップS102の処理で生成された第1種生成データを生成部110が改めて取得しなおす処理であってもよい。次に生成部110は、第1種生成データに基づき、逆生成用データに対する第1種データ生成処理を実行することで第2種生成データを生成する(ステップS202)。
生成部110が第1種生成データを取得する(ステップS201)。ステップS201の処理はステップS102の処理であってもよいし、ステップS102の処理で生成された第1種生成データを生成部110が改めて取得しなおす処理であってもよい。次に生成部110は、第1種生成データに基づき、逆生成用データに対する第1種データ生成処理を実行することで第2種生成データを生成する(ステップS202)。
図5は、実施形態における識別部120が実行する処理の流れの一例を説明する説明図である。
識別部120は、識別入力データを取得する(ステップS301)。識別部120は、音声推定処理を実行する(ステップS302)。
識別部120は、識別入力データを取得する(ステップS301)。識別部120は、音声推定処理を実行する(ステップS302)。
図6は、実施形態の音声信号変換モデル学習装置1が実行する処理の流れの一例を示す第1の図である。図3~図5に記載の処理と同様の処理については図3~図5と同じ符号を用いることで説明を省略する。
決定部130が識別入力データを第1種生成データに決定する(ステップS401)。次にステップS101の処理が実行される。次にステップS102の処理が実行される。次にステップS202の処理が実行される。次にステップS301の処理が実行される。次にステップS302の処理が実行される。次に、損失取得部140が、ステップS101で取得された第1学習用データと、第2種生成データと、ステップS302の推定結果とに基づき、目的損失を取得する(ステップS402)。目的損失に基づき、生成部110及び識別部120が学習する(ステップS403)。
図7は、実施形態の音声信号変換モデル学習装置1のハードウェア構成の一例を示す図である。
音声信号変換モデル学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音声信号変換モデル学習装置1は、プログラムの実行によって制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置1は、制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。
制御部10は、音声信号変換モデル学習装置1が備える各種機能部の動作を制御する。制御部10は、例えば第1種データ生成処理を実行する。制御部10は、例えば第2種データ生成処理を実行する。制御部10は、例えば自然音声推定処理を実行する。制御部10は、例えば話者推定処理を実行する。
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。入力部11は、例えば学習の開始を指示する入力を受け付ける。入力部11は、例えば第1学習用データ群に追加するデータの入力を受け付ける。入力部11は、例えば第2学習用データ群に追加するデータの入力を受け付ける。
インタフェース部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して外部装置と通信する。外部装置は、例えばUSB(Universal Serial Bus)メモリ等の記憶装置であってもよい。外部装置が例えば第1学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する第1学習用データを取得する。外部装置が例えば第2学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する第2学習用データを取得する。
インタフェース部12は、自装置を音声信号変換装置2に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して音声信号変換装置2と通信する。インタフェース部12は、音声信号変換装置2との通信により、音声信号変換装置2に学習済みの音声信号変換モデルを出力する。学習済みとは、所定の終了条件が満たされたことを意味する。
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音声信号変換モデル学習装置1に関する各種情報を記憶する。記憶部13は、例えば音声信号変換モデルを記憶する。記憶部13は、例えば予め第1学習用データ群を記憶する。記憶部13は、例えば予め第2学習用データ群を記憶する。記憶部13は、例えば入力部11又はインタフェース部12を介して入力された第1学習用データ及び第2学習用データを記憶する。記憶部13は、例えば識別部120の推定結果を記憶する。
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。
図8は、実施形態における制御部10の機能構成の一例を示す図である。
制御部10は、被管理部101及び管理部102を備える。被管理部101は、生成部110、識別部120、決定部130及び損失取得部140を備える。被管理部101は、第1学習用データ及び第2学習用データを用いて終了条件が満たされるまで音声信号変換モデルを更新する。
制御部10は、被管理部101及び管理部102を備える。被管理部101は、生成部110、識別部120、決定部130及び損失取得部140を備える。被管理部101は、第1学習用データ及び第2学習用データを用いて終了条件が満たされるまで音声信号変換モデルを更新する。
管理部102は、被管理部101の動作を制御する。管理部102は、例えば被管理部101が備える生成部110、識別部120、決定部130及び損失取得部140が実行する各処理のタイミングを制御する。
管理部102は、例えば入力部11、インタフェース部12、記憶部13及び出力部14の動作を制御する。管理部102は、例えば記憶部13から各種情報を読み出し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し記憶部13に記録する。管理部102、例えばインタフェース部12に入力された情報を取得し被管理部101に出力する。管理部102、例えばインタフェース部12に入力された情報を取得し記憶部13に記録する。管理部102は、例えば入力部11に入力された情報を出力部14に出力させる。
管理部102は、例えば生成部110の生成した第1種生成データを記憶部13に記録する。管理部102は、例えば識別部120の結果を記憶部13に記録する。管理部102は、例えば決定部130の決定結果を記憶部13に記録する。管理部102は、例えば損失取得部140の取得した損失を記憶部13に記録する。
図9は、実施形態における音声信号変換装置2のハードウェア構成の一例を示す図である。
音声信号変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部20を備え、プログラムを実行する。音声信号変換装置2は、プログラムの実行によって制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。より具体的には、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音声信号変換装置2は、制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。
制御部20は、音声信号変換装置2が備える各種機能部の動作を制御する。制御部20は、例えば音声信号変換モデル学習装置1が得た学習済みの音声信号変換モデルを用いて、変換対象音声信号を変換済み音声信号に変換する。
入力部21は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部21は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部21は、自装置に対する各種情報の入力を受け付ける。入力部21は、例えば変換対象音声信号を変換済み音声信号に変換する処理の開始を指示する入力を受け付ける。入力部21は、例えば変換対象の変換対象音声信号の入力を受け付ける。
インタフェース部22は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換対象音声信号の出力先である。このような場合、インタフェース部22は、外部装置との通信によって外部装置に変換対象音声信号を出力する。変換対象音声信号の出力際の外部装置は、例えばスピーカー等の音声出力装置である。
外部装置は、例えば学習済みの音声信号変換モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば学習済みの音声信号変換モデルを記憶しており学習済みの音声信号変換モデルを出力する場合、インタフェース部22は外部装置との通信によって学習済みの音声信号変換モデルを取得する。
外部装置は、例えば変換対象音声信号の出力元である。このような場合、インタフェース部22は、外部装置との通信によって外部装置から変換対象音声信号を取得する。
インタフェース部22は、自装置を音声信号変換モデル学習装置1に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して音声信号変換モデル学習装置1と通信する。インタフェース部22は、音声信号変換モデル学習装置1との通信により、音声信号変換モデル学習装置1から学習済みの音声信号変換モデルを取得する。
記憶部23は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は音声信号変換装置2に関する各種情報を記憶する。記憶部23は、例えばインタフェース部22を介して取得した学習済みの音声信号変換モデルを記憶する。
出力部24は、各種情報を出力する。出力部24は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部24は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部24は、例えば入力部21に入力された情報を出力する。
図10は、実施形態における制御部20の機能構成の一例を示す図である。制御部20は、変換対象取得部201、変換部202及び音声信号出力制御部203を備える。
変換対象取得部201は、変換対象となる変換対象音声信号を取得する。変換対象取得部201は、例えば入力部21に入力された変換対象音声信号を取得する。変換対象取得部201は、例えばインタフェース部22に入力された変換対象音声信号を取得する。
変換部202は、変換対象取得部201が取得した変換対象を、学習済みの音声信号変換モデルを用いて変換済み音声信号に変換する。変換済み音声信号は音声信号出力制御部203に出力される。
音声信号出力制御部203は、インタフェース部22の動作を制御する。音声信号出力制御部203は、インタフェース部22の動作を制御することでインタフェース部22に変換済み音声信号を出力させる。
図11は、実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャートである。制御部20が、インタフェース部22に入力された変換対象音声信号を取得する(ステップS501)。次に制御部20が、記憶部23に記憶された学習済みの音声信号変換モデルを用いて変換対象音声信号を変換済み音声信号に変換する(ステップS502)。次に制御部20がインタフェース部22の動作を制御して変換済み音声信号を出力先に出力させる(ステップS503)。出力先は、例えばスピーカー等の外部装置である。
このように構成された実施形態の音声信号生成システム100は、変換元話者情報、変換先話者情報及び話者識別情報を用いて学習し、学習済みの音声信号変換モデルを得る。このため音声信号生成システム100は、変換対象の音声信号が表す音声を、変換先話者情報だけに基づいて変換された音声信号よりも変換先話者情報が示す話者の音声に近い音声を表す音声信号に変換することができる。そのため、音声信号生成システム100は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とすることができる。
(第1変形例)
目的関数は拡張型敵対的損失関数を含んでいればよく、必ずしも循環型損失関数及び恒等損失関数まで含む必要はない。目的関数は、例えば拡張型敵対的損失関数であってもよいし、拡張型敵対的損失関数及び循環型損失関数を含み恒等損失関数を含まないものであってもよいし、拡張型敵対的損失関数及び恒等損失関数を含み循環型損失関数を含まないものであってもよい。
目的関数は拡張型敵対的損失関数を含んでいればよく、必ずしも循環型損失関数及び恒等損失関数まで含む必要はない。目的関数は、例えば拡張型敵対的損失関数であってもよいし、拡張型敵対的損失関数及び循環型損失関数を含み恒等損失関数を含まないものであってもよいし、拡張型敵対的損失関数及び恒等損失関数を含み循環型損失関数を含まないものであってもよい。
なお、拡張型敵対的損失関数の説明では、尺度としてクロスエントロピーを用いるものを説明したが、L2距離やワッサースタイン計量などの任意の尺度に基づくものを用いたものであってもよい。循環型損失関数の説明では、L1距離を用いるものを説明したが、L2距離などの任意の尺度に基づくものを用いたものであってもよい。恒等損失関数の説明では、L1距離を用いるものを説明したがL2距離などの任意の尺度に基づくものを用いたものであってもよい。
(第2変形例)
なお生成部110は、第1種データ生成処理において必ずしも変換元話者情報を用いなくてもよい。このような生成部110は、例えば以下の図12に示す構成である。
なお生成部110は、第1種データ生成処理において必ずしも変換元話者情報を用いなくてもよい。このような生成部110は、例えば以下の図12に示す構成である。
図12は、第2変形例における生成部110の機能構成の一例を示す図である。生成部110は、エンコーダ111及びデコーダ112を備える。
エンコーダ111は、畳み込み層を有するニューラルネットワークである。エンコーダ111は、第1学習用データをエンコードする。エンコーダ111は、データ取得部113、第1特性抽出部114、第2特性抽出部115、抽出結果変換部116及びエンコード結果出力部117を備える。データ取得部113は、エンコーダ111に入力された第1学習用データを取得する。データ取得部113は、具体的にはエンコーダ111を構成するニューラルネットワークの入力層である。
第1特性抽出部114は、第1特性抽出処理を実行する。第1特性抽出処理は、第1学習用データの第1学習用音声信号の特性を示す情報(以下「特性情報」という。)を取得する処理である。第1特性抽出処理は、例えば短時間フーリエ変換を時間軸方向の予め定められた区間ごとに順次実行する処理である。第1特性抽出処理は、メルケプストラムを抽出する処理であってもよいし、ニューラルネットワークによる変換処理であってもよい。なお、第1特性抽出部114は、具体的には第1特性抽出処理を実行する回路である。そのため、第1特性抽出部114は、第1特性抽出処理がニューラルネットワークによる変換処理である場合にはエンコーダ111を構成するニューラルネットワークの中間層の1つである。
第2特性抽出部115は、第2特性抽出処理を実行する。第2特性抽出処理は、特性情報に対して機械学習における畳み込みの処理を実行する処理である。機械学習における畳み込みの処理は処理対象から、処理対象が有する特性を抽出する処理である。そのため、第2特性抽出処理は、第1学習用音声信号が有する特性のうち第1特性抽出処理の処理対象の特性情報が示す特性とは異なる別の特性を示す情報を抽出する処理である。すなわち、第2特性抽出処理もまた第1特性抽出処理と同様に特性情報を取得する処理である。第2特性抽出部115は、具体的にはエンコーダ111を構成するニューラルネットワークの畳み込み層である。
抽出結果変換部116は、抽出結果変換処理を実行する。抽出結果変換処理は、変換先話者情報に基づき抽出結果変換写像により第2特性抽出処理の実行結果を変換する。抽出結果変換写像は、識別部120の推定結果に応じて更新される写像であり、変換先話者情報に応じた写像であり、変換先話者情報と第2特性抽出処理の実行結果(すなわち特性情報)とのうちの第2特性抽出処理の実行結果のみを変換する写像である。抽出結果変換部116は、具体的にはエンコーダ111を構成するニューラルネットワークの中間層の1つである。
抽出結果変換写像は、第2特性抽出処理の実行結果に対して、少なくとも変換先話者情報に応じたアフィン変換を実行する。なお、抽出結果変換写像は、変換先話者情報だけでなく変換元話者情報にも応じたアフィン変換であってもよい。第2特性抽出処理の実行結果に対するアフィン変換の一例は以下の式(5)で表される関数CINである。
式(5)においてテンソルfは特性情報である。より具体的には、テンソルfは、各要素が第1学習用データに関する特徴量を表す特徴量テンソルである。テンソルfは、少なくとも3階のテンソルである。μ(f)は、テンソルfの所定の一方向に直交する各2階のテンソルについて、各2階のテンソルにおける要素の値の平均値を表す。そのため、μ(f)は、所定の一方向の要素数がCであれば、C次元のベクトルである。所定の一方向は、例えばCNNで抽出される高さ×幅×チャネルの3階の特徴量テンソルのチャネルを示す方向である。σ(f)は、μ(f)を取得した各2階のテンソルにおける、要素の値の標準偏差を表す。そのため、σ(f)は、μ(f)と同じ要素数のベクトルである。係数γc2と係数βc2とは目的関数Lを用いた学習により変換先話者情報が示す話者ごとに更新されるパラメータである。
第1特性抽出、第2特性抽出及び抽出結果変換処理の一連の処理がエンコーダ111による第1学習用データのエンコードである。
エンコード結果出力部117は、エンコードされた第1学習用データをデコーダ112に出力する。エンコード結果出力部117は、具体的にはエンコーダ111を構成するニューラルネットワークの出力層である。
デコーダ112は、エンコーダ111の出力結果に基づき、第1種生成データを生成する。エンコーダ111及びデコーダ112による処理であって第1学習用データに基づき第1種生成データを生成する処理は第1種データ生成処理の一例である。
図13は、第2変形例における生成部110が実行する処理の流れの一例を示すフローチャートである。
データ取得部113が第1学習用データを取得する(ステップS601)。次に第1特性抽出部114が第1特性抽出処理を実行する(ステップS602)。次に第2特性抽出部115が、ステップS602における第1特性抽出処理によって得られた特性情報に対して第2特性抽出処理を実行する(ステップS603)。次に抽出結果変換部116がステップS603の第2特性抽出処理によって得られた特性情報に対して抽出結果変換処理を実行する(ステップS604)。次にエンコード結果出力部117が、ステップS604の処理によって得られた情報をデコーダに出力する(ステップS605)。次にデコーダ112がステップS605で出力された情報をデコードする(ステップS606)。ステップS606のデコードによって得られた情報が、第1種生成データである。
データ取得部113が第1学習用データを取得する(ステップS601)。次に第1特性抽出部114が第1特性抽出処理を実行する(ステップS602)。次に第2特性抽出部115が、ステップS602における第1特性抽出処理によって得られた特性情報に対して第2特性抽出処理を実行する(ステップS603)。次に抽出結果変換部116がステップS603の第2特性抽出処理によって得られた特性情報に対して抽出結果変換処理を実行する(ステップS604)。次にエンコード結果出力部117が、ステップS604の処理によって得られた情報をデコーダに出力する(ステップS605)。次にデコーダ112がステップS605で出力された情報をデコードする(ステップS606)。ステップS606のデコードによって得られた情報が、第1種生成データである。
なお、ステップS603及びステップS604の処理は、第1特性抽出処理の実行後であってステップS605の処理の実行前に、複数回繰り返し実行されてもよい。この場合、2回目以降の第2特性抽出処理の実行対象は、直前の第2特性抽出処理によって抽出された特性情報が抽出結果変換処理によって得られた情報である。
図13が示すように、第2変形例における生成部110によるエンコードの処理では、特性情報に対する第2特性抽出処理が実行される。そして、ステップS603及びステップS604の処理が複数回実行される場合であっても、第2変形例における生成部110によるエンコードの処理では、少なくとも1回は特性情報に対する第2特性抽出処理が実行される。
このように構成された第2変形例の音声信号変換モデル学習装置1は、畳み込み層による畳み込みの処理の実行時には、変換先話者情報に依存しない情報に対する畳み込みの処理が実行され、畳み込みの処理の実行結果が変換先話者情報に応じて変換される。このため、第2変形例の音声信号変換モデル学習装置1は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、変換先話者情報を表現する空間と特性情報を表現する空間との直交性の高さを維持したまま情報を処理することができる。なお直交性とは、音声信号を表す表現空間と変換先を示す情報を表す表現空間とが直交である度合を意味する。
直交性が低くなるほど1つの情報に含まれる変換先話者情報と特性情報との境界が不明確になりエンコード又はデコードの際に計算量が増大してしまう。そのため、直交性を維持することができる第2変形例の音声信号変換モデル学習装置1は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、計算量を減らすことができる。
また、このように構成された第2変形例の音声信号変換モデル学習装置1では以下の理由から、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。理由は以下の通りである。多対多音声変換を単一のモデルで実現するためには、話者ごとに異なる特性情報の変換を、話者情報に応じて選択的に実行できることが重要である。しかし、従来技術である、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術では、話者情報は畳み込みされる情報の一部として使われるため、話者情報に応じた特性情報の選択を直接的に実行することはない。
これに対し、第2変形例の音声信号変換モデル学習装置1では、式(5)で示したアフィン変換のように、話者ごとに特性情報の強弱を、学習可能なパラメータを用いて直接表現可能である。そのため、第2変形例の音声信号変換モデル学習装置1は、従来技術と比べて、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。なお学習可能なパラメータとは、式(5)の場合、係数γc2と係数βc2を表す。すなわち、このように構成された第2変形例の音声信号変換モデル学習装置1では、音声変換を表す数理モデルに用いられるパラメータの数の増大を抑制する技術を提供することができる。
なお、第2変形例の生成部110は、敵対的生成ネットワーク(GAN)等の生成器及び識別器を備えそれらが学習により更新される装置であって生成器は変換先話者情報に基づき値を出力する装置(以下「汎生成ネットワーク」という。)であればどのような装置に適用されてもよい。このような場合、第2変形例の生成部110は汎生成ネットワークが有する生成部として動作する。例えば非特許文献1のStarGANは汎生成ネットワークの一例であり、非特許文献1のStarGANでは、非特許文献1のStarGANが有するGeneratorに代えて、第2変形例の生成部110が用いられてもよい。この場合、非特許文献1におけるattributeは、音声信号生成システム100における変換先話者情報である。
(第3変形例)
なお、ここまで音声信号の変換に関して話者を変換することについて音声信号生成システム100の説明をしてきたが、音声信号生成システム100の音声の変換は音声信号の属性を変換可能であれば必ずしも話者の変換でなくてもよい。このような場合、音声信号生成システム100では変換元話者情報に代えて変換元属性情報が用いられ、変換先話者情報に代えて変換先属性情報が用いられ、話者識別情報に代えて属性識別情報が用いられる。変換元属性情報は、第1学習用音声の属する属性を示す。変換先話者情報は、予め設定された属性であって第1種生成音声の属する属性を示す。属性識別情報は、予め設定された属性であって第2学習用音声が属する属性を示す。ランダム話者情報は、予め用意された複数の属性のうち決定部130によりランダムに決定された属性を示す情報である。また、このような場合、音声推定処理は、処理対象の属する属性の音声信号であって実際に発せられた音声を表す音声信号か否かを推定する処理である。
なお、ここまで音声信号の変換に関して話者を変換することについて音声信号生成システム100の説明をしてきたが、音声信号生成システム100の音声の変換は音声信号の属性を変換可能であれば必ずしも話者の変換でなくてもよい。このような場合、音声信号生成システム100では変換元話者情報に代えて変換元属性情報が用いられ、変換先話者情報に代えて変換先属性情報が用いられ、話者識別情報に代えて属性識別情報が用いられる。変換元属性情報は、第1学習用音声の属する属性を示す。変換先話者情報は、予め設定された属性であって第1種生成音声の属する属性を示す。属性識別情報は、予め設定された属性であって第2学習用音声が属する属性を示す。ランダム話者情報は、予め用意された複数の属性のうち決定部130によりランダムに決定された属性を示す情報である。また、このような場合、音声推定処理は、処理対象の属する属性の音声信号であって実際に発せられた音声を表す音声信号か否かを推定する処理である。
話者も属性の1つであるがその他の属性として、属性は例えば性別であってもよい。このような場合、音声信号生成システム100は例えば男性の音声の音声信号を女性の音声の音声信号に変換する。また、属性は例えば感情であってもよい。このような場合、音声信号生成システム100は例えば嬉しい感情を表す声を悲しい感情を表す声に変換する。また、属性は例えば発音のタイプあってもよい。このような場合、音声信号生成システム100は例えば非ネイティブの英語をネイティブの英語に変換する。属性は、音声の質に関する属性であってもよい。音声の質に関する属性は、例えば合成音声か自然音声かのいずれか一方を示す属性である。自然音声は実際に人が発した音であり、合成音声はコンピュータ等の装置によって生成された音声である。このような場合、音声信号生成システム100は、例えば合成音声を自然音声に変換する。
(実施形態、第1~第3変形例を組み合わせた音声信号生成システム100を用いた実験の実験結果)
図14は、音声信号変換モデルの学習に用いる目的関数の違いによる、メルケプストラム歪み(Mel-cepstral distortion : MCD)の違いと、変調スペクトル距離(modulation spectra distance : MSD)の違いとを示す実験(以下「第1実験」という。)の結果の図である。
図14は、音声信号変換モデルの学習に用いる目的関数の違いによる、メルケプストラム歪み(Mel-cepstral distortion : MCD)の違いと、変調スペクトル距離(modulation spectra distance : MSD)の違いとを示す実験(以下「第1実験」という。)の結果の図である。
第1実験においては、目的関数Lとして話者識別損失関数Lclsと敵対的損失関数Ladvと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させる実験(以下「第1-1実験」という。)が行われた。第1実験においては、目的関数Lとして敵対的損失関数Lt-advと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させること(以下「第1-2実験」という。)が行われた。第1実験においては、目的関数Lとして話者識別損失関数Lclsと敵対的損失関数Lt-advと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させること(以下「第1-3実験」という。)が行われた。第1実験においては、目的関数Lとして式(1)で表される関数を用いて音声信号変換モデルを学習させる実験(以下「第1-4実験」という。)が行われた。第1実験において、λcycは10であり、λidは1であった。
話者識別損失関数Lclsは以下の式(6)及び式(7)の和で表され、敵対的損失関数Ladvは以下の式(8)で表され、敵対的損失関数Lt-advは以下の式(9)で表され、循環型損失関数L´cycは式(10)で表され、恒等損失関数L´idは式(11)で表される。
なお式(6)の右辺のx、c1は順に、第2学習用データのS´0、C´1を表す。なお、式(7)の右辺のx、c2は順に、第1学習用データのS0、C2を表す。なお式(8)の右辺第1項のxは、第2学習用データのS´0を表す。なお式(8)の右辺第2項のx、c2は順に、第1学習用データのS0、C2を表す。なお式(9)の右辺第1項のx、c1は順に、第2学習用データのS´0、C´1を表す。なお式(9)の右辺第2項のx、c2は順に、第1学習用データのS0、C2を表す。なお式(10)の右辺のx、c1、c2は順に、第1学習用データのS0、C1、C2を表す。なお式(11)の右辺のx、c1は順に、第1学習用データのS0、C1を表す。
図14は、第1-4実験の実験結果が最も小さいMCDと最も小さいMSDとであることを示す。これは式(1)で表される目的関数Lを用いた学習により得られる学習済みの音声信号変換モデルは、図14の他の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。なお、図14における“Lcls”は第1-1実験を表し、“Lt-adv”は第1-2実験を表し、“Lt-adv+Lcls(StarGAN-VC)”は第1-3実験を表し、“Lst-adv(StarGAN-VC2)”は第1-4実験を表す。
図15は、音声信号変換モデルの学習に用いる生成部110の機能構成の違いによる、MCDの違いとMSDの違いとを示す実験(以下「第2実験」という。)の結果の図である。
図15において、“Channel-wise (StarGAN-VC)”は、エンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術である。すなわち、“Channel-wise (StarGAN-VC)”の行の結果は、エンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う学習により得られた学習済み音声信号変換モデルのMSDとMCDとを示す。
図15において”Modulation-based(StarGAN-VC2)”は、図13に記載の処理により第1学習用データをエンコードする技術である。すなわち、”Modulation-based(StarGAN-VC2)”の行の結果は、第2変形例の生成部110を用いた学習により得られた学習済み音声信号変換モデルのMSDとMCDとを示す。
図15は、MCDの値は、”Channel-wise (StarGAN-VC)”と”Modulation-based(StarGAN-VC2)”とで略同一であることを示す。図15は、”Modulation-based(StarGAN-VC2)”のMSDの値の方が”Channel-wise (StarGAN-VC)”のMSDの値より小さいことを示す。このことから、図15は、”Modulation-based(StarGAN-VC2)”の学習により得られる学習済みの音声信号変換モデルの方が、“Channel-wise (StarGAN-VC)”の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。
図16は、音声信号変換モデルの学習に用いる目的関数と生成部110の機能構成との組合せの違いによる、MOS(mean opinion score)を示す実験(以下「第3実験」という。)の結果の図である。なお、MOSは最高評価が5であり最低評価が1のMOSであった。
図16の”StarGAN-VC2”は、目的関数が式(1)で表され生成部110が図13に記載の処理により第1学習用データをエンコードする機能部である音声信号変換モデル学習装置1が得た学習済みの音声信号変換モデルを表す。
図16の”StarGAN-VC”は、比較対象装置が得た学習済みの音声信号変換モデルを表す。比較対象装置は、目的関数が式(6)、式(7)、式(8)及び式(10)及び式(11)の線形和で表される点と、生成部110がエンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う点とで音声信号変換モデル学習装置1と異なる。
図16において”Inter gender”は、学習済み音声信号変換モデルによる異性間の音声信号の変換に対するMOSを示す。図16において”Intra gender”は、学習済み音声信号変換モデルによる同性間の音声信号の変換に対するMOSを示す。図16において“All”は、”Inter gender”の結果と”Intra gender”の結果との合計である。
図16は、”Inter gender”、 ”Intra gender”及び“All”の全てにおいて、”StarGAN-VC2”により得られた音声信号の方が”StarGAN-VC”により得られた音声信号よりも高いMOSであることを示す。
図17は、音声信号変換モデルの学習に用いる目的関数と生成部110の機能構成との組合せの違いによる、Average preference scores on speaker similarityを示す実験(以下「第4実験」という。)の結果の図である。Average preference scores on speaker similarityは、学習済みの音声信号変換モデルによって生成された音声が、音声信号の変換先の話者の実際の音声のどちらに似ているか、又は、どちらとも言えないかを被験者に判断してもらう実験である。
図17において”Fair”は、どちらとも言えないことを示す。図17は、”StarGAN-VC2”により得られた音声信号の音声の方が、”Inter gender”、 ”Intra gender”及び“All”の全てにおいて、変換先の話者に近い音声の音声信号を生成することを示す。
(第4変形例)
なお、識別部120は、更に話者識別処理を実行してもよい。話者識別処理は、識別部120に第2学習用データが入力された際に実行される。話者識別処理は、入力された第2学習用データの第2学習用音声信号S´0について話者を推定する。話者識別処理は具体的には話者識別処理を実行するニューラルネットワークにより実行される。話者識別処理を実行するニューラルネットワークは、損失取得部140が取得した式(6)又は式(7)の値に基づき更新される。より具体的には、話者識別処理を実行するニューラルネットワークは、第2学習用データが識別部120に入力された場合には、損失取得部140が取得する式(6)の値に基づき式(6)の値を小さくするように更新される。そして、話者識別処理を実行するニューラルネットワークは、第1学習用データが生成部110に入力された場合には、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように更新される。また、第1学習用データが生成部110に入力された場合には、生成部110は、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように学習する。なお式(6)におけるCで表される関数は、話者識別処理を表す。また、話者識別処理を実行する場合、識別部120は変換元話者情報又は変換先話者情報のいずれか又は両方を用いてもよいし用いなくてもよい。変換元話者情報又は変換先話者情報のいずれか又は両方を用いない場合、識別部120は、変換元話者情報又は変換先話者情報のいずれか又は両方を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
なお、識別部120は、更に話者識別処理を実行してもよい。話者識別処理は、識別部120に第2学習用データが入力された際に実行される。話者識別処理は、入力された第2学習用データの第2学習用音声信号S´0について話者を推定する。話者識別処理は具体的には話者識別処理を実行するニューラルネットワークにより実行される。話者識別処理を実行するニューラルネットワークは、損失取得部140が取得した式(6)又は式(7)の値に基づき更新される。より具体的には、話者識別処理を実行するニューラルネットワークは、第2学習用データが識別部120に入力された場合には、損失取得部140が取得する式(6)の値に基づき式(6)の値を小さくするように更新される。そして、話者識別処理を実行するニューラルネットワークは、第1学習用データが生成部110に入力された場合には、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように更新される。また、第1学習用データが生成部110に入力された場合には、生成部110は、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように学習する。なお式(6)におけるCで表される関数は、話者識別処理を表す。また、話者識別処理を実行する場合、識別部120は変換元話者情報又は変換先話者情報のいずれか又は両方を用いてもよいし用いなくてもよい。変換元話者情報又は変換先話者情報のいずれか又は両方を用いない場合、識別部120は、変換元話者情報又は変換先話者情報のいずれか又は両方を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
(第5変形例)
なお、生成部110については必ずしも変換元話者情報も用いなくてもいい旨を第2変形例で説明した。生成部110が変換元話者情報を用いない場合、識別部120は変換元話者情報を用いてもよいし用いなくてもよい。変換元話者情報を用いない場合、識別部120は、変換元話者情報を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
なお、生成部110については必ずしも変換元話者情報も用いなくてもいい旨を第2変形例で説明した。生成部110が変換元話者情報を用いない場合、識別部120は変換元話者情報を用いてもよいし用いなくてもよい。変換元話者情報を用いない場合、識別部120は、変換元話者情報を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
(第6変形例)
なお、第2特性抽出処理で実行される処理は必ずしも畳み込みの処理である必要は無い。第2特性抽出処理で実行される処理は、ニューラルネットワークによる処理であればどのような処理であってもよく、例えば、Recurrent Neural Networkであってもよいし、Fully Connected Neural Networkであってもよい。なお、第2特性抽出処理は特性処理の一例である。
なお、第2特性抽出処理で実行される処理は必ずしも畳み込みの処理である必要は無い。第2特性抽出処理で実行される処理は、ニューラルネットワークによる処理であればどのような処理であってもよく、例えば、Recurrent Neural Networkであってもよいし、Fully Connected Neural Networkであってもよい。なお、第2特性抽出処理は特性処理の一例である。
(第7変形例)
第1種データ生成処理は、生成処理の一例である。第1学習用データは、入力音声信号の一例である。第1種生成データは変換先音声信号の一例である。自然音声推定処理は音声推定処理の一例である。話者推定処理は属性推定処理の一例である。第1種生成音声は変換先音声の一例である。なお、第1学習用音声は入力音声の一例である。
第1種データ生成処理は、生成処理の一例である。第1学習用データは、入力音声信号の一例である。第1種生成データは変換先音声信号の一例である。自然音声推定処理は音声推定処理の一例である。話者推定処理は属性推定処理の一例である。第1種生成音声は変換先音声の一例である。なお、第1学習用音声は入力音声の一例である。
音声信号変換モデル学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
音声信号変換装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、音声信号生成システム100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…音声信号生成システム、 1…音声信号変換モデル学習装置、 2…音声信号変換装置、 10…制御部、 11…入力部、 12…インタフェース部、 13…記憶部、 14…出力部、 101…被管理部、 102…管理部、 110…生成部、 120…識別部、 130…決定部、 140…損失取得部、 20…制御部、 21…入力部、 22…インタフェース部、 23…記憶部、 24…出力部、 201…変換対象取得部、 202…変換部、 203…音声信号出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ
Claims (7)
- 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、
を備え、
前記変換先音声信号は前記識別部に入力され、
前記処理対象は前記識別部に入力される音声信号であり、
前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、
音声信号変換モデル学習装置。 - 前記生成部及び前記識別部は、前記音声推定処理の推定結果と、前記処理対象が示す属性と前記処理対象について実際に人が発した音声か否かを示す情報との違いを示す値を含む損失に基づき学習する、
請求項1に記載の音声信号変換モデル学習装置。 - 前記損失は、前記変換先音声信号と、前記変換先音声信号を入力音声信号とし前記変換先属性情報を変換元属性情報とし前記変換元属性情報を変換先属性情報とするデータである逆生成用データに対して生成処理を実行した結果と、の違いを示す値をさらに含む、
請求項2に記載の音声信号変換モデル学習装置。 - 前記損失は、前記変換元属性情報が示す属性と前記変換先属性情報が示す属性とが同一である場合に、前記入力音声と前記変換先音声信号が表す音声とが同一になるよう制約をかける関数の値をさらに含む、
請求項2又は3に記載の音声信号変換モデル学習装置。 - 変換対象の音声信号である変換対象音声信号を取得する取得部と、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置、が得た前記変換対象音声信号を変換する機械学習のモデルを用いて前記変換対象音声信号を変換する変換部、
を備える音声信号変換装置。 - 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置が実行する音声信号変換モデル学習方法であって、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成ステップと、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別ステップと、
前記生成部及び前記識別部が前記音声推定処理の推定結果に基づき学習する学習ステップと、
を有する
音声信号変換モデル学習方法。 - 請求項1から4のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022539804A JP7492159B2 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
PCT/JP2020/028717 WO2022024183A1 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
US18/017,800 US20230274751A1 (en) | 2020-07-27 | 2020-07-27 | Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/028717 WO2022024183A1 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022024183A1 true WO2022024183A1 (ja) | 2022-02-03 |
Family
ID=80037819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/028717 WO2022024183A1 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230274751A1 (ja) |
JP (1) | JP7492159B2 (ja) |
WO (1) | WO2022024183A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342256A1 (en) * | 2017-05-24 | 2018-11-29 | Modulate, LLC | System and Method for Voice-to-Voice Conversion |
JP2019101391A (ja) * | 2017-12-07 | 2019-06-24 | 日本電信電話株式会社 | 系列データ変換装置、学習装置、及びプログラム |
WO2019163848A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2020036178A1 (ja) * | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
-
2020
- 2020-07-27 WO PCT/JP2020/028717 patent/WO2022024183A1/ja active Application Filing
- 2020-07-27 US US18/017,800 patent/US20230274751A1/en active Pending
- 2020-07-27 JP JP2022539804A patent/JP7492159B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342256A1 (en) * | 2017-05-24 | 2018-11-29 | Modulate, LLC | System and Method for Voice-to-Voice Conversion |
JP2019101391A (ja) * | 2017-12-07 | 2019-06-24 | 日本電信電話株式会社 | 系列データ変換装置、学習装置、及びプログラム |
WO2019163848A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2020036178A1 (ja) * | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
TAKUHIRO KANEKO; HIROKAZU KAMEOKA; KOU TANAKA; NOBUKATSU HOJO: "StarGAN-VC2: Rethinking Conditional Methods for StarGAN-Based Voice Conversion", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 July 2019 (2019-07-29), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081457214 * |
Also Published As
Publication number | Publication date |
---|---|
US20230274751A1 (en) | 2023-08-31 |
JP7492159B2 (ja) | 2024-05-29 |
JPWO2022024183A1 (ja) | 2022-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6989951B2 (ja) | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 | |
WO2017168870A1 (ja) | 情報処理装置及び情報処理方法 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
US11031028B2 (en) | Information processing apparatus, information processing method, and recording medium | |
KR20220148245A (ko) | 스트리밍 시퀀스 모델에 대한 일관성 예측 | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
JP2020134657A (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
CN110751941B (zh) | 语音合成模型的生成方法、装置、设备及存储介质 | |
JP6243072B1 (ja) | 入出力システム、入出力プログラム、情報処理装置、チャットシステム | |
WO2022024183A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
KR20210045217A (ko) | 감정 이식 장치 및 감정 이식 방법 | |
JP6973192B2 (ja) | 言語モデルを利用する装置、方法及びプログラム | |
WO2022024187A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP6712973B2 (ja) | 文生成装置、文生成学習装置、文生成方法、及びプログラム | |
CN117033600A (zh) | 用于认知实体合成的生成性角色引擎 | |
JP2006072477A (ja) | 対話戦略学習方法、対話戦略学習プログラム、記憶媒体、および、対話戦略学習装置 | |
US12131729B2 (en) | Language model score calculating apparatus, learning apparatus, language model score calculating method, learning method and program | |
CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
WO2022085197A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
JP2021189402A (ja) | 音声処理プログラム、音声処理装置及び音声処理方法 | |
JP2020140674A (ja) | 回答選択装置及びプログラム | |
JP3091648B2 (ja) | 隠れマルコフモデルの学習方法 | |
JP7419615B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20946805 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022539804 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20946805 Country of ref document: EP Kind code of ref document: A1 |