WO2011077509A1 - 音声制御装置、及び音声制御方法 - Google Patents
音声制御装置、及び音声制御方法 Download PDFInfo
- Publication number
- WO2011077509A1 WO2011077509A1 PCT/JP2009/071253 JP2009071253W WO2011077509A1 WO 2011077509 A1 WO2011077509 A1 WO 2011077509A1 JP 2009071253 W JP2009071253 W JP 2009071253W WO 2011077509 A1 WO2011077509 A1 WO 2011077509A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- amplification
- voice control
- audio
- spectrum
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 19
- 230000003321 amplification Effects 0.000 claims abstract description 140
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 140
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
Definitions
- the present invention relates to a voice control device and a voice control method for controlling a voice signal.
- the speech enhancement technology there is a technology that makes it easy to hear the received voice by changing the voice characteristics of the received voice.
- a system that makes it easy to hear a received voice by acquiring the age of a patient from a patient information database registered in advance and changing the amplification amount of the received voice according to the age is disclosed.
- an interphone that makes it easy to hear the received voice by switching the frequency characteristics of the received voice by a switch operation by the user is disclosed. Moreover, the difference of the auditory characteristic by the difference of age or sex is disclosed.
- JP 2007-318577 A Japanese Patent Laid-Open No. 11-261709
- an object of the present invention is to analyze a user's transmission signal and make it easy to hear a voice output to the user based on the analysis result.
- the disclosed voice control apparatus is a voice control apparatus that controls and outputs a first voice signal, and includes analysis means for analyzing voice characteristics of the input second voice signal, and the input of the first voice signal. And a control unit that controls spectrum amplification based on the voice characteristics analyzed by the analysis unit.
- the disclosed voice control method is a voice control method in a voice control device that controls and outputs a first voice signal, and an analysis step for analyzing voice characteristics of the inputted second voice signal, A control step of controlling the amplification of the spectrum of the first voice signal based on the voice characteristic analyzed by the analysis step.
- the disclosed voice control device it is possible to analyze the user's transmission signal and control the voice output to the user to be easily heard based on the analysis result.
- FIG. 3 is a block diagram illustrating an example of a functional configuration of the voice control device 10 according to the first embodiment.
- FIG. It is a block diagram which shows an example of a function structure of the audio
- FIG. It is a figure explaining the difference by the sex of the inclination of the power in a high region.
- 6 is a diagram illustrating an example of amplification information in Embodiment 2.
- FIG. 10 is a flowchart illustrating an example of a voice control process according to the second embodiment. It is a block diagram which shows an example of a function structure of the audio
- Example 3 It is a figure explaining the difference by the sex of a formant frequency. It is a figure which shows an example of the amplification information in Example 3.
- 12 is a flowchart illustrating an example of a voice control process according to the third embodiment. It is a block diagram which shows an example of a function structure of the audio
- FIG. It is a figure which shows an example of the amplification information 407 in Example 4.
- 10 is a flowchart illustrating an example of a voice control process according to a fourth embodiment.
- FIG. 10 illustrates an example of a mobile phone according to a fifth embodiment.
- FIG. 1 is a diagram showing differences in auditory characteristics depending on age and gender based on the twenties (Non-Patent Document 1). As shown in FIG. 1, males are more difficult to hear voices than females, and in particular, the higher the frequency, the greater the difference in gender.
- a voice control device that controls an output sound that is easy to hear based on a voice signal uttered by a user (hereinafter also referred to as a transmission signal) using the difference in auditory characteristics depending on gender as shown in FIG. explain.
- FIG. 2 is a block diagram illustrating an example of a functional configuration of the voice control device 10 according to the first embodiment.
- a speech enhancement apparatus 10 illustrated in FIG. 2 includes a feature analysis unit 101 and a control unit 103.
- the voice control device 10 analyzes a voice characteristic of a second voice signal (for example, a transmission signal) input to the voice control apparatus 10 and outputs the first voice signal output from the voice control apparatus 10 based on the analyzed voice characteristic. Audio signal (for example, received signal) is amplified.
- a second voice signal for example, a transmission signal
- Audio signal for example, received signal
- the feature analysis unit 101 shown in FIG. 2 calculates the voice feature amount of the user's transmission signal.
- the voice feature amount is, for example, a spectrum inclination in a predetermined band, a formant frequency, or the like.
- the feature analysis unit 101 outputs the calculated audio feature amount to the control unit 103.
- the control unit 103 amplifies the spectrum of the audio signal output from the audio control device 10 based on the acquired audio feature amount. For the amplification of the spectrum of the audio signal, the amplification band and the amplification amount associated with the value of the audio feature amount are stored in the memory, and the control unit 103 refers to this memory and the amplification band corresponding to the audio feature amount. And determine the amount of amplification.
- control unit 103 amplifies the spectrum of the determined amplification band with respect to the spectrum of the input voice signal (received signal) and outputs the amplified spectrum.
- the output sound can be easily heard according to the voice characteristics of the uttering user.
- the voice control device 20 calculates the slope of the power spectrum.
- the amplification band and the amplification amount are determined based on the slope of the power spectrum, and the spectrum of the output audio signal is amplified.
- FIG. 3 is a block diagram illustrating an example of a functional configuration of the voice control device 20 according to the second embodiment.
- the voice control device 20 includes a feature analysis unit 201 and a control unit 205.
- the feature analysis unit 201 includes an inclination calculation unit 203
- the control unit 205 includes a determination unit 207, an amplification unit 211, and amplification information 213.
- the inclination calculation unit 203 acquires a transmission signal issued by the user from the microphone 217, and spectrum-converts the transmission signal for each frame. Next, the inclination calculation unit 203 calculates the power inclination in the high frequency region of the power spectrum (hereinafter also simply referred to as power). Here, as shown in FIG. 4, the difference between men and women appears in the power gradient in the high frequency range.
- FIG. 4 is a diagram for explaining a difference in power gradient in the high frequency depending on gender.
- the experimental conditions in FIG. 4 are as follows. ⁇ Spectral conversion of 7 male and female conversations (using conversations recorded in a commercially available DB) and taking the average ⁇ 1 frame is 160 samples (8 kHz sampling) ⁇ High frequency for each frame Finding the power slope (average power of 2250-2750-average power of 2750-3250) ⁇ Calculating the average value of the power slope of the high frequency for 2 seconds is shown in FIG. Yes. As shown in FIG. 4, it can be seen that the absolute value of the male inclination a1 is larger than the absolute value of the female inclination a2. In the second embodiment, the sexes of men and women are determined using the difference in inclination. Hereinafter, the slope indicates the absolute value of the slope.
- the inclination calculation unit 203 outputs the power inclination calculated based on the conditions shown in FIG. 4 to the determination unit 207. Note that the condition for calculating the power gradient is not limited to the condition described with reference to FIG.
- the inclination calculation unit 203 may calculate the inclination every time a transmission signal is acquired, or may calculate the inclination every predetermined time. If the inclination is calculated every predetermined time, the calculation in the inclination calculation can be reduced. In addition, after calculating the inclination first, the inclination calculation unit 203 outputs the calculated inclination to the determination unit 207 only when the inclination changes with a predetermined threshold (threshold value TH1 described later) as a boundary. Good. Thus, the determination unit 207 can determine the amplification band and the amplification amount only when necessary.
- a predetermined threshold threshold value TH1 described later
- the determination unit 207 determines the amplification band and the amplification amount based on the power gradient acquired from the feature analysis unit 201. Specifically, the determination unit 207 determines the amplification band and the amplification amount by referring to the amplification information 213 as illustrated in FIG.
- FIG. 5 is a diagram illustrating an example of amplification information in the second embodiment.
- the amplification information is associated with an amplification band and an amplification amount in accordance with the slope value. For example, if the slope value is smaller than the threshold value TH1, the amplification band is 3 to 4 kHz, and the amplification amount is 5 dB.
- the amplification band and the amplification amount are determined based on the data shown in FIG. 1, but the present invention is not limited to this and may be set to appropriate values through experiments or the like.
- the amplification information 213 may be stored in a memory outside the determination unit 207 or held inside the determination unit 207.
- the determination unit 207 includes a determination unit 209, and the determination unit 209 determines whether or not the power gradient is equal to or greater than the threshold value TH1.
- the threshold value TH1 is, for example, 4 (dB / kHz). Note that the determination unit 207 may determine that the man is male if the inclination is equal to or greater than TH1, and that the female is female if the inclination is smaller than TH1.
- the determination unit 207 determines the amplification band and the amplification amount with reference to the amplification information 213 according to the determination result of the determination unit 209. For example, if the inclination is equal to or greater than TH1, the amplification band is 2 to 4 kHz and the amplification amount is 10 dB.
- the determination unit 207 outputs the determined amplification band and amplification amount to the amplification unit 211.
- the amplification unit 211 When the amplification unit 211 acquires the amplification band and the amplification amount from the determination unit 211, the amplification unit 211 performs time-frequency conversion on the acquired audio signal to generate a spectrum. Next, the amplifying unit 211 amplifies the generated spectrum by an amplification amount in the amplification band, and performs frequency time conversion on the amplified spectrum. Next, the amplifying unit 211 outputs the amplified audio signal to the speaker 215. Note that although the amplification unit 211 performs time-frequency conversion and frequency-time conversion, these processes may be performed outside the amplification unit 211.
- Speaker 215 outputs emphasized voice.
- FIG. 6 is a flowchart illustrating an example of a voice control process according to the second embodiment.
- the amplifying unit 211 reads a received signal.
- step S102 the inclination calculating unit 203 reads a transmission signal.
- the order of steps S101 and S102 does not matter.
- step S ⁇ b> 103 the inclination calculation unit 203 calculates the inclination of the high frequency power spectrum of the transmission signal.
- the high frequency is, for example, a spectrum of 2250 kHz or higher.
- a frequency around 2250 kHz is a branch point at which features begin to appear in the male spectrum (see FIG. 4).
- step S104 the determination unit 207 refers to the amplification information based on the slope of the power spectrum and determines the amplification band and the amplification amount.
- step S105 the amplifying unit 211 amplifies the determined amplification band spectrum by the determined amplification amount with respect to the high frequency spectrum of the received signal.
- the amplified spectrum is frequency-time converted and output.
- the slope calculation process in step S103 and the amplification band and amplification amount determination process in step S104 may be performed as necessary as described above.
- the received signal includes an audio signal stored in advance in the storage unit and an audio signal received via a network.
- the voice control device 30 As described above, according to the second embodiment, it is possible to output emphasized speech by calculating the slope of the high frequency spectrum power from the user's transmission signal and amplifying the reception signal in accordance with the slope.
- the voice control device 30 according to the third embodiment will be described.
- the feature analysis unit 301 calculates a formant frequency.
- the amplification band and the amplification amount are determined based on the formant frequency, and the spectrum of the output audio signal is amplified.
- FIG. 7 is a block diagram illustrating an example of a functional configuration of the voice control device 30 according to the third embodiment.
- the same functions as those shown in FIG. 3 are denoted by the same reference numerals, and the description thereof is omitted.
- the feature analysis unit 301 includes a formant calculation unit 303.
- the formant calculation unit 303 performs, for example, linear prediction (LPC) analysis on the transmission signal, and extracts a formant frequency by extracting a peak.
- LPC linear prediction
- the formant calculation unit 303 can also extract a formant frequency by performing a line spectrum pair (LSP) analysis.
- LSP line spectrum pair
- the formant calculation unit 303 may calculate the formant frequency using any conventional technique.
- a difference between men and women appears as shown in FIG.
- FIG. 8 is a diagram for explaining the difference in formant frequency depending on gender.
- the experimental conditions in FIG. 8 are as follows. -One male and one male-Each vowel is measured by visual measurement of the dominant frequency (formant frequency) of the power spectrum.
- FIG. 8 shows an example of the experimental results. Please refer to the URL (https://www.mars.dti.ne.jp/ ⁇ stamio/sound.htm) as a reference for the above experiment.
- it is the figure which showed the 1st formant, the 2nd formant, and the 3rd formant according to man and woman in order from a low frequency.
- the male has a lower formant frequency than the female.
- Example 3 the sex of a man and woman is determined using the difference in formant frequency.
- the formant calculation unit 303 outputs the formant frequency extracted for each frame to the determination unit 307 for the audio data of about 2 seconds.
- the formant calculation unit 303 may calculate the formant frequency every predetermined time. If the formant frequency is calculated every predetermined time, the calculation in the formant frequency calculation can be reduced. Further, after the formant frequency is first calculated, the formant calculation unit 303 may output the formant frequency to the determination unit 307 only when the following conditions are satisfied. The condition is that the total number of formant frequencies in the first predetermined band and the total number of formant frequencies in the second predetermined band are reversed. Thus, the determination unit 307 can determine the amplification band and the amplification amount only when necessary.
- the determination unit 307 determines the amplification band and the amplification amount based on the formant frequency acquired from the feature analysis unit 301. Specifically, the determination unit 307 determines the amplification band and the amplification amount by referring to the amplification information 311 as illustrated in FIG.
- FIG. 9 is a diagram illustrating an example of amplification information in the third embodiment.
- an amplification band and an amplification amount are associated according to the total number of formant frequencies in two predetermined bands with TH2 as a boundary.
- the amplification band is 3 to 4 kHz, and the amplification amount Is 5 dB.
- the amplification information 311 may be stored in a memory outside the determination unit 307 or held inside the determination unit 307.
- TH2 is 2750 Hz, for example. If TH2 is 2750 Hz, the second band is, for example, 2250-2750 Hz, and the first band is 2750-3250 Hz.
- the above example is merely an example.
- the determination unit 307 includes a determination unit 309, and the determination unit 309 determines which of the total number of formant frequencies in the first band and the total number of formant frequencies in the second band is larger.
- the determination unit 207 may determine that the woman is a female if the total number of the first bands is large, and that the male is a male if the total number of the second bands is large. This is because, as shown in FIG. 8, a female has a formant frequency of vowels at 3000 Hz, whereas a male has almost no formant frequency of 3000 Hz.
- the determination unit 307 determines the amplification band and the amplification amount with reference to the amplification information 311 according to the determination result of the determination unit 309. For example, if the total number of second bands is large, the amplification band is 2 to 4 kHz and the amplification amount is 10 dB. The determination unit 307 outputs the determined amplification band and amplification amount to the amplification unit 211.
- the amplification unit 211 is as described above.
- FIG. 10 is a flowchart illustrating an example of a voice control process according to the third embodiment.
- the same reference numerals are given to the same processing as the processing shown in FIG. 6, and description thereof is omitted.
- step S201 the formant calculation unit 303 calculates the formant frequency of the transmission signal.
- step S202 the determination unit 307 refers to the amplification information based on the formant frequency and determines the amplification band and the amplification amount. Specific determination processing is as described above.
- step S105 as in the second embodiment, the amplifying unit 211 amplifies the spectrum of the determined amplification band by the determined amplification amount with respect to the high frequency spectrum of the received signal.
- the emphasized voice can be output by calculating the formant frequency from the user's transmission signal and amplifying the reception signal in accordance with the formant frequency.
- a noise detection unit 401 is newly added to the configuration of the first embodiment.
- the amplification band and the amplification amount are determined in consideration of the noise level detected by the noise detection unit 401, and the spectrum of the output audio signal is amplified.
- FIG. 11 is a block diagram illustrating an example of a functional configuration of the voice control device 40 according to the fourth embodiment.
- the same functions as those shown in FIG. 3 are denoted by the same reference numerals, and the description thereof is omitted.
- the noise detection unit 401 detects the ambient noise level from the transmission signal using a conventional noise detection technique.
- a conventional noise detection technique there is a method of calculating a long-time average level and separating speech and noise according to this value and a result of comparison of magnitudes.
- the noise detection unit 401 outputs the detected noise level to the determination unit 403.
- the determination unit 403 determines the amplification band and the amplification amount based on the inclination acquired from the inclination calculation unit 203 and the noise level acquired from the noise detection unit 401.
- the determination unit 403 includes a determination unit 405.
- the determination unit 405 determines whether or not the noise level is equal to or higher than the threshold value 3 in addition to the function of the second embodiment.
- the threshold value TH3 may be set to an appropriate value by experiment.
- the determining unit 403 determines the amplification band and the amplification amount with reference to the amplification information 407 based on the determination result of the determination unit 405.
- FIG. 12 is a diagram illustrating an example of the amplification information 407 in the fourth embodiment.
- the amplification band and the amplification amount are changed based on whether the noise level is TH3 or higher and whether the slope is TH1 or higher. For example, if the noise level is TH3 or more and the slope is TH1 or more, the amplification band is 1 to 4 kHz and the amplification amount is 15 dB.
- the amplification unit 211 amplifies the received signal based on the determined amplification band and amplification amount as described above.
- the predetermined band may be the amplification band and the predetermined amount may be the amplification amount regardless of the inclination. This is because the determination based on the inclination becomes impossible when the noise level exceeds a certain level.
- the predetermined band at this time may be an average band when the noise level is lower than HT3, and the predetermined amplification amount may be an average amplification amount when the noise level is lower than TH3.
- FIG. 13 is a flowchart illustrating an example of a voice control process according to the fourth embodiment.
- the same reference numerals are given to the same processing as the processing shown in FIG. 6, and description thereof is omitted.
- step S301 the noise detection unit 401 detects the noise level of the transmission signal.
- step S302 the determination unit 403 refers to the amplification information based on the inclination and the noise level, and determines the amplification band and the amplification amount. Specific determination processing is as described above.
- step S105 as in the second embodiment, the amplifying unit 211 amplifies the spectrum of the determined amplification band by the determined amplification amount with respect to the high frequency spectrum of the received signal.
- the fourth embodiment it is emphasized by detecting the noise level from the user's transmission signal, calculating the slope of the power spectrum in the high band, and amplifying the received signal in accordance with the noise level and the slope. Audio can be output.
- the configuration in which the noise detection unit 401 is added to the configuration of the voice control device 20 according to the second embodiment has been described.
- the noise detection is added to the configuration of the voice control device 30 according to the first and third embodiments.
- Unit 401 may be added.
- each said Example demonstrated the example which amplifies by an amplification amount uniformly about an amplification band, you may increase an amplification amount, so that it becomes a high region with respect to an amplification band.
- the amplification band and the amplification amount may be appropriately set based on the data shown in FIG. 1 and other experimental results.
- the noise level threshold may be increased to 2 or more.
- the amplifying unit does not necessarily amplify only the high band, and may amplify the necessary amount even in the low band.
- Example 5 a mobile phone according to a fifth embodiment is described.
- the voice control device 10 of the first embodiment is incorporated into a mobile phone as a hardware voice control unit.
- the voice control device of the above-described embodiment is not incorporated as a hardware voice control unit, but the voice control processing described above can be incorporated into a mobile phone as software.
- FIG. 14 is a diagram illustrating an example of a mobile phone according to the fifth embodiment.
- the mobile phone 50 shown in FIG. 5 transmits and receives the encoded transmission signal to the base station 60.
- a / D conversion unit 501 includes an A / D conversion unit 501, an encoding unit 502, a transmission unit 503, a reception unit 504, a decoding unit 505, a voice control device 10, and a D / A conversion unit 506.
- the A / D conversion unit 501 performs analog-digital conversion on the transmitted sound output from the microphone 217.
- the converted signal (transmission signal) is output to the voice control device 10 and the encoding unit 502.
- the encoding unit 502 generates an encoded signal using a general audio encoding technique using a mobile phone.
- the transmission unit 503 transmits the encoded signal encoded by the encoding unit 502 to the base station 60.
- the receiving unit 504 receives an encoded signal from the base station 60.
- the decoding unit 505 decodes the encoded signal and converts it into an audio signal (received signal).
- the voice control device 10 obtains a voice characteristic from the transmitted signal, and amplifies the received signal based on the obtained voice characteristic. In addition, the voice control device 10 outputs the amplified voice signal to the D / A conversion unit 506.
- the D / A converter 506 converts the amplified audio signal from digital to analog.
- the audio signal converted into the analog signal is output as a reception sound emphasized by the speaker 215.
- each voice control device described above or each voice control process described above can also be applied to an information processing device such as a videophone conference device or an automatic response device based on a user's speech. You may call a voice control apparatus including each function of a mobile telephone, a video telephone conference, and an automatic answering apparatus.
- Example 5 if the decoding part 505 and the audio
- examples of emphasizing speech have been described. However, in some cases, it is possible to not only amplify the spectrum but also reduce the spectrum gain.
- the received voice may be controlled not only to the voice but also to an output sound that can be easily heard by the user by controlling spectral components such as music.
- the voice control processing described in each of the above-described embodiments may be realized as a program for causing a computer to execute.
- the voice control processing described above can be realized by installing this program from a server or the like and causing the computer to execute it.
- the recording medium is a recording medium that records information optically, electrically, or magnetically, such as a CD-ROM, flexible disk, magneto-optical disk, etc., and information is electrically recorded, such as a ROM, flash memory, etc.
- Various types of recording media such as a semiconductor memory can be used.
- the voice control processing described in each of the above-described embodiments may be mounted on one or a plurality of integrated circuits.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
第1音声信号を制御して出力する音声制御装置であって、入力された第2音声信号の音声特性を分析する分析手段と、入力された前記第1音声信号のスペクトルの増幅を、前記分析手段により分析された音声特性に基づいて制御する制御手段と、を備える音声制御装置を用いる。
Description
本発明は、音声信号を制御する音声制御装置、及び音声制御方法に関する。
音声強調技術において、受話音声の音声特性を変更して受話音声を聞き取りやすくする技術がある。例えば、事前に登録した患者情報データベースから患者の年齢を取得して、年齢に応じて受話音声の増幅量を変えることで受話音声を聞き取りやすくするシステムが開示されている。
また、ユーザによるスイッチ操作により受話音の周波数特性を切り替えることで、受話音声を聞き取りやすくするインターホンが開示されている。また、年齢や性別の違いによる聴覚特性の違いが開示されている。
山本泰四郎著「高齢者のための建築環境」、彰国社発行、1994年1月10日発行、p.72-73
前述した従来技術では、データベースへの年齢情報の登録と強調装置へのユーザ識別情報の登録が必要であり、多くのユーザに対して効果を実現するためには、大量のデータ容量が必要であり、多大な手間がかかった。また、事前登録が必要なため、不特定のユーザに対しては効果を発揮できず、さらに、強調装置毎にユーザ識別情報の変更は考慮していないため、途中でユーザが替わった場合にも効果を発揮することができなかった。
また、前述した他の従来技術では、手動で周波数特性を切り替える操作を行う必要があるため、切り替え操作が不慣れなユーザに対しては効果を発揮することができない。
そこで、本発明は、ユーザの送話信号を分析し、分析結果に基づいてユーザに出力される音声を聞き取りやすくすることを目的とする。
開示の音声制御装置は、第1音声信号を制御して出力する音声制御装置であって、入力された第2音声信号の音声特性を分析する分析手段と、入力された前記第1音声信号のスペクトルの増幅を、前記分析手段により分析された音声特性に基づいて制御する制御手段と、を備える音声制御装置。
また、開示の音声制御方法は、第1音声信号を制御して出力する音声制御装置における音声制御方法であって、入力された第2音声信号の音声特性を分析する分析ステップと、入力された前記第1音声信号のスペクトルの増幅を、前記分析ステップにより分析された音声特性に基づいて制御する制御ステップと、を有する。
開示の音声制御装置によれば、ユーザの送話信号を分析し、分析結果に基づいてユーザに出力される音声を聞き取りやすくするよう制御することができる。
10,20,30,40 音声制御装置
101,201,301 特徴分析部
103,205,305 制御部
203 傾き算出部
207,307,403 決定部
209,309,405 判定部
211 増幅部
213,311,407 増幅情報
303 フォルマント算出部
401 騒音検出部
101,201,301 特徴分析部
103,205,305 制御部
203 傾き算出部
207,307,403 決定部
209,309,405 判定部
211 増幅部
213,311,407 増幅情報
303 フォルマント算出部
401 騒音検出部
以下、図面に基づいて実施例について説明する。
[実施例1]
まず、非特許文献1に記載の聴覚特性の年齢による違いや性別による違いについて説明する。図1は、20代を基準とした年齢、性別による聴覚特性の違いを示す図である(非特許文献1)。図1に示すように、男性のほうが女性よりも音声が聞き取りづらく、特に高域になるほど性別による差が大きいという特徴がある。
まず、非特許文献1に記載の聴覚特性の年齢による違いや性別による違いについて説明する。図1は、20代を基準とした年齢、性別による聴覚特性の違いを示す図である(非特許文献1)。図1に示すように、男性のほうが女性よりも音声が聞き取りづらく、特に高域になるほど性別による差が大きいという特徴がある。
図1に示すような性別による聴覚特性の違いを利用して、ユーザの発話した音声信号(以下、送話信号ともいう。)に基づいて、聞き取りやすい出力音に制御する音声制御装置について、以下説明する。
<機能構成>
図2は、実施例1に係る音声制御装置10の機能構成の一例を示すブロック図である。図2に示す音声強調装置10は、特徴分析部101、制御部103を含む。音声制御装置10は、音声制御装置10に入力される第2の音声信号(例えば、送話信号)の音声特性を分析し、分析した音声特性に基づいて音声制御装置10から出力される第1の音声信号(例えば、受話信号)を増幅する。
図2は、実施例1に係る音声制御装置10の機能構成の一例を示すブロック図である。図2に示す音声強調装置10は、特徴分析部101、制御部103を含む。音声制御装置10は、音声制御装置10に入力される第2の音声信号(例えば、送話信号)の音声特性を分析し、分析した音声特性に基づいて音声制御装置10から出力される第1の音声信号(例えば、受話信号)を増幅する。
図2に示す特徴分析部101は、ユーザの送話信号の音声特徴量を算出する。音声特徴量は、例えば、所定帯域におけるスペクトルの傾きや、フォルマント周波数などである。特徴分析部101は、算出した音声特徴量を制御部103に出力する。
制御部103は、取得した音声特徴量に基づいて、音声制御装置10から出力される音声信号のスペクトルを増幅する。音声信号のスペクトルの増幅については、音声特徴量の値に対応付けた増幅帯域や増幅量をメモリに記憶しておき、制御部103がこのメモリを参照して、音声特徴量に対応する増幅帯域や増幅量を決定する。
次に、制御部103は、入力された音声信号(受話信号)のスペクトルに対して、決定された増幅帯域のスペクトルを、決定された増幅量分増幅して出力する。
これにより、ユーザが発した発話音声の音声特性に基づいて、出力される受話音声の制御を行うことにより、発話するユーザの音声特性に応じて出力音を聞き取りやすくすることができる。
[実施例2]
次に、実施例2の音声制御装置20について説明する。実施例2では、特徴分析部201において、パワースペクトルの傾きを算出する。また、実施例2では、パワースペクトルの傾きに基づいて、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
次に、実施例2の音声制御装置20について説明する。実施例2では、特徴分析部201において、パワースペクトルの傾きを算出する。また、実施例2では、パワースペクトルの傾きに基づいて、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
<機能構成>
図3は、実施例2に係る音声制御装置20の機能構成の一例を示すブロック図である。図3に示すように、音声制御装置20は、特徴分析部201、制御部205を含む。また、特徴分析部201は、傾き算出部203を含み、制御部205は、決定部207、増幅部211、増幅情報213を含む。
図3は、実施例2に係る音声制御装置20の機能構成の一例を示すブロック図である。図3に示すように、音声制御装置20は、特徴分析部201、制御部205を含む。また、特徴分析部201は、傾き算出部203を含み、制御部205は、決定部207、増幅部211、増幅情報213を含む。
傾き算出部203は、マイク217からユーザが発した送話信号を取得し、送話信号をフレーム毎にスペクトル変換する。次に、傾き算出部203は、パワースペクトル(以下、単にパワーともいう)の高域におけるパワーの傾きを算出する。ここで、高域におけるパワーの傾きにおいて、男女の違いが現れるのは図4に示す通りである。
図4は、高域におけるパワーの傾きの性別による違いを説明する図である。図4の実験条件は、以下の通りである。
・ 男女各7名の会話(市販されているDBに記録されている会話を使用)をスペクトル変換し、その平均をとる
・ 1フレームは160サンプル(8kHzサンプリング)とする
・ フレーム毎に高域のパワーの傾き(2250~2750の平均パワー-2750~3250の平均パワー)を求める
・ 高域のパワーの傾きの2秒間の平均値を算出する
図4は、上記実験結果を簡略した波形で示している。図4に示すように、男性の傾きa1の絶対値は、女性の傾きa2の絶対値よりも大きいことがわかる。実施例2では、この傾きの違いを用いて男女の性別を判定する。以下、傾きとは、傾きの絶対値を示す。
・ 男女各7名の会話(市販されているDBに記録されている会話を使用)をスペクトル変換し、その平均をとる
・ 1フレームは160サンプル(8kHzサンプリング)とする
・ フレーム毎に高域のパワーの傾き(2250~2750の平均パワー-2750~3250の平均パワー)を求める
・ 高域のパワーの傾きの2秒間の平均値を算出する
図4は、上記実験結果を簡略した波形で示している。図4に示すように、男性の傾きa1の絶対値は、女性の傾きa2の絶対値よりも大きいことがわかる。実施例2では、この傾きの違いを用いて男女の性別を判定する。以下、傾きとは、傾きの絶対値を示す。
図3に戻り、傾き算出部203は、図4に示すような条件により算出したパワーの傾きを決定部207に出力する。なお、パワーの傾きを算出する条件は、図4で説明した条件に限られず、傾きに男女の違いが現れるような条件であればよい。
なお、傾き算出部203は、送話信号を取得する度に傾きを算出してもよいし、所定時間毎に傾きを算出してもよい。所定時間毎に傾きを算出すれば傾き算出における演算を減らすことができる。また、傾き算出部203は、始めに傾きを算出したあとは、傾きが所定の閾値(後述する閾値TH1)を境に変化したときだけ、算出した傾きを決定部207に出力するようにすればよい。これより、決定部207は、必要なときにだけ増幅帯域及び増幅量を決定することができる。
決定部207は、特徴分析部201から取得したパワーの傾きに基づいて、増幅帯域及び増幅量を決定する。具体的には、決定部207は、図5に示すような増幅情報213を参照することで、増幅帯域及び増幅量を決定する。
図5は、実施例2における増幅情報の一例を示す図である。図5に示すように、増幅情報は、傾きの値に応じて、増幅帯域及び増幅量が関連付けられている。例えば、傾きの値が閾値TH1より小さければ、増幅帯域は3~4kHz、増幅量は5dBである。ここでは、増幅帯域及び増幅量は、図1に示すデータに基づいて決められているが、これに限られず実験などにより適切な値に設定されればよい。増幅情報213は、決定部207外部のメモリに記憶されたり、決定部207内部に保持されたりすればよい。
図3に戻り、決定部207は、判定部209を含み、判定部209は、パワーの傾きが閾値TH1以上か否かを判定する。ここで、閾値TH1は、例えば4(dB/kHz)とする。なお、判定部207は、傾きがTH1以上であれば男性、傾きがTH1より小さければ女性であると判定してもよい。
決定部207は、判定部209の判定結果により増幅情報213を参照して増幅帯域及び増幅量を決定する。例えば、傾きがTH1以上であれば、増幅帯域は2~4kHz、増幅量は10dBとする。決定部207は、決定した増幅帯域及び増幅量を増幅部211に出力する。
増幅部211は、決定部211から増幅帯域及び増幅量を取得すると、取得した音声信号に対して時間周波数変換を行ってスペクトルを生成する。次に増幅部211は、生成したスペクトルに対して、増幅帯域において増幅量分増幅し、増幅したスペクトルに対して周波数時間変換を行う。次に、増幅部211は、増幅された音声信号をスピーカ215に出力する。なお、増幅部211は、時間周波数変換、及び周波数時間変換を行うこととしたが、これらの処理は増幅部211外部で行うようにしてもよい。
スピーカ215は、強調された音声を出力する。
<動作>
次に、実施例2における音声制御装置20の動作について説明する。図6は、実施例2における音声制御処理の一例を示すフローチャートである。図6に示すステップS101において、増幅部211は、受話信号を読み込む。
次に、実施例2における音声制御装置20の動作について説明する。図6は、実施例2における音声制御処理の一例を示すフローチャートである。図6に示すステップS101において、増幅部211は、受話信号を読み込む。
ステップS102において、傾き算出部203は、送話信号を読み込む。なお、ステップS101とS102との順序は問わない。ステップS103において、傾き算出部203は、送話信号の高域のパワースペクトルの傾きを算出する。ここで、高域とは、例えば2250kHz以上のスペクトルとする。2250kHz前後は、男性のスペクトルにおいて特徴が現れ始める分岐点である(図4参照)。
ステップS104において、決定部207は、パワースペクトルの傾きに基づいて、増幅情報を参照し、増幅帯域及び増幅量を決定する。
ステップS105において、増幅部211は、受話信号の高域のスペクトルに対して、決定された増幅帯域のスペクトルを、決定された増幅量分増幅する。増幅されたスペクトルは周波数時間変換されて出力される。
なお、ステップS103の傾き算出処理、ステップS104の増幅帯域及び増幅量の決定処理は前述したように必要なときに処理されるようにしてもよい。なお、受話信号は、記憶部に予め記憶された音声信号やネットワークを介して受信された音声信号を含む。
以上、実施例2によれば、ユーザの送話信号から高域のスペクトルパワーの傾きを算出し、この傾きに応じて受話信号を増幅することで、強調された音声を出力することができる。
[実施例3]
次に、実施例3の音声制御装置30について説明する。実施例3では、特徴分析部301において、フォルマント周波数を算出する。また、実施例3では、フォルマント周波数に基づいて、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
[実施例3]
次に、実施例3の音声制御装置30について説明する。実施例3では、特徴分析部301において、フォルマント周波数を算出する。また、実施例3では、フォルマント周波数に基づいて、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
<機能構成>
図7は、実施例3に係る音声制御装置30の機能構成の一例を示すブロック図である。図7に示す機能において、図3に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。
図7は、実施例3に係る音声制御装置30の機能構成の一例を示すブロック図である。図7に示す機能において、図3に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。
特徴分析部301は、フォルマント算出部303を含み、フォルマント算出部303は、例えば、送話信号に対して線形予測(LPC)分析を行い、ピークを抽出することでフォルマント周波数を抽出する。また、フォルマント算出部303は、線スペクトル対(LSP)分析を行って、フォルマント周波数を抽出することもできる。なお、フォルマント算出部303は、いずれかの従来技術を用いてフォルマント周波数を算出すればよい。ここで、フォルマント周波数において、図8に示すように男女の違いが現れる。
図8は、フォルマント周波数の性別による違いを説明する図である。図8の実験条件は、以下の通りである。
・ 男女各1名
・ 各母音についてパワースペクトルの優勢な周波数(フォルマント周波数)を目視により測定
図8は、上記実験結果の一例を示している。なお、上記実験の参考としてURL(https://www.mars.dti.ne.jp/~stamio/sound.htm)を参照されたい。図8に示す例では、低周波から順に第1フォルマント、第2フォルマント、第3フォルマントを男女別に示した図である。図8に示すように、第2フォルマント、第3フォルマントにおいて、男性の方が女性よりもフォルマント周波数が小さいことがわかる。実施例3では、このフォルマント周波数の違いを用いて男女の性別を判定する。
・ 男女各1名
・ 各母音についてパワースペクトルの優勢な周波数(フォルマント周波数)を目視により測定
図8は、上記実験結果の一例を示している。なお、上記実験の参考としてURL(https://www.mars.dti.ne.jp/~stamio/sound.htm)を参照されたい。図8に示す例では、低周波から順に第1フォルマント、第2フォルマント、第3フォルマントを男女別に示した図である。図8に示すように、第2フォルマント、第3フォルマントにおいて、男性の方が女性よりもフォルマント周波数が小さいことがわかる。実施例3では、このフォルマント周波数の違いを用いて男女の性別を判定する。
図7に戻り、フォルマント算出部303は、2秒程度の音声データに対して、フレーム毎に抽出されたフォルマント周波数を決定部307に出力する。
なお、フォルマント算出部303は、所定時間毎にフォルマント周波数を算出してもよい。所定時間毎にフォルマント周波数を算出すれば、フォルマント周波数算出における演算を減らすことができる。また、フォルマント算出部303は、始めにフォルマント周波数を算出したあとは、以下の条件を満たすときだけ、フォルマント周波数を決定部307に出力すればよい。条件は、第1の所定帯域におけるフォルマント周波数の総数と第2の所定帯域におけるフォルマント周波数の総数との多さが逆転することである。これより、決定部307は、必要なときにだけ増幅帯域及び増幅量を決定することができる。
決定部307は、特徴分析部301から取得したフォルマント周波数に基づいて、増幅帯域及び増幅量を決定する。具体的には、決定部307は、図9に示すような増幅情報311を参照することで、増幅帯域及び増幅量を決定する。
図9は、実施例3における増幅情報の一例を示す図である。図9に示すように、増幅情報は、TH2を境に2つの所定帯域におけるフォルマント周波数の総数の多さに応じて、増幅帯域及び増幅量が関連付けられている。例えば、TH2以上の所定の帯域(第1帯域)のフォルマント周波数の総数が、TH2より小さい所定の帯域(第2帯域)におけるフォルマント周波数の総数よりも多い場合、増幅帯域は3~4kHz、増幅量は5dBである。増幅情報311は、決定部307外部のメモリに記憶されたり、決定部307内部に保持されたりすればよい。
TH2は、例えば2750Hzである。また、TH2が2750Hzであるとすると、第2帯域は例えば2250~2750Hz、第1帯域は2750~3250Hzの帯域である。なお、上記例は一例に過ぎない。
図7に戻り、決定部307は、判定部309を含み、判定部309は、第1帯域におけるフォルマント周波数の総数と第2帯域におけるフォルマント周波数の総数とどちらが多いかを判定する。なお、判定部207は、第1帯域の総数が多ければ女性、第2帯域の総数が多ければ男性であると判定してもよい。これは、図8に示すように、女性は、3000Hzに母音のフォルマント周波数が存在するのに対し、男性は、3000Hzのフォルマント周波数はほとんど存在しないことを利用する。
決定部307は、判定部309の判定結果により増幅情報311を参照して増幅帯域及び増幅量を決定する。例えば、第2帯域の総数が多ければ、増幅帯域は2~4kHz、増幅量は10dBとする。決定部307は、決定した増幅帯域及び増幅量を増幅部211に出力する。増幅部211については前述した通りである。
<動作>
次に、実施例3における音声制御装置の動作について説明する。図10は、実施例3における音声制御処理の一例を示すフローチャートである。図10に示す処理において、図6に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。
次に、実施例3における音声制御装置の動作について説明する。図10は、実施例3における音声制御処理の一例を示すフローチャートである。図10に示す処理において、図6に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。
ステップS201において、フォルマント算出部303は、送話信号のフォルマント周波数を算出する。
ステップS202において、決定部307は、フォルマント周波数に基づいて、増幅情報を参照し、増幅帯域及び増幅量を決定する。具体的な決定処理は前述した通りである。
ステップS105において、実施例2同様、増幅部211は、受話信号の高域のスペクトルに対して、決定された増幅帯域のスペクトルを、決定された増幅量分増幅する。
以上、実施例3によれば、ユーザの送話信号からフォルマント周波数を算出し、このフォルマント周波数に応じて受話信号を増幅することで、強調された音声を出力することができる。
[実施例4]
次に、実施例4の音声制御装置40について説明する。実施例4では、実施例1の構成に加えて騒音検出部401が新たに追加されている。また、実施例4では、騒音検出部401により検出される騒音レベルも考慮して、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
[実施例4]
次に、実施例4の音声制御装置40について説明する。実施例4では、実施例1の構成に加えて騒音検出部401が新たに追加されている。また、実施例4では、騒音検出部401により検出される騒音レベルも考慮して、増幅帯域及び増幅量を決定し、出力される音声信号のスペクトルを増幅する。
<機能構成>
図11は、実施例4に係る音声制御装置40の機能構成の一例を示すブロック図である。図11に示す機能において、図3に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。
図11は、実施例4に係る音声制御装置40の機能構成の一例を示すブロック図である。図11に示す機能において、図3に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。
騒音検出部401は、従来の騒音検出技術を用いて、送話信号から周囲の騒音レベルを検出する。従来の騒音検出技術の一例として、長時間平均レベルを算出し、この値と大小比較結果に応じて音声と騒音とを分離する方法がある。騒音検出部401は、検出した騒音レベルを決定部403に出力する。
決定部403は、傾き算出部203から取得した傾きと騒音検出部401から取得した騒音レベルに基づいて、増幅帯域及び増幅量を決定する。決定部403は、判定部405を含み、判定部405は、実施例2の機能に加えて、騒音レベルが閾値3以上であるか否かを判定する。閾値TH3は、実験により適切な値を設定すればよい。
決定部403は、判定部405の判定結果に基づいて、増幅情報407を参照して増幅帯域及び増幅量を決定する。図12は、実施例4における増幅情報407の一例を示す図である。図12に示す例では、騒音レベルがTH3以上か否かと、傾きがTH1以上か否かとに基づいて増幅帯域及び増幅量を変更する。例えば、騒音レベルがTH3以上、かつ傾きがTH1以上であれば、増幅帯域は1~4kHz、増幅量は15dBとなる。
決定部403により増幅帯域及び増幅量が決定すれば、増幅部211は前述した通り、決定された増幅帯域及び増幅量に基づいて受話信号を増幅する。
TH3について、例えば、傾きによる判定ができないほどの大きさの値を設定する。このとき、騒音レベルがTH3以上であれば、傾きに関係なく所定の帯域を増幅帯域及び所定の量を増幅量としてもよい。これは、騒音レベルが一定以上になると傾きによる判定が不可能になるためである。このときの所定の帯域は、騒音レベルがHT3より小さい場合の平均の帯域とし、所定の増幅量は、騒音レベルがTH3よりも小さい場合の平均の増幅量としてもよい。
これより、傾きによる性別判定ができないときは、受話信号に対して男女の平均を増幅することで、男性女性の両方に対応できるようにすることができる。
<動作>
次に、実施例4における音声制御装置40の動作について説明する。図13は、実施例4における音声制御処理の一例を示すフローチャートである。図13に示す処理において、図6に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。
次に、実施例4における音声制御装置40の動作について説明する。図13は、実施例4における音声制御処理の一例を示すフローチャートである。図13に示す処理において、図6に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。
ステップS301において、騒音検出部401は、送話信号の騒音レベルを検出する。
ステップS302において、決定部403は、傾き及び騒音レベルに基づいて、増幅情報を参照し、増幅帯域及び増幅量を決定する。具体的な決定処理は前述した通りである。
ステップS105において、実施例2同様、増幅部211は、受話信号の高域のスペクトルに対して、決定された増幅帯域のスペクトルを、決定された増幅量分増幅する。
以上、実施例4によれば、ユーザの送話信号から騒音レベルを検出及び高域におけるパワースペクトルの傾きを算出し、この騒音レベル及び傾きに応じて受話信号を増幅することで、強調された音声を出力することができる。
なお、実施例4では、実施例2に係る音声制御装置20の構成に騒音検出部401を追加した構成について説明したが、実施例1や実施例3に係る音声制御装置30の構成に騒音検出部401を追加してもよい。
なお、上記各実施例は、増幅帯域について、一律に増幅量分増幅させる例を説明したが、増幅帯域に対して高域になるほど増幅量を増加させてもよい。また、増幅帯域や増幅量は、図1に示すデータや他の実験結果に基づいて適宜設定すればよい。また、増幅情報407については、騒音レベルの閾値を2以上に増やしてもよい。また、増幅部は必ずしも高域のみを増幅させる必要はなく、低域でも必要量増幅させてもよい。
[実施例5]
次に、実施例5に係る携帯電話について説明する。実施例5では、実施例1の音声制御装置10をハードウェアの音声制御部として携帯電話に組み込んだ例を示す。なお、実施例1に限らず、実施例2乃至4いずれか一つの音声制御装置を携帯電話に組み込んでもよい。実施例5では、上記実施例の音声制御装置をハードウェアの音声制御部として組み込むのではなく、前述した音声制御処理をソフトウェアとして携帯電話に組み込むこともできる。
次に、実施例5に係る携帯電話について説明する。実施例5では、実施例1の音声制御装置10をハードウェアの音声制御部として携帯電話に組み込んだ例を示す。なお、実施例1に限らず、実施例2乃至4いずれか一つの音声制御装置を携帯電話に組み込んでもよい。実施例5では、上記実施例の音声制御装置をハードウェアの音声制御部として組み込むのではなく、前述した音声制御処理をソフトウェアとして携帯電話に組み込むこともできる。
図14は、実施例5に係る携帯電話の一例を示す図である。図5に示す携帯電話50は、基地局60に対して符号化された送話信号の送受信を行う。
図14に示す携帯電話50は、A/D変換部501、符号化部502、送信部503、受信部504、復号部505、音声制御装置10、D/A変換部506を含む。
A/D変換部501は、マイク217により出力された送話音をアナログデジタル変換する。変換後の信号(送話信号)は音声制御装置10及び符号化部502に出力される。
符号化部502は、携帯電話による一般的な音声符号化技術を用いて符号化信号を生成する。送信部503は、符号化部502により符号化された符号化信号を基地局60に送信する。
受信部504は、基地局60から符号化信号を受信する。復号部505は、符号化信号を復号し、音声信号(受話信号)に変換する。
ここで、音声制御装置10は、送話信号から音声特性を求め、求めた音声特性に基づいて、受話信号を増幅する。また、音声制御装置10は、増幅された音声信号をD/A変換部506に出力する。
D/A変換部506は、増幅された音声信号をデジタルアナログ変換する。アナログ信号に変換された音声信号は、スピーカ215により強調された受話音として出力される。
実施例5では、音声制御装置10を携帯電話に組み込んだ例について説明したが、組み込む機器は携帯電話だけに限られない。例えば、前述した各音声制御装置、又は前述した各音声制御処理は、テレビ電話会議装置やユーザの発話による自動応答装置などの情報処理装置にも適用可能である。携帯電話やテレビ電話会議、自動応答装置の各機能を含めて音声制御装置と呼んでもよい。
なお、実施例5において、復号部505と音声制御装置10とを1つの構成にすれば、音声制御装置10内で行っていた時間周波数変換を省略することができる。また、上記各実施例では、音声を強調する例について説明したが、場合によっては、スペクトルを増幅させるだけでなく、スペクトルのゲインを小さくすることも可能である。また、上記各実施例では、受話音声については音声だけではなく、音楽などのスペクトル成分を制御してユーザに聞き取りやすい出力音に制御してもよい。
また、前述した各実施例で説明した音声制御処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した音声制御処理を実現することができる。
また、このプログラムを記録媒体(CD-ROMやSDカード等)に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末に読み取らせて、前述した音声制御処理を実現させることも可能である。なお、記録媒体は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。また、前述した各実施例で説明した音声制御処理は、1つ又は複数の集積回路に実装してもよい。
以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。
Claims (8)
- 第1音声信号を制御して出力する音声制御装置であって、
入力された第2音声信号の音声特性を分析する分析手段と、
入力された前記第1音声信号のスペクトルの増幅を、前記分析手段により分析された音声特性に基づいて制御する制御手段と、
を備える音声制御装置。 - 前記分析手段は、
前記第2音声信号の高域におけるスペクトルの傾きを前記音声特性として算出する算出手段を備え、
前記制御手段は、
前記傾きに基づいて、前記第1音声信号のスペクトルの増幅帯域及び増幅量を決定する決定手段と、
決定された前記増幅帯域及び前記増幅量により、前記第2音声信号のスペクトルを増幅する増幅手段とを備える請求項1記載の音声制御装置。 - 前記分析手段は、
前記第2音声信号のフォルマント周波数を前記音声特性として算出する算出手段を備え、
前記制御手段は、
前記フォルマント周波数に基づいて、前記第1音声信号のスペクトルの増幅帯域及び増幅量を決定する決定手段と、
決定された前記増幅帯域及び前記増幅量により、前記第1音声信号のスペクトルを増幅する増幅手段とを備える請求項1記載の音声制御装置。 - 前記第2音声信号は、前記音声制御装置に入力された送話信号であり、前記第1音声信号は、前記音声制御装置から出力される受話信号である請求項1乃至3いずれか一項に記載の音声制御装置。
- 前記決定手段は、
前記音声特性に対して前記増幅帯域及び前記増幅量を対応づけた増幅情報に基づいて、前記第1音声信号のスペクトルの増幅帯域及び増幅量を決定する請求項2乃至4いずれか一項に記載の音声制御装置。 - 前記決定手段は、
前記音声特性に基づいて性別を判定し、前記性別の判定結果により、前記増幅帯域及び前記増幅量を決定する請求項2乃至5いずれか一項に記載の音声制御装置。 - 前記第2音声信号に含まれる騒音を検出する騒音検出手段をさらに備え、
前記制御手段は、
検出された前記騒音及び分析された前記音声特性に基づいて、前記第1音声信号のスペクトルの増幅を制御する請求項1乃至6いずれか一項に記載の音声制御装置。 - 第1音声信号を制御して出力する音声制御装置における音声制御方法であって、
入力された第2音声信号の音声特性を分析する分析ステップと、
入力された前記第1音声信号のスペクトルの増幅を、前記分析ステップにより分析された音声特性に基づいて制御する制御ステップと、
を有する音声制御方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/071253 WO2011077509A1 (ja) | 2009-12-21 | 2009-12-21 | 音声制御装置、及び音声制御方法 |
JP2011547125A JP5331901B2 (ja) | 2009-12-21 | 2009-12-21 | 音声制御装置 |
EP09852526A EP2518723A4 (en) | 2009-12-21 | 2009-12-21 | VOICE CONTROL DEVICE AND VOICE CONTROL METHOD |
CN2009801630621A CN102667926A (zh) | 2009-12-21 | 2009-12-21 | 声音控制装置以及声音控制方法 |
US13/527,732 US20120259640A1 (en) | 2009-12-21 | 2012-06-20 | Voice control device and voice control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/071253 WO2011077509A1 (ja) | 2009-12-21 | 2009-12-21 | 音声制御装置、及び音声制御方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US13/527,732 Continuation US20120259640A1 (en) | 2009-12-21 | 2012-06-20 | Voice control device and voice control method |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011077509A1 true WO2011077509A1 (ja) | 2011-06-30 |
Family
ID=44195072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/071253 WO2011077509A1 (ja) | 2009-12-21 | 2009-12-21 | 音声制御装置、及び音声制御方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120259640A1 (ja) |
EP (1) | EP2518723A4 (ja) |
JP (1) | JP5331901B2 (ja) |
CN (1) | CN102667926A (ja) |
WO (1) | WO2011077509A1 (ja) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08328591A (ja) * | 1995-05-17 | 1996-12-13 | Fr Telecom | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 |
JPH10214023A (ja) * | 1997-01-30 | 1998-08-11 | Sekisui Chem Co Ltd | 高齢者聴覚疑似体験装置 |
JPH1195789A (ja) * | 1997-09-25 | 1999-04-09 | Hitachi Ltd | 音声認識システムおよび音声認識システムにおける話者適応方法 |
JPH11261709A (ja) | 1998-03-12 | 1999-09-24 | Aiphone Co Ltd | インターホン装置 |
JP2000010595A (ja) * | 1998-06-17 | 2000-01-14 | Yamaha Corp | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
JP2000047673A (ja) * | 1998-07-29 | 2000-02-18 | Yamaha Corp | カラオケ装置 |
JP2004061617A (ja) * | 2002-07-25 | 2004-02-26 | Fujitsu Ltd | 受話音声処理装置 |
JP2007318577A (ja) | 2006-05-29 | 2007-12-06 | Keakomu:Kk | ナースコールシステム |
JP2009171189A (ja) * | 2008-01-16 | 2009-07-30 | Pioneer Electronic Corp | 音声補正装置及び音声補正機能を備えた通信端末装置 |
JP2009246870A (ja) * | 2008-03-31 | 2009-10-22 | Fujitsu Ltd | 通信端末、通信端末の音声出力調整方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
US5937377A (en) * | 1997-02-19 | 1999-08-10 | Sony Corporation | Method and apparatus for utilizing noise reducer to implement voice gain control and equalization |
JP3900580B2 (ja) * | 1997-03-24 | 2007-04-04 | ヤマハ株式会社 | カラオケ装置 |
US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
EP1312162B1 (en) * | 2000-08-14 | 2005-01-12 | Clear Audio Ltd. | Voice enhancement system |
US7383187B2 (en) * | 2001-01-24 | 2008-06-03 | Bevocal, Inc. | System, method and computer program product for a distributed speech recognition tuning platform |
JP3482465B2 (ja) * | 2001-01-25 | 2003-12-22 | 独立行政法人産業技術総合研究所 | モバイルフィッティングシステム |
US6785382B2 (en) * | 2001-02-12 | 2004-08-31 | Signalworks, Inc. | System and method for controlling a filter to enhance speakerphone performance |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
JP2003181136A (ja) * | 2001-12-14 | 2003-07-02 | Sega Corp | 音声制御方法 |
US20030187637A1 (en) * | 2002-03-29 | 2003-10-02 | At&T | Automatic feature compensation based on decomposition of speech and noise |
JP4282317B2 (ja) * | 2002-12-05 | 2009-06-17 | アルパイン株式会社 | 音声通信装置 |
EP1609134A1 (en) * | 2003-01-31 | 2005-12-28 | Oticon A/S | Sound system improving speech intelligibility |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
CN1954361B (zh) * | 2004-05-11 | 2010-11-03 | 松下电器产业株式会社 | 声音合成装置和方法 |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US20070061314A1 (en) * | 2005-02-01 | 2007-03-15 | Outland Research, Llc | Verbal web search with improved organization of documents based upon vocal gender analysis |
WO2006114102A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Efficient initialization of iterative parameter estimation |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
WO2008142481A2 (en) * | 2006-10-31 | 2008-11-27 | Parana Vision | Adaptive voice-feature-enhanced matchmaking method and system |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
WO2008084476A2 (en) * | 2007-01-09 | 2008-07-17 | Avraham Shpigel | Vowel recognition system and method in speech to text applications |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
WO2009044525A1 (ja) * | 2007-10-01 | 2009-04-09 | Panasonic Corporation | 音声強調装置および音声強調方法 |
EP2081405B1 (en) * | 2008-01-21 | 2012-05-16 | Bernafon AG | A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use |
US20090192793A1 (en) * | 2008-01-30 | 2009-07-30 | Desmond Arthur Smith | Method for instantaneous peak level management and speech clarity enhancement |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
US20090281803A1 (en) * | 2008-05-12 | 2009-11-12 | Broadcom Corporation | Dispersion filtering for speech intelligibility enhancement |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
-
2009
- 2009-12-21 WO PCT/JP2009/071253 patent/WO2011077509A1/ja active Application Filing
- 2009-12-21 JP JP2011547125A patent/JP5331901B2/ja not_active Expired - Fee Related
- 2009-12-21 EP EP09852526A patent/EP2518723A4/en not_active Withdrawn
- 2009-12-21 CN CN2009801630621A patent/CN102667926A/zh active Pending
-
2012
- 2012-06-20 US US13/527,732 patent/US20120259640A1/en not_active Abandoned
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08328591A (ja) * | 1995-05-17 | 1996-12-13 | Fr Telecom | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 |
JPH10214023A (ja) * | 1997-01-30 | 1998-08-11 | Sekisui Chem Co Ltd | 高齢者聴覚疑似体験装置 |
JPH1195789A (ja) * | 1997-09-25 | 1999-04-09 | Hitachi Ltd | 音声認識システムおよび音声認識システムにおける話者適応方法 |
JPH11261709A (ja) | 1998-03-12 | 1999-09-24 | Aiphone Co Ltd | インターホン装置 |
JP2000010595A (ja) * | 1998-06-17 | 2000-01-14 | Yamaha Corp | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
JP2000047673A (ja) * | 1998-07-29 | 2000-02-18 | Yamaha Corp | カラオケ装置 |
JP2004061617A (ja) * | 2002-07-25 | 2004-02-26 | Fujitsu Ltd | 受話音声処理装置 |
JP2007318577A (ja) | 2006-05-29 | 2007-12-06 | Keakomu:Kk | ナースコールシステム |
JP2009171189A (ja) * | 2008-01-16 | 2009-07-30 | Pioneer Electronic Corp | 音声補正装置及び音声補正機能を備えた通信端末装置 |
JP2009246870A (ja) * | 2008-03-31 | 2009-10-22 | Fujitsu Ltd | 通信端末、通信端末の音声出力調整方法 |
Non-Patent Citations (3)
Title |
---|
KAORU OKAMOTO: "Rensai 'Natsukashi no Shinkukan Radio no Seisaku' (31)", RAJIO GIJUTSU, vol. 56, no. 10, 1 October 2002 (2002-10-01), pages 65 - 72 * |
See also references of EP2518723A4 |
YAMAMOTO; TAIJIROU: "Building environment for aged person", 10 January 1994, SHOKOKUSHA PUBLISHING CO., LTD, pages: 72 - 73 |
Also Published As
Publication number | Publication date |
---|---|
CN102667926A (zh) | 2012-09-12 |
EP2518723A4 (en) | 2012-11-28 |
US20120259640A1 (en) | 2012-10-11 |
EP2518723A1 (en) | 2012-10-31 |
JP5331901B2 (ja) | 2013-10-30 |
JPWO2011077509A1 (ja) | 2013-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6147744B2 (ja) | 適応音声了解度処理システムおよび方法 | |
JP5293817B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP5664480B2 (ja) | 異常状態検出装置、電話機、異常状態検出方法、及びプログラム | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
JP2018156044A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
EP2624254A1 (en) | Audio processing device and audio processing method for de-reverberation | |
JP5051882B2 (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
KR20150018727A (ko) | 청각 기기의 저전력 운용 방법 및 장치 | |
US8209167B2 (en) | Mobile radio terminal, speech conversion method and program for the same | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
EP2743923B1 (en) | Voice processing device, voice processing method | |
US9972338B2 (en) | Noise suppression device and noise suppression method | |
JP2008309955A (ja) | ノイズサプレス装置 | |
CN113921026A (zh) | 语音增强方法和装置 | |
JP2010193213A (ja) | 補聴器 | |
JP2016085420A (ja) | 音声調整装置 | |
JP5331901B2 (ja) | 音声制御装置 | |
JP4922427B2 (ja) | 信号補正装置 | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
US20140308025A1 (en) | Quality enhancement in multimedia capturing | |
JP2006251061A (ja) | 音声対話装置および音声対話方法 | |
KR101151746B1 (ko) | 오디오 신호용 잡음제거 방법 및 장치 | |
KR20140117885A (ko) | 음성활동감지방법 및 그 방법을 채택한 통신장치 | |
KR100565428B1 (ko) | 인간 청각 모델을 이용한 부가잡음 제거장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 200980163062.1 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09852526 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011547125 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2009852526 Country of ref document: EP |