WO2015102040A1 - 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品 - Google Patents
音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品 Download PDFInfo
- Publication number
- WO2015102040A1 WO2015102040A1 PCT/JP2014/006172 JP2014006172W WO2015102040A1 WO 2015102040 A1 WO2015102040 A1 WO 2015102040A1 JP 2014006172 W JP2014006172 W JP 2014006172W WO 2015102040 A1 WO2015102040 A1 WO 2015102040A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- call
- processing
- application
- voice processing
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 263
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004891 communication Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 33
- 230000002269 spontaneous effect Effects 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004883 computer application Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005674 electromagnetic induction Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/6075—Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
- H04M1/6083—Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
- H04M1/6091—Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system including a wireless interface
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72409—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
- H04M1/72412—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/02—Details of telephonic subscriber devices including a Bluetooth interface
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Definitions
- the present disclosure relates to a speech processing apparatus (Speech Processing) Apparatus, a speech processing system, a speech processing method, and a program product for speech processing.
- Speech Processing Speech Processing
- the vehicle device transmits the acquired voice data to an external center server via the mobile terminal. Then, the center server performs voice recognition based on the acquired voice data, and returns a search result corresponding to the voice to the vehicle device.
- the vehicle device transmits either voice data to the mobile terminal when performing a hands-free call, or transmits voice data to the mobile terminal when performing a search using voice recognition. Even in this case, the audio data is subjected to the same audio processing, specifically, the same noise cancellation processing, echo cancellation processing, gain control processing, and the like.
- the optimum voice processing for a call and the optimum voice processing for voice recognition are different.
- voice processing is performed to narrow down to a sound having a frequency that can be heard by human ears. If processing similar to this voice processing is performed in voice recognition, a voice waveform necessary for voice recognition is used. Will be distorted and the recognition rate will decrease.
- An object of the present disclosure is to provide a voice processing device that can optimally perform voice processing for calls and voice processing for other than calls, a voice processing system that includes the voice processing device, and the voice processing device. And a program product for voice processing to be executed by being incorporated in the voice processing apparatus.
- the acquired audio data is transmitted to an external mobile terminal, predetermined audio processing is performed on the audio data to be transmitted.
- the voice processing it is possible to switch between the first voice processing for calling and the second voice processing for other than calling. Therefore, according to the application to be executed, the first voice processing for the call and the second voice processing for the other than the call can be appropriately switched and executed. Any of the second sound processing can be optimally performed.
- FIG. 1 shows schematically the structural example of the speech processing system which concerns on one Embodiment.
- the figure which shows the structural example of an audio processing apparatus roughly
- the figure which shows the structural example of a portable terminal roughly
- the flowchart which shows an example of the control content in the case of performing a telephone call application The figure which shows the state which an audio processing apparatus and a portable terminal mutually cooperate, and execute an application
- the flowchart which shows an example of the control content in the case of performing a voice recognition search application Schematic configuration diagram of a voice processing system showing a modification of the present embodiment (part 1) Schematic configuration diagram of a voice processing system showing a modification of the present embodiment (No. 2) Schematic configuration diagram of a voice processing system showing a modification of the present embodiment (No. 3) Schematic configuration diagram of a voice processing system showing a modification of the present embodiment (No. 4)
- the voice processing system 10 is constructed by a voice processing device 11 and a portable terminal 12.
- the voice processing device 11 is composed of a navigation device mounted on a vehicle, for example.
- the voice application 11 is equipped with a call application A.
- the call application A is an application for realizing a so-called hands-free call function (also referred to as a hands-free telephone conversation function) that enables a user to call (phone conversation) without holding the mobile terminal 12 in his / her hand. is there.
- the mobile terminal 12 is, for example, a mobile communication terminal owned by a passenger of the vehicle.
- the audio processing device is compliant with the Bluetooth communication standard (Bluetooth: registered trademark) which is an example of the short-range wireless communication standard. 11 is communicably connected.
- Bluetooth communication standard Bluetooth: registered trademark
- the voice processing device 11 and the mobile terminal 12 are configured to acquire various applications distributed from the distribution center 14 by connecting to the external distribution center 14 via the communication network 100.
- the distribution center 14 uses, for example, a voice recognition search application B that implements a search service using speech recognition (Speech Recognition) for recognizing speech uttered by a user, and Internet radio.
- speech recognition Speech Recognition
- Various applications such as an application to be realized and an application to realize a music distribution service are stored.
- an application distribution request is received from an external terminal or device, the application is distributed to the request source via the communication network 100. .
- the application distributed from the distribution center 14 includes various data necessary for executing the application.
- the voice processing device 11 and the portable terminal 12 are configured to be connectable to a voice recognition search server 15 (hereinafter also referred to as a search server 15) via the communication network 100.
- the voice recognition search server 15 stores well-known dictionary data necessary for voice recognition processing, search processing data necessary for search processing, and the like.
- the search processing data includes data such as names and places of stores and facilities existing on the map.
- the voice processing device 11 includes a control circuit 21, a communication connection unit 22, a storage unit 23, a voice input / output unit 24, a display output unit 25, an operation input unit 26, and the like.
- the control circuit 21 is composed of a well-known microcomputer having a CPU, RAM, ROM, I / O bus and the like (not shown).
- the control circuit 21 controls the overall operation of the sound processing apparatus 11 according to various computer programs stored in the ROM or the storage unit 23.
- the control circuit 21 executes a sound processing program that is a computer program, so that the sound data acquisition processing unit 31, the sound data transmission processing unit 32, and the sound processing unit 33 are virtualized by software. Realize.
- some or all of the functions can be provided as hardware components in each processing unit.
- the communication connection unit 22 is configured by a wireless communication module, for example, and establishes a wireless communication line with the communication connection unit 42 included in the mobile terminal 12 and performs various communication with the mobile terminal 12 through the wireless communication line. I do.
- the communication connection unit 22 includes various communication protocols such as a hands-free call profile (HFP: Hands Free Profile) and a data communication profile.
- HFP hands-free call profile
- the storage unit 23 is configured by a computer-readable non-transitional non-volatile storage medium such as a hard disk drive, for example, and executes applications in cooperation with various computer programs and application programs and external devices and terminals.
- Various programs also referred to as program products including instructions
- a cooperative application such as a cooperative application that realizes a cooperative function to be performed, and various data used in each program are stored.
- the storage unit 23 stores various data necessary for speech recognition processing such as well-known dictionary data for speech recognition of the acquired speech data. Therefore, the voice processing apparatus 11 can perform voice recognition processing independently without depending on the voice recognition search server 15.
- the voice input / output unit 24 is connected to a microphone and a speaker (not shown) and has a known voice input function and voice output function.
- the voice input / output unit 24 sends voice data corresponding to the voice input from the microphone to the portable terminal 12. It is possible to output sound from the speaker based on the sound data transmitted and received from the mobile terminal 12. Thereby, the voice processing device 11 can realize a so-called hands-free call in cooperation with the portable terminal 12.
- the display output unit 25 is configured by, for example, a liquid crystal display or an organic EL, and displays various information based on a display command signal from the control circuit 21.
- the screen of the display output unit 25 is provided with a touch panel switch configured by a well-known pressure-sensitive method, electromagnetic induction method, capacitance method, or a combination thereof.
- the display output unit 25 displays various screens such as an input interface such as an operation input screen for inputting an operation for the application and an output interface such as an output screen for outputting the execution contents and execution results of the application. .
- the operation input unit 26 includes various switches such as a touch panel switch provided on the screen of the display output unit 25 and a mechanical switch provided around the display output unit 25.
- the operation input unit 26 outputs operation detection signals to the control circuit 21 in accordance with various switch operations by the user.
- the control circuit 21 analyzes the operation detection signal input from the operation input unit 26 to specify the operation content of the user, and executes various processes based on the specified operation content.
- the voice processing device 11 includes a known position specifying unit for specifying the current position of the voice processing device 11 based on satellite radio waves received from a positioning satellite (not shown).
- the voice data acquisition processing unit 31 is also referred to as a voice data acquisition unit / device / means.
- voice data acquisition processing unit 31 When voice is input from the microphone of the voice input / output unit 24, the voice data acquisition processing unit 31 generates voice data corresponding to the acquired voice.
- the voice data transmission processing unit 32 is also referred to as a voice data transmission unit / device / means, and the voice data acquired by the voice data acquisition processing unit 31 is transferred to an external portable terminal via a communication line established by the communication connection unit 22. 12 to send.
- the voice data transmission processing unit 32 is configured to transmit both the voice data for a call and the voice data for a non-call using the same communication protocol.
- a Bluetooth communication standard hands-free call profile HFP
- the communication protocol that can be adopted is not limited to this.
- the voice processing unit 33 is also referred to as a voice processing device / means, and performs predetermined voice processing on the voice data transmitted by the voice data transmission processing unit 32.
- the voice processing unit 33 is also referred to as voice processing for calls (also referred to as first voice processing) and voice processing for other than calls (second voice processing) as voice processing. ), which is an example of the voice recognition search for voice recognition search.
- the voice processing for a call is a process for narrowing down to only a sound having a frequency that can be heard by a human ear, and includes a noise cancellation process for a call, an echo cancellation process for a call, a gain control process for a call, and the like. .
- the voice processing for voice recognition search is a process for narrowing down the sound to such an extent that the voice can be recognized including, for example, a sound of a frequency that can be heard by the human ear.
- sounds other than the frequency that can be heard by the human ear remain to some extent without being canceled.
- voice processing for a call can perform more reliable noise cancellation, echo cancellation, and gain control on voice data than voice processing for voice recognition search.
- speech processing for speech recognition search since it is desired to pick up raw speech as close as possible to the speech uttered by the user, relatively loose noise cancellation, echo cancellation, and gain control are applied to the speech data. That is, in speech processing for speech recognition search, it is required to prevent the original speech information (speech waveform) from changing as much as possible.
- the medium frequency that is audible to the human ear is reduced for each frequency band included in the audio data by reducing the gain in the high and low frequency bands that are difficult for the human ear to hear.
- a process for amplifying the band is performed.
- the original speech waveform is distorted and is not suitable for speech recognition.
- the waveform (frequency) of the speech waveform differs for each vowel or consonant, if the original speech waveform is corrupted, speech recognition becomes extremely difficult.
- gain control in speech processing for speech recognition for example, by changing the setting value (parameter) of the high frequency band and low frequency band where the gain is reduced, or by appropriately adjusting how the gain is reduced, It is preferable to perform a voice process in which the voice waveform remains in a state close to the original shape, rather than a process in which a voice waveform as close as possible to the waveform remains, that is, voice processing for a call.
- the mobile terminal 12 includes a control circuit 41, a communication connection unit 42, a storage unit 43, a voice input / output unit 44, a display output unit 45, an operation input unit 46, a telephone communication unit 47, and the like.
- the control circuit 41 is constituted by a well-known microcomputer having a CPU, RAM, ROM, I / O bus, etc. (not shown).
- the control circuit 41 controls the overall operation of the mobile terminal 12 according to a computer program stored in the ROM or the storage unit 43.
- some or all of the functions of the control circuit 41 can be executed by hardware components.
- the communication connection unit 42 is configured by a wireless communication module, for example, and establishes a wireless communication line with the communication connection unit 22 included in the voice processing device 11, and performs various types of communication with the voice processing device 11 through the wireless communication line. To communicate.
- the communication connection unit 42 includes various communication protocols such as a hands-free call profile (HFP) and a data communication profile.
- the storage unit 43 is configured by a computer-readable non-transitional non-volatile storage medium such as a memory card, and executes applications in cooperation with various computer programs and application programs and external devices and terminals.
- Various programs also referred to as program products including instructions
- a cooperative application that realizes a cooperative function to be performed, and various data used in each program are stored.
- the voice input / output unit 44 is connected to a microphone and a speaker (not shown) and has a known voice input function and voice output function.
- the voice input / output unit 44 is connected to the portable terminal 12 when the voice application 11 is started in the voice processing apparatus 11 in a state where the voice processing apparatus 11 is communicably connected to the portable terminal 12.
- the voice data corresponding to the voice input from the voice processor 11 is transmitted to the voice processor 11, and the voice data received from the voice processor 11 can be transmitted to the mobile terminal of the other party. Thereby, the portable terminal 12 can realize a so-called hands-free call in cooperation with the voice processing device 11.
- the voice input / output unit 44 outputs the uttered voice input from the microphone to the control circuit 41 while the voice processing device 11 is not connected to the portable terminal 12 so as to be communicable.
- the received voice is output from the speaker.
- the portable terminal 12 can implement
- the display output unit 45 is composed of, for example, a liquid crystal display or an organic EL display, and displays various information based on a display command signal from the control circuit 41.
- the screen of the display output unit 45 is provided with a touch panel switch configured by a known pressure-sensitive method, electromagnetic induction method, electrostatic capacitance method, or a combination thereof.
- the display output unit 45 displays various screens such as an input interface such as an operation input screen for inputting an operation for the application and an output interface such as an output screen for outputting the execution contents and execution results of the application. .
- the operation input unit 46 includes various switches such as a touch panel switch provided on the screen of the display output unit 45 and a mechanical switch provided around the display output unit 45.
- the operation input unit 46 outputs an operation detection signal to the control circuit 41 according to the operation of various switches by the user.
- the control circuit 41 analyzes the operation detection signal input from the operation input unit 46, specifies the operation content of the user, and executes various processes based on the specified operation content.
- the telephone communication unit 47 establishes a wireless telephone communication line with the communication network 100, and executes telephone communication via this telephone communication line.
- the communication network 100 includes facilities for providing a mobile phone communication service using a public network such as a mobile phone base station and a base station controller (not shown).
- the control circuit 41 is connected to the distribution center 14 or the voice recognition search server 15 connected to the communication network 100 through the telephone communication unit 47 so as to be communicable.
- each section is expressed as, for example, A1, B1, C1, D1, E1.
- each section can be divided into a plurality of subsections, while a plurality of sections can be combined into one section.
- each section can be referred to as a device, module, or means.
- each of the above sections or a combination thereof includes not only (i) a section of software combined with a hardware unit (eg, a computer), but also (ii) hardware (eg, an integrated circuit, As a section of (wiring logic circuit), it can be realized with or without the function of related devices.
- the hardware section can be included inside the microcomputer.
- the voice processing device 11 determines whether or not the call application A is activated in the voice processing device 11 (A1) and whether an incoming operation is input from the external portable terminal 12 (A2). ).
- the voice processing device 11 monitors whether the user inputs a call operation via the call application A (A3).
- the call operation is an example of a voluntary operation in the call application A and refers to making a call to an external mobile terminal.
- the voice processing device 11 shifts from the normal mode to the hands-free call mode (A4).
- the voice processing device 11 activates the call application A (A5). Then, the voice processing device 11 shifts from the normal mode to the hands-free call mode (A4).
- the incoming call operation is an example of a different operation in the call application A, and means receiving an incoming call from an external portable terminal.
- the mobile terminal 12 is set to input an incoming call operation to the voice processing device 11 when there is an incoming call from an external mobile terminal and the mobile terminal 12 is in the hands-free call mode.
- the voice processing device 11 establishes a wireless communication line by HFP with the portable terminal 12, transmits voice data corresponding to the voice input from the microphone to the portable terminal 12, Based on the audio data received from the portable terminal 12, the audio can be output from the speaker.
- the mobile terminal 12 when the mobile terminal 12 receives an incoming call from an external mobile terminal (not shown) (B1: YES), the mobile terminal 12 confirms whether or not a wireless communication line using HFP is established with the voice processing device 11 (B2). .
- the portable terminal 12 performs a call by the portable terminal 12 alone in the normal call mode (B3). . That is, a normal call is performed between the mobile terminal 12 and the mobile terminal of the other party.
- the mobile terminal 12 shifts from the normal call mode to the hands-free call mode (B4).
- the portable terminal 12 uses the HFP wireless communication line established between the portable terminal 12 and the voice data corresponding to the voice input from the other party's portable terminal (not shown). Is transmitted to the voice processing device 11, and the voice data received from the voice processing device 11 can be transmitted to the mobile terminal of the other party.
- the voice processing system 10 is in a state where a so-called hands-free call is possible when both the voice processing device 11 and the mobile terminal 12 are shifted to the hands-free call mode.
- the voice data acquisition processing unit 31 acquires voice data (A6), and the acquired voice data is subjected to voice processing for calling by the voice processing unit 33 ( A7).
- the voice processing device 11 detects a spontaneous operation or a spontaneous operation of the call application A, and thereby confirms that the application being executed is the call application A. Therefore, the voice processing device 11 switches the voice processing applied to the voice data to voice processing for a call. Then, the voice processing device 11 transmits the voice data subjected to voice processing for a call to the mobile terminal 12 (A8).
- the process of step A6 is an example of an audio data acquisition step
- the process of step A7 is an example of an audio process step
- the process of step A8 is an example of an audio data transmission step.
- the portable terminal 12 transmits the voice data received from the voice processing device 11 to the portable terminal of the call partner (B5).
- the mobile terminal 12 receives voice data from the mobile terminal of the call partner (B6)
- the mobile terminal 12 transmits the voice data to the voice processing device 11 (B7).
- the audio processing device 11 receives audio data from the mobile terminal 12, the audio processing device 11 outputs audio from the speaker based on the audio data (A9).
- the voice received from the mobile terminal of the call partner is output from the voice processing device 11.
- the voice data of the uttered voice and the voice data of the received voice are appropriately transmitted and received between the voice processing device 11 and the mobile terminal of the other party of the call by relaying the mobile terminal 12, thereby realizing a so-called hands-free call Is done.
- the voice data transmitted from the voice processing device 11 to the portable terminal 12 is included in the call data. Is processed. This hands-free call is continued until the call is terminated at the voice processing device 11 or the mobile terminal of the other party.
- search application B the voice recognition search application B
- search application B the voice recognition search application B
- the portable terminal 12 when the portable terminal 12 is communicably connected to the voice processing device 11 and the cooperative application is activated in each of the voice processing device 11 and the portable terminal 12, the portable terminal 12
- the execution process of the voice recognition search application B is executed by the mobile terminal 12, and the input interface and the output interface of the voice recognition search application B are provided by the voice processing device 11.
- the voice processing device 11 starts the application that the portable terminal 12 has.
- a button is displayed (C2). This activation button is an example of an input interface.
- the voice processing device 11 transmits a start command signal for the voice recognition search application B to the mobile terminal 12 (C4). At this time, the voice processing device 11 also transmits to the portable terminal 12 current position information indicating the current position of the voice processing device 11 obtained by the position specifying unit.
- the portable terminal 12 When the portable terminal 12 receives the activation command signal for the voice recognition search application B, the portable terminal 12 starts the voice recognition search application B (D2). And the portable terminal 12 transmits the starting completion signal which shows having started the speech recognition search application B to the speech recognition search server 15 (D3). At this time, the portable terminal 12 also transmits the current position information received from the voice processing device 11 to the voice recognition search server 15.
- the voice recognition search server 15 When the voice recognition search server 15 receives the activation completion signal of the voice recognition search application B, the voice recognition search server 15 transmits voice data for collecting search conditions to the mobile terminal 12 (E1). In this case, for example, message data such as “Please say business” is set as voice data for collecting search conditions.
- the portable terminal 12 transmits the search condition collection voice data received from the voice recognition search server 15 to the voice processing device 11 (D4).
- the voice processing device 11 Upon receiving the search condition collection voice data, the voice processing device 11 outputs the search condition collection voice from the speaker based on the voice data (C5). In this case, for example, a guidance voice such as “Please say your business” is output.
- the voice processing device 11 acquires the voice data by the voice data acquisition processing unit 31 (C6), and the acquired voice data.
- the voice processing unit 33 performs voice processing for voice recognition search (C7). In this case, the voice processing device 11 has not detected a spontaneous operation or a spontaneous operation of the call application A, and thereby confirms that the application being executed is an application other than the call application A. ing.
- the voice processing device 11 switches the voice processing applied to the voice data to voice processing for voice recognition search, which is an example of voice processing for other than calls. Then, the voice processing device 11 transmits the voice data subjected to voice processing for voice recognition search to the mobile terminal 12 (C8).
- the process of step C6 is an example of an audio data acquisition step
- the process of step C7 is an example of an audio processing step
- the process of step C8 is an example of an audio data transmission step.
- application specifying data for specifying an application being executed is transmitted from the mobile terminal 12 to the sound processing device 11, and the sound processing device 11 performs sound processing suitable for the application specified by the application specifying data. It may be configured to execute by switching.
- the portable terminal 12 transmits the voice data received from the voice processing device 11 to the voice recognition search server 15 (D5).
- the voice recognition search server 15 performs a known voice recognition process based on the voice data (E2).
- the voice recognition search server 15 executes a well-known search process based on the recognized voice and the position information of the voice processing device 11 (E3), and transmits search result data indicating the search result to the portable terminal 12 (E4).
- the voice recognition search server 15 also transmits voice data for search result output to the mobile terminal 12.
- message data such as “Display a nearby Italian store” is set as the audio data for outputting the search result. That is, the voice recognition search server 15 reflects the search condition such as “Italian” in the voice data for outputting the search result.
- the portable terminal 12 transmits the search result data received from the voice recognition search server 15 to the voice processing device 11 (D6). At this time, the portable terminal 12 also transmits the search result output voice data received from the voice recognition search server 15 to the voice processing device 11.
- the audio processing device 11 when receiving the audio data for search result output, the audio processing device 11 outputs audio from the speaker based on the audio data (C9). In this case, for example, a guidance voice such as “Display a nearby Italian store” is output.
- the speech processing apparatus 11 displays the search result based on the search result data (C10).
- the search result output voice and the search result display screen are examples of an output interface.
- a search service using voice recognition is realized by appropriately transmitting and receiving voice data and search result data between the voice processing device 11 and the voice recognition search server 15 via the portable terminal 12.
- the voice processing device 11 does not detect the spontaneous operation or the other operation of the call application A. Therefore, the voice data transmitted from the voice processing device 11 to the portable terminal 12 is used for voice recognition. Is processed.
- the audio processing device 11 when transmitting the acquired audio data to the external mobile terminal 12, the audio processing device 11 performs predetermined audio processing on the audio data to be transmitted.
- voice processing it is possible to switch between voice processing for calling, which is an example of voice processing for calling, and voice processing for searching for voice recognition, which is an example of voice processing for other than calling. . Therefore, it is possible to appropriately switch and execute a voice process for a call and a voice process for a call other than the call according to a running application, and optimally perform both the voice process for a call and the voice process for a call. be able to.
- the audio processing performed on the audio data may be configured such that noise cancellation processing, echo cancellation processing, auto gain control processing for gradually increasing the aperture of the noise cancellation processing, and the like are performed in a single shot.
- the processes may be implemented by appropriately combining the processes.
- the voice processing device 11 executes voice processing for a call when detecting a spontaneous operation or a spontaneous operation in the call application A. That is, based on whether an operation specific to the call application A, in other words, an operation that cannot be generated by an application other than the call application A is detected, the voice processing applied to the voice data is switched to voice processing for calling. Therefore, when the call application A is executed, the voice processing for the call can be surely executed. In addition, when an application other than the call application A is executed, it is possible to reliably execute voice processing for other than calls.
- both voice data for call and voice data for voice recognition that is voice data for other than calls are configured to be transmitted and received by the same communication protocol.
- audio data related to the application can be transmitted and received using the same protocol.
- the call application may be configured to be executed on a mobile terminal.
- the voice recognition search application may be configured to be executed by a voice processing device.
- the voice processing device 11 more specifically, the voice processing unit 33 is configured not to execute voice processing when an application other than the call application is activated. Instead, the mobile terminal 12 or the voice recognition search server You may comprise so that 15 may perform an audio
- the voice processing system 10 does not perform voice processing for voice recognition in the voice processing device 11, in other words, does not perform signal processing of voice data. You may comprise so that signal processing may be performed.
- the speech processing system 10 does not perform speech recognition signal processing in the speech processing device 11 and the portable terminal 12, and the speech recognition search server 15 performs signal processing for speech recognition. May be configured to execute.
- the voice processing system 10 includes a call app in both the voice processing device 11 and the mobile terminal 12, and the voice processing device 11 performs voice processing for calling on voice data for calling.
- the portable terminal 12 may be configured not to perform voice processing for calls on voice data for calls, or to perform additional voice processing.
- the voice processing system 10 is configured such that the voice processing device 11 does not perform voice processing for calls on voice data for calls or performs additional voice processing, and the mobile terminal 12 The voice processing for calling may be applied to the voice data for calling.
- the voice processing system 10 includes a mobile terminal 12 that includes a voice recognition search application ⁇ corresponding to the voice recognition search server ⁇ and a voice recognition search application ⁇ corresponding to the voice recognition search server ⁇ . It is good.
- the voice recognition search server does not perform voice processing for voice recognition on the voice data for voice recognition in the mobile terminal 12.
- a configuration may be adopted in which speech processing for speech recognition is performed on speech data for speech recognition at ⁇ .
- the portable terminal 12 When the search service of the voice recognition search server ⁇ is used by the voice recognition search application ⁇ , the portable terminal 12 performs voice processing for voice recognition on the voice data for voice recognition, and the voice recognition search server ⁇ Then, it is good also as a structure which does not perform the speech process for speech recognition with respect to the speech data for speech recognition. That is, the voice processing system 10 may be configured to appropriately change the execution subject that performs voice processing for voice recognition on voice data according to the type of voice recognition search application to be used.
- Applications other than the call application may be any application that implements a service that requires voice recognition processing, and are not limited to the voice recognition search application.
- the voice processing device 11 may be configured by a device in which an application program having a navigation function is installed, for example. Moreover, the voice processing device 11 may be configured by an in-vehicle device incorporated in a vehicle, or may be configured by a portable wireless device that can be attached to and detached from the vehicle.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
音声処理装置(Speech Processing Apparatus)(11)は、取得した音声データを外部の携帯端末(12)に送信する場合に、その送信する音声データに、音声処理部(33)によって所定の音声処理を施す。音声処理部は、その音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理とを切り替えて、実行することが可能である。
Description
本開示は、2014年1月6日に出願された日本出願番号2014-285号に基づくもので、ここにその記載内容を援用する。
本開示は、音声処理装置(Speech Processing Apparatus)、音声処理システム、音声処理方法、音声処理用のプログラム製品に関する。
近年、車両に搭載される車両用機器と携帯端末とを通信可能に接続し、携帯端末を手に持たなくとも通話を可能とするいわゆるハンズフリー通話を実現する技術が普及しつつある(例えば特許文献1参照)。この種のハンズフリー通話技術においては、多くの車両用機器で採用されているBluetooth(登録商標)のHFP(HFP:Hands Free Profile)を通信プロトコルとして使用しており、車両用機器は、携帯端末に送信する音声データに、当該データを最適化するための音声処理を施している。
ところで、近年では、車両用機器と携帯端末とを相互に連携させながらアプリケーションを実行する技術の開発が進められており、この技術においては、ハンズフリー通話を可能とするいわゆる通話アプリケーションに限らず、例えばユーザの発声したスピーチを認識するところの音声認識(Speech Recognition)を利用した検索アプリケーションといった通話以外のアプリケーションも実行可能である。
この検索アプリケーションでは、車両用機器は、取得した音声データを、携帯端末を介して外部のセンターサーバに送信する。そして、センターサーバは、取得した音声データに基づき音声認識を実施し、その音声に対応する検索結果を車両用機器に返信する。ところが、従来では、車両用機器は、ハンズフリー通話の実行時において音声データを携帯端末に送信する場合、及び、音声認識を利用した検索の実行時において音声データを携帯端末に送信する場合の何れの場合においても、音声データに同一の音声処理、具体的には同一のノイズキャンセル処理、エコーキャンセル処理、ゲインコントロール処理等の音声処理を施している。一方で、通話に最適な音声処理と音声認識に最適な音声処理は、それぞれ異なる。即ち、例えば、ハンズフリー通話では、例えば人間の耳で聞こえる周波数の音に絞る音声処理を実施しているが、この音声処理と同様の処理を音声認識において実施すると、音声認識に必要な音声波形が歪んでしまい、認識率が下がってしまう。
本開示の目的は、通話用の音声処理及び通話以外用の音声処理を何れも最適に実施することができる音声処理装置、この音声処理装置を含んで構築される音声処理システム、この音声処理装置において実行される音声処理方法、及び、この音声処理装置に組み込まれて実行される音声処理用のプログラム製品を提供することにある。
本開示の例によれば、取得した音声データを外部の携帯端末に送信する場合に、その送信する音声データに所定の音声処理が施される。そして、その音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理とを切り替えて実行することが可能である。よって、実行されるアプリケーションに応じて通話用の第一の音声処理及び通話以外用の第二の音声処理を適宜切り替えて実行することができ、通話用の第一の音声処理及び通話以外用の第二の音声処理を何れも最適に実施することができる。
本開示についての上記目的およびその他の目的、特徴や利点は、添付の図面を参照しながら下記の詳細な記述により、より明確になる。
一実施形態に係る音声処理システムの構成例を概略的に示す図
音声処理装置の構成例を概略的に示す図
携帯端末の構成例を概略的に示す図
通話アプリケーションを実行する場合の制御内容の一例を示すフローチャート
音声処理装置及び携帯端末が相互に連携してアプリケーションを実行する状態を概略的に示す図
音声認識検索アプリケーションを実行する場合の制御内容の一例を示すフローチャート
本実施形態の変形例を示す音声処理システムの概略構成図(その1)
本実施形態の変形例を示す音声処理システムの概略構成図(その2)
本実施形態の変形例を示す音声処理システムの概略構成図(その3)
本実施形態の変形例を示す音声処理システムの概略構成図(その4)
以下、本開示の一実施形態について図面を参照しながら説明する。図1に示すように、音声処理システム10は、音声処理装置11と携帯端末12とで構築される。音声処理装置11は、例えば車両に搭載されるナビゲーション装置で構成される。この場合、音声処理装置11には、通話アプリケーションAが搭載されている。この通話アプリケーションAは、使用者が携帯端末12を手に持たなくとも通話(電話会話)を可能とするいわゆるハンズフリー通話機能(ハンズフリー電話会話機能とも言及される)を実現するためのアプリケーションである。また、携帯端末12は、例えば車両の搭乗者が所有する携帯通信端末であり、車室内に持ち込まれると、近距離無線通信規格の一例であるBluetooth通信規格(Bluetooth:登録商標)により音声処理装置11に通信可能に接続される。
音声処理装置11及び携帯端末12は、通信網100を介して外部の配信センター14に接続することで、当該配信センター14から配信される各種のアプリケーションを取得するように構成されている。配信センター14は、上述の通話アプリケーションAのほか、例えばユーザの発声したスピーチを認識するところの音声認識(Speech Recognition)を利用した検索サービスを実現する音声認識検索アプリケーションB、さらには、インターネットラジオを実現するアプリケーション、音楽配信サービスを実現するアプリケーションなど各種のアプリケーションを格納しており、外部の端末や機器からアプリケーションの配信要求を受けると、該当するアプリケーションを通信網100を介して要求元に配信する。なお、配信センター14から配信されるアプリケーションには、そのアプリケーションを実行するために必要な各種のデータなどが含まれる。
また、音声処理装置11及び携帯端末12は、通信網100を介して音声認識検索サーバ15(以下、検索サーバ15とも称する)にも接続可能に構成されている。この音声認識検索サーバ15には、音声認識処理に必要な周知の辞書データ、検索処理に必要な検索処理用データなどが格納されている。検索処理用データには、地図データのほか、地図上に存在する店舗や施設などの名称や場所といったデータが含まれている。
次に、音声処理装置11の構成について図2を参照しながら説明する。即ち、音声処理装置11は、制御回路21、通信接続部22、記憶部23、音声入出力部24、表示出力部25、操作入力部26などを備えている。制御回路21は、図示しないCPU、RAM、ROM及びI/Oバスなどを有する周知のマイクロコンピュータで構成されている。制御回路21は、ROMあるいは記憶部23などに記憶されている各種のコンピュータプログラムに従って音声処理装置11の動作全般を制御する。また、本実施形態では、一例として、制御回路21は、コンピュータプログラムである音声処理プログラムを実行することにより、音声データ取得処理部31、音声データ送信処理部32、音声処理部33をソフトウェアによって仮想的に実現する。但し、それぞれの処理部の各々において、機能の一部あるいは全てをハードウエアの構成要素として提供することも可能である。
通信接続部22は、例えば無線通信モジュールなどで構成され、携帯端末12が備える通信接続部42との間に無線通信回線を確立し、その無線通信回線を通じて携帯端末12との間で各種の通信を行う。この場合、通信接続部22は、ハンズフリー通話用のプロファイル(HFP:Hands Free Profile)やデータ通信用のプロファイルなど種々の通信プロトコルを備える。
記憶部23は、例えばハードディスクドライブなどのコンピュータ読取可能な非遷移の不揮発性の記憶媒体で構成されており、各種のコンピュータプログラムやアプリケーションプログラム、外部の装置や端末と相互に連携してアプリケーションを実行する連携機能を実現する連携アプリケーションなどの各種のプログラム(インストラクションを含むプログラム製品とも言及される)、及び、各プログラムで使用される各種のデータなどを記憶している。また、記憶部23は、取得した音声データを音声認識するための周知の辞書データなど音声認識処理に必要な各種のデータを格納している。よって、音声処理装置11は、音声認識検索サーバ15に依らずとも、単独でも音声認識処理が可能となっている。
音声入出力部24は、図示しないマイクロホン及びスピーカに接続しており、周知の音声入力機能及び音声出力機能を備える。この音声入出力部24は、音声処理装置11に携帯端末12が通信可能に接続された状態で通話アプリケーションAが起動されると、マイクロホンから入力された音声に対応する音声データを携帯端末12に送信し、また、携帯端末12から受信した音声データに基づき音声をスピーカから出力することが可能となる。これにより、音声処理装置11は、携帯端末12と協働して、いわゆるハンズフリー通話を実現可能となる。
表示出力部25は、例えば液晶表示器や有機ELで構成されており、制御回路21からの表示指令信号に基づいて各種の情報を表示する。この表示出力部25の画面には、周知の感圧方式、電磁誘導方式、静電容量方式あるいはそれらを組み合わせた方式で構成されるタッチパネルスイッチが設けられる。この表示出力部25には、アプリケーションに対する操作を入力するための操作入力画面などの入力インターフェース、アプリケーションの実行内容や実行結果を出力するための出力画面などの出力インターフェースなどの各種画面が表示される。
操作入力部26は、表示出力部25の画面上に設けられるタッチパネルスイッチ、及び、表示出力部25の周囲に設けられているメカニカルスイッチなど各種のスイッチ類を含む。操作入力部26は、使用者による各種のスイッチの操作に応じて、その操作検知信号を制御回路21に出力する。制御回路21は、操作入力部26から入力された操作検知信号を解析して使用者の操作内容を特定し、特定した操作内容に基づいて各種の処理を実行する。なお、図示はしないが、音声処理装置11は、図示しない測位用衛星から受信する衛星電波などに基づいて音声処理装置11の現在位置を特定するための周知の位置特定部を備えている。
音声データ取得処理部31は、音声データ取得部/デバイス/ミーンズとも言及され、音声入出力部24のマイクロホンから音声が入力されると、その取得した音声に対応する音声データを生成する。
音声データ送信処理部32は、音声データ送信部/デバイス/ミーンズとも言及され、音声データ取得処理部31によって取得された音声データを、通信接続部22が確立した通信回線を介して外部の携帯端末12に送信する。この場合、音声データ送信処理部32は、通話用の音声データ及び通話以外用の音声データを、何れも同一の通信プロトコルによって送信するように構成されている。なお、本実施形態では、その同一の通信プロトコルとして、Bluetooth通信規格のハンズフリー通話用のプロファイル(HFP)が採用されている。しかし、採用可能な通信プロトコルは、これに限られるものではない。
音声処理部33は、音声処理デバイス/ミーンズとも言及され、音声データ送信処理部32によって送信される音声データに所定の音声処理を施す。詳しくは後述するが、この音声処理部33は、音声処理として、通話用の音声処理(第一の音声処理とも言及される)と通話以外用の音声処理(第二の音声処理とも言及される)の一例である音声認識検索用の音声処理を切り替えて実行可能に構成されている。なお、通話用の音声処理は、例えば人間の耳で聞こえる周波数の音のみに絞るための処理であり、通話用のノイズキャンセル処理、通話用のエコーキャンセル処理、通話用のゲインコントロール処理などを含む。この通話用の音声処理によれば、人間の耳で聞こえる周波数以外の音は完全にあるいは殆どキャンセルされる。一方、音声認識検索用の音声処理は、例えば人間の耳で聞こえる周波数の音を含んで音声認識が可能となる程度に音を絞るための処理であり、音声認識検索用のノイズキャンセル処理、音声認識検索用のエコーキャンセル処理、音声認識検索用のゲインコントロール処理などを含む。この音声認識検索用の音声処理によれば、人間の耳で聞こえる周波数以外の音もある程度はキャンセルされずに残る。
基本的には、音声認識検索用の音声処理よりも通話用の音声処理の方が、音声データに対し確実なノイズキャンセル、エコーキャンセル、ゲインコントロールがかけられる。一方、音声認識検索用の音声処理では、使用者が発した音声に極力近い生の音声を拾いたいことから、音声データに対し比較的緩いノイズキャンセル、エコーキャンセル、ゲインコントロールがかけられる。即ち、音声認識検索用の音声処理では、本来の音声情報(音声波形)が変化してしまうことを極力防止することが求められる。
例えば通話用の音声処理におけるゲインコントロールでは、音声データに含まれる各周波数帯域に対して、人の耳には聞こえにくい高周波数帯域と低周波数帯のゲインを落とし、人の耳に聞こえやすい中周波数帯域を増幅させる処理などが行われる。しかし、このような音声処理を音声認識検索用の音声データに施すと、本来の音声波形が歪んでしまうため、音声認識には向かない。因みに、音声波形は、母音や子音ごとに波形(周波数)が異なるため、本来の音声波形が崩れてしまうと、音声の認識が極めて困難となる。従って、音声認識用の音声処理におけるゲインコントロールとしては、例えば、ゲインを落とす高周波帯域や低周波数帯域の設定値(パラメタ)を変更する、ゲインの落とし方を適宜調整するなどして、本来の音声波形に極力近い音声波形が残るような処理、つまり、通話用の音声処理よりも、音声波形が原形に近い状態で残るような音声処理を行うことが好ましい。
次に、携帯端末12の構成について図3を参照しながら説明する。携帯端末12は、制御回路41、通信接続部42、記憶部43、音声入出力部44、表示出力部45、操作入力部46、電話通信部47などを備えている。制御回路41は、図示しないCPU、RAM、ROM及びI/Oバスなどを有する周知のマイクロコンピュータで構成されている。本実施形態では、一例として、制御回路41は、ROMあるいは記憶部43などに記憶されているコンピュータプログラムに従って携帯端末12の動作全般を制御する。一方、制御回路41の機能の一部あるいは全ては、ハードウエアの構成要素によっても、実行は可能である。
通信接続部42は、例えば無線通信モジュールなどで構成され、音声処理装置11が備える通信接続部22との間に無線通信回線を確立し、その無線通信回線を通じて音声処理装置11との間で各種の通信を行う。この場合、通信接続部42は、ハンズフリー通話用のプロファイル(HFP)やデータ通信用のプロファイルなど種々の通信プロトコルを備える。記憶部43は、例えばメモリカードなどのコンピュータ読取可能な非遷移の不揮発性の記憶媒体で構成されており、各種のコンピュータプログラムやアプリケーションプログラム、外部の装置や端末と相互に連携してアプリケーションを実行する連携機能を実現する連携アプリケーションなどの各種のプログラム(インストラクションを含むプログラム製品とも言及される)、及び、各プログラムで使用される各種のデータなどを記憶している。
音声入出力部44は、図示しないマイクロホン及びスピーカに接続しており、周知の音声入力機能及び音声出力機能を備える。この音声入出力部44は、携帯端末12に音声処理装置11が通信可能に接続された状態で音声処理装置11にて通話アプリケーションAが起動されている場合には、図示しない通話相手の携帯端末から入力された音声に対応する音声データを音声処理装置11に送信し、また、音声処理装置11から受信した音声データを通話相手の携帯端末に送信することが可能な状態となる。これにより、携帯端末12は、音声処理装置11と協働して、いわゆるハンズフリー通話を実現可能となる。なお、この音声入出力部44は、携帯端末12に音声処理装置11が通信可能に接続されていない状態では、マイクロホンから入力された発話音声を制御回路41に出力する一方、制御回路41から入力される受話音声をスピーカから出力する。これにより、携帯端末12は、単独でも通話機能を実現可能である。
表示出力部45は、例えば液晶表示器や有機EL表示器で構成されており、制御回路41からの表示指令信号に基づいて各種の情報を表示する。この表示出力部45の画面には、周知の感圧方式、電磁誘導方式、静電容量方式あるいはそれらを組み合わせた方式で構成されるタッチパネルスイッチが設けられる。この表示出力部45には、アプリケーションに対する操作を入力するための操作入力画面などの入力インターフェース、アプリケーションの実行内容や実行結果を出力するための出力画面などの出力インターフェースなどの各種画面が表示される。
操作入力部46は、表示出力部45の画面上に設けられるタッチパネルスイッチ、及び、表示出力部45の周囲に設けられているメカニカルスイッチなど各種のスイッチ類を含む。操作入力部46は、使用者による各種のスイッチの操作に応じて操作検知信号を制御回路41に出力する。制御回路41は、操作入力部46から入力された操作検知信号を解析して使用者の操作内容を特定し、特定した操作内容に基づいて各種の処理を実行する。
電話通信部47は、通信網100との間に無線の電話通信回線を確立し、この電話通信回線を介して電話通信を実行する。この場合、通信網100は、図示しない携帯電話基地局や基地局制御装置などの周知の公衆回線網を使用する携帯電話通信サービスを提供する設備を含む。また、制御回路41は、この電話通信部47を介して、通信網100に接続している配信センター14あるいは音声認識検索サーバ15に通信可能に接続される。
次に、上記構成の音声処理システム10において、通話アプリケーションAを実行する場合における制御内容の一例について説明する。
ここで、この出願に記載されるフローチャート、あるいは、フローチャートの処理は、複数のセクション(あるいはステップと言及される)を含み、各セクションは、たとえば、A1,B1、C1,D1、E1と表現される。さらに、各セクションは、複数のサブセクションに分割されることができる、一方、複数のセクションが合わさって一つのセクションにすることも可能である。さらに、各セクションは、デバイス、モジュール、ミーンズとして言及されることができる。また、上記の複数のセクションの各々あるいは組合わさったものは、(i)ハードウエアユニット(例えば、コンピュータ)と組み合わさったソフトウエアのセクションのみならず、(ii)ハードウエア(例えば、集積回路、配線論理回路)のセクションとして、関連する装置の機能を含みあるいは含まずに実現できる。さらに、ハードウエアのセクションは、マイクロコンピュータの内部に含まれることもできる。
例えば図4に示すように、音声処理装置11は、当該音声処理装置11にて通話アプリケーションAが起動されたか否か(A1)及び外部の携帯端末12から着信操作が入力されたか否か(A2)を監視している。音声処理装置11は、通話アプリケーションAが起動している場合(A1:YES)には、使用者が通話アプリケーションAを介して発信操作を入力したか否か(A3)を監視する。なお、発信操作は、通話アプリケーションAにおける自発的な操作の一例であり、外部の携帯端末に対し発信を行うことをいう。そして、音声処理装置11は、発信操作が入力されると(A3:YES)、通常モードからハンズフリー通話モードに移行する(A4)。また、音声処理装置11は、通話アプリケーションAが起動されていない状態で着信操作が入力されると(A2:YES)、通話アプリケーションAを起動する(A5)。そして、音声処理装置11は、通常モードからハンズフリー通話モードに移行する(A4)。なお、着信操作は、通話アプリケーションAにおける他発的な操作の一例であり、外部の携帯端末から着信を受けることをいう。携帯端末12は、外部の携帯端末から着信が有り、且つ、ハンズフリー通話モードに移行している場合には、音声処理装置11に対し着信操作を入力するように設定されている。
ハンズフリー通話モードでは、音声処理装置11は、携帯端末12との間にHFPによる無線通信回線を確立して、マイクロホンから入力された音声に対応する音声データを携帯端末12に送信し、また、携帯端末12から受信した音声データに基づき音声をスピーカから出力することが可能な状態となる。
一方、携帯端末12は、図示しない外部の携帯端末から着信を受けると(B1:YES)、音声処理装置11との間にHFPによる無線通信回線が確立されているか否かを確認する(B2)。携帯端末12は、音声処理装置11との間にHFPによる無線通信回線が確立されてない場合には(B2:NO)、通常通話モードにて当該携帯端末12単独で通話を実行する(B3)。即ち、携帯端末12と通話相手の携帯端末との間で通常の通話が行われる。
一方、携帯端末12は、音声処理装置11との間にHFPによる無線通信回線が確立されている場合には(B2:YES)、通常通話モードからハンズフリー通話モードに移行する(B4)。このハンズフリー通話モードでは、携帯端末12は、音声処理装置11との間に確立されているHFPによる無線通信回線を介して、図示しない通話相手の携帯端末から入力された音声に対応する音声データを音声処理装置11に送信し、また、音声処理装置11から受信した音声データを通話相手の携帯端末に送信することが可能な状態となる。音声処理システム10は、このように音声処理装置11及び携帯端末12の双方がハンズフリー通話モードに移行することにより、いわゆるハンズフリー通話が可能な状態となる。
音声処理装置11は、ハンズフリー通話モードに移行すると、音声データ取得処理部31によって音声データを取得し(A6)、その取得した音声データに、音声処理部33によって通話用の音声処理を施す(A7)。この場合、音声処理装置11は、通話アプリケーションAの自発的な操作または他発的な操作を検知しており、これにより、実行中のアプリケーションが通話アプリケーションAであることを確認している。よって、音声処理装置11は、音声データに施す音声処理を、通話用の音声処理に切り替えている。そして、音声処理装置11は、通話用の音声処理を施した音声データを携帯端末12に送信する(A8)。なお、ステップA6の処理は、音声データ取得ステップの一例であり、ステップA7の処理は、音声処理ステップの一例であり、ステップA8の処理は、音声データ送信ステップの一例である。
携帯端末12は、音声処理装置11から受信した音声データを通話相手の携帯端末に送信する(B5)。また、携帯端末12は、通話相手の携帯端末から音声データを受信すると(B6)、その音声データを音声処理装置11に送信する(B7)。音声処理装置11は、携帯端末12から音声データを受信すると、その音声データに基づき音声をスピーカから出力する(A9)。これにより、通話相手の携帯端末からの受話音声が音声処理装置11から出力されるようになる。このように、携帯端末12を中継して音声処理装置11と通話相手の携帯端末との間で発話音声の音声データ及び受話音声の音声データが適宜送受信されることで、いわゆるハンズフリー通話が実現される。そして、この場合、音声処理装置11において通話アプリケーションAの自発的な操作または他発的な操作が検知された場合には、音声処理装置11から携帯端末12に送信される音声データに、通話用の音声処理が施される。なお、このハンズフリー通話は、音声処理装置11または通話相手の携帯端末にて通話が終了されるまで継続される。
次に、上記構成の音声処理システム10において、音声認識検索アプリケーションB(以下、検索アプリケーションBとも称する)を実行する場合における制御内容の一例について説明する。即ち、例えば図5に示すように、音声処理装置11に携帯端末12が通信可能に接続されて、これら音声処理装置11及び携帯端末12にてそれぞれ連携アプリケーションが起動されると、携帯端末12が有する音声認識検索アプリケーションBの実行処理は当該携帯端末12にて実行され、この音声認識検索アプリケーションBの入力インターフェース及び出力インターフェースは音声処理装置11にて提供される状態となる。なお、このような音声認識検索アプリケーションBは、例えば車両が走行していない状態など走行に影響を及ぼさない状態で実行することが好ましい。
そして、例えば図6に示すように、音声処理装置11及び携帯端末12の双方にて連携アプリケーションが起動されると(C1,D1)、音声処理装置11には、携帯端末12が有するアプリケーションの起動ボタンが表示される(C2)。なお、この起動ボタンは、入力インターフェースの一例である。そして、音声処理装置11は、音声認識検索アプリケーションBの起動ボタンが操作されると(C3:YES)、音声認識検索アプリケーションBの起動指令信号を携帯端末12に送信する(C4)。このとき、音声処理装置11は、位置特定部によって得られる当該音声処理装置11の現在位置を示す現在位置情報も携帯端末12に送信する。
携帯端末12は、音声認識検索アプリケーションBの起動指令信号を受信すると、音声認識検索アプリケーションBを起動する(D2)。そして、携帯端末12は、音声認識検索アプリケーションBを起動したことを示す起動完了信号を音声認識検索サーバ15に送信する(D3)。このとき、携帯端末12は、音声処理装置11から受信した現在位置情報も音声認識検索サーバ15に送信する。
音声認識検索サーバ15は、音声認識検索アプリケーションBの起動完了信号を受信すると、検索条件収集用の音声データを携帯端末12に送信する(E1)。この場合、検索条件収集用の音声データとして、例えば「ご用件を言ってください。」といったメッセージデータが設定される。携帯端末12は、音声認識検索サーバ15から受信した検索条件収集用の音声データを音声処理装置11に送信する(D4)。
音声処理装置11は、検索条件収集用の音声データを受信すると、その音声データに基づき検索条件収集用の音声をスピーカから出力する(C5)。この場合、例えば「ご用件を言ってください。」といった案内音声が出力される。この案内音声に応じて、使用者が例えば「イタリアン」などといった検索条件を発声すると、音声処理装置11は、その音声データを音声データ取得処理部31によって取得し(C6)、その取得した音声データに、音声処理部33によって音声認識検索用の音声処理を施す(C7)。この場合、音声処理装置11は、通話アプリケーションAの自発的な操作または他発的な操作を検知しておらず、これにより、実行中のアプリケーションが通話アプリケーションA以外のアプリケーションであることを確認している。よって、音声処理装置11は、音声データに施す音声処理を、通話以外用の音声処理の一例である音声認識検索用の音声処理に切り替えている。そして、音声処理装置11は、音声認識検索用の音声処理を施した音声データを携帯端末12に送信する(C8)。なお、ステップC6の処理は、音声データ取得ステップの一例であり、ステップC7の処理は、音声処理ステップの一例であり、ステップC8の処理は、音声データ送信ステップの一例である。
また、本実施形態では、実行中のアプリケーションが通話アプリケーションA以外のアプリケーションである場合には、一律、音声認識検索用のノイズキャンセル処理を施す例を述べた。しかし、例えば、実行中のアプリケーションを特定するためのアプリ特定データを携帯端末12から音声処理装置11に送信し、音声処理装置11は、そのアプリ特定データによって特定されるアプリケーションに適した音声処理を切り替えて実行するように構成してもよい。
携帯端末12は、音声処理装置11から受信した音声データを音声認識検索サーバ15に送信する(D5)。一方、音声認識検索サーバ15は、携帯端末12から音声データを受信すると、その音声データに基づき周知の音声認識処理を実施する(E2)。そして、音声認識検索サーバ15は、認識した音声および音声処理装置11の位置情報に基づき周知の検索処理を実行し(E3)、その検索結果を示す検索結果データを携帯端末12に送信する(E4)。このとき、音声認識検索サーバ15は、検索結果出力用の音声データも携帯端末12に送信する。この場合、検索結果出力用の音声データとして、例えば「近くのイタリアンの店を表示します。」といったメッセージデータが設定される。即ち、音声認識検索サーバ15は、検索結果出力用の音声データに、例えば「イタリアン」といった検索条件も反映させる。
携帯端末12は、音声認識検索サーバ15から受信した検索結果データを音声処理装置11に送信する(D6)。このとき、携帯端末12は、音声認識検索サーバ15から受信した検索結果出力用の音声データも音声処理装置11に送信する。一方、音声処理装置11は、検索結果出力用の音声データを受信すると、その音声データに基づき音声をスピーカから出力する(C9)。この場合、例えば「近くのイタリアンの店を表示します。」といった案内音声が出力される。また、音声処理装置11は、検索結果データを受信すると、その検索結果データに基づき検索結果を表示する(C10)。なお、これら検索結果の出力音声及び検索結果の表示画面は、出力インターフェースの一例である。このように、携帯端末12を中継して音声処理装置11と音声認識検索サーバ15との間で音声データ及び検索結果データが適宜送受信されることで、音声認識を利用した検索サービスが実現される。そして、この場合、音声処理装置11において通話アプリケーションAの自発的な操作または他発的な操作が検知されず、従って、音声処理装置11から携帯端末12に送信される音声データに、音声認識用の音声処理が施される。
本実施形態によれば、音声処理装置11は、取得した音声データを外部の携帯端末12に送信する場合に、その送信する音声データに所定の音声処理を施す。そして、その音声処理として、通話用の音声処理の一例である通話用の音声処理と通話以外用の音声処理の一例である音声認識検索用の音声処理とを切り替えて実行することが可能である。よって、起動中のアプリケーションに応じて通話用の音声処理及び通話以外用の音声処理を適宜切り替えて実行することができ、通話用の音声処理及び通話以外用の音声処理を何れも最適に実施することができる。なお、音声データに施す音声処理としては、ノイズキャンセル処理、エコーキャンセル処理、ノイズキャンセル処理の絞りを徐々に大きくしていくオートゲインコントロール処理などといった処理を単発で実施するように構成してもよいし、あるいは各処理を適宜組み合わせて実施するように構成してもよい。
また、本実施形態によれば、音声処理装置11は、通話アプリケーションAにおける自発的な操作または他発的な操作を検知した場合に、通話用の音声処理を実行する。即ち、通話アプリケーションAに特有の操作、換言すれば、通話アプリケーションA以外のアプリケーションでは発生し得ない操作を検知したか否かに基づき、音声データに施す音声処理を通話用の音声処理に切り替える。従って、通話アプリケーションAの実行時に、確実に通話用の音声処理を実行することができる。また、通話アプリケーションA以外のアプリケーションの実行時には、確実に通話以外用の音声処理を実行することができる。
また、本実施形態によれば、通話用の音声データ及び通話以外用の音声データである音声認識用の音声データを何れも同一の通信プロトコルによって送受信するように構成した。これにより、例えば通話以外用のアプリケーションを新たに追加する場合であっても、そのアプリケーションに係る音声データを同一のプロトコルで送受信することができる。また、アプリケーションを追加するたびに専用の通信プロトコルを開発する必要がなく、開発コストの低減を図ることができる。
なお、本開示は、上述した一実施形態のみに限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。
例えば、通話アプリケーションは携帯端末で実行するように構成してもよい。また、音声認識検索アプリケーションは音声処理装置で実行するように構成してもよい。
また、音声処理装置11、より具体的には音声処理部33は、通話アプリケーション以外のアプリケーションが起動された場合に音声処理を実行しないように構成し、代わりに、携帯端末12または音声認識検索サーバ15が音声処理を実行するように構成してもよい。この構成によれば、音声処理装置11の処理負荷を抑えることができる。また、携帯端末12あるいは音声認識検索サーバ15にて、特化した音声認識を実施することができる。
即ち、例えば図7に示すように、音声処理システム10は、音声処理装置11では音声認識用の音声処理、換言すれば音声データの信号処理を実行せず、携帯端末12にて音声認識用の信号処理を実行するように構成してもよい。また、例えば図8に示すように、音声処理システム10は、音声処理装置11及び携帯端案12では音声認識用の信号処理を実行せず、音声認識検索サーバ15にて音声認識用の信号処理を実行するように構成してもよい。
また、例えば図9に示すように、音声処理システム10は、音声処理装置11及び携帯端末12の双方に通話アプリを備え、音声処理装置11にて通話用の音声データに対し通話用の音声処理を施す構成とし、携帯端末12では通話用の音声データに対して通話用の音声処理を施さない、または、付加的な音声処理を施す構成としてもよい。なお、図示はしないが、音声処理システム10は、音声処理装置11では通話用の音声データに対して通話用の音声処理を施さない、または、付加的な音声処理を施す構成とし、携帯端末12にて通話用の音声データに対し通話用の音声処理を施す構成としてもよい。
また、例えば図10に示すように、音声処理システム10は、音声認識検索サーバαに対応する音声認識検索アプリα及び音声認識検索サーバβに対応する音声認識検索アプリβを携帯端末12に備える構成としてもよい。そして、音声認識検索アプリαにより音声認識検索サーバαの検索サービスを利用する場合には、携帯端末12では音声認識用の音声データに対して音声認識用の音声処理を施さず、音声認識検索サーバαにて音声認識用の音声データに対し音声認識用の音声処理を施す構成としてもよい。また、音声認識検索アプリβにより音声認識検索サーバβの検索サービスを利用する場合には、携帯端末12にて音声認識用の音声データに対し音声認識用の音声処理を施し、音声認識検索サーバβでは音声認識用の音声データに対し音声認識用の音声処理を施さない構成としてもよい。つまり、音声処理システム10は、利用する音声認識検索アプリの種類に応じて、音声データに対し音声認識用の音声処理を施す実行主体を適宜変更する構成としてもよい。
通話アプリケーション以外のアプリケーションは、音声認識処理を要するサービスを実現するアプリケーションであればよく、音声認識検索アプリケーションに限られるものではない。
音声処理装置11は、例えばナビゲーション機能を有するアプリケーションプログラムがインストールされた機器で構成してもよい。また、音声処理装置11は、車両に組み込まれる車載装置で構成してもよいし、車両に着脱可能な携帯型の無線装置などで構成してもよい。
本開示は、実施例に準拠して記述されたが、本開示は当該実施例や構造に限定されるものではないと理解される。本開示は、様々な変形例や均等範囲内の変形をも包含する。加えて、様々な組み合わせや形態、さらには、それらに一要素のみ、それ以上、あるいはそれ以下、を含む他の組み合わせや形態をも、本開示の範疇や思想範囲に入るものである。
Claims (11)
- 音声データを取得する音声データ取得部(31)と、
前記音声データ取得部が取得した音声データを外部の携帯端末(12)に送信する音声データ送信部(32)と、
前記音声データ送信部が送信する音声データに所定の音声処理を施す音声処理部(33)と、を備え、
前記音声処理部は、前記所定の音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理を切り替えて、実行可能に構成されている
音声処理装置。 - 前記音声処理部は、通話アプリケーションにおける自発的な操作または他発的な操作を検知した場合に、前記通話用の第一の音声処理を実行する請求項1に記載の音声処理装置。
- 前記音声処理部は、通話アプリケーション以外のアプリケーションが起動された場合に、前記通話以外用の第二の音声処理を実行する請求項1または2に記載の音声処理装置。
- 前記音声処理部は、通話アプリケーション以外のアプリケーションである音声認識アプリケーションが起動された場合に、前記通話以外用の第二の音声処理である音声認識用の音声処理を実行する請求項1から3の何れか1項に記載の音声処理装置。
- 前記音声処理部は、通話以外用の、通話用の音声処理よりも音声波形が残る第二の音声処理を実行可能に構成され、通話アプリケーション以外のアプリケーションが起動された場合に、その通話以外用の第二の音声処理を実行する請求項1から4の何れか1項に記載の音声処理装置。
- 前記音声処理部は、通話アプリケーション以外のアプリケーションが起動された場合に、音声処理を実行しないように構成されている請求項1に記載の音声処理装置。
- 前記音声データ送信部は、通話用の第一の音声データ及び通話以外用の第二の音声データを同一の通信プロトコルによって送信する請求項1から6の何れか1項に記載の音声処理装置。
- 前記音声データ送信部は、前記通信プロトコルとして、Bluetooth通信規格(Bluetooth:登録商標)のハンズフリー通話用のプロファイルを用いる請求項7に記載の音声処理装置。
- 請求項1から8の何れかの1項に記載の音声処理装置(11)と、
前記音声処理装置と通信可能に接続される携帯端末(12)と、
で構築される
音声処理システム。 - コンピュータによって、実行される音声処理方法であって、
音声データを取得することと、
前記取得された音声データを外部の携帯端末に送信することと、
前記送信される音声データに所定の音声処理を施す音声処理を実行することと、を含み、
前記音声処理を実行することでは、前記所定の音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理を切り替えて、実行する
音声処理方法。 - 非遷移の記憶媒体に保管されるプログラム製品であり、コンピュータにより読み出されて実行されるインストラクションを含み、
前記インストラクションは請求項10に記載の前記音声処理方法を含む、
音声処理用のプログラム製品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/108,739 US20160329060A1 (en) | 2014-01-06 | 2014-12-11 | Speech processing apparatus, speech processing system, speech processing method, and program product for speech processing |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-000285 | 2014-01-06 | ||
JP2014000285A JP6318621B2 (ja) | 2014-01-06 | 2014-01-06 | 音声処理装置、音声処理システム、音声処理方法、音声処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015102040A1 true WO2015102040A1 (ja) | 2015-07-09 |
Family
ID=53493389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/006172 WO2015102040A1 (ja) | 2014-01-06 | 2014-12-11 | 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160329060A1 (ja) |
JP (1) | JP6318621B2 (ja) |
WO (1) | WO2015102040A1 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004153380A (ja) * | 2002-10-29 | 2004-05-27 | Nissan Motor Co Ltd | 情報提供装置、情報取得装置および情報提供システム |
JP2004343335A (ja) * | 2003-05-14 | 2004-12-02 | Denso Corp | 音声入出力装置及び通話システム |
JP2006222969A (ja) * | 2005-02-09 | 2006-08-24 | Bose Corp | 車両通信 |
US20130332886A1 (en) * | 2012-06-08 | 2013-12-12 | Apple Inc. | Identification of recently downloaded content |
WO2014141574A1 (ja) * | 2013-03-14 | 2014-09-18 | 日本電気株式会社 | 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005024781A1 (en) * | 2003-08-29 | 2005-03-17 | Johnson Controls Technology Company | System and method of operating a speech recognition system in a vehicle |
US8254837B2 (en) * | 2009-04-23 | 2012-08-28 | Motorola Mobility Llc | Establishing full-duplex audio over an asynchronous bluetooth link |
EP2842123B1 (en) * | 2012-05-16 | 2019-10-16 | Nuance Communications, Inc. | Speech communication system for combined voice recognition, hands-free telephony and in-car-communication |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US10593326B2 (en) * | 2013-04-25 | 2020-03-17 | Sensory, Incorporated | System, method, and apparatus for location-based context driven speech recognition |
-
2014
- 2014-01-06 JP JP2014000285A patent/JP6318621B2/ja active Active
- 2014-12-11 WO PCT/JP2014/006172 patent/WO2015102040A1/ja active Application Filing
- 2014-12-11 US US15/108,739 patent/US20160329060A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004153380A (ja) * | 2002-10-29 | 2004-05-27 | Nissan Motor Co Ltd | 情報提供装置、情報取得装置および情報提供システム |
JP2004343335A (ja) * | 2003-05-14 | 2004-12-02 | Denso Corp | 音声入出力装置及び通話システム |
JP2006222969A (ja) * | 2005-02-09 | 2006-08-24 | Bose Corp | 車両通信 |
US20130332886A1 (en) * | 2012-06-08 | 2013-12-12 | Apple Inc. | Identification of recently downloaded content |
WO2014141574A1 (ja) * | 2013-03-14 | 2014-09-18 | 日本電気株式会社 | 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160329060A1 (en) | 2016-11-10 |
JP2015130554A (ja) | 2015-07-16 |
JP6318621B2 (ja) | 2018-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015102040A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品 | |
US11676601B2 (en) | Voice assistant tracking and activation | |
CN108924706B (zh) | 蓝牙耳机切换控制方法、蓝牙耳机及计算机可读存储介质 | |
CN108684029B (zh) | 一种蓝牙配对连接方法及系统、蓝牙设备和终端 | |
US20150281853A1 (en) | Systems and methods for enhancing targeted audibility | |
JP5570641B2 (ja) | 携帯端末装置、車載器、情報提示方法及び情報提示プログラム | |
CN107993672B (zh) | 频带扩展方法及装置 | |
JP2009253602A (ja) | 車載ハンズフリー装置 | |
JP2010130223A (ja) | 音声操作システムおよび音声操作方法 | |
JP2017138536A (ja) | 音声処理装置 | |
CN107633849B (zh) | 蓝牙设备音量调整方法、设备及计算机可读存储介质 | |
US12022019B2 (en) | Method and electronic device for adjusting output level of speaker on basis of distance from external electronic device | |
WO2017166751A1 (zh) | 移动终端音频调节方法、装置和电子设备 | |
US8934886B2 (en) | Mobile apparatus and method of voice communication | |
CN107645721B (zh) | 蓝牙设备音量调整方法、设备及计算机可读存储介质 | |
CN106888147B (zh) | 一种车载即时通讯免提系统 | |
US11546693B2 (en) | Method for generating audio signal using plurality of speakers and microphones and electronic device thereof | |
JP5350567B1 (ja) | 携帯端末装置、車載器、情報提示方法及び情報提示プログラム | |
KR100724888B1 (ko) | 무선통신 모듈을 구비한 이동통신 단말기 및 이동통신단말기의 사운드 출력 제어방법 | |
WO2014141574A1 (ja) | 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム | |
JP6319722B2 (ja) | ハンズフリー機器 | |
JP2002335342A (ja) | 車両用通信装置 | |
CN115331672B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
WO2019084752A1 (zh) | 一种语音调节耳机音量的方法及相关产品 | |
JP2015004703A (ja) | 電子装置、音声信号の転送方法、音声信号の転送プログラム及び音声処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14877432 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15108739 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14877432 Country of ref document: EP Kind code of ref document: A1 |