CN107437420A - 语音信息的接收方法、系统及装置 - Google Patents
语音信息的接收方法、系统及装置 Download PDFInfo
- Publication number
- CN107437420A CN107437420A CN201610368408.3A CN201610368408A CN107437420A CN 107437420 A CN107437420 A CN 107437420A CN 201610368408 A CN201610368408 A CN 201610368408A CN 107437420 A CN107437420 A CN 107437420A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice signal
- voice messaging
- messaging
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000011946 reduction process Methods 0.000 claims abstract description 16
- 230000000052 comparative effect Effects 0.000 claims abstract description 13
- 230000007613 environmental effect Effects 0.000 claims abstract description 8
- 238000000926 separation method Methods 0.000 claims description 22
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/19—Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/22—Source localisation; Inverse modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及语音信息的接收方法、系统及装置。该语音信息的接收方法包括步骤:利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;将所述第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号;获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;根据所获取的延迟时间,计算所述目标语音信号的声源的位置;利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号;及根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
Description
技术领域
本发明涉及语音信号的降噪处理技术领域,具体涉及一种语音信息的接收方法、系统及装置。
背景技术
随着技术的发展,手机等电子产品已成为人们日常生活中不可或缺的工具。为了保证在嘈杂的环境下,通话时对方能不被噪音影响,通常会对手机所接收到的语音信息进行降噪处理。
现有技术中,降噪方法为双mic(麦克)降噪方法。这种方法会用到两个麦克风,其中一麦克风被设定为接收主要语音,另一麦克风被设定为接收非主要语音,其中,该接收主要语音的麦克风设置在更靠近用户的位置,而接收非主要语音设置在距离用户更远的位置。将这两个麦克风分别连接至噪音消除器。该噪音消除器根据接收非主要语音的麦克风所接收到的语音信号来消除接收主要语音的麦克风所接收到的语音信号中的噪音部分,以获得较清楚的语音信号。
然而,在实际应用中,不见得用户就距离一麦克风近而距离另一麦克风远。因此,现有技术中的上述方法并不能确保通话的对方一定能接收到清楚的语音信号。
发明内容
有鉴于此,有必要提供一种语音信息的接收方法、系统及装置,以解决上述问题。
为达到上述目的,本发明所提供的语音信息的接收方法,适用于一语音采集装置,所述语音采集装置配置有麦克阵列。所述语音信息的接收方法包括以下步骤:
利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括目标语音及环境背景语音;
将所述第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号;
获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
根据所获取的延迟时间,计算所述目标语音信号的声源的位置;
利用所述麦克阵列采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号;及
根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
进一步地,所述麦克阵列中至少包括2个分布在所述语音采集装置的不同位置的麦克。
进一步地,所述声源的位置为声源距离所述麦克的距离及方位。进一步地,步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为:
将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道;及
根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。
进一步地,步骤“根据所计算出的目标语音信号的声源的位置对采集到的第二语音信号进行降噪处理”具体为:
根据声源距离所述麦克的距离确定所述目标语音信息的振幅区间;及
从所述第二语音信号中虑除掉振幅区间不在所述目标语音信息的振幅区间内的语音信息。
进一步地,所述预设的语音信号为预先存储的一用户的语音信号。进一步地,步骤“将所采集到的语音信息与一预设的语音信息进行比较,并根据比较结果确定一目标语音”具体为:
将采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较;
当采集到的语音信息的频率区间落在所述预设的用户的语音信号的频率区间内时,判断所述采集到的语音信息中包含了一目标语音信息,该目标语音信息由所述用户发出。
进一步地,步骤“将所采集到的语音信息与一预设的语音信息进行比较,并根据比较结果确定一目标语音”具体为:
将采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较;
当采集到的语音信息的振幅区间落在所述用户的语音信息的振幅区间内时,判断该采集到的语音信息中包含了一目标语音信息,该目标语音信息由所述用户发出。
本发明所提供的语音信息的接收系统,运行于一语音采集装置。所述语音采集装置配置有麦克阵列。所述语音信息的接收系统包括:
一采集模块,用于利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;一确定模块,用于将所述第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号;
一计时模块,用于获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
一计算模块,用于根据所获取的延迟时间计算所述目标语音信号的声源的位置;
所述采集模块,还用于利用所述麦克阵列采集一第二语音信号并将所接收到第一语音信息转化为一第二语音信号;及
一降噪模块,用于根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
此外,本发明所提供的语音信息的采集装置,配置有麦克阵列及一语音信息的接收系统。所述语音信息的接收系统包括:
一采集模块,用于利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;
一确定模块,用于将所述第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号;
一计时模块,用于获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
一计算模块,用于根据所获取的延迟时间计算所述目标语音信号的声源的位置;
所述采集模块,还用于利用所述麦克阵列采集一第二语音信号并将所接收到第一语音信息转化为一第二语音信号;及
一降噪模块,用于根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
相对于现有技术,本发明所提供的语音信号的接收方法与系统通过对所述目标声源进行定位,以提高接收到的语音信号的质量,以便接收到清楚的语音信息。
附图说明
图1为本发明一实施方式中的语音信息的接收系统所运行的硬件环境的示意图。
图2为图1中语音信息的接收系统的功能模块示意图。
图3为本发明一实施方式中语音信息的接收方法的步骤流程图。主要元件符号说明
以下具体实施方式将结合上述附图进一步说明本发明。应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
具体实施方式
如图1所示,其示出了本发明一实施方式中的语音信息的接收系统10所运行的硬件环境的示意图。在本实施方式中,该语音信息的接收系统10安装并运行于一语音采集装置20中。在本实施方式中,该语音采集装置20为手机。在另一实施方式中,该语音采集装置20为平板电脑、录音笔、电话等。在其他实施方式中,语音信息的接收系统10安装并运行于一由多个语音采集装置20所构成的通话或电话会议系统中。
所述语音采集装置20还包括,但不限于,一麦克阵列21、一存储器22、一控制器23及一摄像单元24。所述麦克阵列21用于接收语音信息。在本实施方式中,麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。所述存储器22可以是语音采集装置20本身的内存,也可以是安全数字卡、智能媒体卡、快闪存储器卡等外部存储设备,用于存储所述语音信息的接收系统10的程序代码及其他数据。在本实施方式中,存储器22中预先存储有目标用户的语音信息。该预先存储的语音信息用于确定麦克阵列21所接收的语音信息中是否包含有该目标用户的语音信息(以下简称目标语音信息)。在另一实施方式中,存储器22还预先存储有用户说话时的不同嘴型的图像。如,用户说话时嘴型呈张开状的图像。所述控制器23用于控制所述语音采集装置20工作。所述控制器23可为中央处理器(Central ProcessingUnit,CPU)、微处理器(Micro Processing Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或可编程逻辑阵列(Field-Programmable Gate Array,FPGA)等。摄像单元24用于拍摄用户嘴部的图像。在本实施方式中,该摄像单元24设置在距离所述麦克阵列21一预设距离范围内如2cm。在其他实施方式中,摄像单元24还可拍摄用户嘴部的视频。
所述语音信息的接收系统10通过利用麦克阵列21采集一第一语音信息并将所接收到第一语音信息转化为一第一语音信号。其中,所述第一语音信息包括目标语音及环境背景语音。所述语音信息的接收系统10在接收到第一语音信号时,还判断摄像单元24所拍摄到的用户嘴部的形状是否有变化。当有变化时,语音信息的接收系统10将该第一语音信号与存储在存储器22中的预设的语音信号进行比较并根据比较结果确定一目标语音信号。所述语音信息的接收系统10还获取麦克阵列21中的不同麦克采集所述目标语音信号的延迟时间,并根据所获取的延迟时间计算目标语音信息的声源的位置。在目标语音信息的声源位置确定之后,语音信息的接收系统10利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号,及根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
请参见图2,其示出了本发明一实施方式中的语音信息的接收系统10的功能模块示意图。该语音信息的接收系统10包括一采集模块11、一确定模块12、一计时模块13、一计算模块14及一降噪模块15。本发明所称的模块是指一种能够被语音采集装置20的控制器23所执行并且能够完成特定功能的一系列程序命令段或固化于控制器23中的固件。
采集模块11响应用户的操作利用所述麦克阵列21采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用摄像单元24采集一用户的多个嘴部图像。所述第一语音信息包括一目标语音及环境背景语音。
在本实施方式中,采集模块11响应用户的操作控制麦克阵列21采集语音信息及控制摄像单元24采集用户的嘴部图像。具体的,用户的操作为拨打电话或开启录音功能的操作。在本实施方式中,摄像单元24安装在语音采集装置20上能摄取到该语音采集装置20前一预设区域内的图像。当用户在该预设区域内说话,即说话时用户的嘴部恰好位于该预设的区域内时,摄像单元24便可拍摄到该用户说话时的多个嘴部图像。
确定模块12判断采集模块11采集到的第一语音信号与摄像单元24所采集到的嘴部图像是否同步。在本实施方式中,当在摄像单元24所采集到的该多个嘴部图像中,用户的嘴型有改变时,则表明用户正在说话,采集模块11所采集到的语音信息来源于该用户的可能性比较大。因此,当所述采集模块11采集到第一语音信息,且在所述摄像单元24所采集到的嘴部图像中的嘴型有变化时,确定模块12确定采集模块11采集到的第一语音信息与所述摄像单元24所采集到的嘴部图像是同步的。
具体的,在摄像单元24所采集到的该多个嘴部图像中,当至少一图像中的嘴型是闭合的且至少一图像中的嘴型是张开时,确定模块12判定用户的嘴型有变化。
确定模块12还将采集模块11所采集到的第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号。
该预设的语音信号为预先存储在存储器22中的一用户的语音信号。该语音信号包括该用户的语音频率及/或语音振幅。在一实施方式中,确定模块12将采集模块11所采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较。当采集模块11所采集到的语音信息的频率区间落在预设的用户的语音信号的频率区间内时,确定模块12判断采集模块11所采集到的语音信号中包含了一目标语音信号。其中,该目标语音信息由所述用户发出的。
在其他实施方式中,确定模块12将采集模块11所采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较。当采集到的语音信息的幅度区间与预设的语音信息的幅度区间相匹配时,判断模块12判断采集模块11所获取的语音信息中包含有一目标语音信息。
计时模块13获取麦克阵列21中的不同麦克采集所述目标语音信息的延迟时间。在本实施方式中,麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。鉴于,麦克阵列21的每一麦克分布在不同的位置,故此,同一目标声源发出的声音传递到每一麦克的时间是不同的,即,每一麦克接收到目标声源发出的声音的时间是不同的。故此,计时模块13能根据麦克阵列21中的不同麦克接收到的目标语音信息的时间来获取该延迟时间。
计算模块14根据计时模块13所获取到的延迟时间计算目标语音信号的声源的位置。在本实施方式中,该目标语音信号的声源的位置包括声源距离所述麦克阵列21的每一麦克的距离及方位。此外,根据延迟时间计算出目标语音信号的声源的位置为现有技术,在此不作赘述。
采集模块11利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号。
降噪模块15根据计算模块14所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
在一实施方式中,降噪模块15将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道;及根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。在本实施方式中,降噪模块15将所接收到的第二语音信号中的频率区间范围落入所预设的频率区间范围内的语音信号认定该语音信号是来自所述声源的语音信号;及将所接收到的第二语音信号中的频率区间范围未落入所预设的频率区间范围内的语音信号认定该语音信号是非来自所述声源的语音信号。
在另一实施方式中,降噪模块15将根据所述声源距离所述麦克的距离确定所述目标语音信号的振幅区间,及从所述第二语音信号中滤除掉振幅区间不在所述目标语音信号的振幅区间内的语音信号。
如图3所示,是本发明一实施方式中的语音信息的接收方法的步骤流程图。根据具体的情况,该流程图步骤的顺序可以改变,某些步骤可以省略。
步骤301:采集模块11响应用户的操作利用所述麦克阵列21采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用摄像单元24采集一用户的多个嘴部图像。所述第一语音信息包括一目标语音及环境背景语音。
在本实施方式中,采集模块11响应用户的操作控制麦克阵列21采集语音信息及控制摄像单元24采集用户的嘴部图像。具体的,用户的操作为拨打电话或开启录音功能的操作。在本实施方式中,摄像单元24安装在语音采集装置20上能摄取到该语音采集装置20前一预设区域内的图像。当用户在该预设区域内说话,即说话时用户的嘴部恰好位于该预设的区域内时,摄像单元24便可拍摄到该用户说话时的多个嘴部图像。
步骤302:确定模块12判断采集模块11采集到的第一语音信号与摄像单元24所采集到的嘴部图像是否同步。若是,则进入步骤303;若否,则流程结束。
具体的,若在摄像单元24所采集到的该多个嘴部图像中,用户的嘴型有改变时,则表明用户正在说话,采集模块11所采集到的语音信息来源于该用户的可能性比较大。因此,当所述采集模块11采集到第一语音信息,且在所述摄像单元24所采集到的嘴部图像中的嘴型有变化时,确定模块12确定采集模块11采集到的第一语音信息与所述摄像单元24所采集到的嘴部图像是同步的。
在本实施方式中,在摄像单元24所采集到的该多个嘴部图像中,当至少一图像中的嘴型是闭合的且至少一图像中的嘴型是张开时,确定模块12判定用户的嘴型有变化。步骤303:确定模块12将采集模块11所采集到的第一语音信号与一预设的语音信号进行比较,并根据比较结果确定一目标语音信号。
该预设的语音信号为预先存储在存储器22中的一用户的语音信号。该语音信号包括该用户的语音频率及/或语音振幅。在一实施方式中,确定模块12将采集模块11所采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较。当采集模块11所采集到的语音信息的频率区间落在预设的用户的语音信号的频率区间内时,确定模块12判断采集模块11所采集到的语音信号中包含了一目标语音信号。其中,该目标语音信息由所述用户发出的。
在其他实施方式中,确定模块12将采集模块11所采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较。当采集到的语音信息的幅度区间与预设的语音信息的幅度区间相匹配时,判断模块12判断采集模块11所获取的语音信息中包含有一目标语音信息。
步骤304:计时模块13获取麦克阵列21中的不同麦克采集所述目标语音信息的延迟时间。
在本实施方式中,麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。鉴于,麦克阵列21的每一麦克分布在不同的位置,故此,同一目标声源发出的声音传递到每一麦克的时间是不同的,即,每一麦克接收到目标声源发出的声音的时间是不同的。故此,计时模块13能根据麦克阵列21中的不同麦克接收到的目标语音信息的时间来获取该延迟时间。
步骤305:计算模块14根据计时模块13所获取到的延迟时间计算目标语音信号的声源的位置。
在本实施方式中,该目标语音信号的声源的位置包括声源距离所述麦克阵列21的每一麦克的距离及方位。此外,根据延迟时间计算出目标语音信号的声源的位置为现有技术,在此不作赘述。
步骤306:采集模块11利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号。
步骤307:降噪模块15根据计算模块14所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
在一实施方式中,降噪模块15将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道;及根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。在本实施方式中,降噪模块15将所接收到的第二语音信号中的频率区间范围落入所预设的频率区间范围内的语音信号认定该语音信号是来自所述声源的语音信号;及将所接收到的第二语音信号中的频率区间范围未落入所预设的频率区间范围内的语音信号认定该语音信号是非来自所述声源的语音信号。
在另一实施方式中,降噪模块15将根据所述声源距离所述麦克的距离确定所述目标语音信号的振幅区间,及从所述第二语音信号中滤除掉振幅区间不在所述目标语音信号的振幅区间内的语音信号。
本发明所提供的语音信息的接收方法、系统与装置,利用麦克阵列对目标声源进行定位,以提高接收到的语音信号的质量,以便接收者能接收到清楚的语音信息。
本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围之内,对以上实施例所作的适当改变和变化都落在本发明要求保护的范围之内。
Claims (10)
1.一种语音信息的接收方法,适用于一语音采集装置,所述语音采集装置配置有麦克阵列;其特征在于,所述语音信息的接收方法包括步骤:
利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及摄取一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;
判断所采集到的第一语音信号与所采集到的嘴部图像是否同步;
当第一语音信号与所述嘴部图像同步时,将所述第一语音信号与一预设的语音信号进行比较并根据比较结果确定一目标语音信号;
获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
根据所获取的延迟时间计算所述目标语音信号的声源的位置;
利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号;及
根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
2.如权利要求1所述的方法,其特征在于,所述麦克阵列中至少包括2个分布在所述语音采集装置的不同位置的麦克。
3.如权利要求2所述的方法,其特征在于,所述声源的位置为声源距离所述麦克的距离及方位。
4.如权利要求1所述的方法,其特征在于,步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为:
将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道;及
根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。
5.如权利要求1所述的方法,其特征在于,步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为:
根据声源距离所述麦克的距离确定所述目标语音信息的振幅区间;及
从所述第二语音信号中滤除掉振幅区间不在所述目标语音信息的振幅区间内的语音信息。
6.如权利要求1所述的方法,其特征在于,所述预设的语音信号为预先存储的一用户的语音信号。
7.如权利要求4所述的方法,其特征在于,步骤“将所采集到的语音信息与一预设的语音信息进行比较,并根据比较结果确定一目标语音信号”具体为:
将采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较;
当采集到的语音信息的频率区间落在所述预设的用户的语音信号的频率区间内时,判断所述采集到的语音信息中包含了一目标语音信息,该目标语音信息由所述用户发出。
8.如权利要求4所述的方法,其特征在于,步骤“将所采集到的语音信息与一预设的语音信息进行比较,并根据比较结果确定一目标语音信号”具体为:
将采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较;
当采集到的语音信息的振幅区间落在所述用户的语音信息的振幅区间内时,判断该采集到的语音信息中包含了一目标语音信息,该目标语音信息由所述用户发出。
9.一种语音信息的接收系统,运行于一语音采集装置,所述语音采集装置配置有麦克阵列,其特征在于,所述语音信息的接收系统包括:
一采集模块,用于利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;
一确定模块,用于判断所述采集模块所采集到的第一语音信号与所采集到的嘴部图像是否同步;当第一语音信号与嘴部图像同步时,所述确定模块还用于将所述第一语音信号与一预设的语音信号进行比较并根据比较结果确定一目标语音信号;
一计时模块,用于获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
一计算模块,用于根据所获取的延迟时间计算所述目标语音信号的声源的位置;
所述采集模块,还用于利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号;及
一降噪模块,用于根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
10.一种语音信息的采集装置,配置有麦克阵列及一语音信息的接收系统,其特征在于,所述语音信息的接收系统包括:
一采集模块,用于利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像,其中,所述第一语音信息包括一目标语音及环境背景语音;
一确定模块,用于判断所述采集模块所采集到的第一语音信号与所采集到的嘴部图像是否同步;当第一语音信号与嘴部图像同步时,所述确定模块还用于将所述第一语音信号与一预设的语音信号进行比较并根据比较结果确定一目标语音信号;
一计时模块,用于获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间;
一计算模块,用于根据所获取的延迟时间计算所述目标语音信号的声源的位置;
所述采集模块,还用于利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号;及
一降噪模块,用于根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610368408.3A CN107437420A (zh) | 2016-05-27 | 2016-05-27 | 语音信息的接收方法、系统及装置 |
TW105119634A TWI678696B (zh) | 2016-05-27 | 2016-06-22 | 語音資訊的接收方法、系統及裝置 |
US15/607,419 US20170345437A1 (en) | 2016-05-27 | 2017-05-26 | Voice receiving method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610368408.3A CN107437420A (zh) | 2016-05-27 | 2016-05-27 | 语音信息的接收方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107437420A true CN107437420A (zh) | 2017-12-05 |
Family
ID=60418114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610368408.3A Pending CN107437420A (zh) | 2016-05-27 | 2016-05-27 | 语音信息的接收方法、系统及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170345437A1 (zh) |
CN (1) | CN107437420A (zh) |
TW (1) | TWI678696B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360579A (zh) * | 2018-12-05 | 2019-02-19 | 途客电力科技(天津)有限公司 | 充电桩语音控制装置以及系统 |
CN110730398A (zh) * | 2019-10-16 | 2020-01-24 | 同响科技股份有限公司 | 分布式无线麦克风数组音频收音同步方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108089152B (zh) * | 2016-11-23 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 一种设备控制方法、装置及系统 |
US10334360B2 (en) * | 2017-06-12 | 2019-06-25 | Revolabs, Inc | Method for accurately calculating the direction of arrival of sound at a microphone array |
CN108600566B (zh) * | 2018-04-28 | 2021-01-08 | 维沃移动通信有限公司 | 一种干扰处理方法及移动终端 |
CN113450769B (zh) * | 2020-03-09 | 2024-06-25 | 杭州海康威视数字技术股份有限公司 | 语音提取方法、装置、设备和存储介质 |
US11783826B2 (en) * | 2021-02-18 | 2023-10-10 | Nuance Communications, Inc. | System and method for data augmentation and speech processing in dynamic acoustic environments |
US20230274753A1 (en) * | 2022-02-25 | 2023-08-31 | Bose Corporation | Voice activity detection |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030177006A1 (en) * | 2002-03-14 | 2003-09-18 | Osamu Ichikawa | Voice recognition apparatus, voice recognition apparatus and program thereof |
CN1623182A (zh) * | 2002-01-30 | 2005-06-01 | 皇家飞利浦电子股份有限公司 | 用于语音识别系统的话音活动的视听检测 |
WO2014160329A1 (en) * | 2013-03-13 | 2014-10-02 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
CN104422922A (zh) * | 2013-08-19 | 2015-03-18 | 中兴通讯股份有限公司 | 一种移动终端实现声源定位的方法及装置 |
CN204390737U (zh) * | 2014-07-29 | 2015-06-10 | 科大讯飞股份有限公司 | 一种家庭语音处理系统 |
WO2015106401A1 (zh) * | 2014-01-15 | 2015-07-23 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法和语音处理装置 |
CN105321523A (zh) * | 2014-07-23 | 2016-02-10 | 中兴通讯股份有限公司 | 噪音抑制方法和装置 |
CN105467364A (zh) * | 2015-11-20 | 2016-04-06 | 百度在线网络技术(北京)有限公司 | 一种定位目标声源的方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1570464A4 (en) * | 2002-12-11 | 2006-01-18 | Softmax Inc | SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS |
US7463170B2 (en) * | 2006-11-30 | 2008-12-09 | Broadcom Corporation | Method and system for processing multi-rate audio from a plurality of audio processing sources |
US8411880B2 (en) * | 2008-01-29 | 2013-04-02 | Qualcomm Incorporated | Sound quality by intelligently selecting between signals from a plurality of microphones |
JP5672770B2 (ja) * | 2010-05-19 | 2015-02-18 | 富士通株式会社 | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム |
CN102637071A (zh) * | 2011-02-09 | 2012-08-15 | 英华达(上海)电子有限公司 | 应用于多媒体输入设备的多媒体输入方法 |
KR101253451B1 (ko) * | 2012-02-29 | 2013-04-11 | 주식회사 팬택 | 음원의 위치를 감지할 수 있는 모바일 디바이스 및 그 제어 방법 |
-
2016
- 2016-05-27 CN CN201610368408.3A patent/CN107437420A/zh active Pending
- 2016-06-22 TW TW105119634A patent/TWI678696B/zh active
-
2017
- 2017-05-26 US US15/607,419 patent/US20170345437A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1623182A (zh) * | 2002-01-30 | 2005-06-01 | 皇家飞利浦电子股份有限公司 | 用于语音识别系统的话音活动的视听检测 |
US20030177006A1 (en) * | 2002-03-14 | 2003-09-18 | Osamu Ichikawa | Voice recognition apparatus, voice recognition apparatus and program thereof |
WO2014160329A1 (en) * | 2013-03-13 | 2014-10-02 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
CN104422922A (zh) * | 2013-08-19 | 2015-03-18 | 中兴通讯股份有限公司 | 一种移动终端实现声源定位的方法及装置 |
WO2015106401A1 (zh) * | 2014-01-15 | 2015-07-23 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法和语音处理装置 |
CN105321523A (zh) * | 2014-07-23 | 2016-02-10 | 中兴通讯股份有限公司 | 噪音抑制方法和装置 |
CN204390737U (zh) * | 2014-07-29 | 2015-06-10 | 科大讯飞股份有限公司 | 一种家庭语音处理系统 |
CN105467364A (zh) * | 2015-11-20 | 2016-04-06 | 百度在线网络技术(北京)有限公司 | 一种定位目标声源的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360579A (zh) * | 2018-12-05 | 2019-02-19 | 途客电力科技(天津)有限公司 | 充电桩语音控制装置以及系统 |
CN110730398A (zh) * | 2019-10-16 | 2020-01-24 | 同响科技股份有限公司 | 分布式无线麦克风数组音频收音同步方法 |
Also Published As
Publication number | Publication date |
---|---|
TWI678696B (zh) | 2019-12-01 |
TW201801069A (zh) | 2018-01-01 |
US20170345437A1 (en) | 2017-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437420A (zh) | 语音信息的接收方法、系统及装置 | |
CN108156568B (zh) | 助听系统与助听系统的语音撷取方法 | |
US11941968B2 (en) | Systems and methods for identifying an acoustic source based on observed sound | |
CN107230476A (zh) | 一种自然的人机语音交互方法和系统 | |
US20160187453A1 (en) | Method and device for a mobile terminal to locate a sound source | |
US10582117B1 (en) | Automatic camera control in a video conference system | |
CN111081234B (zh) | 一种语音采集方法、装置、设备及存储介质 | |
CN105704570B (zh) | 用于产生视频的一个或多个预览帧的方法和装置 | |
CN110309799B (zh) | 基于摄像头的说话判断方法 | |
US11641544B2 (en) | Lightweight full 360 audio source location detection with two microphones | |
US11776555B2 (en) | Audio modification using interconnected electronic devices | |
US20240107254A1 (en) | Method and System for Detecting Sound Event Liveness Using a Microphone Array | |
WO2017219450A1 (zh) | 一种信息处理方法、装置及移动终端 | |
CN112347450B (zh) | 一种基于眨眼声音信号的身份验证方法 | |
WO2018107731A1 (zh) | 数据处理的方法、装置和机器人 | |
CN105872205A (zh) | 一种信息处理方法及装置 | |
CN105791712A (zh) | 自动还原丢失语音信息的系统与方法 | |
US20220366927A1 (en) | End-To-End Time-Domain Multitask Learning for ML-Based Speech Enhancement | |
WO2021184966A1 (zh) | 证件照检测方法、装置、电子设备以及存储介质 | |
CN106803886A (zh) | 一种拍照的方法及装置 | |
CN107196979A (zh) | 基于语音识别的叫号预提醒系统 | |
CN111182416B (zh) | 处理方法、装置及电子设备 | |
CN113542466A (zh) | 音频处理方法、电子设备及存储介质 | |
CN108566485A (zh) | 一种解锁方法、终端和计算机可读存储介质 | |
US10893232B1 (en) | Controlled-environment facility video communications monitoring system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171205 |
|
WD01 | Invention patent application deemed withdrawn after publication |