CN102625946B - 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 - Google Patents

用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 Download PDF

Info

Publication number
CN102625946B
CN102625946B CN2010800482216A CN201080048221A CN102625946B CN 102625946 B CN102625946 B CN 102625946B CN 2010800482216 A CN2010800482216 A CN 2010800482216A CN 201080048221 A CN201080048221 A CN 201080048221A CN 102625946 B CN102625946 B CN 102625946B
Authority
CN
China
Prior art keywords
signal
channel
arbitrary
microphone
direction selectivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010800482216A
Other languages
English (en)
Other versions
CN102625946A (zh
Inventor
埃里克·维瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102625946A publication Critical patent/CN102625946A/zh
Application granted granted Critical
Publication of CN102625946B publication Critical patent/CN102625946B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Telephone Function (AREA)

Abstract

用于为多麦克风信号去除回响的系统、方法、设备和计算机可读媒体将方向选择性处理操作(例如,波束成形)的使用与反向滤波器相结合,所述反向滤波器在使用解相关操作(例如,盲源分离操作)所获得的分离的回响估计方面受过训练。

Description

用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
依据35U.S.C.§119主张优先权
本专利申请案主张2009年9月7日申请且转让给本受让人的题目为“用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR DEREVERBERATION OFMULTICHANNEL SIGNAL)”的第61/240,301号临时申请案的优先权。
技术领域
本发明涉及信号处理。
背景技术
当来源于特定方向的声响信号(例如,由通信装置的用户发出的话音信号)从墙壁和/或其它表面被反射时,产生回响。除了直接路径信号外,麦克风记录的信号还可含有那些多次反射(例如,音频信号的延迟例项)。与面对面交谈中听到的话音相比,回响话音通常听起来较为低沉、不够清晰且/或不容易理解(例如,归因于信号例项在各种声响路径上的破坏性干扰)。对于自动话音辨识(ASR)应用(例如,例如帐户余额或股票报价检查等自动化商业交易;自动化菜单导航;自动化查询处理),这些效应可能特别成问题,其导致准确性降低。因此,可能需要对所记录信号执行去除回响操作,同时使对语音色彩的改变最小化。
发明内容
一种根据一般配置的处理包括定向分量的多信道信号的方法包括:对第一信号执行第一方向选择性处理操作以产生残余信号;以及对第二信号执行第二方向选择性处理操作以产生经增强信号。此方法包括:基于来自所述已产生的残余信号的信息计算反向滤波器的多个滤波器系数;以及对所述经增强信号执行去除回响操作以产生已去除回响的信号。所述去除回响操作基于所述计算出的多个滤波器系数。所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道。在此方法中,对所述第一信号执行所述第一方向选择性处理操作包括相对于所述第一信号的总能量减少所述第一信号内的所述定向分量的能量,且对所述第二信号执行所述第二方向选择性处理操作包括相对于所述第二信号的总能量增加所述第二信号内的所述定向分量的能量。还揭示经配置以执行此方法的系统和设备以及具有用于执行此方法的机器可执行指令的计算机可读媒体。
一种根据一般配置的用于处理包括定向分量的多信道信号的设备具有:第一滤波器,其经配置以对第一信号执行第一方向选择性处理操作以产生残余信号;以及第二滤波器,其经配置以对第二信号执行第二方向选择性处理操作以产生经增强信号。此设备具有:计算器,其经配置以基于来自所述已产生的残余信号的信息计算反向滤波器的多个滤波器系数;以及第三滤波器,其基于所述计算出的多个滤波器系数,且经配置以对所述经增强信号进行滤波以产生已去除回响的信号。所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道。在此设备中,所述第一方向选择性处理操作包括相对于所述第一信号的总能量减少所述第一信号内的所述定向分量的能量,且所述第二方向选择性处理操作包括相对于所述第二信号的总能量增加所述第二信号内的所述定向分量的能量。
一种根据另一一般配置的用于处理包括定向分量的多信道信号的设备具有:用于对第一信号执行第一方向选择性处理操作以产生残余信号的装置;以及用于对第二信号执行第二方向选择性处理操作以产生经增强信号的装置。此设备包括:用于基于来自所述已产生的残余信号的信息计算反向滤波器的多个滤波器系数的装置;以及用于对所述经增强信号执行去除回响操作以产生已去除回响的信号的装置。在此设备中,所述去除回响操作基于所述计算出的多个滤波器系数。所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道。在此设备中,所述用于对所述第一信号执行所述第一方向选择性处理操作的装置经配置以相对于所述第一信号的总能量减少所述第一信号内的所述定向分量的能量,且所述用于对所述第二信号执行所述第二方向选择性处理操作的装置经配置以相对于所述第二信号的总能量增加所述第二信号内的所述定向分量的能量。
附图说明
图1A和1B展示波束成形器响应曲线的实例。
图2A展示根据一般配置的方法M100的流程图。
图2B展示根据一般配置的设备A100的流程图。
图3A和3B展示所产生的空值波束的实例。
图4A展示方法M100的实施方案M102的流程图。
图4B展示设备A100的实施方案A104的框图。
图5A展示设备A100的实施方案A106的框图。
图5B展示设备A100的实施方案A108的框图。
图6A展示根据一般配置的设备MF100的流程图。
图6B展示根据另一配置的方法的流程图。
图7A展示根据一般配置的装置D10的框图。
图7B展示装置D10的实施方案D20的框图。
图8A到8D展示多麦克风无线头戴式耳机D100的各种视图。
图9A到9D展示多麦克风无线头戴式耳机D200的各种视图。
图10A展示多麦克风通信手持机D300的横截面图(沿着中心轴线)。
图10B展示装置D300的实施方案D310的横截面图。
图11A展示多麦克风媒体播放器D400的图。
图11B和11C分别展示装置D400的实施方案D410和D420的图。
图12A展示多麦克风免手持车载套件D500的图。
图12B展示多麦克风书写装置D600的图。
图13A和13B分别展示装置D700的正视图和俯视图。
图13C和13D分别展示装置D710的正视图和俯视图。
图14A和14B分别展示手持机D300的实施方案D320的正视图和侧视图。
图14C和14D分别展示手持机D300的实施方案D330的正视图和侧视图。
图15展示音频感测装置D800的显示图。
图16A到16D展示装置D10的不同会议实施方案的配置。
图17A展示阵列R100的实施方案R200的框图。
图17B展示阵列R200的实施方案R210的框图。
具体实施方式
本发明包括用于使用与反向滤波器相结合的波束成形为多麦克风信号去除回响的系统、方法、设备和计算机可读媒体的描述,所述反向滤波器在使用盲源分离(BSS)所获得的分离的回响估计方面受过训练。
除非明确受其上下文限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如电线、总线或其它发射媒体上所表达的存储器位置(或存储器位置的集合)的状态。除非明确受其上下文限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如,计算或以其它方式产生。除非明确受其上下文限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如,计算、评估、估计和/或从多个值选择。除非明确受其上下文限制,否则术语“获得”用以指示其普通意义中的任一者,例如,计算、得出、接收(例如,从外部装置)和/或检索(例如,从存储元件的阵列)。在本描述和权利要求书中使用术语“包含”时,其并不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其普通意义中的任一者,包括以下情况:(i)“从……得出”(例如,“B为A的前驱”),(ii)“至少基于”(例如,“A至少基于B”),以及在特定情况下适当时,(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。
除非上下文另有指示,否则对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声响敏感面的中心的位置。根据特定上下文,术语“信道”有时用以指示信号路径且其它时候用以指示由此路径携载的信号。除非另有指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如,所述信号的频域表示的样本(例如,如快速傅立叶变换所产生的)或所述信号的子频带(例如,巴克尺度(Bark scale)子频带)。
除非另有指示,否则对具有特定特征的设备的操作的任何揭示还明确地希望揭示具有相似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示还明确地希望揭示根据相似配置的方法(且反之亦然)。如其特定上下文所指示,术语“配置”可参考方法、设备和/或系统来使用。除非特定上下文另有指示,否则一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”。除非特定上下文另有指示,否则也一般地且可互换地使用术语“设备”与“装置”。术语“元件”和“模块”通常用以指示较大配置的一部分。除非明确受其上下文限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“交互以实现共同目的的元件群组”。通过引用文献的一部分而进行的任何并入也应理解为并入有在所述部分内所提及的术语或变数的定义(其中此类定义出现在文献中的别处)以及所述并入部分中所提及的任何图式。
可使用方向辨别性(或“方向选择性”)滤波技术(例如,波束成形)执行多麦克风信号的去除回响。此技术可用来以精确程度不同的空间分辨率隔离从特定方向到达的声音分量与从其它方向到达的声音分量(包括所要的声音分量的反射例项)。虽然此分离通常对中频到高频起作用,但在低频情况下的结果通常令人失望。
在低频情况下此失败的一个原因是,在典型音频感测消费型装置形状因数(例如,无线头戴式耳机、电话手持机、移动电话、个人数字助理(PDA))上可利用的麦克风间距通常过小而不能确保从不同方向到达的低频分量之间的良好分离。可靠的方向辨别通常需要与波长相当的阵列孔径。对于200Hz的低频分量,波长约为170厘米。然而,对于典型音频感测消费型装置,麦克风之间的间距可具有大约十厘米的实际上限。另外,限制白噪声增益的愿望可能强迫设计者在低频中加宽波束。通常强加对白噪声增益的限制以减少或避免在麦克风信道之间不相关的噪声(例如,传感器噪声和风噪声)的放大。
为了避免空间混叠(spatial aliasing),麦克风之间的距离应不超过最小波长的一半。举例来说,八千赫的取样率产生零千赫到四千赫的带宽。在四千赫时的波长约为8.5厘米,因此,在此情况下,邻近麦克风之间的间距不应超过约四厘米。可对麦克风信道进行低通滤波,以便移除可能会引起空间混叠的频率。虽然空间混叠在高频情况下可降低空间选择性滤波的有效性,但回响能量通常集中于低频中(例如,归因于典型的房间几何形状)。方向选择性滤波操作可在中频和高频情况下执行对回响的充分移除,但此操作在低频情况下的去除回响性能可能不足以产生所要的感知增益。
图1A和1B展示在使用四麦克风线性阵列(邻近麦克风之间的间距为3.5cm)所记录的多麦克风信号上获得的波束成形器响应曲线。图1A展示针对与阵列轴线成九十度角的导引方向的响应,且图1B展示针对与阵列轴线成零度角的导引方向的响应。在两个图中,频率范围为零千赫到四千赫,且由暗到亮的亮度指示由低到高的增益。为增进理解,在图1A中的最高频率处添加边界线,且将主波瓣的轮廓添加到图1B。在每一图中,可看出,波束型样在中频和高频中提供高定向,但在低频中散开。因此,应用此类波束以提供去除回响在中频和高频中可能有效,但在回响能量倾向于集中的低频带中不够有效。
或者,可通过对回响测量结果的直接反向滤波来执行多麦克风信号的去除回响。此方法可使用例如C(z-1)Y(t)=S(t)等模型,其中Y(t)表示观测到的话音信号,S(t)表示直接路径话音信号,且C(z-1)表示反向房间响应滤波器。
典型的直接反向滤波方法可同时估计直接路径话音信号S(t)和反向房间响应滤波器C(z-1),此方法使用关于每一量的分布函数(例如,话音的机率分布函数和重建构误差的机率分布函数)的适当假定以收敛到有意义的解。然而,对这两个不相关的量的同时估计可能成问题。举例来说,此方法很可能为反复的,且可导致大量计算且因通常并不非常准确的结果而减缓收敛。以此方式将反向滤波直接应用于所记录信号还易于使话音共振峰结构白化,同时反转房间脉冲响应函数,从而产生听起来不自然的话音。直接反向滤波方法可能过度依赖于参数调谐来避免这些白化假影。
本文中揭示用于多麦克风去除回响的系统、方法、设备和计算机可读媒体,其基于使用盲源分离(BSS)或其它解相关技术所估计的回响信号执行反向滤波。此方法可包括:通过使用BSS或其它解相关技术计算朝向声源的空值波束来估计回响,以及使用来自所得残余信号(例如,低频回响残余信号)的信息估计反向房间响应滤波器。
图2A展示根据一般配置的处理包括定向分量(例如,例如由用户的嘴发出的话音信号等所要信号的直接路径例项)的多信道信号的方法M100的流程图。方法M100包括任务T100、T200、T300和T400。任务T100对第一信号执行第一方向选择性处理(DSP)操作以产生残余信号。第一信号包括所述多信道信号的至少两个信道,且第一DSP操作通过相对于第一信号的总能量减少第一信号内的所述定向分量的能量来产生所述残余信号。第一DSP操作可经配置以(例如)通过将负增益应用于所述定向分量和/或将正增益应用于所述信号的一个或一个以上其它分量而减少所述定向分量的相对能量。
一般来说,可将第一DSP操作实施为经配置以相对于所述信号的总能量减少所述定向分量的能量的任何解相关操作。实例包括波束成形操作(配置为空值波束成形操作)、经配置以分出定向分量的盲源分离操作,以及经配置以使定向分量的频率分量衰减的基于相位的操作。此操作可经配置以在时域中或在变换域(例如,FFT或DCT域或另一频域)中执行。
在一个实例中,第一DSP操作包括空值波束成形操作。在此情况下,通过计算在定向分量的到达方向(例如,用户的嘴相对于产生第一信号的麦克风阵列的方向)上的空值波束获得残余。空值波束成形操作可为固定的和/或自适应性的。可用以执行此空值波束成形操作的固定波束成形操作的实例包括延迟与求和(delay-and-sum)波束成形(其包括时域延迟与求和波束成形和子频带(例如,频域)相移与加总波束成形)和超导向波束成形。可用以执行此空值波束成形操作的自适应性波束成形操作的实例包括最小变异无失真响应(MVDR)波束成形、线性限制式最小变异(LCMV)波束成形,和一般化旁波瓣消除器(GSC)波束成形。
在另一实例中,第一DSP操作包括将增益应用于第一信号的频率分量,所述增益基于在第一信号的不同信道中的所述频率分量的相位之间的差。此基于相位差的操作可包括:针对第一信号的多个不同频率分量中的每一者计算在第一信号的不同信道中的所述频率分量的相应相位之间的差,以及基于计算出的相位差将不同增益应用于频率分量。可从此相位差得出的方向指示符的实例包括到达方向和到达时间差。
基于相位差的操作可经配置以根据相位差满足特定准则(例如,相应到达方向落在指定范围内,或相应到达时间差落在指定范围内,或相位差与频率的比落在指定范围内)的频率分量的数目来计算相干性量度。对于完全相干的信号,相位差与频率的比是常数。此相干性量度可用以指示定向分量在作用中(例如,作为语音活动检测器)时的间隔。可能需要配置此操作以基于仅如下频率分量的相位差来计算相干性量度:具有指定频率范围(例如,可预期包括说话者的语音的大部分能量的范围,例如,约500Hz、600Hz、700Hz或800Hz到约1700Hz、1800Hz、1900Hz或2000Hz)的频率分量,和/或为所要的说话者的语音的音高频率的当前估计值的倍数的频率分量。
在再一实例中,第一DSP操作包括盲源分离(BSS)操作。盲源分离提供在特定情形下估计回响的有用方式,因为其计算在使输出之间的相互信息最小化的程度上对分离的输出进行解相关的分离滤波器解。此操作为自适应性的,使得当发声源随时间移动时,此操作可继续可靠地分离定向分量的能量。
BSS操作可经设计以通过清除其它竞争方向而产生朝向所要声源的波束,而不是如传统波束成形技术中那样射入所要声源中。可从定向分量的能量与之分离的BSS操作的噪声或“残余”输出(即,而不是定向分量的能量被分离到其中的有噪声的信号输出)获得残余信号。
可能需要配置第一DSP操作以使用限制式BSS方法在每一个别频率区间中反复地成形波束型样,且因此对相关噪声与不相关噪声进行折衷且对旁波瓣与主波束进行折衷。为了实现此结果,可能需要在所有视角上使用正规化程序而在所要查看方向上将收敛的波束正则化到单位增益。还可能需要在每一空值波束方向上在每一频率区间的反复过程期间使用调谐矩阵直接控制强制实施的空值波束的深度和波束宽度。
如同MVDR设计一样,单单BSS设计可能在麦克风阵列的前部与后部之间提供不充分的辨别。因此,对于需要BSS操作辨别在麦克风阵列前面的声源与在麦克风阵列后面的声源的应用,可能需要实施所述阵列以使其包括背对其它麦克风的至少一个麦克风,所述至少一个麦克风可用以从后面指示声源。
为了减少收敛时间,通常通过指示定向分量的所估计方向的一组初始条件来初始化BSS操作。可从波束成形器(例如,MVDR波束成形器)和/或通过在使用麦克风阵列所获得的一个或一个以上定向声源的记录方面训练装置来获得所述初始条件。举例来说,可使用麦克风阵列来记录来自一个或一个以上扬声器的阵列的信号以获得训练数据。如果需要产生朝向特定查看方向的波束,那么可按与所述阵列的那些角度来放置扬声器。所得波束的波束宽度可由干扰扬声器的接近度确定,因为限制式BSS规则可设法清除竞争源,且因此可导致由干扰扬声器的相对角距离确定的程度不同的窄残余波束。
使用具有不同表面和曲率的扬声器可影响波束宽度,所述扬声器根据其几何形状在空间中传播声音。可使用数目小于或等于麦克风的数目的源信号来使这些响应成形。可使用由扬声器重放的不同声音文件产生不同频率内容。如果扬声器含有不同频率内容,那么可在再现之前等化所再现信号以补偿某些频带中的频率损耗。
BSS操作可为方向限制式操作,使得所述操作在特定时间间隔期间仅分离从特定方向到达的能量。或者,可在某种程度上放松此约束以允许BSS操作在特定时间间隔期间分离处于不同频率的从稍有不同的方向到达的能量,其在现实世界条件下可产生较好的分离性能。
图3A和3B展示针对声源(例如,用户的嘴)相对于麦克风阵列的不同空间配置使用BSS而产生的空值波束的实例。对于图3A,所要声源与阵列轴线成三十度角,且对于图3B,所要声源与阵列轴线成120度角。在这两个实例中,频率范围为零千赫到四千赫,且由暗到亮的亮度指示由低到高的增益。在每一图中,在最高频率处和在较低频率处添加轮廓线以辅助理解。
虽然在任务T100中执行的第一DSP操作可产生朝向所要声源的有足够锐度的空值波束,但可能无法在所有频带中,尤其是低频带(例如,归因于在所述频带中累积的回响)中很好地界定此空间方向。如上所述,方向选择性处理操作通常在低频情况下不够有效,尤其是对于具有小的形状因数以使得麦克风阵列的宽度比低频分量的波长小得多的装置。因此,在任务T100中执行的第一DSP操作可从第一信号的中频带和高频带有效地移除定向分量的回响,但可能不够有效地移除定向分量的低频回响。
因为由任务T100产生的残余信号含有所要话音信号的较少结构,所以在此残余信号方面受过训练的反向滤波器不大可能反转话音共振峰结构。因此,可预期将受过训练的反向滤波器应用于所记录信号或经增强信号会产生高质量去除回响而不会产生假影话音效应。抑制来自残余信号的定向分量还使得能够估计反转房间脉冲响应函数而无需同时估计定向分量,其可使反向滤波器响应函数的计算与传统反向滤波方法相比更有效率。
任务T200使用来自任务T100中所获得的残余信号的信息计算房间响应转移函数(也称为“房间脉冲响应函数”)F(z)的反函数。我们假定可将所记录信号Y(z)(例如,多信道信号)模型化为所要定向信号S(z)(例如,从用户的嘴发出的话音信号)的直接路径例项与定向信号S(z)的回响例项的总和:
Y(z)=S(z)+S(z)F(z)=S(z)(1+F(z))。
可重新排列此模型以按所记录信号Y(z)来表达定向信号S(z):
S ( z ) = 1 F ( z ) + 1 Y ( z ) .
我们还假定可将房间响应转移函数F(z)模型化为全极滤波器1/C(z),使得反向滤波器C(z)为有限脉冲响应(FIR)滤波器:
C ( z ) = 1 + Σ i = 1 q c i z - 1 .
组合这两个模型以获得所要信号S(z)的以下表达式:
S ( z ) = C ( z ) C ( z ) + 1 Y ( z ) .
在没有任何回响的情况下(即,当所有滤波器系数ci等于零时),函数C(z)和F(z)各等于一。在以上表达式中,此条件产生结果S(z)=Y(z)/2。因此,可能需要包括正规化因数二以按所记录信号Y(z)和反向滤波器C(z)获得话音信号S(z)的模型,例如以下:
S ( z ) = 2 C ( z ) C ( z ) + 1 Y ( z ) .
在一个实例中,任务T200经配置以通过使自回归模型拟合于计算出的残余来计算反向滤波器C(z)的滤波器系数ci。此模型可表达为(例如)C(z)r(t)=e(t),其中r(t)表示在时域中的计算出的残余信号,且e(t)表示白噪声序列。此模型还可表达为
r [ t ] - Σ i = 1 q c i r [ t - i ] = e [ t ] ,
其中记法“a[b]”指示在时间b的时域序列a的值,且滤波器系数ci为模型的参数。模型的阶数q可为固定的或自适应性的。
任务T200可经配置以使用任一合适方法计算此自回归模型的参数ci。在一个实例中,任务T200对模型执行最小平方最小化运算(即,使误差e(t)的能量最小化)。可用以计算模型参数ci的其它方法包括向前向后法、Yule-Walker方法和Burg方法。
任务T200可经配置以假定误差e(t)的分布函数以便获得非零C(z)。举例来说,可假定e(t)根据最大似然函数而分布。可能需要配置任务T200以将e(t)限制为稀疏脉冲波列(例如,包括尽可能少的脉冲或尽可能多的零的一系列δ(delta)函数。)
可认为模型参数ci界定在残余方面习得的白化滤波器,且可认为误差e(t)是引起残余r(t)的假想激励信号。在此上下文中,计算滤波器C(z)的过程类似于在LPC话音共振峰结构模型化中寻找激励向量的过程。因此,有可能使用在另一时间用于LPC分析的硬件或固件模块求出滤波器系数ci。因为残余信号通过移除话音信号的直接路径例项而计算出,所以可预期模型参数估计操作将估计房间转移函数F(z)的极,而无需试图反转话音共振峰结构。
由任务T100产生的残余信号的低频分量倾向于包括定向分量的大部分回响能量。可能需要配置方法M100的实施方案以进一步减少在残余信号中的中频和/或高频能量的量。图4A展示方法M100的此实施方案M102的实例,其包括任务T150。任务T150在任务T200上游对残余信号执行低通滤波操作,使得在任务T200中计算出的滤波器系数基于此已滤波的残余。在方法M100的相关替代实施方案中,在任务T100中执行的第一方向选择性处理操作包括低通滤波操作。在任一情况下,可能需要低通滤波操作具有(例如)500Hz、600Hz、700Hz、800Hz、900Hz或1000Hz的截止频率。
任务T300对第二信号执行第二方向选择性处理操作以产生经增强信号。第二信号包括多信道信号的至少两个信道,且第二DSP操作通过相对于第二信号的总能量增加在第二信号中的定向分量的能量来产生经增强信号。第二DSP操作可经配置以通过将正增益应用于定向分量和/或将负增益应用于第二信号的一个或一个以上其它分量来增加定向分量的相对能量。第二DSP操作可经配置以在时域中或在变换域(例如,FFT或DCT域或另一频域)中执行。
在一个实例中,第二DSP操作包括波束成形操作。在此情况下,通过计算在定向分量的到达方向(例如,说话者的嘴相对于产生第二信号的麦克风阵列的方向)上的波束而获得经增强信号。可使用以上关于任务T100所提及的波束成形实例中的任一者来实施波束成形操作,波束成形操作可为固定的和/或自适应性的。任务T300还可经配置以从在不同指定方向上的多个波束当中选择波束(例如,根据当前产生最高能量或SNR的波束)。在另一实例中,任务T300经配置以使用声源定位方法(例如,多重信号分类(MUSIC)算法)选择波束方向。
一般来说,可使用例如延迟与求和或MVDR波束成形器等传统方法基于自由场模型来设计一个或一个以上波束型样,其中波束成形器输出能量经最小化,且限制式查看方向能量等于单位能量。举例来说,可使用闭合形式MVDR技术基于给定查看方向、麦克风间距离和噪声交叉相关矩阵来设计波束型样。所得设计通常包含不需要的旁波瓣,可根据噪声交叉相关矩阵的频率相依性对角负载对旁波瓣与主波束进行折衷。可能需要使用通过线性编程技术求解的特殊限制式MVDR成本函数,其可对主波束宽度与旁波瓣量值之间的折衷提供较好的控制。对于需要第一或第二DSP操作辨别在麦克风阵列前面的声源与在麦克风阵列后面的声源的应用,可能需要实施所述阵列以使其包括背对其它麦克风的至少一个麦克风,所述至少一个麦克风可用以从后面指示声源,因为单单MVDR设计可能在麦克风阵列的前部与后部之间提供不充分的辨别。
在另一实例中,第二DSP操作包括将增益应用于第二信号的频率分量,所述增益基于在第二信号的不同信道中的频率分量的相位之间的差。可使用以上关于任务T100所提及的基于相位差的实例中的任一者实施的此操作可包括:针对第二信号的多个不同频率分量中的每一者计算在第二信号的不同信道中的频率分量的相应相位之间的差,以及基于计算出的相位差将不同增益应用于频率分量。关于可用以实施第一和/或第二DSP操作的基于相位差的方法和结构(例如,第一滤波器F110和/或第二滤波器F120)的额外信息可在(例如)第12/605,158号美国专利申请案(题目为“用于相干性检测的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR COHERENCE DETECTION)”,2009年10月23日申请)和第12/796,566号美国专利申请案(题目为“用于多信道信号的基于相位的处理的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR PHASE-BASED PROCESSING OFMULTICHANNEL SIGNAL)”,2010年6月8日申请)中找到。此类方法可包括(例如)基于相位差的子频带增益控制、基于来自沿着不同阵列轴线的麦克风的信号的前后辨别、基于空间扇区内的相干性的声源定位,以及遮蔽来自定向声源的能量的互补遮蔽(例如,用于残余信号计算)。
在第三实例中,第二DSP操作包括盲源分离(BSS)操作,其可使用以上关于任务T100所提及的BSS实例中的任一者来实施、初始化和/或约束。关于可用以实施第一和/或第二DSP操作的BSS技术和结构(例如,第一滤波器F110和/或第二滤波器F120)的额外信息可在(例如)第2009/0022336号美国公开专利申请案(Visser等人,题目为“用于信号分离的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FORSIGNAL SEPARATION)”,2009年1月22日公开)和第2009/0164212号美国公开专利申请案(Chan等人,题目为“用于基于多麦克风的话音增强的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR MULTI-MICROPHONE BASEDSPEECH ENHANCEMENT)”,2009年6月25日公开)中找到。
在第四实例中,使用BSS操作实施任务T100和T300两者。在此情况下,在BSS操作的一个输出处产生残余信号,且在BSS操作的另一输出处产生经增强信号。
第一和第二DSP操作中的任一者还可经实施以基于在所述操作的输入信号的每一信道中的信号电平之间的关系(例如,第一或第二信号的信道的线性电平的比或对数水平的差)来辨别信号方向。此基于电平(例如,基于增益或能量)的操作可经配置以指示信号、信号的多个子频带中的每一者或信号的多个频率分量中的每一者的当前方向。在此情况下,可能需要麦克风信道的增益响应(明确地说,麦克风的增益响应)相对于彼此得以良好地校准。
如上所述,方向选择性处理操作通常在低频情况下不够有效。因此,虽然在任务T300中执行的第二DSP操作可有效地对所要信号的中频和高频去除回响,但此操作不大可能在可预期含有大部分回响能量的低频情况下有效。
波束成形、BSS或遮蔽操作的定向的损耗通常表现为增益响应的主波瓣的宽度随着频率减小而增加。可将主波瓣的宽度视为(例如)增益响应从最大值下降三分贝的点之间的角度。可能需要将第一和/或第二DSP操作的定向的损耗描述为所述操作在特定频率下的最小增益响应与最大增益响应之间的绝对差随着频率减小而减小。举例来说,可预期此绝对差在中频和/或高频范围(例如,两千赫到三千赫)内比在低频范围(例如,三百赫兹到四百赫兹)内大。
或者,可能需要将第一和/或第二DSP操作的定向的损耗描述为与方向有关的所述操作的最小增益响应与最大增益响应之间的绝对差随着频率减小而减小。举例来说,可预期此绝对差在中频和/或高频范围(例如,两千赫到三千赫)内比在低频范围(例如,三百赫兹到四百赫兹)内大。或者,可预期此绝对差在中频和/或高频范围(例如,两千赫到三千赫)内在此范围中的每一频率分量处的平均值大于此绝对差在低频范围(例如,三百赫兹到四百赫兹)内在此范围中的每一频率分量处的平均值。
任务T400对经增强信号执行去除回响操作以产生已去除回响的信号。去除回响操作基于计算出的滤波器系数ci,且任务T400可经配置以在时域中或在变换域(例如,FFT或DCT域或另一频域)中执行去除回响操作。在一个实例中,任务T400经配置以根据例如以下的表达式来执行去除回响操作
D ( z ) = 2 C ( z ) C ( z ) + 1 G ( z ) ,
其中G(z)指示经增强信号S40,且D(z)指示已去除回响的信号S50。此操作还可表达为时域差等式
d [ t ] = g [ t ] + Σ i = 1 q c i ( g [ t - i ] - 0.5 d [ t - i ] ) ,
其中d和g分别指示在时域中的已去除回响的信号S50和经增强信号S40。
如上所述,在任务T100中执行的第一DSP操作可有效地从第一信号的中频带和高频带移除定向分量的回响。因此,在任务T200中执行的反向滤波器计算可主要基于低频能量,使得在任务T400中执行的去除回响操作使经增强信号的低频衰减的程度超过中频或高频。举例来说,在任务T400中执行的去除回响操作的增益响应在中频和/或高频范围(例如,在两千赫与三千赫之间)内的平均增益响应比所述去除回响操作在低频范围(例如,在三百赫兹与四百赫兹之间)内的平均增益响应大(例如,至少大三分贝、六分贝、九分贝、十二分贝或二十分贝)。
方法M100可经配置以将多信道信号处理为一系列片段。典型的片段长度在约五毫秒或十毫秒到约四十毫秒或五十毫秒的范围内,且片段可为重叠的(例如,邻近片段重叠约25%或50%)或非重叠的。在一个特定实例中,将多信道信号分割成一系列非重叠片段或“帧”,每一片段或“帧”具有十毫秒的长度。由方法M100处理的片段也可为由不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。
第一方向选择性处理操作(例如,自适应性波束成形器或BSS操作)的自适应性实施方案可经配置以在每一帧或按较不频繁的间隔(例如,每五个或十个帧一次)或响应于某一事件(例如,检测到到达方向的改变)而执行调适。此操作可经配置以(例如)通过更新一组或一组以上对应的滤波器系数而执行调适。可类似地配置第二方向选择性处理操作(例如,自适应性波束成形器或BSS操作)的自适应性实施方案。
任务T200可经配置以计算在残余信号r(t)的一帧上或在多个连续帧的窗上的滤波器系数ci。任务T200可经配置以根据语音活动检测(VAD)操作(例如,基于能量的VAD操作或以上描述的基于相位的相干性测量)选择用以计算滤波器系数的残余信号的帧,使得滤波器系数可基于残余信号的包括回响能量的片段。任务T200可经配置以在每一帧或在每一作用中帧或按较不频繁的间隔(例如,每五个或十个帧一次,或每五个或十个作用中帧一次)或响应于某一事件(例如,检测到定向分量的到达方向的改变)而更新(例如,重新计算)滤波器系数。
任务T200中对滤波器系数的更新可包括使随时间计算出的值平滑化以获得滤波器系数。可根据例如以下的表达式来执行此时间平滑化操作:
ci[n]=αci[n-1]+(1-α)cin
其中cin表示滤波器系数ci的计算出的值,ci[n-1]表示滤波器系数ci的先前值,ci[n]表示滤波器系数ci的更新后的值,且α表示平滑化因数,其具有在零(即,无平滑化)到一(即,无更新)的范围中的值。平滑化因数α的典型值包括0.5、0.6、0.7、0.8和0.9。
图2B展示根据一般配置的用于处理包括定向分量的多信道信号的设备A100的框图。设备A100包括第一滤波器F110,其经配置以对第一信号S10执行第一方向选择性处理操作(例如,如本文中关于任务T100所描述)以产生残余信号S30。设备A100还包括第二滤波器F120,其经配置以对第二信号S20执行第二方向选择性处理操作(例如,如本文中关于任务T300所描述)以产生经增强信号S40。第一信号S10包括所述多信道信号的至少两个信道,且第二信号S20包括所述多信道信号的至少两个信道。
设备A100还包括计算器CA100,其经配置以基于来自残余信号S30的信息计算反向滤波器的多个滤波器系数(例如,如本文中关于任务T200所描述)。设备A100还包括第三滤波器F130,其基于所述计算出的多个滤波器系数,且经配置以对经增强信号S40进行滤波(例如,如本文中关于任务T400所描述)以产生已去除回响的信号S50。
如上所述,第一和第二DSP操作中的每一者可经配置以在时域中或在变换域(例如,FFT或DCT域或另一频域)中执行。图4B展示设备A100的实施方案A104的实例的框图,其明确地展示:在滤波器F110和F120上游将第一信号S10和第二信号S20转换到FFT域(经由变换模块TM10a和TM10b),以及在滤波器F110和F120下游将残余信号S30和经增强信号S40随后转换到时域(经由反向变换模块TM20a和TM20b)。明确地指出,方法M100和设备A100还可经实施以使得在时域中执行第一和第二方向选择性处理操作两者,或在时域中执行第一方向选择性处理操作且在变换域中执行第二方向选择性处理操作(或反之亦然)。另外实例包括在第一和第二方向选择性处理操作中的一者或两者内进行转换以使得操作的输入和输出在不同域中(例如,从FFT域转换到时域)。
图5A展示设备A100的实施方案A106的框图。设备A106包括第二滤波器F120的实施方案F122,其经配置以接收多信道信号的四信道实施方案MCS4(作为第二信号S20)的所有四个信道。在一个实例中,设备A106经实施以使得第一滤波器F110执行BSS操作,且第二滤波器F122执行波束成形操作。
图5B展示设备A100的实施方案A108的框图。设备A108包括解相关器DC10,其经配置以包括第一滤波器F110和第二滤波器F120两者。举例来说,解相关器DC10可经配置以对多信道信号的两信道实施方案MCS2执行BSS操作(例如,根据本文中描述的BSS实例中的任一者)以在一个输出(例如,噪声输出)处产生残余信号S30且在另一输出(例如,分离的信号输出)处产生经增强信号S40。
图6A展示根据一般配置的用于处理包括定向分量的多信道信号的设备MF100的框图。设备MF100包括用于对第一信号执行第一方向选择性处理操作(例如,如本文中关于任务T100所描述)以产生残余信号的装置F100。设备MF100还包括用于对第二信号执行第二方向选择性处理操作(例如,如本文中关于任务T300所描述)以产生经增强信号的装置F300。所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道。设备MF100还包括用于基于来自产生的残余信号的信息计算反向滤波器的多个滤波器系数(例如,如本文中关于任务T200所描述)的装置F200。设备MF100还包括用于基于所述计算出的多个滤波器系数对经增强信号执行去除回响操作(例如,如本文中关于任务T400所描述)以产生已去除回响的信号的装置F400。
在任务T300中执行(或者,由第二滤波器F120执行)的多信道方向选择性处理操作可经实施以产生两个输出:有噪声的信号输出,定向分量的能量已集中到其中;以及噪声输出,其包括第二信号的其它分量(例如,其它定向分量和/或分布式噪声分量)的能量。举例来说,可共同实施波束成形操作和BSS操作以产生此类输出(例如,如在图5B中所示)。任务T300或滤波器F120的此实施方案可经配置以产生有噪声的信号输出作为经增强信号。
或者,可能需要在此情况下实施在任务T300中执行(或者,由第二滤波器F120或解相关器DC10执行)的第二方向选择性处理操作以使其包括后处理操作,所述后处理操作通过使用噪声输出进一步减少有噪声的信号输出中的噪声而产生经增强信号。可将此后处理操作(也称为“噪声减少操作”)配置为(例如)对有噪声的信号输出的文纳(Wiener)滤波操作,此操作基于噪声输出的频谱。或者,可将此噪声减少操作配置为频谱减法操作,其从有噪声的信号输出减去基于噪声输出的估计噪声频谱以产生经增强信号。还可将此噪声减少操作配置为子频带增益控制操作,此操作基于频谱减法或以信噪比(SNR)为基础的增益规则。然而,在加强设定下,此子频带增益控制操作可导致话音失真。
视特定设计选择而定,任务T300(或者,第二滤波器F120)可经配置以将经增强信号产生为单信道信号(即,如本文中所描述和说明)或产生为多信道信号。对于经增强信号为多信道信号的情况,任务T400可经配置以对每一信道执行去除回响操作的相应例项。在此情况下,有可能基于来自所得信道中的另外一者或一者以上的噪声估计对所得信道中的一者或一者以上执行如上所述的噪声减少操作。
有可能实施如图6B的流程图中所展示的处理多信道信号的方法(或相应设备),其中任务T500对多信道信号的信道中的一者或一者以上而非对由任务T300产生的经增强信号执行如本文中关于任务T400所描述的去除回响操作。在此情况下,可省略或绕过任务T300(或第二滤波器F120)。然而,可预期方法M100产生的结果比此方法(或相应设备)好,因为可预期任务T300的多信道DSP操作对在中频和高频中的定向分量执行的去除回响比基于反向房间响应滤波器的去除回响好。
可用以实施由任务T100(或者,第一滤波器F110)执行的第一DSP操作和/或由任务T300(或者,第二滤波器F120)执行的第二DSP操作的盲源分离(BSS)算法的范围包括一种被称为频域ICA或复合ICA的方法,在此方法中直接在频域中计算滤波器系数值。可使用前馈滤波器结构实施的此方法可包括对输入信道执行FFT或其它变换。此ICA技术经设计以针对每一频率区间ω计算M×M未混合矩阵W(ω),使得已解混合的输出向量Y(ω,l)=W(ω)X(ω,l)相互独立,其中X(ω,l)表示针对频率区间ω和窗l的观测信号。根据一规则来更新所述未混合矩阵W(ω),所述规则可表达为如下:
Wl+r(ω)=Wl(ω)+μ[I-<Φ(Y(ω,l))Y(ω,l)H>]Wl(ω)(1)
其中Wl(ω)表示针对频率区间ω和窗l的未混合矩阵,Y(ω,l)表示针对频率区间ω和窗l的滤波器输出,Wl+r(ω)表示针对频率区间ω和窗(l+r)的未混合矩阵,r为具有不小于一的整数值的更新速率参数,μ为学习速率参数,I为单位矩阵,Φ表示激发函数,上标H表示共轭转置运算,且括号<>表示在时间l=1,…,L的平均运算。在一个实例中,激发函数Φ(Yj(ω,l))等于Yj(ω,l)/|Yj(ω,l)|。众所周知的ICA实施方案的实例包括Infomax、FastICA(可在www-dot-cis-dot-hut-dot-fi/projects/ica/fastica线上获得)和JADE(特征矩阵的联合近似对角化)。
可通过计算具有以下表达式的量值曲线从频域转移函数Wjm(i*ω)(其中m表示输入信道,1<=m<=M)获得此合成波束成形器的每一输出信道j的波束型样
Wj1(i×ω)D(ω)1j+Wj2(i×ω)D(ω)2j+…+WjM(i×ω)D(ω)Mj
在此表达式中,D(ω)指示针对频率ω的定向矩阵,使得
D(ω)ij=exp(-i×cos(θj)×pos(i)×ω/c),(2)
其中pos(i)表示M个麦克风的阵列中的第i个麦克风的空间坐标,c为声音在介质中的传播速度(例如,在空气中为340m/s),且θj表示第j个声源相对于麦克风阵列的轴线的到达入射角度。
复合ICA解决方案通常有缩放比例模糊的问题,其可在查看方向改变时造成波束型样增益和/或响应色彩的变化。如果声源为静止的且声源的变异在所有频率区间中为已知的,那么可通过将所述变异调整到已知值来解决缩放比例问题。然而,自然信号源为动态的,通常不静止,且具有未知变异。
可通过调整习得分离滤波器矩阵而不是调整声源变异来解决缩放比例问题。按最小失真原则获得的一种众所周知的解决方案根据例如以下的表达式来缩放习得混合矩阵。
Wl+r(ω)←diag(Wl+r -1(ω))Wl+r(ω)。
可能需要通过在所要查看方向上产生单位增益(其可帮助减少或避免所要的说话者的语音的频率染色)来解决缩放比例问题。一种此方法通过在所有角度上的滤波器响应量值中的最大者来正规化矩阵W的每一行j:
max &theta; i = [ - &pi; , &pi; ] | W j 1 ( i &times; &omega; ) D ( &omega; ) 1 j + W j 2 ( i &times; &omega; ) D ( &omega; ) 2 j + &CenterDot; &CenterDot; &CenterDot; + W jM ( i &times; &omega; ) D ( &omega; ) Mj | .
一些复合ICA实施方案的另一问题为与同一声源有关的频率区间之间的相干性损失。此损失可导致主要含有来自信息源的能量的频率区间被误指派到干扰输出信道且/或反之亦然的频率排列问题。可使用若干解决方案来解决此问题。
独立向量分析(IVA)可用来应对排列问题,IVA为复合ICA的使用声源(在此之前已模型化频率区间之间的预期相依性)的变型。在此方法中,激发函数Φ为例如以下的多变量激发函数:
&Phi; ( Y j ( &omega; , l ) ) = Y j ( &omega; , l ) ( &Sigma; &omega; | Y j ( &omega; , l ) | p ) 1 / p
其中p具有大于或等于一的整数值(例如,1、2或3)。在此函数中,分母中的项与在所有频率区间上的分离的声源频谱有关。
BSS算法可试图自然地清除干扰源,而仅在所要查看方向上留下能量。在所有频率区间上进行正规化后,此操作可导致在所要声源方向上的单位增益。BSS算法可能未在某一方向上产生完全对准的波束。如果需要产生具有某一空间拾波型样的波束成形器,那么可使旁波瓣最小化且可通过在特定查看方向上强制实施空值波束来成形波束宽度,可通过针对每一频率区间且针对每一空值波束方向的特定调谐因数来强制实施空值波束的深度和宽度。
可能需要通过选择性强制实施旁波瓣最小化和/或正则化在某些查看方向上的波束型样来微调由BSS算法提供的原始波束型样。举例来说,可通过计算在阵列查看方向上的滤波器空间响应中的最大者且接着大约在此最大查看方向强制实施约束来获得所要的查看方向。
可能需要通过基于定向矩阵D(ω)(如在以上表达式(2)中)添加正则化项J(ω)来强制实施波束和/或空值波束:
J(ω)=S(ω)‖W(ω)D(ω)-C(ω)‖2    (3)
其中S(ω)为针对频率ω和每一空值波束方向的调谐矩阵,且C(ω)为等于diag(W(ω)*D(ω))的M×M对角矩阵,其设定对所要波束型样的选择且在每一输出信道j的干扰方向上放置空值。此正则化可帮助控制旁波瓣。举例来说,可使用矩阵S(ω)通过控制在每一频率区间处的每一空值方向上的强制实施量来成形每一空值波束在特定方向θj上的深度。此控制对于对旁波瓣的产生与窄或宽空值波束进行折衷可能很重要。
正则化项(3)可表达为对未混合矩阵更新等式的约束,其具有例如以下的表达式:
constr(ω)=(dJ/dW)(ω)=μ*S(ω)*2*(W(ω)*D(ω)-C(ω))D(ω)H
可通过将此项添加到滤波器学习规则(例如,表达式(1))来实施此约束,如在以下表达式中:
Wconstr.l+p(ω)=
Wl(ω)+μ[I-<Φ(Y(ω,l))Y(ω,l)H>]Wl(ω)+2S(ω)(Wl(ω)D(ω)-C(ω))D(ω)H
可基于收敛的BSS波束型样确定声源到达方向(DOA)值θj以消除旁波瓣。为了减少对于所要应用可能过大的旁波瓣,可能需要强制实施选择性空值波束。可通过在每一频率区间中应用经由特定矩阵S(ω)强制实施的额外空值波束来获得变窄的波束。
可能需要产生一种便携式音频感测装置,其具有经配置以接收声响信号的两个或两个以上麦克风的阵列R100和设备A100的实施方案。可经实施以包括此阵列且可用于音频记录和/或语音通信应用的便携式音频感测装置的实例包括:电话手持机(例如,蜂窝式电话手持机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持式音频和/或视频记录器;经配置以记录音频和/或语音内容的个人媒体播放器;个人数字助理(PDA)或其它手持式计算装置;以及笔记型计算机、膝上型计算机、迷你笔记型计算机、平板计算机或其它便携式计算装置。可经建构以包括阵列R100和设备A100的实例且可用于音频记录和/或语音通信应用的音频感测装置的其它实例包括机顶盒以及音频和/或视频会议装置。
图7A展示根据一般配置的多麦克风音频感测装置D10的框图。装置D10包括本文中揭示的麦克风阵列R100的实施方案中的任一者的实例,且本文中揭示的音频感测装置中的任一者可实施为装置D10的实例。装置D10还包括设备A200,其为如本文中所揭示的设备A100的实施方案(例如,设备A100、A104、A106、A108和/或MF100)和/或经配置以通过执行如本文中所揭示的方法M100的实施方案(例如,方法M100或M102)来处理多信道音频信号MCS。设备A200可实施于硬件中和/或软件(例如,固件)中。举例来说,设备A200可经实施以在装置D10的处理器上执行。
图7B展示为装置D10的实施方案的通信装置D20的框图。装置D20包括芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),其包括设备A200。芯片/芯片组CS10可包括一个或一个以上处理器,其可经配置以执行设备A200的全部或部分(例如,作为指令)。芯片/芯片组CS10还可包括阵列R100的处理元件(例如,如以下描述的音频预处理级AP10的元件)。芯片/芯片组CS10包括:接收器,其经配置以接收射频(RF)通信信号并解码且再现编码于所述RF信号内的音频信号;发射器,其经配置以编码基于由设备A200产生的已处理信号的音频信号且发射描述经编码的音频信号的RF通信信号。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多信道信号中的一个或一个以上信道执行如上所述的噪声减少操作,使得经编码的音频信号基于已减少噪声的信号。
阵列R100的每一麦克风可具有全向、双向或单向(例如,心形)响应。可用于阵列R100中的各种类型的麦克风包括(但不限于)压电式麦克风、动态麦克风和驻极体麦克风。在用于便携式语音通信的装置(例如,手持机或头戴式耳机)中,阵列R100的邻近麦克风之间的中心到中心间距通常在约1.5cm到约4.5cm的范围中,但在例如手持机或智能型电话的装置中,较大间距(例如,高达10cm或15cm)也是可能的,且在例如平板计算机的装置中,甚至更大的间距(例如,高达20cm、25cm或30cm或更大)是可能的。阵列R100的麦克风可沿着一条线排列(具有均匀或不均匀的麦克风间距)或者排列成其中心位于二维(例如,三角形)或三维形状的顶点处。
明确地指出,可将麦克风更一般地实施为对除声音以外的辐射或发射敏感的传感器。在一个此实例中,将麦克风对实施为一对超音波传感器(例如,对大于十五千赫、二十千赫、二十五千赫、三十千赫、四十千赫或五十千赫或更大的声响频率敏感的传感器)。
图8A到8D展示多麦克风音频感测装置D10的便携式实施方案D100的各种视图。装置D100为无线头戴式耳机,其包括载有阵列R100的两麦克风实施方案的外壳Z10和从所述外壳延伸的听筒Z20。此装置可经配置以经由与例如蜂窝式电话手持机等电话装置(例如,使用如由美国华盛顿州贝尔维的蓝牙技术联盟公司(Bluetooth SpecialInterest Group,Inc.,Bellevue,WA))颁布的BluetoothTM协议的一版本)进行的通信来支持半双工或全双工电话技术。一般来说,头戴式耳机的外壳可为矩形或其它细长形的(如在图8A、8B和8D中所展示)(例如,形状像小型吊杆),或可能更圆或甚至为环形。外壳还可封围电池和处理器和/或其它处理电路(例如,印刷电路板和安装于其上的组件),且可包括电端口(例如,小型通用串行总线(USB)或用于电池充电的其它端口)以及例如一个或一个以上按钮开关和/或LED的用户接口特征。通常,外壳沿着其主轴线的长度在一英寸到三英寸的范围中。
通常,阵列R100的每一麦克风安装于装置内的在外壳中充当声端口的一个或一个以上小孔后面。图8B到8D展示用于装置D100的阵列的主要麦克风的声端口Z40和用于装置D100的阵列的次要麦克风的声端口Z50的位置。
头戴式耳机还可包括通常可从耳机拆卸的紧固装置,例如耳钩Z30。外部耳钩可为可反转的(例如)以允许用户配置所述头戴式耳机以便在任一耳朵上使用。或者,可将头戴式耳机的听筒设计为内部紧固装置(例如,耳塞),其可包括可卸除式听筒以允许不同用户使用不同大小(例如,直径)的听筒来更好地配合特定用户的耳道的外部分。
图9A到9D展示多麦克风音频感测装置D10的便携式实施方案D200(无线头戴式耳机的另一实例)的各种视图。装置D200包括圆的椭圆形外壳Z12和可配置为耳塞的听筒Z22。图9A到9D还展示用于装置D200的阵列的主要麦克风的声端口Z42和用于装置D200的阵列的次要麦克风的声端口Z52的位置。有可能次要麦克风端口Z52可至少部分被封闭(例如,通过用户接口按钮)。
图10A展示多麦克风音频感测装置D10的便携式实施方案D300(通信手持机)的横截面图(沿着中心轴线)。装置D300包括具有主要麦克风MC10和次要麦克风MC20的阵列R100的实施方案。在此实例中,装置D300还包括主要扬声器SP10和次要扬声器SP20。此装置可经配置以经由一种或一种以上编码和解码方案(也称为“编解码器”)无线地发射和接收语音通信数据。此类编解码器的实例包括:增强型可变速率编解码器,如2007年2月的题目为“Enhanced Variable Rate Codec,Speech Service Options 3,68,and70 for Wideband Spread Spectrum Digital Systems”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C(v1.0)中所描述(可在www-dot-3gpp-dot-org线上获得);可选择模式声码器话音编解码器,如2004年1月的题目为“Selectable Mode Vocoder(SMV)ServiceOption for Wideband Spread Spectrum Communication Systems”的3GPP2文献C.S0030-0(v3.0)中所描述(可在www-dot-3gpp-dot-org线上获得);自适应性多速率(AMR)话音编解码器,如文献ETSI TS 126 092 V6.0.0(欧洲电信标准学会(ETSI),Sophia AntipolisCedex,FR,2004年12月)中所描述;以及AMR宽带话音编解码器,如文献ETSI TS126 192 V6.0.0(ETSI,2004年12月)中所描述。
在图10A的实例中,手持机D300为掀盖型蜂窝式电话手持机(也称为“翻盖”手持机)。此多麦克风通信手持机的其它配置包括直板型、滑盖型和触控式屏幕电话手持机,且可根据这些格式中的任一者来实施装置D10。图10B展示装置D300的实施方案D310的横截面图,装置D300的实施方案D310包括阵列R100的三麦克风实施方案(包括第三麦克风MC30)。
图11A展示多麦克风音频感测装置D10的便携式实施方案D400(媒体播放器)的图。此装置可经配置以用于重放经压缩的音频或视听信息,例如根据标准压缩格式(例如,动画专家组(MPEG)-1音频层3(MP3)、MPEG-4第14部分(MP4)、Windows媒体音频/视频(WMA/WMV)(Microsoft Corp.,Redmond,WA))的一版本、进阶式音频译码(AAC)、国际电信联盟(ITU)-T H.264或类似者)编码的文件或流。装置D400包括安置于装置的正面上的显示屏SC10和扬声器SP10,且阵列R100的麦克风MC10和MC20安置于装置的同一面上(例如,如在此实例中安置于顶面的相对侧上,或安置于正面的相对侧上)。图11B展示装置D400的另一实施方案D410,其中麦克风MC10和MC20安置于装置的相对面上,且图11C展示装置D400的再一实施方案D420,其中麦克风MC10和MC20安置于装置的邻近面上。媒体播放器还可经设计使得较长的轴线在预期使用期间为水平的。
图12A展示多麦克风音频感测装置D10的实施方案D500(免手持车载套件)的图。此装置可经配置以安装于仪表板、挡风玻璃、后视镜、遮光板或运输工具的另一内表面中或上,或以可卸除方式固定到仪表板、挡风玻璃、后视镜、遮光板或运输工具的另一内表面。举例来说,可能需要将此装置定位于前座乘客前面,并且在司机的遮光板与乘客的遮光板之间(例如,在后视镜中或上)。装置D500包括扬声器85和阵列R100的实施方案。在此特定实例中,装置D500包括阵列R100的四麦克风实施方案R102。此装置可经配置以经由一个或一个以上编解码器(例如上文列出的实例)无线地发射和接收语音通信数据。作为替代或另外,此装置可经配置以经由与例如蜂窝式电话手持机等电话装置(例如,使用如上所述的BluetoothTM协议的一版本)进行的通信来支持半双工或全双工电话技术。
图12B展示多麦克风音频感测装置D10的便携式实施方案D600(电笔或书写装置(例如,钢笔或铅笔))的图。装置D600包括阵列R100的实施方案。此装置可经配置以经由一个或一个以上编解码器(例如上文列出的实例)无线地发射和接收语音通信数据。作为替代或另外,此装置可经配置以经由与例如蜂窝式电话手持机和/或无线头戴式耳机等装置(例如,使用如上所述的BluetoothTM协议的一版本)进行的通信来支持半双工或全双工电话技术。装置D600可包括一个或一个以上处理器,其经配置以执行空间选择性处理操作以减少由阵列R100产生的信号中的刮擦噪声82的电平,刮擦噪声82可由装置D600的尖端在绘图表面81(例如,一张纸)上的移动引起。
阵列R100的非线性四麦克风实施方案的实例包括排成一行的三个麦克风,其中在中心麦克风与外部麦克风中的每一者之间有五厘米的间距,且另一麦克风定位于所述行上方四厘米处且离中心麦克风比离任一外部麦克风要近。此阵列的应用的一个实例为免手持车载套件D500的替代实施方案。
便携式计算装置的类别当前包括具有例如以下各者的名称的装置:膝上型计算机、笔记型计算机、迷你笔记型计算机、超轻便式计算机、平板计算机、移动因特网装置、智能本和智能型电话。此装置可具有包括显示屏的顶部面板和可包括键盘的底部面板,其中所述两个面板按掀盖或其它铰链关系相连接。
图13A展示装置D10的此便携式计算实施方案D700的实例的正视图。装置D700包括阵列R100的实施方案,其具有在显示屏SC10上方按线性阵列排列于顶部面板PL10上的四个麦克风MC10、MC20、MC30、MC40。图13B展示顶部面板PL10的俯视图,其在另一维度中展示四个麦克风的位置。图13C展示包括阵列R100的实施方案的此便携式计算装置D710的另一实例的正视图,其中四个麦克风MC10、MC20、MC30、MC40在显示屏SC10上按非线性方式排列于顶部面板PL12上。图13D展示顶部面板PL12的俯视图,其在另一维度中展示四个麦克风的位置,其中麦克风MC10、MC20和MC30安置于面板的正面上,且麦克风MC40安置于面板的背面上。
可预期,用户在使用期间可能在此装置D700或D710前面从一侧移动到另一侧、朝向装置移动和远离装置而移动,且/或甚至围绕装置(例如,从装置的前部到后部)移动。可能需要在此装置内实施装置D10以提供在近场话音的保持与远场干扰的衰减之间的合适折衷,且/或提供在不需要的方向上的非线性信号衰减。可能需要选择线性麦克风配置以获得最小语音失真,或选择非线性麦克风配置以获得较好的噪声减少。
在阵列R100的四麦克风实例的另一实例中,麦克风按大致为四面体的配置排列,使得一个麦克风定位于顶点由其它三个麦克风(间隔约三厘米)的位置界定的三角形后面(例如,约一厘米)。此阵列的潜在应用包括在免提电话模式下操作的手持机,对于所述模式,说话者的嘴部与阵列之间的预期距离约为二十厘米到三十厘米。图14A展示包括阵列R100的此实施方案的手持机D300的实施方案D320的正视图,其中四个麦克风MC10、MC20、MC30、MC40按大致为四面体的配置排列。图14B展示手持机D320的侧视图,其展示麦克风MC10、MC20、MC30和MC40在所述手持机内的位置。
用于手持机应用的阵列R100的四麦克风实例的另一实例在手机的正面上包括三个麦克风(例如,在小键盘的1、7和9位置附近)且在手机背面上包括一个麦克风(例如,在小键盘的7或9位置后面)。图14C展示包括阵列R100的此实施方案的手持机D300的实施方案D330的正视图,其中四个麦克风MC10、MC20、MC30、MC40按“星形”配置排列。图14D展示手持机D330的侧视图,其展示麦克风MC10、MC20、MC30和MC40在所述手持机内的位置。装置D10的其它实例包括手持机D320和D330的触控式屏幕实施方案(例如,实施为平坦的非折叠块,例如,iPhone(美国加州丘珀蒂诺的苹果公司,Apple Inc.,Cupertino,CA)、HD2(中华民国台湾的HTC公司,HTC,Taiwan,ROC)或CLIQ(美国伊利诺斯州绍姆堡的摩托罗拉公司,Motorola,Inc.,Schaumberg,IL)),其中麦克风按类似方式排列于触控式屏幕的周边上。
图15展示用于手持式应用的多麦克风音频感测装置D10的便携式实施方案D800的图。装置D800包括触控式屏幕显示器、用户接口选择控制器(左侧)、用户接口导航控制器(右侧)、两个扬声器,和阵列R100的实施方案(包括三个前部麦克风和一后部麦克风)。用户接口控制器中的每一者可使用按钮、轨迹球、点按式选盘、触控板、操纵杆和/或其它指向装置等中的一者或一者以上来实施。可在浏览通话模式或玩游戏模式下使用的装置D800的典型大小约为十五厘米乘二十厘米。装置D10可类似地实施为在顶表面上包括触控式屏幕显示器的平板计算机(例如,“slate”,例如,iPad(Apple,Inc.)、Slate(美国加州帕罗奥多市汉诺威街的惠普公司,Hewlett-Packard Co.,Palo Alto,CA)或Streak(美国德克萨斯州圆石城的戴尔公司,Dell Inc.,Round Rock,TX)),其中阵列R100的麦克风安置于顶表面的边缘内和/或平板计算机的一个或一个以上侧表面上。
多信道记录信号内的回响能量倾向于随着在所要声源与阵列R100之间的距离增加而增加。可能需要实践方法M100的另一应用为音频和/或视频会议。图16A到16D展示装置D10的会议实施方案的若干实例的俯视图。图16A包括阵列R100的三麦克风实施方案(麦克风MC10、MC20和MC30)。图16B包括阵列R100的四麦克风实施方案(麦克风MC10、MC20、MC30和MC40)。图16C包括阵列R100的五麦克风实施方案(麦克风MC10、MC20、MC30、MC40和MC50)。图16D包括阵列R100的六麦克风实施方案(麦克风MC10、MC20、MC30、MC40、MC50和MC60)。可能需要将阵列R100的麦克风中的每一者定位于规则多边形的相应顶点处。用于远端音频信号的再现的扬声器SP10可包括于装置中(例如,如图16A中所示),且/或此扬声器可与装置分开定位(例如,以减少声反馈)。
可能需要装置D10的会议实施方案针对每一麦克风对或至少针对每一作用中的麦克风对而执行方法M100的实施方案的单独实例(例如,以分别对一个以上近端说话者的每一语音去除回响)。在此情况下,还可能需要装置组合(例如,混合)各种已去除回响的话音信号,然后发射到远端。
在装置D100的会议应用的另一实例中,阵列R100的水平线性实施方案包括于电视或机顶盒的前面板内。此装置可经配置以通过对来自在离阵列约一米到三米或四米的位置前面和周围的区域内说话的人(例如,看电视的观众)的近端源信号进行定位和去除回响来支持电话通信。明确地揭示了本文中所揭示的系统、方法和设备的适用性不限于图8A到16D中所展示的特定实例。
在多麦克风音频感测装置(例如,装置D100、D200、D300、D400、D500或D600)的操作期间,阵列R100产生多信道信号,其中每一信道基于所述麦克风中的一个相应麦克风对声环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得相应信道相互不同,以共同提供比使用单一麦克风可俘获到的表示更完整的声环境表示。
可能需要阵列R100对由麦克风产生的信号执行一个或一个以上处理操作以产生多信道信号MCS。图17A展示阵列R100的实施方案R200的框图,其包括经配置以执行一个或一个以上此类操作的音频预处理级AP10,此类操作可包括(但不限于)阻抗匹配、模/数转换、增益控制和/或在模拟域和/或数字域中滤波。
图17B展示阵列R200的实施方案R210的框图。阵列R210包括音频预处理级AP10的实施方案AP20,其包括模拟预处理级P10a和P10b。在一个实例中,级P10a和P10b各自经配置以对相应的多信道信号执行高通滤波操作(例如,截止频率为50Hz、100Hz或200Hz)。
可能需要阵列R100将多信道信号产生为数字信号,即,产生为样本的序列。举例来说,阵列R210包括模/数转换器(ADC)C10a和C10b,其各自经配置以对相应的模拟信道进行取样。声响应用的典型取样率包括8kHz、12kHz、16kHz和在约8kHz到约16kHz的范围中的其它频率,但也可使用高达约44kHz的取样率。在此特定实例中,阵列R210也包括数字预处理级P20a和P20b,其各自经配置以对相应的数字化信道执行一个或一个以上预处理操作(例如,回音消除、噪声减少和/或频谱成形)以产生多信道信号MCS的相应信道MCS-1、MCS-2。虽然图17A和17B展示两信道实施方案,但应理解,可将相同原理扩展到任意数目个麦克风和多信道信号MCS的相应信道。
本文中揭示的方法和设备可通常应用于任何收发和/或音频感测应用中,尤其是此类应用的移动或其它便携式实例。举例来说,本文中揭示的配置的范围包括驻留于经配置以使用码分多址(CDMA)无线接口的无线电话技术通信系统中的通信装置。然而,所属领域的技术人员应理解,具有如本文中所描述的特征的方法和设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道使用网络电话(VoIP)的系统。
明确地期望且在此揭示:本文中所揭示的通信装置可适于供包交换式网络(例如,经布置以根据例如VoIP等协议携载音频发射的有线和/或无线网络)和/或电路交换式网络中使用。还明确地期望且在此揭示:本文中所揭示的通信装置可适于供窄带译码系统(例如,编码约为四千赫或五千赫的音频频率范围的系统)中使用,和/或供宽带译码系统(例如,编码大于五千赫的音频频率的系统)中使用,宽带译码系统包括完整频带宽带译码系统和分割式频带宽带译码系统。
提供所描述配置的以上陈述以使任何所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理也可适用于其它配置。因此,本发明不希望限于以上所展示的配置,而是应被赋予与本文中以任何方式揭示的原理和新颖特征相一致的最广泛范围,包括在所申请的所附权利要求书中,权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,在以上描述全篇中可能提及的数据、指令、命令、信息、信号、位和符号可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子或者其任何组合来表示。
对于如本文中揭示的配置的实施重要的设计要求可包括使处理延迟和/或计算复杂性(通常按每秒百万个指令或MIPS测量得)最小化,尤其是对于计算密集型应用,例如,对于高于八千赫的取样率(例如,12kHz、16kHz或44kHz)下的语音通信的应用。
如本文中揭示的设备(例如,设备A100、A104、A106、A108、MF100、A200)的实施方案的各种元件可体现于被认为是适合于所期望应用的硬件、软件和/或固件的任何组合中。举例来说,此类元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且这些元件的任一者可实施为一个或一个以上此类阵列。这些元件的任何两者或两者以上或甚至全部可实施于相同的阵列内。此类阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文中揭示的设备(例如,设备A100、A104、A106、A108、MF100、A200)的各种实施方案的一个或一个以上元件还可整体或部分地实施为一个或一个以上指令集合,所述一个或一个以上指令集合经布置以在逻辑元件的一个或一个以上固定或可编程阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)上执行。如本文中揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或指令序列的一个或一个以上阵列的机器,也称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类计算机内。
用于如本文中揭示的处理的处理器或其它装置可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且这些元件的任一者可实施为一个或一个以上此类阵列。此类阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。此类阵列的实例包括逻辑元件的固定或可程序阵列,例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。用于如本文中揭示的处理的处理器或其它装置还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中描述的处理器执行不直接与相干性检测程序有关的任务或执行不直接与相干性检测程序有关的其它指令集合,例如,与嵌入有处理器的装置或系统(例如,音频感测装置)的另一操作有关的任务。还有可能由音频感测装置的处理器执行如本文中揭示的方法的一部分且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。
技术人员应了解,结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。可通过经设计以产生如本文中所揭示的配置的通用处理器、数字信号处理器、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行此类模块、逻辑块、电路和操作。举例来说,此配置可至少部分地实施为硬连线电路、实施为制造于专用集成电路中的电路配置、或实施为载入到非易失性存储器中的固件程序或作为机器可读码从数据存储媒体载入或载入到数据存储媒体中的软件程序,此码为可由逻辑元件的阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任一常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,数字信号处理器与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器结合数字信号处理器核心或者任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。将说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留于用户终端中。
注意,本文中揭示的各种方法(例如,方法M100、M102)可由例如处理器等逻辑元件阵列执行,且如本文中描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,可将多个模块或系统组合成一个模块或系统且可将一个模块或系统分离为多个模块或系统来执行相同功能。当实施于软件或其它计算机可执行指令中时,处理程序的元素基本上为执行相关任务的码段,例如例程、程序、对象、组件、数据结构和类似者。术语“软件”应理解为包括原始码、汇编语言码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集合或指令序列,以及此类实例的任何组合。程序或码段可存储于处理器可读媒体中或在发射媒体或通信链路上通过体现于载波中的计算机数据信号来发射。
本文中揭示的方法、方案和技术的实施方案还可有形地体现为(举例来说,在如上文列出的一个或一个以上计算机可读媒体中)可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集合。术语“计算机可读媒体”可包括可存储或传送信息的任一媒体,包括易失性、非易失性、可卸除式和不可卸除式媒体。计算机可读媒体的实例包括:电子电路、计算机可读存储媒体(例如,ROM、可擦除ROM(EROM)、快闪存储器或其它半导体存储器装置;软盘、硬盘或其它磁性存储器;CD-ROM/DVD或其它光学存储器)、发射媒体(例如,光纤媒体、射频(RF)链路)或可经存取以获得所要信息的任一其它媒体。计算机数据信号可包括可在例如电子网络信道、光纤、空气、电磁、RF链路等发射媒体上传播的任何信号。可经由例如因特网或企业内部网络等计算机网络下载码段。在任一情况下,本发明的范围不应被理解为受此类实施例限制。
本文中所描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。还可将任务中的一者或一者以上(可能全部)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如,盘片、快闪存储卡或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集合),所述计算机程序产品可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话或具有此通信能力的其它装置)内执行所述任务。此装置可经配置以与电路交换式和/或包交换式网络(例如,使用例如VoIP等一种或一种以上协议)进行通信。举例来说,此装置可包括经配置以接收和/或发射经编码的帧的RF电路。
明确地揭示,本文中揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中描述的各种设备可包括于此装置内。典型的实时(例如,线上)应用为使用此移动装置进行的电话交谈。
在一个或一个以上示范性实施例中,本文中描述的操作可实施于硬件、软件、固件或其任何组合中。如果实施于软件中,那么可将此类操作作为一个或一个以上指令或代码而存储于计算机可读媒体上或在计算机可读媒体上发射。计算机可读媒体可为可由计算机存取的任一媒体。术语“计算机可读媒体”包括计算机可读存储媒体和通信(例如,发射)媒体两者。作为实例而非限制,计算机可读存储媒体可包含例如以下各者等存储元件的阵列:半导体存储器(其可包括(但不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储器;和/或磁盘存储器或其它磁性存储装置。此类存储媒体可存储呈指令或数据结构的形式的可由计算机存取的信息。通信媒体可包含可用以携载呈指令或数据结构的形式的所要程序代码且可由计算机存取的任一媒体,包括促进计算机程序从一处传送到另一处的任一媒体。并且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或无线技术(例如红外线、无线电和/或微波)从网站、服务器或其它远程源发射软件,那么同轴电缆、光缆、双绞线、DSL或无线技术(例如红外线、无线电和/或微波)包括于媒体的定义中。如本文中所使用,磁盘(Disk)和光盘(disc)包括紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和Blu-ray DiscTM(蓝光光盘协会,美国加州尤尼弗萨尔城(Blu-Ray DiscAssociation,Universal City,CA)),其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各者的组合也应包括于计算机可读媒体的范围内。
如本文中描述的声响信号处理设备可被并入到接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置(例如,通信装置)中。许多应用可受益于加强清楚的所要声音或将清楚的所要声音与来源于多个方向的背景声音分离。此类应用可包括在并入有例如语音辨识和检测、话音加强和分离、语言启动式控制等能力的电子或计算装置中的人机接口。可能需要实施此声响信号处理设备以使其在仅提供有限处理能力的装置中为合适的。
本文中描述的模块、元件和装置的各种实施方案的元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或门)的固定或可编程阵列。本文中描述的设备的各种实施方案的一个或一个以上元件还可整体或部分地实施为一个或一个以上指令集合,所述一个或一个以上指令集合经布置以在逻辑元件的一个或一个以上固定或可编程阵列(例如,微处理器、嵌式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行。
有可能使用如本文中所描述的设备的实施方案的一个或一个以上元件执行不直接与装设备的操作有关的任务或执行不直接与设备的操作有关的指令集合(例如,与嵌入有所述设备的装置或系统的另一操作有关的任务)。此设备的实施方案的一个或一个以上元件还有可能具有共同的结构(例如,用以在不同时间执行对应于不同元件的码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集合,或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。

Claims (30)

1.一种处理包括定向分量的多信道信号的方法,所述方法包含:
对第一信号执行第一方向选择性处理操作以产生残余信号;
对第二信号执行第二方向选择性处理操作以产生经增强信号;
基于来自所述已产生的残余信号的信息,计算房间响应转移函数的反函数的多个滤波器系数;以及
对所述经增强信号执行去除回响操作以产生已去除回响的信号,
其中所述去除回响操作基于所述计算出的多个滤波器系数,且
其中所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道,且
其中所述对所述第一信号执行所述第一方向选择性处理操作包括相对于所述第一信号的总能量减少所述第一信号内的所述定向分量的能量,且
其中所述对所述第二信号执行所述第二方向选择性处理操作包括相对于所述第二信号的总能量增加所述第二信号内的所述定向分量的能量。
2.根据权利要求1所述的方法,其中所述第一方向选择性处理操作为盲源分离操作。
3.根据权利要求1所述的方法,其中所述第一方向选择性处理操作为空值波束成形操作。
4.根据权利要求1所述的方法,其中所述第一方向选择性处理操作包含:
针对所述第一信号的多个不同频率分量中的每一者,计算在所述第一信号的第一信道中的所述频率分量的相位与在所述第一信号的第二信道中的所述频率分量的相位之间的差,以及
基于所述第一信号中的所述计算出的相位差,使所述第一信号的所述多个不同频率分量当中的至少一者的电平相对于所述第一信号的所述多个不同频率分量当中的另一者的电平衰减,
其中所述衰减包含使用互补遮蔽来遮蔽来自所述第一信号内的所述定向分量的能量。
5.根据权利要求1所述的方法,其中所述第一方向选择性处理操作包含:
针对所述第一信号的多个不同频率分量中的每一者,计算在所述第一信号的第一信道中的所述频率分量的相位与在所述第一信号的第二信道中的所述频率分量的相位之间的差;以及
基于满足特定准则的所述所计算的相位差的数目,指示所述定向分量是否在所述第一信号内处于作用中。
6.根据权利要求1-5中任一权利要求所述的方法,其中所述执行所述去除回响操作包含在时域中将所述所计算的多个滤波器系数与基于所述经增强信号的信号求卷积。
7.根据权利要求1-5中任一权利要求所述的方法,其中所述第二方向选择性处理操作为盲源分离操作。
8.根据权利要求1-5中任一权利要求所述的方法,其中所述第二方向选择性处理操作为波束成形操作。
9.根据权利要求1-5中任一权利要求所述的方法,其中所述第二方向选择性处理操作包含:
针对所述第二信号的多个不同频率分量中的每一者,计算在所述第二信号的第一信道中的所述频率分量的相位与在所述第二信号的第二信道中的所述频率分量的相位之间的差;以及
基于满足特定准则的所述所计算的相位差的数目,指示所述定向分量是否在所述第二信号内处于作用中。
10.根据权利要求1所述的方法,其中所述方法包含对所述多信道信号执行盲源分离操作,且
其中所述盲源分离操作包括所述第一和第二方向选择性处理操作,且
其中所述第一信号为所述多信道信号,且所述第二信号为所述多信道信号。
11.根据权利要求1-5以及10中任一权利要求所述的方法,其中所述计算所述多个滤波器系数包含使自回归模型拟合于所述已产生的残余信号。
12.根据权利要求1-5以及10中任一权利要求所述的方法,其中所述计算多个滤波器系数包含将所述多个滤波器系数计算为自回归模型的参数,所述自回归模型基于所述已产生的残余信号。
13.根据权利要求1-5以及10中任一权利要求所述的方法,其中所述去除回响操作在两千赫与三千赫之间的平均增益响应比所述去除回响操作在三百赫兹与四百赫兹之间的平均增益响应至少大三分贝。
14.根据权利要求1-5以及10中任一权利要求所述的方法,其中对于所述第一和第二方向选择性处理操作当中的至少一者,在两千赫到三千赫的频率范围内与方向有关的所述操作的最小增益响应与所述操作的最大增益响应之间的绝对差大于在三百赫兹到四百赫兹的频率范围内与方向有关的所述操作的最小增益响应与所述操作的最大增益响应之间的绝对差。
15.一种用于处理包括定向分量的多信道信号的设备,所述设备包含:
用于对第一信号执行第一方向选择性处理操作以产生残余信号的装置;
用于对第二信号执行第二方向选择性处理操作以产生经增强信号的装置;
用于基于来自所述已产生的残余信号的信息计算房间响应转移函数的反函数的多个滤波器系数的装置;以及
用于对所述经增强信号执行去除回响操作以产生已去除回响的信号的装置,
其中所述去除回响操作基于所述计算出的多个滤波器系数,且
其中所述第一信号包括所述多信道信号的至少两个信道,且所述第二信号包括所述多信道信号的至少两个信道,且
其中所述用于对所述第一信号执行所述第一方向选择性处理操作的装置经配置以相对于所述第一信号的总能量减少所述第一信号内的所述定向分量的能量,且
其中所述用于对所述第二信号执行所述第二方向选择性处理操作的装置经配置以相对于所述第二信号的总能量增加所述第二信号内的所述定向分量的能量。
16.根据权利要求15所述的设备,其中所述第一方向选择性处理操作为盲源分离操作。
17.根据权利要求15所述的设备,其中所述第一方向选择性处理操作为空值波束成形操作。
18.根据权利要求15所述的设备,其中所述第一方向选择性处理操作包含:
针对所述第一信号的多个不同频率分量中的每一者,计算在所述第一信号的第一信道中的所述频率分量的相位与在所述第一信号的第二信道中的所述频率分量的相位之间的差,以及
基于所述第一信号中的所述计算出的相位差,使所述第一信号的所述多个不同频率分量当中的至少一者的电平相对于所述第一信号的所述多个不同频率分量当中的另一者的电平衰减,
其中所述衰减包含使用互补遮蔽来遮蔽来自所述第一信号内的所述定向分量的能量。
19.根据权利要求15所述的设备,其中所述第一方向选择性处理操作包含:
针对所述第一信号的多个不同频率分量中的每一者,计算在所述第一信号的第一信道中的所述频率分量的相位与在所述第一信号的第二信道中的所述频率分量的相位之间的差,以及
基于满足特定准则的所述所计算的相位差的数目,指示所述定向分量是否在所述第一信号内处于作用中。
20.根据权利要求15-19中任一权利要求所述的设备,其中所述执行所述去除回响操作包含在时域中将所述所计算的多个滤波器系数与基于所述经增强信号的信号求卷积。
21.根据权利要求15-19中任一权利要求所述的设备,其中所述用于对所述经增强信号执行去除回响操作以产生已去除回响的信号的装置是滤波器,所述滤波器经配置以在所述时域中将所述所计算的多个滤波器系数与基于所述经增强信号的信号求卷积。
22.根据权利要求15-19中任一权利要求所述的设备,其中所述第二方向选择性处理操作为盲源分离操作。
23.根据权利要求15-19中任一权利要求所述的设备,其中所述第二方向选择性处理操作为波束成形操作。
24.根据权利要求15-19中任一权利要求所述的设备,其中所述第二方向选择性处理操作包含:
针对所述第二信号的多个不同频率分量中的每一者,计算在所述第二信号的第一信道中的所述频率分量的相位与在所述第二信号的第二信道中的所述频率分量的相位之间的差;以及
基于满足特定准则的所述所计算的相位差的数目,指示所述定向分量是否在所述第二信号内处于作用中。
25.根据权利要求15所述的设备,其中所述设备包含用于对所述多信道信号执行盲源分离操作的装置,且
其中所述用于执行盲源分离操作的装置包括所述用于执行所述第一方向选择性处理操作的装置和所述用于执行所述第二方向选择性处理操作的装置,且
其中所述第一信号为所述多信道信号,且所述第二信号为所述多信道信号。
26.根据权利要求15-19以及25中任一权利要求所述的设备,其中所述用于计算所述多个滤波器系数的装置经配置以使自回归模型拟合于所述已产生的残余信号。
27.根据权利要求15-19以及25中任一权利要求所述的设备,其中所述用于计算多个滤波器系数的装置经配置以将所述多个滤波器系数计算为自回归模型的参数,所述自回归模型基于所述已产生的残余信号。
28.根据权利要求15-19以及25中任一权利要求所述的设备,其中所述去除回响操作在两千赫与三千赫之间的平均增益响应比所述去除回响操作在三百赫兹与四百赫兹之间的平均增益响应至少大三分贝。
29.根据权利要求15-19以及25中任一权利要求所述的设备,其中所述用于对所述经增强信号执行去除回响操作以产生已去除回响的信号的装置是滤波器,且
其中所述滤波器在两千赫与三千赫之间的平均增益响应比所述滤波器在三百赫兹与四百赫兹之间的平均增益响应至少大三分贝。
30.根据权利要求15-19以及25中任一权利要求所述的设备,其中对于所述第一和第二方向选择性处理操作当中的至少一者,在两千赫到三千赫的频率范围内与方向有关的所述操作的最小增益响应与所述操作的最大增益响应之间的绝对差大于在三百赫兹到四百赫兹的频率范围内与方向有关的所述操作的最小增益响应与所述操作的最大增益响应之间的绝对差。
CN2010800482216A 2009-09-07 2010-09-07 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 Expired - Fee Related CN102625946B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US24030109P 2009-09-07 2009-09-07
US61/240,301 2009-09-07
US12/876,163 2010-09-05
US12/876,163 US20110058676A1 (en) 2009-09-07 2010-09-05 Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
PCT/US2010/048026 WO2011029103A1 (en) 2009-09-07 2010-09-07 Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal

Publications (2)

Publication Number Publication Date
CN102625946A CN102625946A (zh) 2012-08-01
CN102625946B true CN102625946B (zh) 2013-08-14

Family

ID=43647782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800482216A Expired - Fee Related CN102625946B (zh) 2009-09-07 2010-09-07 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体

Country Status (6)

Country Link
US (1) US20110058676A1 (zh)
EP (1) EP2476117A1 (zh)
JP (1) JP5323995B2 (zh)
KR (1) KR101340215B1 (zh)
CN (1) CN102625946B (zh)
WO (1) WO2011029103A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8199922B2 (en) * 2007-12-19 2012-06-12 Avaya Inc. Ethernet isolator for microphonics security and method thereof
WO2012159217A1 (en) * 2011-05-23 2012-11-29 Phonak Ag A method of processing a signal in a hearing instrument, and hearing instrument
JP5699844B2 (ja) * 2011-07-28 2015-04-15 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US9037090B2 (en) 2012-02-07 2015-05-19 Empire Technology Development Llc Signal enhancement
DE202013005408U1 (de) * 2012-06-25 2013-10-11 Lg Electronics Inc. Mikrophonbefestigungsanordnung eines mobilen Endgerätes
US9767818B1 (en) * 2012-09-18 2017-09-19 Marvell International Ltd. Steerable beamformer
US8938041B2 (en) * 2012-12-18 2015-01-20 Intel Corporation Techniques for managing interference in multiple channel communications system
US9183829B2 (en) * 2012-12-21 2015-11-10 Intel Corporation Integrated accoustic phase array
US9191736B2 (en) * 2013-03-11 2015-11-17 Fortemedia, Inc. Microphone apparatus
US8896475B2 (en) 2013-03-15 2014-11-25 Analog Devices Technology Continuous-time oversampling pipeline analog-to-digital converter
US9232332B2 (en) * 2013-07-26 2016-01-05 Analog Devices, Inc. Microphone calibration
TW201507489A (zh) * 2013-08-09 2015-02-16 Nat Univ Tsing Hua 利用陣列麥克風消除迴聲的方法
US9848260B2 (en) * 2013-09-24 2017-12-19 Nuance Communications, Inc. Wearable communication enhancement device
JP6204618B2 (ja) * 2014-02-10 2017-09-27 ボーズ・コーポレーションBose Corporation 会話支援システム
US9312840B2 (en) * 2014-02-28 2016-04-12 Analog Devices Global LC lattice delay line for high-speed ADC applications
US10595144B2 (en) 2014-03-31 2020-03-17 Sony Corporation Method and apparatus for generating audio content
CA2953619A1 (en) 2014-06-05 2015-12-10 Interdev Technologies Inc. Systems and methods of interpreting speech data
CN104144269B (zh) * 2014-08-08 2016-03-02 西南交通大学 一种基于解相关的成比例自适应电话回声消除方法
KR20170063618A (ko) * 2014-10-07 2017-06-08 삼성전자주식회사 전자 장치 및 이의 잔향 제거 방법
US9699549B2 (en) * 2015-03-31 2017-07-04 Asustek Computer Inc. Audio capturing enhancement method and audio capturing system using the same
US9762221B2 (en) 2015-06-16 2017-09-12 Analog Devices Global RC lattice delay
CN106935246A (zh) * 2015-12-31 2017-07-07 芋头科技(杭州)有限公司 一种基于麦克风阵列的人声获取方法及电子设备
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
US9820042B1 (en) * 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10079027B2 (en) * 2016-06-03 2018-09-18 Nxp B.V. Sound signal detector
JP7095854B2 (ja) * 2016-09-05 2022-07-05 日本電気株式会社 端末装置およびその制御方法
US10375473B2 (en) * 2016-09-20 2019-08-06 Vocollect, Inc. Distributed environmental microphones to minimize noise during speech recognition
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
US10171102B1 (en) 2018-01-09 2019-01-01 Analog Devices Global Unlimited Company Oversampled continuous-time pipeline ADC with voltage-mode summation
CN108564962B (zh) * 2018-03-09 2021-10-08 浙江大学 基于四面体麦克风阵列的无人机声音信号增强方法
WO2019223603A1 (zh) * 2018-05-22 2019-11-28 出门问问信息科技有限公司 一种语音处理方法、装置及电子设备
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN111726464B (zh) * 2020-06-29 2021-04-20 珠海全志科技股份有限公司 一种多通道回声滤除方法、滤除装置和可读存储介质
CN111798827A (zh) * 2020-07-07 2020-10-20 上海立可芯半导体科技有限公司 回声消除方法、装置、系统和计算机可读介质
CN112037813B (zh) * 2020-08-28 2023-10-13 南京大学 一种针对大功率目标信号的语音提取方法
CN112435685B (zh) * 2020-11-24 2024-04-12 深圳市友杰智新科技有限公司 强混响环境的盲源分离方法、装置、语音设备和存储介质
US11133814B1 (en) 2020-12-03 2021-09-28 Analog Devices International Unlimited Company Continuous-time residue generation analog-to-digital converter arrangements with programmable analog delay
CN112289326B (zh) * 2020-12-25 2021-04-06 浙江弄潮儿智慧科技有限公司 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法
CN113488067B (zh) * 2021-06-30 2024-06-25 北京小米移动软件有限公司 回声消除方法、装置、电子设备和存储介质
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
JP7545373B2 (ja) 2021-09-09 2024-09-04 株式会社日立国際電気 通話機器
KR102628500B1 (ko) * 2021-09-29 2024-01-24 주식회사 케이티 대면녹취단말장치 및 이를 이용한 대면녹취방법
CN117135517B (zh) * 2023-03-22 2024-08-20 荣耀终端有限公司 一种耳机

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578138A (zh) * 2003-06-28 2005-02-09 卓联半导体股份有限公司 降低复杂度的自适应滤波器
CN1716381A (zh) * 2004-06-30 2006-01-04 微软公司 用循环正则化作多通道回声的消除

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247788A (ja) * 1996-03-13 1997-09-19 Sony Corp 音声処理装置および会議用音声システム
JPH09261133A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧方法および装置
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
JP2000276193A (ja) * 1999-03-24 2000-10-06 Matsushita Electric Ind Co Ltd 反復型エコー除去法を応用した信号源分離方法及びこの方法を記録した記録媒体
WO2001037519A2 (en) * 1999-11-19 2001-05-25 Gentex Corporation Vehicle accessory microphone
DK1154674T3 (da) * 2000-02-02 2009-04-06 Bernafon Ag Kredslöb og fremgangsmåde til adaptiv stöjundertrykkelse
US6771723B1 (en) * 2000-07-14 2004-08-03 Dennis W. Davis Normalized parametric adaptive matched filter receiver
US7054451B2 (en) * 2001-07-20 2006-05-30 Koninklijke Philips Electronics N.V. Sound reinforcement system having an echo suppressor and loudspeaker beamformer
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4173469B2 (ja) * 2004-08-24 2008-10-29 日本電信電話株式会社 信号抽出方法、信号抽出装置、拡声装置、送話装置、受信装置、信号抽出プログラム、これを記録した記録媒体
JP4473709B2 (ja) * 2004-11-18 2010-06-02 日本電信電話株式会社 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2006234888A (ja) * 2005-02-22 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP4422692B2 (ja) * 2006-03-03 2010-02-24 日本電信電話株式会社 伝達経路推定方法、残響除去方法、音源分離方法、これらの装置、プログラム、記録媒体
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP4854533B2 (ja) * 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP4891805B2 (ja) * 2007-02-23 2012-03-07 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
US8160273B2 (en) 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
EP2058804B1 (en) * 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578138A (zh) * 2003-06-28 2005-02-09 卓联半导体股份有限公司 降低复杂度的自适应滤波器
CN1716381A (zh) * 2004-06-30 2006-01-04 微软公司 用循环正则化作多通道回声的消除

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
auml *
GUANGJI SHI ET AL."Phase-Based Dual-Microphone Speech Enhancement Using A Prior Speech Model".《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》.2007,109-118.
GUANGJI SHI ET AL."Phase-Based Dual-Microphone Speech Enhancement Using A Prior Speech Model".《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》.2007,109-118. *
HABETS E A P ET AL."Dual-Microphone Speech Dereverberation using a Reference Signal".《 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》.2007,IV-901.
HABETS E A P ET AL."Dual-Microphone Speech Dereverberation using a Reference Signal".《 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》.2007,IV-901. *
HABETS E."Multi-Channel Speech Dereverberation Based on a Statistical Model of Late Reverberation".《2005 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》.2005,第4卷173-176.
HABETS E."Multi-Channel Speech Dereverberation Based on a Statistical Model of Late Reverberation".《2005 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》.2005,第4卷173-176. *
Markus Buck, Eberhard H&amp *
Markus Buck, Eberhard H&auml
nsler, Mohamed Krini, Gerhard Schmidt."Acoustic Array Processing for Speech Enhancement".《Wiley-IEEE Press》.2009,231-268.
nsler, Mohamed Krini, Gerhard Schmidt."Acoustic Array Processing for Speech Enhancement".《Wiley-IEEE Press》.2009,231-268. *
WANLONG LI ET A."Microphone array speech enhancement system combining ICA preprocessing in highly noisy environments".《 AUDIO, LANGUAGE AND IMAGE PROCESSING, 2008》.2008,649-652.
WANLONG LI ET A."Microphone array speech enhancement system combining ICA preprocessing in highly noisy environments".《 AUDIO, LANGUAGE AND IMAGE PROCESSING, 2008》.2008,649-652. *

Also Published As

Publication number Publication date
KR20120054087A (ko) 2012-05-29
CN102625946A (zh) 2012-08-01
EP2476117A1 (en) 2012-07-18
JP2013504283A (ja) 2013-02-04
JP5323995B2 (ja) 2013-10-23
KR101340215B1 (ko) 2013-12-10
US20110058676A1 (en) 2011-03-10
WO2011029103A1 (en) 2011-03-10

Similar Documents

Publication Publication Date Title
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN102763160B (zh) 用于稳健噪声降低的麦克风阵列子组选择
CN103295579B (zh) 用于一致性检测的系统、方法和设备
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
EP2508009B1 (en) Device and method for capturing and processing voice
CN102461203B (zh) 用于对多信道信号进行基于相位的处理的系统、方法及设备
US9291697B2 (en) Systems, methods, and apparatus for spatially directive filtering
CN103180900B (zh) 用于话音活动检测的系统、方法和设备
Aarabi et al. Phase-based dual-microphone robust speech enhancement
CN103026733A (zh) 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130814

Termination date: 20190907

CF01 Termination of patent right due to non-payment of annual fee