CN107645696A

CN107645696A - 一种啸叫检测方法和装置

Info

Publication number: CN107645696A
Application number: CN201610576227.XA
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-07-20
Filing date: 2016-07-20
Publication date: 2018-01-30
Anticipated expiration: 2036-07-20
Also published as: US10339953B2; EP3451697B1; EP3451697A4; EP3451697A1; CN107645696B; WO2018014673A1; US20180330744A1

Abstract

本申请公开了一种啸叫检测方法和装置。对音频信号进行分窗处理得到多个分析窗。针对其中至少一个分析窗，获取所述分析窗中预设的各频点的信号能量指示值；利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值。各频点对应的感知系数表示人耳对各频点声音的敏感程度。根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫。

Description

一种啸叫检测方法和装置

技术领域

本申请涉及音频处理领域，特别涉及一种啸叫检测方法和装置。

背景技术

啸叫是指在使用拾音器(如麦克风等)的场合中出现的一种尖锐、刺耳的声音。啸叫一般是由于放音器(如音响、喇叭等)输出的声音不断被拾音器捕捉后回到放音器，由放音器的功率放大器放大后输出，如此往复，从而产生的声音正反馈现象。现有的啸叫抑制方案通过检测输出信号的能量来判断是否发生啸叫，从而对啸叫进行抑制。

发明内容

本申请实施例提供了一种啸叫检测方法和装置，通过将人耳对不同频点声音的敏感程度纳入啸叫检测方案，使得检测结果更准确。

本申请各实施例的一种啸叫检测方法可以包括：

对音频信号进行分窗处理得到多个分析窗，针对其中至少一个分析窗执行如下处理：

获取所述分析窗中预设的各频点的信号能量指示值；及

利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值，其中，所述各频点对应的感知系数表示人耳对各频点声音的敏感程度；

及

根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫。

本申请各实施例的一种啸叫检测装置可以包括：

分窗模块，用于对音频信号进行分窗处理得到多个分析窗；

计算模块，用于针对所述多个分析窗中的至少一个分析窗执行如下处理：获取所述分析窗中预设的各频点的信号能量指示值；利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值，其中，所述各频点对应的感知系数表示人耳对各频点的敏感程度；

判断模块，用于根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫。

根据本申请实施例的技术方案，由于考虑了心理声学感知因素，对测得的音频各频点的能量进行加权，从而更符合人耳感知特性，啸叫检测结果更准确。

附图说明

图1是本申请实施例的一种啸叫检测方法的流程图；

图2为一个例子中计算得到的感知系数图；

图3为本发明实施例的一种确啸叫检测方法的流程图；

图4为本发明一种啸叫检测装置的示意图。

具体实施方式

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本发明的方案进行阐述。但本文并未示出所有实施方式。实施例中大量的细节仅用于帮助理解本发明的方案，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。说明书和权利要求书中的“包括”是指某种程度上至少包括，应当解释为除了包括之后提到的特征外，其它特征也可以存在。

各实施例将人耳对不同频率声音的敏感程度纳入检测方案，对音频信号各频点的信号能量指示值进行加权处理，根据加权后的信号能量指示值(以下简称为感知能量指示值)进行啸叫检测，使得检测结果更符合人耳的听觉特点，从而更加准确。

图1是本申请实施例的一种啸叫检测方法的流程图。该方法10可以包括以下步骤。

步骤S11，对音频信号进行分窗处理得到多个分析窗。

步骤S12，针对其中至少一个分析窗执行如下处理：获取所述分析窗中预设的各频点的信号能量指示值，并利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值。

步骤S13，根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫。

这样，通过根据心理声学感知因素对测得的音频各频点的能量进行计算，从而更符合人耳感知特性，啸叫检测结果更准确。

各实施例的方案可以应用在各种使用拾音设备和放音设备的场景中，例如音视频通话、广播、会议，以及各种使用扩音器的现场活动，等。

一些实施例中，由于一些音频处理装置只能处理有限长度的信号，因此在步骤S11中可以对音频信号进行分窗处理，使之成为一段一段的音频信号，即多个分析窗，每次可以仅对一个分析窗内的音频信号进行处理。分窗处理通常使用时长为10ms或20ms的分析窗，窗函数可以选用汉宁窗、汉明窗，等。

信号能量指示值是指可以指示音频信号的能量大小的值。一些例子中，信号能量指示值可以是信号能量、信号功率等。信号能量或者功率可以通过信号测量得到。一些例子中，信号能量指示值还可以是对信号能量或者信号功率经过预定的算法处理得到的值。具体的算法可以根据需要设定，这里不进行限定。

由于啸叫是一种主观感受，人耳对同样能量的不同频率的声音的感受是不一样的。例如，有的频点位于人耳敏感的频带，虽然该频点上的声音能量测量值并不高，但人耳已经能明显感知，形成了啸叫。本申请各实施例利用各频点的感知系数对各频点的信号能量指示值进行加权处理，得到感知能量指示值。感知能量指示值可以指示人耳感受到的声音强弱程度。

其中，每个频点对应一个频率值或者一段频带。例如，有频点0，1，2，。。。M，M为大于1的整数，频点1可以对应频率值为100-200Hz的频率。这里仅仅是个例子，各实施例中选取的频点的数量可以不同，也可以对应不同频率值或频带。频点的数量和各频点的频率值(频点对应频带时，则指对应频带的中心频率值)可以根据需要来确定。例如，在人耳较敏感的频段可以选取较多频点，等。当选择的频点越多、越密，检测结果更准确，当然也意味着更大的计算量和处理复杂度。

各频点的感知系数表示人耳对各频点声音的敏感程度，可以根据经验设定，也可以根据实验来确定，或者可以通过其它途径确定。

一些例子中，可以设定，在人耳敏感的频率范围内，例如1000Hz到4000Hz，对于任一对第一频点和第二频点，当所述第一频点高于所述第二频点时，所述第一频点对应的感知系数大于所述第二频点对应的感知系数。各感知系数的值可以根据需要来设定。

一些例子中，设定的感知系数与各频点之间的关系符合等响曲线的规律。等响曲线是用于描述等响度条件下声压级与声波频率的关系曲线。响度表示一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响，即相同强度、不同频率的声音对于人耳有着不一样的听觉感知。国际声学标准组织测定了声学等响曲线图，给出了在不同频率下的纯音需要达到何种声压级，才能获得对听者来说一致的听觉响度。感知系数可以参考等响曲线图来设定。例如，感知系数可以基于BS3383标准《BS 3383 Specificationfor normal equal-loudness level contours for pure tones under free-fieldlistening conditions》的心理声学等响曲线数据计算得到。

下面给出一个采用线性插值法对现有等响曲线数据进行插值，得到预设频点的响度值的计算方法。

afy(freq)＝af(k-1)+(freq-ff(k-1))*(af(k)-af(k-1))/(ff(k)-ff(k-1))；(公式1)

bfy(freq)＝bf(k-1)+(freq-ff(k-1))*(bf(k)-bf(k-1))/(ff(k)-ff(k-1))；(公式2)

cfy(freq)＝cf(k-1)+(freq-ff(k-1))*(cf(k)-cf(k-1))/(ff(k)-ff(k-1))；(公式3)

loud(freq)＝4.2+afy*(dB-cfy)/(1+bfy*(dB-cfy))；(公式4)

cof(freq)＝(10^loud(freq)/20)/1000；(公式5)

其中，freq为需要计算感知系数的频点的频率值(例如，频点对应的频带的中心频率值)；k为现有等响曲线数据表中的频率序号值(即频点值)，等响曲线数据表中每个频率序号值对应一个频率值；频率值freq小于等于等响曲线数据表中频率序号值k对应的频率值，且大于等于频率序号值k-1对应的频率值；ff、af、bf、cf为BS3383公开的等响曲线数据表内的数据；loud(freq)表示频点freq的响度，cof(freq)表示频点freq对应的感知系数。图2为一个例子中计算得到的感知系数图。

一些例子中，步骤S13中，针对所述至少一个分析窗中的每个分析窗，可以根据所述分析窗中各频点的感知能量指示值确定所述分析窗的啸叫指示值，并将所述分析窗的啸叫指示值与预设的啸叫阈值进行比较。如果所述至少一个分析窗中有预设数目个分析窗的啸叫指示值与所述啸叫阈值的比较结果符合预设条件，确定发生啸叫。

啸叫指示值用于指示发生啸叫的概率。啸叫指示值可以根据各频点的感知能量指示值并采用预定的算法来计算得出，具体的算法这里不作限定。有的例子中，啸叫指示值越大，表示发生啸叫的可能性越大；有的例子中，啸叫指示值越小，表示发生啸叫的可能性越大。

例如，啸叫指示值可以是音频信号的谱熵。具体地，可以根据所述分析窗中各频点的感知能量指示值按以下公式确定所述分析窗中信号的谱熵：

其中，表示所述分析窗中的信号在第m个频点的概率密度函数；表示所述分析窗中的信号在频点m的感知能量指示值；p(m)表示所述分析窗中频点m的信号能量指示值；cof(fc(m))表示频点m对应的感知系数，fc(m)表示频点m的中心频率，m＝0,1,2,…,M-1，j＝0,1,2,…,M-1，M为预设频点的总数。即，当总共有M各频点时，各频点的编号m可以依次为0，1，2，。。。，M-1。

其它例子中，频点可以有其它的编号方法，例如，各频点的编号m可以依次为1，2，3，。。。，M，等，则上述公式需要根据频点编号情况进行相应调整。

在这个例子中，谱熵的值越小，说明发生啸叫的可能性越大。因此，本例中，啸叫指示值与啸叫阈值的比较结果符合预设条件是指，谱熵的值小于啸叫阈值。一些例子中，如果所述分析窗中信号的谱熵小于所述啸叫阈值，则确定发生啸叫。另一些例子中，可以通过多个分析窗的比较结果来增加检测结果的准确性，即，如果所述至少一个分析窗中有预设数目个分析窗中信号的谱熵小于所述啸叫阈值，确定发生啸叫。

又例如，啸叫指示值可以是音频信号的峰均比。具体地，可以根据所述分析窗中各频点的感知能量指示值确定所述分析窗中信号的峰均比：

Rpm＝Peak/PM (公式7)

其中，表示所述分析窗中各频点的感知能量指示值的峰值；表示所述分析窗中的信号在频点m的感知能量指示值；p(m)表示所述分析窗中频点m的信号能量指示值；cof(fc(m))表示频点m对应的感知系数，fc(m)表示频点m的中心频率；表示所述分析窗中各频点的感知能量指示值的均值；m＝0,1,2,…,M-1，j＝0,1,2,…,M-1，M为预设频点的总数。

在这个例子中，峰均比的值越大，说明发生啸叫的可能性越大。因此，本例中，啸叫指示值与啸叫阈值的比较结果符合预设条件是指，峰均比的值大于啸叫阈值。一些例子中，如果所述分析窗中信号的峰均比大于所述啸叫阈值，则确定发生啸叫。另一些例子中，可以通过多个分析窗的比较结果来增加检测结果的准确性，即，如果所述至少一个分析窗中有预设数目个分析窗中信号的峰均比大于所述啸叫阈值，确定发生啸叫。

当通过多个分析窗的比较结果来确定是否发生啸叫时，这多个分析窗可以是连续的多个分析窗，或者是有间隔的多个分析窗。

例如，当预设数目个连续的分析窗的比较结果符合预设条件，确定发生啸叫。

又例如，可以设置第一计数值和第二计数值，所述第一计数值和所述第二计数值的值为各自的预设初始值。如果当前分析窗的啸叫指示值与所述啸叫阈值的比较结果符合预设条件，在第一计数值上增加预设第一步长值。如果所述分析窗的啸叫指示值与所述啸叫阈值的比较结果不符合预设条件，在第二计数值上增加预设第二步长值。当所述第一计数值等于预设第一数值时，确定发生啸叫。当第二计数值达到预设第二数值时，将所述第一计数值恢复为初始值。其中，第一步长值、第二步长值、第一数值和第二数值可以根据具体需要预先设置。

图3为本发明实施例的一种确啸叫检测方法的流程图。该方法30可以包括以下步骤。

在执行该方法前，可以设置第一计数值和第二计数值，并设置一变量i。例如，第一计数值和第二计数值的初始值可以设为0，i的初始值可以设为1。

步骤S31，对输入音频信号进行分窗处理，得到多帧信号。

这里，一帧信号是指一个分析窗中的信号。

步骤S32，对第i帧信号做快速傅立叶变换(FFT)，求出第i帧信号中各频点的信号能量值p(i,m)，m为频点的编号，m＝0,1,2,…,M-1，M为总频点数。

步骤S33，将第i帧信号各频点的信号能量值p(i,m)乘以针对各频点预设的感知系数，得到各频点的感知能量值p'(i,m)。

p'(i,m)＝p(i,m)*cof(fc(m)) (公式8)

其中，cof(fc(m))为频点m对应的感知系数，fc(m)为的频点m中心频率值。

步骤S34，计算第i帧信号的谱熵H(i)。

其中，Pd(i,m)为第i帧信号的第m个频点的概率密度函数，可以根据公式10计算：

本例中，采用谱熵H(i)作为啸叫指示值。其它例子中，还可以采用其它计算方法获得的值作为啸叫指示值，例如可以计算频点的能量峰均比作为啸叫指示值，等。啸叫指示值的计算方法可以根据需要设计，任何可行的算法都可以采用，这里不进行限定。

步骤S35，判断谱熵H(i)是否小于预设的谱熵阈值T0，如果是，则执行步骤S36；如果否，则执行步骤S38。

步骤S36，对第一计数值加1，判断第一计数值是否等于预设的第一数值；如果是，则执行步骤S37；如果否，执行步骤S40。

步骤S37，确定发生啸叫。

步骤S38，对第二计数值加1，判断第二计数值是否等于预设的第二数值；如果是，执行步骤S39；如果否，执行步骤S40。

步骤S39，将第一计数值和第二计数值清零。

步骤S40，对i加1，执行步骤S32。

各实施例中，谱熵阈值T0、预设第一数值和预设第二数值可以根据实际情况或者根据经验确定。例如，预设第一数值可以为3，预设第二数值可以为5。

本发明实施例还提供一种啸叫检测装置。图4为本发明一种啸叫检测装置的示意图。该装置40可以包括4处理器41、通信接口44、存储装置46和总线49。存储装置46中包括操作系统47、通信模块48，以及啸叫检测模块43。

处理器41可以有一个或者多个，可以在同一个物理设备中，或者分布在多个物理设备中。

啸叫检测装置40可以利用通信接口44通过输入的音频信号，并通过通信接口44将啸叫检测结果提供给其它设备。

啸叫检测模块43可以包括分窗模块431、计算模块432和判断模块433。

分窗模块431，用于对音频信号进行分窗处理得到多个分析窗。

计算模块432，用于针对所述多个分析窗中的至少一个分析窗执行如下处理：获取所述分析窗中预设的各频点的信号能量指示值；利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值，其中，所述各频点对应的感知系数表示人耳对各频点的敏感程度。

判断模块433，用于根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫。

一些例子中，判断模块433可以：

针对所述至少一个分析窗中的每个分析窗，根据所述分析窗中各频点的感知能量指示值确定所述分析窗的啸叫指示值，所述啸叫指示值用于指示发生啸叫的概率；

将所述分析窗的啸叫指示值与预设的啸叫阈值进行比较；

如果所述至少一个分析窗中有预设数目个分析窗的比较结果符合预设条件，确定发生啸叫。

一些例子中，判断模块433可以：

当连续的预设数目个分析窗的比较结果符合预设条件，确定发生啸叫。

判断模块433可以采用各实施例的方法来计算啸叫指示值，这里不再赘述。

一些例子中，判断模块433可以：

设置第一计数值和第二计数值，所述第一计数值和所述第二计数值的值为各自的预设初始值；

如果所述分析窗的啸叫指示值与所述啸叫阈值的比较结果符合预设条件，在第一计数值上增加预设第一步长值；

如果所述分析窗的啸叫指示值与所述啸叫阈值的比较结果不符合预设条件，在第二计数值上增加预设第二步长值；

所述确定发生啸叫包括：

当所述第一计数值等于预设第一数值时，确定发生啸叫；

当第二计数值达到预设第二数值时，将所述第一计数值恢复为初始值。

计算模块432和判断模块433的具体功能可以参见上文中相应的方法步骤，这里不再赘述。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。另外，上面描述中采用“第一”、“第二”仅仅为了方便区分具有同一含义的两个对象，并不表示其有实质的区别。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

图中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

非易失性计算机可读存储介质包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

综上所述，权利要求的范围不应局限于以上描述的例子中的实施方式，而应当将说明书作为一个整体并给予最宽泛的解释。

Claims

1.一种啸叫检测方法，其特征在于，包括：

获取所述分析窗中预设的各频点的信号能量指示值；及

及

2.根据权利要求1所述的方法，其特征在于，

在人耳敏感的频率范围内，对于任一对第一频点和第二频点，当所述第一频点高于所述第二频点时，所述第一频点对应的感知系数大于所述第二频点对应的感知系数。

3.根据权利要求1所述的方法，其特征在于，其特征在于，所述感知系数与各频点之间的关系符合等响曲线的规律。

4.根据权利要求1所述的方法，其特征在于，根据所述至少一个分析窗中各频点的感知能量指示值确定是否发生啸叫包括：

针对所述至少一个分析窗中的每个分析窗，根据所述分析窗中各频点的感知能量指示值确定所述分析窗的啸叫指示值，所述啸叫指示值用于指示发生啸叫的概率，并将所述分析窗的啸叫指示值与预设的啸叫阈值进行比较；

5.根据权利要求4所述的方法，其特征在于，所述确定发生啸叫包括：

当预设数目个连续的分析窗的比较结果符合预设条件，确定发生啸叫。

6.根据权利要求4所述的方法，其特征在于，进一步包括：

所述确定发生啸叫包括：

当所述第一计数值等于预设第一数值时，确定发生啸叫；

7.根据权利要求4所述的方法，其特征在于，根据所述分析窗中各频点的感知能量指示值确定所述分析窗的啸叫指示值包括：

根据所述分析窗中各频点的感知能量指示值按以下公式确定所述分析窗中信号的谱熵：

<mrow> <mi>H</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>P</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mn>1</mn> <mrow> <mi>P</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

其中，表示所述分析窗中的信号在第m个频点的概率密度函数；p'(m)＝p(m)×cof(fc(m))，表示所述分析窗中的信号在频点m的感知能量指示值；p(m)表示所述分析窗中频点m的信号能量指示值；cof(fc(m))表示频点m对应的感知系数，fc(m)表示频点m的中心频率，m＝0,1,2,…,M-1，j＝0,1,2,…,M-1，M为预设频点的总数；

如果所述至少一个分析窗中有预设数目个分析窗的啸叫指示值与所述啸叫阈值的比较结果符合预设条件，确定发生啸叫包括：

如果所述至少一个分析窗中有预设数目个分析窗中信号的谱熵小于所述啸叫阈值，确定发生啸叫。

8.根据权利要求4所述的方法，其特征在于，根据所述分析窗中各频点的感知能量指示值确定所述分析窗的啸叫指示值包括：

根据所述分析窗中各频点的感知能量指示值确定所述分析窗中信号的峰均比：

Rpm＝Peak/PM，

其中，Peak＝Max(p'(m))，表示所述分析窗中各频点的感知能量指示值的峰值；p'(m)＝p(m)×cof(fc(m))，表示所述分析窗中的信号在频点m的感知能量指示值；p(m)表示所述分析窗中频点m的信号能量指示值；cof(fc(m))表示频点m对应的感知系数，fc(m)表示频点m的中心频率；表示所述分析窗中各频点的感知能量指示值的均值；m＝0,1,2,…,M-1，j＝0,1,2,…,M-1，M为预设频点的总数；

如果所述至少一个分析窗中有预设数目个分析窗中信号的峰均比大于所述啸叫阈值，确定发生啸叫。

9.一种啸叫检测装置，其特征在于，包括：

分窗模块，用于对音频信号进行分窗处理得到多个分析窗；

计算模块，用于针对所述多个分析窗中的至少一个分析执行如下处理：获取所述分析窗中预设的各频点的信号能量指示值；利用预设的与所述各频点对应的感知系数分别对各频点的信号能量指示值进行计算，得到各频点的感知能量指示值，其中，所述各频点对应的感知系数表示人耳对各频点的敏感程度；

10.根据权利要求9所述的装置，其特征在于，所述判断模块用于：

将所述分析窗的啸叫指示值与预设的啸叫阈值进行比较；

11.根据权利要求10所述的装置，其特征在于，所述判断模块用于：

12.根据权利要求10所述的装置，其特征在于，所述判断模块用于：

所述确定发生啸叫包括：

当所述第一计数值等于预设第一数值时，确定发生啸叫；