CN115910062A

CN115910062A - 音频识别方法、装置、设备及存储介质

Info

Publication number: CN115910062A
Application number: CN202211493907.7A
Authority: CN
Inventors: 姚鹏; 黄劲文; 谈建超; 邓峰; 王晓瑞; 宋成儒
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-04

Abstract

本公开关于一种音频识别方法、装置、设备及存储介质，涉及计算机技术领域，用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。该音频识别方法包括：获取待识别音频数据；将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；目标识别模型包括多个目标音频识别模块；目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理；输入音频数据为基于待识别音频数据的音频特征数据；目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。

Description

音频识别方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音频识别方法、装置、设备及存储介质。

背景技术

方言识别技术是指从人类话语中识别出具体的方言类别，通常应用在语音处理系统的前端。例如，自动语音识别技术(automatic speech recognition，ASR)、多语言翻译系统和生物特征认证等。目前，主流的方言识别技术是通过有监督的形式训练深度学习模型，进而基于训练得到的模型实现对音频的语种或方言属性的判别。这类模型在处理音频数据时，通常是基于既定的多个处理模块对音频数据进行处理。

然而，音频数据的质量参差不齐，一些音频数据较清晰易于进行区分，一些音频数据的背景音嘈杂难以进行区分。若对这些数据均采用相同的处理流程，则容易造成计算资源和存储资源等资源的浪费，且效率较低。

发明内容

本公开提供一种音频识别方法、装置、设备及存储介质，用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种音频识别方法，包括：获取待识别音频数据；将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；目标识别模型包括多个目标音频识别模块；目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理；输入音频数据为基于待识别音频数据的音频特征数据；目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。

可选地，目标音频识别模块还用于在目标验证结果表征跳过目标音频识别模块对输入音频数据的识别处理时，将输入音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块；

或者，在目标验证结果表征不跳过目标音频识别模块对输入音频数据的识别处理时，对输入音频数据进行识别处理得到输出音频数据，将输出音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块。

可选地，该音频识别方法，还包括：获取多个样本音频数据和初始识别模型；初始识别模型包括多个初始音频识别模块；不同的初始音频识别模块用于执行不同的音频识别任务；对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型；更新操作用于为预设类型模块添加初始验证单元得到初始目标音频识别模块；初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围；根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型；预设损失函数为基于期望通过率生成的；期望通过率用于表示在更新后识别模型包括的多个预设类型模块中，期望跳过的预设类型模块的占比。

可选地，预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种；对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型的方法，具体包括：将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块；分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，得到包括多个初始目标音频识别模块的更新后识别模型；初始目标音频识别模块用于基于初始验证单元对待处理音频数据进行验证得到初始验证结果，并对待处理音频数据进行识别处理得到处理后音频数据，基于初始验证结果对待处理音频数据和处理后音频数据进行加权求和，得到输出结果，将输出结果输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块。

可选地，根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型的方法，具体包括：获取包括预设数量的样本音频数据的样本子集合；样本子集合为基于多个样本音频数据划分得到的；将样本子集合输入至更新后识别模型中进行识别处理，确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量；基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率，确定样本子集合对应的损失值；在损失值小于或等于预设阈值时，分别将各初始目标音频识别模块的处理逻辑，更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程，得到包括多个目标音频识别模块的目标识别模型。

可选地，获取待识别音频数据的方法，具体包括：接收终端发送的待识别内容数据；待识别内容数据包括至少一段语音内容；对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据。

可选地，对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据的方法，具体包括：分别确定至少一段语音内容对应的开始时刻和终止时刻；基于各段语音内容对应的开始时刻和终止时刻进行拼接，得到待识别音频数据。

可选地，在将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果之后，该音频识别方法，还包括：确定与识别结果对应的待推荐内容数据；向终端发送待推荐内容数据。

根据本公开实施例的第二方面，提供一种音频识别装置，包括：获取单元和处理单元；获取单元，被配置为执行获取待识别音频数据；处理单元，被配置为执行将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；目标识别模型包括多个目标音频识别模块；目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理；输入音频数据为基于待识别音频数据的音频特征数据；目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。

可选地，获取单元，还被配置为执行获取多个样本音频数据和初始识别模型；初始识别模型包括多个初始音频识别模块；不同的初始音频识别模块用于执行不同的音频识别任务；处理单元，还被配置为执行对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型；更新操作用于为预设类型模块添加初始验证单元得到初始目标音频识别模块；初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围；处理单元，还被配置为执行根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型；预设损失函数为基于期望通过率生成的；期望通过率用于表示在更新后识别模型包括的多个预设类型模块中，期望跳过的预设类型模块的占比。

可选地，预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种；处理单元，具体还被配置为执行：将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块；分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，得到包括多个初始目标音频识别模块的更新后识别模型；初始目标音频识别模块用于基于初始验证单元对待处理音频数据进行验证得到初始验证结果，并对待处理音频数据进行识别处理得到处理后音频数据，基于初始验证结果对待处理音频数据和处理后音频数据进行加权求和，得到输出结果，将输出结果输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块。

可选地，处理单元，具体还被配置为执行：获取包括预设数量的样本音频数据的样本子集合；样本子集合为基于多个样本音频数据划分得到的；将样本子集合输入至更新后识别模型中进行识别处理，确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量；基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率，确定样本子集合对应的损失值；在损失值小于或等于预设阈值时，分别将各初始目标音频识别模块的处理逻辑，更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程，得到包括多个目标音频识别模块的目标识别模型。可选地，获取单元，具体被配置为执行：接收终端发送的待识别内容数据；待识别内容数据包括至少一段语音内容；对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据。

可选地，处理单元，具体被配置为执行：分别确定至少一段语音内容对应的开始时刻和终止时刻；基于各段语音内容对应的开始时刻和终止时刻进行拼接，得到待识别音频数据。

可选地，该音频识别装置，还包括：确定单元；确定单元，被配置为执行确定与识别结果对应的待推荐内容数据；向终端发送待推荐内容数据。

根据本公开实施例的第三方面，提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地音频识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中任一种可选地音频识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备的处理器上运行时，使得电子设备执行如第一方面中任一种可选地实现方式所述的音频识别方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开中，服务器在获取待识别音频数据后，可以将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果。由于目标识别模型包括多个目标音频识别模块，目标音频识别模块可以基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果，且目标验证结果可以用于表征是否跳过对输入音频数据的识别处理。因此，本公开中的目标识别模型可以在对待识别音频数据的识别处理过程中，基于各目标音频识别模块所对应的目标验证结果，跳过一个或多个目标音频识别模块的识别处理。并且，不同的目标音频识别模块所对应的目标验证单元中的目标特征范围也可能不同。因此，本公开通过目标识别模型确定待识别音频数据的识别结果时，可以实现根据待识别音频数据所具备的特征动态化地调整参与识别处理的识别模块数量，以基于最适合待识别音频数据的模型深度确定待识别音频数据的识别结果，从而避免模型过拟合问题，提升模型性能。

这样一来，相比于通用技术中基于既定的多个处理模块对音频数据进行处理的方式，本公开可以基于最适合待识别音频数据的模型深度确定待识别音频数据的识别结果。并且，由于验证音频数据是否符合特征范围的耗时远远小于识别处理的耗时，因此，本公开可以明显地提升目标识别模型的运算效率，节约线上部署资源。因此，本公开可以解决通用技术中存在的模型处理效率较低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种音频识别系统的结构示意图；

图2示出了本公开实施例提供的一种终端的结构示意图一；

图3示出了本公开实施例提供的一种音频识别方法的流程示意图一；

图4示出了本公开实施例提供的一种识别模块的结构示意图一；

图5示出了本公开实施例提供的一种音频识别方法的流程示意图二；

图6示出了本公开实施例提供的一种音频识别方法的流程示意图三；

图7示出了本公开实施例提供的一种识别模块的结构示意图二；

图8示出了本公开实施例提供的一种音频识别方法的流程示意图四；

图9示出了本公开实施例提供的一种识别模块的结构示意图三；

图10示出了本公开实施例提供的一种音频识别方法的流程示意图五；

图11示出了本公开实施例提供的一种音频识别方法的流程示意图六；

图12示出了本公开实施例提供的一种音频识别方法的流程示意图七；

图13示出了本公开实施例提供的一种音频识别方法的流程示意图八；

图14示出了本公开实施例提供的一种音频识别装置的结构示意图；

图15示出了本公开实施例提供的一种终端的结构示意图二；

图16示出了本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据，均为经用户授权或者经过各方充分授权的信息和数据。

方言识别技术是指从人类话语中识别出具体的方言类别，通常应用在语音处理系统的前端。例如，ASR、多语言翻译系统和生物特征认证等。目前，主流的方言识别技术是通过有监督的形式训练深度学习模型，进而基于训练得到的模型实现对音频的语种或方言属性的判别，从而使得音频或视频得到更全面的理解和信息描述。方言识别技术在当下社交内容平台中也有重要的应用，通过提取短视频和直播中的方言信息，算法工程师能够提升推荐社交内容平台的个性化推荐能力，更准确地将短视频或直播视频与用户连接起来，提升用户时长和用户活跃度。除此之外，在风险控制等相关业务中，方言识别技术也可以帮助挖掘出高危短视频和直播，提升审核人员工作效率。

传统的方言识别技术是基于高斯混合模型-通用背景模型(Gaussian mixturemodel-Universal background model，GMM-UBM)的高斯混合统计模型，判断语音属于哪个语种或者方言。该方法简单快速但性能较差。随着深度学习技术的崛起以及大规模音频数据的产生，时延神经网络(time delay neural network，TDNN)逐步成为主流，展现出较强的语言识别能力。目前，基于TDNN的各种改进版本也层出不穷，具有代表性的是ECAPA-TDNN模型，它引入Res2Net结构和注意力机制，大幅提升了模型对语言的区分性能。

然而，这类模型在处理音频数据时，通常是基于既定的多个处理模块对音频数据进行处理。但是，音频数据的质量参差不齐，一些音频数据较清晰易于进行区分，一些音频数据的背景音嘈杂难以进行区分。若对这些数据均采用相同的处理流程，则容易造成计算资源和存储资源等资源的浪费，且效率较低。

基于此，本公开实施例提供一种音频识别方法，服务器在获取待识别音频数据后，可以将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果。由于目标识别模型包括多个目标音频识别模块，目标音频识别模块可以基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果，且目标验证结果可以用于表征是否跳过对输入音频数据的识别处理。因此，本公开中的目标识别模型可以在对待识别音频数据的识别处理过程中，基于各目标音频识别模块所对应的目标验证结果，跳过一个或多个目标音频识别模块的识别处理。并且，不同的目标音频识别模块所对应的目标验证单元中目标特征范围也可能不同。因此，本公开通过目标识别模型确定待识别音频数据的识别结果时，可以实现根据待识别音频数据所具备的特征动态化地调整参与识别处理的识别模块数量，以基于最适合待识别音频数据的模型深度确定待识别音频数据的识别结果，从而避免模型过拟合问题，提升模型性能。

图1为本公开实施例提供的一种音频识别系统示意图，如图1所示，该音频识别系统100可以包括：服务器101和终端102。服务器101和终端102之间可以基于有线网络或无线网络进行通信连接。

图1中的服务器101可以配置有用于对音频数据进行识别的目标识别模型的资源文件，以实现音频识别功能。

一种可能的方式中，工作人员可以预先将初始识别模型、预设损失函数、多个样本音频数据等数据的资源文件设置在服务器101中。

一种可能的方式中，服务器101还可以包含有数据库或与数据库连接，本公开中的用于对音频数据进行识别的目标识别模型和初始识别模型等的资源文件可以存储于数据库中。

可选地，图1中的服务器101可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。

可选地，图1中的终端102可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备等可以安装并使用内容社区应用的设备，本公开对该终端的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

可选地，上述图1所示的音频识别系统中，服务器101可以与至少一个终端102进行通信连接。本公开对终端102的数量及类型均不作限制。

本公开实施例提供的音频识别方法可以应用于前述图1所示的应用场景中的服务器101。

结合图1，如图2所示，为本公开实施例提供的一种终端102的结构示意图。终端102可以配置有输入模块21、显示模块22和通信模块23。其中，输入模块21可以是鼠标和键盘等计算机外接输入设备。显示模块22可以是液晶显示屏等设备，用于显示音频数据等。通信模块23可以是收发器一类的装置，可以用于终端102和服务器101之间进行通信连接。

下面结合附图对本公开实施例提供的音频识别方法进行详细介绍。

如图3所示，当音频识别方法应用于服务器时，该音频识别方法可以包括：S301-S302。

S301、服务器获取待识别音频数据。

一种可能的方式中，待识别音频数据可以是一段预设时长的音频数据。例如，待识别音频数据可以是一段5秒的语音。或者，待识别音频数据也可以是一段5秒的音乐。

一种可能的方式中，服务器可以从特定视频数据或者特定音频数据中提取到待识别音频数据。特定视频数据可以是游戏类视频数据、体育类视频数据和说唱类视频数据等视频数据。特定音频数据可以是小说类音频数据和新闻类视频数据等音频数据。

结合图2，在需要对特定视频数据或者特定音频数据进行识别，以确定特定视频数据或者特定音频数据的类型(例如方言类型、语种类型或者音乐类型等)时，用户可以通过终端配置的输入模块，执行用于指示对特定视频数据或者特定音频数据进行识别的确认识别操作(例如点击确认按钮)。响应于用户执行的确认识别操作，终端可以向服务器发送特定视频数据或者特定音频数据。相应的，服务器可以接收到特定视频数据或者特定音频数据。

或者，在用户通过终端配置的社交内容服务客户端浏览特定视频数据或者收听特定音频数据的过程中，终端可以实时地向服务器发送特定视频数据或者特定音频数据。相应的，服务器可以接收到特定视频数据或者特定音频数据。

接着，服务器可以识别特定视频数据或者特定音频数据中的一段或者多段语音内容，并分别确定这一段或者多段语音内容对应的开始时刻和结束时刻。接着，服务器可以基于这一段或者多段语音内容对应的开始时刻和结束时刻，截取到这一段或者多段语音内容，并分别将这一段或者多段语音内容处理成音频流，并进一步拼接得到预设时长的待识别音频数据。

S302、服务器将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果。

一种可能的方式中，工作人员可以预先为服务器配置用于识别音频数据的方言类型或者语种类型的目标识别模型。

其中，目标识别模型可以包括多个目标音频识别模块。并且，在包括多个目标音频识别模块以外，目标识别模型还可以包括多个初始音频识别模块。多个目标音频识别模块和多个初始音频识别模块可以用于执行不同的音频识别任务，即可以用于对输入音频数据进行不同的识别处理。例如，基于不同参数的去噪处理、变换处理和平滑处理等类型的识别处理。

需要说明的是，初始音频识别模块在接收到输入音频数据时，可以直接对输入音频数据进行识别处理得到输出音频数据，并将输出音频数据输入至与该初始音频识别模块相邻、且位于该初始音频识别模块之后的下一音频识别模块。即下一个初始音频识别模块或者目标音频识别模块。

如图4所示，与初始音频识别模块不同的是，目标音频识别模块可以用于基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果。目标验证结果可以用于表征是否跳过目标音频识别模块对输入音频数据的识别处理。进一步地，目标音频识别模块还可以用于在目标验证结果表征跳过目标音频识别模块对输入音频数据的识别处理时，将输入音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块，或者，在目标验证结果表征不跳过目标音频识别模块对输入音频数据的识别处理时，对输入音频数据进行识别处理得到输出音频数据，将输出音频数据输入至与目标音频识别模块相邻、且位于目标音频识别模块之后的下一音频识别模块。

也就是说，目标音频识别模块会先基于对应的目标验证单元对输入音频数据进行验证，并在输入音频数据通过目标验证单元的验证时不进行目标音频识别模块对输入音频数据的识别处理，在输入音频数据未通过验证单元的验证时进行目标音频识别模块对输入音频数据的识别处理。

一种可能的方式中，目标验证单元可以用于验证输入音频数据的音频信号特征是否符合目标特征范围。进一步地，输入音频数据的音频信号特征符合目标特征范围时，可以表明该输入音频数据较简单或者内容较少易于识别，不需要目标音频识别模块进行识别处理。输入音频数据的音频信号特征不符合目标特征范围时，可以表明该输入音频数据较复杂或者内容较多难以识别，需要目标音频识别模块进行识别处理。

可选地，输入音频数据的音频信号特征可以是波长、带宽和谐波数量等特征。在音频信号特征是波长时，目标特征范围可以是波长范围(例如10厘米至15厘米等)。在音频信号特征是带宽时，目标特征范围可以是带宽范围(例如5厘米至10厘米等)。在音频信号特征是谐波数量时，目标特征范围可以是谐波数量范围(例如10个至50个等)。本公开实施例对此不作限定。

进一步地，不同的目标音频识别模块中的目标验证单元，所具备的目标特征范围可以相同，也可以不相同。例如，预设目标识别模型包括第一目标音频识别模块和第二目标音频识别模块，且与第一目标音频识别模块对应的目标验证单元中，目标特征范围可以是输入音频数据的谐波数量范围符合20个至50个。则与第二目标音频识别模块对应的目标验证单元中，目标特征范围可以是输入音频数据的谐波数量范围符合20个至50个。或者，与第二目标音频识别模块对应的目标验证单元中，目标特征范围也可以是输入音频数据的谐波数量范围符合40个至50个。

基于此，若待识别音频数据符合一个或多个目标音频识别模块对应的目标特征范围，则目标识别模型在对待识别音频数据进行处理的过程中，可以跳过一个或多个目标音频识别模块，从而节省整个处理过程的耗时。

一种可能的方式中，输入音频数据可以是基于待识别音频数据的音频特征数据。具体而言，当输入音频数据为输入至目标识别模型中按照处理逻辑排列的首个识别模块的音频数据时，输入音频数据即为待识别音频数据。当输入音频数据为输入至目标识别模型中，除首个识别模块以外的其他识别模块的音频数据时，输入音频数据可以是待识别音频数据经一个或多个识别模块处理后的音频数据。

一种可以实现的方式中，在获取到待识别音频数据后，服务器可以将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果。后续，服务器可以向终端发送同类方言或者同类语种的视频数据或者音频数据，以使得终端向用户展示这些数据，从而更好地满足用户喜好，提升用户体验。

一种可能的示例中，在目标识别模型用于识别音频数据的方言类型时，识别结果可以用于表示待识别音频数据的方言类型为特定地点的方言(例如A地方言或者B地方言等)。在目标识别模型用于识别音频数据的方言类型时，识别结果可以用于表示待识别音频数据的语种类型为特定语种(例如汉语或者英语等)。

上述实施例提供的技术方案至少带来以下有益效果：由S301-S302可知，服务器在获取待识别音频数据后，可以将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果。由于目标识别模型包括多个目标音频识别模块，目标音频识别模块可以基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果，且目标验证结果可以用于表征是否跳过对输入音频数据的识别处理。因此，本公开中的目标识别模型可以在对待识别音频数据的识别处理过程中，基于各目标音频识别模块所对应的目标验证结果，跳过一个或多个目标音频识别模块的识别处理。并且，不同的目标音频识别模块所对应的目标验证单元中目标特征范围也可能不同。因此，本公开通过目标识别模型确定待识别音频数据的识别结果时，可以实现根据待识别音频数据所具备的特征动态化地调整参与识别处理的识别模块数量，以基于最适合待识别音频数据的模型深度确定待识别音频数据的识别结果，从而避免模型过拟合问题，提升模型性能。

在一种实施例中，如图5所示，本公开提供的音频识别方法，还包括：S401-S403，用于训练得到上述S302中涉及的目标识别模型。

S401、服务器获取多个样本音频数据和初始识别模型。

其中，初始识别模型包括多个初始音频识别模块。不同的初始音频识别模块用于执行不同的音频识别任务。例如，基于不同参数的去噪处理任务、变换处理任务和平滑处理任务等类型的识别任务。

需要说明的是，样本音频数据和待识别音频数据的区别在于具体内容不同，但类型相似、时长相同。例如，在待识别音频数据是预设时长的语音时，样本音频数据也为预设时长的语音。

一种可能的方式中，服务器可以存储有多个视频数据和多个音频数据。视频数据可以是游戏类视频数据、体育类视频数据和说唱类视频数据等视频数据。音频数据可以是小说类音频数据和新闻类视频数据等音频数据。基于此，服务器可以从存储的多个视频数据和/或多个音频数据中提取到多个样本音频数据。

应理解，服务器从多个视频数据和/或多个音频数据中提取到多个样本音频数据的方式，可以参考S301中服务器从特定视频数据或者特定音频数据中提取待识别音频数据的具体描述，在此不再赘述。

一种可能的方式中，服务器可以配置有存储模块，且存储模块中可以预先存储有初始识别模型的资源文件。基于此，服务器可以通过读取存储模块中存储的初始识别模型的资源文件，获取到初始识别模型。或者，工作人员也可以通过终端向服务器发送初始识别模型的资源文件。相应的，服务器可以接收到终端发送的初始识别模型的资源文件，以获取到初始识别模型。

可选地，初始识别模型可以是基于TDNN的音频数据识别模型，例如ECAPA-TDNN音频数据识别模型。或者，初始识别模型也可以基于其他算法或架构的音频数据识别模型。本公开实施例对此不作限制。

S402、服务器对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型。

一种可能的方式中，更新操作可以用于为预设类型模块添加初始验证单元得到初始目标音频识别模块。初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围。

一种可能的方式中，预设类型模块的类型可以由工作人员凭经验预先设置在服务器中。例如，卷积类型、激活类型和残差类型等类型。由于预设类型模块一般是模型中间层重复叠加的模块，通常不会改变特征图大小和维度等关键信息。因此，对于内容简单的音频数据来说，跳过这类模块的识别处理也并不会对识别结果产生实质性的影响。

可选地，预设类型模块可以是卷积类型模块，也可以是激活类型模块，还可以是残差类型模块。或者，还可以是批标准化(Batch Normalization，BN)层模块等。本公开实施例对此不作限制。

需要说明的是，对多个预设类型模块进行更新得到的多个初始目标音频识别模块，可以具备相同的初始验证单元。即各初始目标音频识别模块所具备的初始验证单元，可以基于相同的初始特征范围对输入音频数据进行验证。后续，服务器对更新后识别模型进行训练的过程中，初始验证单元中配置的初始特征范围可以基于损失函数不断变化并收敛，直至训练结束固定为目标特征范围。

一种可能的方式中，工作人员可以预先在服务器中设置用于实现更新操作的资源文件。基于此，在获取到初始识别模型后，服务器可以基于更新操作的资源文件，分别为多个初始音频识别模块中预设类型模块添加初始验证单元，得到更新后识别模型。

一种可能的方式中，工作人员也可以通过终端配置的输入模块，实时地对初始识别模型进行编辑操作，以分别为多个初始音频识别模块中的预设类型模块添加初始验证单元，得到更新后识别模型。

S403、服务器根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型。

需要说明的是，预设损失函数可以是基于期望通过率生成的。期望通过率可以用于表示在更新后识别模型包括的多个预设类型模块中，期望跳过的预设类型模块的占比。为了避免训练过程中跳过较多的初始目标音频识别模块，导致识别准确率降低的问题，可以考虑设置期望通过率允许跳过的初始目标音频识别模块的百分率，并进一步基于期望通过率设置预设损失函数，以使得更新后识别模型以学习的方式逐步收敛到指定的期望通过率。例如，预设损失函数可以是如下所示的函数：

其中，D为损失值。M为处理过程中跳过的初始目标音频识别模块的数量，即更新后识别模型进行识别处理得到识别结果的过程中，跳过的初始目标音频识别模块的数量，且为正整数。N为多个初始目标音频识别模块的总数量，且为正整数。r为期望通过率。

一种可以实现的方式中，在得到更新后识别模型后，服务器可以为更新后识别模型配置预设损失函数。接着，服务器可以将多个样本音频数据分批多次输入至更新后识别模型中，从而训练得到目标识别模型。

可选地，工作人员还可以预先在服务器中设置其他的用于训练更新后识别模型的超参数。例如，矩阵分解中潜在因素的数量等。本申请实施例对此不作限制。

上述实施例提供的技术方案至少带来以下有益效果：由S401-S403可知，服务器在获取到多个样本音频数据和初始识别模型后，可以对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型，并进一步根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型。由于更新后识别模型中包括多个具备初始验证单元的初始目标音频识别模块，因此，本公开基于多个样本音频数据、预设损失函数对更新后识别模型进行训练后，可以得到包括多个目标音频识别模块的目标识别模型，且目标音频识别模块可以基于训练得到的目标验证单元对音频数据进行验证，从而可以动态化地是否可以跳过目标音频识别模块的识别处理，避免模型过拟合问题，提升模型性能。

在一种实施例中，结合图5，在上述S402中，即服务器对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型时，如图6所示，本公开提供一种可选的实现方式，包括：S501-S502。

S501、服务器将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块。

一种可以实现的方式中，服务器可以分别确定多个初始音频识别模块是否为预设类型模块，并将为预设类型模块的初始音频识别模块确定为待更新识别模块，从而得到多个待更新识别模块。

一种可能的方式中，工作人员可以通过终端，预先对初始识别模型中的多个初始音频识别模块进行标注，分别对多个初始音频识别模块中的预设类型模块打上标签，并生成相应的标签文件。进一步地，工作人员可以将该标签文件配置在服务器中。基于此，服务器可以基于该标签文件将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块。

S502、服务器分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，得到包括多个初始目标音频识别模块的更新后识别模型。

一种可以实现的方式中，服务器可以在确定到多个待更新识别模块后，分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，将各待更新识别模块更新为初始目标音频识别模块，得到包括多个初始目标音频识别模块的更新后识别模型。

需要说明的是，初始目标音频识别模块用于并行执行基于初始验证单元对待处理音频数据进行验证得到初始验证结果，和对待处理音频数据进行识别处理得到处理后音频数据的流程。

进一步地，初始目标音频识别模块还可以基于初始验证结果对待处理音频数据和处理后音频数据进行加权求和，得到输出结果，将输出结果输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块。基于此，初始目标音频识别模块可以在初始验证结果表征跳过初始目标音频识别模块对待处理音频数据的识别处理时，将待处理音频数据输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块，或者，在初始验证结果表征不跳过初始目标音频识别模块对待处理音频数据的识别处理时，将处理后音频数据输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块待处理音频数据和处理后音频数据为与样本音频数据关联的音频数据。

一种可能的示例中，如图7所示，为本公开实施例提供的一种初始目标音频识别模块的结构示意图。图7中的初始目标音频识别模块用于并行执行初始验证单元对待处理音频数据的验证过程，和对待处理音频数据进行识别处理得到处理后音频数据的过程。基于此，初始目标音频识别模块在训练过程中并不会跳过对部分样本音频数据的学习，从而保证初始目标音频识别模块的训练效果。既可以使得初始目标音频识别模块完成对全部样本音频数据的学习，又可以完成对初始验证单元的训练。

并且，图7中的初始验证单元可以由三层轻量级算子组成，即池化层、正则化层和线性层。工作人员可以为池化层、正则化层和线性层设置不同的参数或者计算公式，以使得初始验证单元可以基于初始特征范围对音频数据进行验证，并使得初始验证单元可以输出表示验证通过或者验证不通过的二维向量。例如，二维向量为0时表示验证不通过(即否)，为1时表示验证通过(即是)。

可选地，在图7中，初始验证单元也可以由其他能够实现相同功能的轻量级算子组合构成。或者，初始验证单元中的线性层也可以由其他更复杂的非线性模块替代。

一种可能的方式中，结合图7，初始目标音频识别模块的输出逻辑可以是基于初始验证单元输出的二维向量，对待处理音频数据和处理后音频数据进行加权求和。例如，待处理音频数据的权重系数可以是初始验证单元输出的二维向量，处理后音频数据的权重系数可以是1和初始验证单元输出的二维向量之间的差值。在二维向量为0表示验证不通过，且为1表示验证通过时，若初始验证单元输出的二维向量是1，则待处理音频数据的权重系数为1，处理后音频数据的权重系数为0，服务器对待处理音频数据和处理后音频数据加权求和后得到待处理音频数据，将待处理音频数据输入至下一音频识别模块即可。若初始验证单元输出的二维向量是0，则待处理音频数据的权重系数为0，处理后音频数据的权重系数为1，服务器对待处理音频数据和处理后音频数据加权求和后得到处理后音频数据，将处理后音频数据输入至下一音频识别模块即可。

上述实施例提供的技术方案至少带来以下有益效果：由S501-S502可知，给出了一种服务器对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型的可选实现方式。服务器可以将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块，并分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，得到包括多个初始目标音频识别模块的更新后识别模型。基于此，本公开中，服务器可以有效地完成对于初始识别模型的处理，得到更新后识别模型，以便于训练得到目标识别模型。

在一种实施例中，结合图5，在上述S403中，即服务器根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型时，如图8所示，本公开提供一种可选的实现方式，包括：S601-S604。

S601、服务器获取包括预设数量的样本音频数据的样本子集合。

其中，样本子集合为基于多个样本音频数据划分得到的。预设数量可以由工作人员预先设置在服务器中。

一种可能的方式中，在针对更新后识别模型进行训练的过程中，为了提高对更新后识别模型的训练效率，服务器可以将多个样本音频数据分批多次输入至更新后识别模型中，从而训练得到目标识别模型。具体而言，服务器可以按照每预设数量的样本音频数据作为一个样本子集合的划分规则，将多个样本音频数据划分为多个样本子集合。

一种可以实现的方式中，服务器可以获取到多个样本子集合中的一个样本子集合，并一次性将一个样本子集合中的所有样本音频数据输入至更新后识别模型中，使得更新后识别模型同时对预设数量的样本音频数据进行识别处理。

一种可能的方式中，在服务器一次性向更新后识别模型输入预设数量的样本音频数据时，初始目标音频识别模块中包括的初始验证单元也可以同时对预设数量的样本音频数据进行验证。这种情况下，初始验证单元的输出可以是与预设数量的样本音频数据一一对应的预设数量的二维向量，以表示各样本音频数据是否通过验证。

S602、服务器将样本子集合输入至更新后识别模型中进行识别处理，确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量。

一种可能的方式中，服务器可以在获取到样本子集合后，将样本子集合输入至更新后识别模型中进行识别处理。进一步地，服务器可以在更新后识别模型完成对样本子集合中所有样本音频数据的识别处理后，调用更新后识别模型对样本子集合中样本音频数据进行识别处理的日志信息。

接着，服务器可以确定到更新后识别模型中，各初始目标音频识别模块对样本子集合进行识别处理时的跳过情况，从而确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量。

S603、服务器基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率，确定样本子集合对应的损失值。

一种可能的方式中，服务器可以在更新后识别模型完成对样本子集合的识别处理后，基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率，确定样本子集合对应的损失值。

具体而言，结合S403中示出的预设损失函数的公式，服务器可以将样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量，和预设数量的比值，即预设数量的样本音频数据跳过的初始目标音频识别模块的数量的平均值，确定为处理过程中跳过的初始目标音频识别模块的数量(即M)。对于所有样本子集合来说，N的值是一样的，即更新后识别模型中多个初始目标音频识别模块的总数量。并且，在r为工作人员预先设置的基础上(例如80％)，服务器可以计算得到D的值，即该一个样本子集合对应的损失值。

S604、服务器在损失值小于或等于预设阈值时，分别将各初始目标音频识别模块的处理逻辑，更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程，得到包括多个目标音频识别模块的目标识别模型。

一种可能的方式中，预设阈值可以由工作人员凭经验预先设置在服务器中，用于避免出现模型过拟合的问题。

一种可以实现的方式中，在服务器依次将多个样本子集合输入至更新后识别模型中，对更新后识别模型进行训练时，若一个样本子集合对应的损失值大于预设阈值，则表明样本音频数据在更新后识别模型跳过了较多的初始目标音频识别模块，或者跳过了较少的初始目标音频识别模块，仍不符合工作人员预先设置的期望通过率的要求。这种情况下，服务器会通过反向传播更新各初始目标音频识别模块中初始验证单元的各个参数，以降低当前的真实通过率和期望通过率之间的差距，使得真实通过率向期望通过率靠拢，达到对更新后识别模型的训练目的。

若一个样本子集合对应的损失值小于或等于预设阈值，则表明样本音频数据在更新后识别模型中的真实通过率和期望通过率之间的差距较小，已经符合要求。这种情况下，为了避免更新后识别模型出现过拟合的问题，服务器可以停止对更新后识别模型的训练过程，并分别将各初始目标音频识别模块的处理逻辑，更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程，从而得到包括多个目标音频识别模块的目标识别模型。

一种可能的示例中，结合图7，如图9所示，为本公开实施例提供的又一种初始目标音频识别模块的结构示意图。图9中的初始目标音频识别模块用于串行执行初始验证单元对待处理音频数据的验证过程，和初始目标音频识别模块对应的音频识别任务的处理过程。即初始目标音频识别模块在接收到待处理音频数据时，可以先基于初始验证单元对待处理音频数据进行验证。在待处理音频数据通过验证时，即符合初始特征范围时，初始目标音频识别模块可以通过初始验证单元，直接将待处理音频数据输入至下一音频识别模块。或者，在待处理音频数据未通过验证时，即不符合初始特征范围时，初始目标音频识别模块可以基于预设类型模块对待处理音频数据进行识别处理，再将得到的处理后音频数据输入至下一音频识别模块。

上述实施例提供的技术方案至少带来以下有益效果：由S601-S603可知，给出了一种服务器根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型的可选实现方式。服务器可以基于预设损失函数对更新后识别模型进行训练。由于预设损失函数为基于期望通过率生成的，因此，在训练过程中，初始目标音频识别模块中初始验证单元的各个参数会逐渐被更新，以降低当前的真实通过率和期望通过率之间的差距，使得真实通过率向期望通过率靠拢，达到对更新后识别模型的训练目的。基于此，本公开中，服务器可以在损失值小于或等于预设阈值时，更新各初始目标音频识别模块的处理逻辑为串行执行，得到包括多个目标音频识别模块的目标识别模型。

在一种实施例中，结合图3，在上述S301中，即服务器获取待识别音频数据时，如图10所示，本公开提供一种可选的实现方式，包括：S701-S702。

S701、服务器接收终端发送的待识别内容数据。

其中，待识别内容数据包括至少一段语音内容。即待识别内容数据中的语音内容可以是连续存在的，也可以是断续存在的。

可选地，待识别内容数据可以是视频数据，也可以是音频数据。并且，待识别内容数据还可以包括音乐内容和噪音内容等内容。

一种可以实现的方式中，结合图2，在用户通过终端配置的社交内容服务客户端浏览待识别内容数据(例如视频数据或者音频数据等)时，终端可以实时地向服务器发送待识别内容数据。相应的，服务器可以接收到终端发送的待识别内容数据。

S702、服务器对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据。

一种可以实现的方式中，服务器在接收到终端发送的待识别内容数据后，可以待识别内容数据中的至少一段语音内容，并分别确定至少一段语音内容对应的开始时刻和结束时刻。接着，服务器可以基于至少一段语音内容对应的开始时刻和结束时刻，截取到至少一段语音内容。接着，服务器可以分别将至少一段语音内容处理成音频流，并进一步拼接得到待识别音频数据。

上述实施例提供的技术方案至少带来以下有益效果：由S701-S702可知，给出了一种服务器获取待识别音频数据的可选实现方式。服务器可以接收终端发送的待识别内容数据，并对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据。基于此，本公开可以支持对终端所展示的数据进行实时识别服务，从而可以更好地向用户推荐内容数据，改善用户体验。

在一种实施例中，结合图10，在上述S702中，即服务器对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据时，如图11所示，本公开提供一种可选的实现方式，包括：S801-S802。

S801、服务器分别确定至少一段语音内容对应的开始时刻和终止时刻。

一种可能的方式中，工作人员可以预先在服务器中配置多标签分类模型。多标签分类模型可以用于对视频数据或者音频数据中的内容进行分类，并确定对应的开始时刻和终止时刻。多标签分类模型可以是基于通用的一些分类模型架构和训练方法得到的，在此不再赘述。

基于此，服务器可以将待识别内容数据输入至多标签分类模型，得到待识别内容数据中各类内容的分类结果和对应的开始时刻和终止时刻。接着，服务器可以选取得到至少一段语音内容，以及各段语音内容对应的开始时刻和终止时刻。

S802、服务器基于各段语音内容对应的开始时刻和终止时刻进行拼接，得到待识别音频数据。

一种可以实现的方式中，服务器可以基于至少一段语音内容对应的开始时刻和结束时刻，按照时间的先后顺序，将至少一段语音内容无缝拼接得到完整的语音内容。进一步地，若待识别音频数据存在预设时长要求，服务器可以在完整的语音内容中截取预设时长的语音内容，得到待识别音频数据。

基于此，如图12所示，服务器可以将待识别内容数据输入至多标签分类模型，得到待识别内容数据中各类内容的分类结果和对应的开始时刻和终止时刻，即待识别内容数据的类别和时刻信息。接着，服务器可以在待识别内容数据的类别和时刻信息中，选取得到至少一段语音内容，以及各段语音内容对应的开始时刻和终止时刻。接着，服务器可以基于至少一段语音内容对应的开始时刻和结束时刻进行拼接处理，得到待识别音频数据。接着，服务器可以将待识别音频数据输入至目标识别模型中，得到识别结果。其中，识别结果可以是一个多维度向量。每一个维度的向量可以用于表示对一种类型(例如方言类型、语种类型或者音乐类型等)的预测置信度。基于此，预测置信度最大值对应的类型可以作为待识别音频数据的类型。

上述实施例提供的技术方案至少带来以下有益效果：由S801-S802可知，给出了一种服务器对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据的可选实现方式。服务器可以分别确定至少一段语音内容对应的开始时刻和终止时刻，并基于各段语音内容对应的开始时刻和终止时刻进行拼接，得到待识别音频数据。基于此，本公开可以有效地对待识别内容数据进行去噪处理，得到更纯净的待识别音频数据，从而提升识别结果的准确度。

在一种实施例中，结合图3，在上述S302之后，即服务器将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果之后，如图13所示，本公开提供的音频识别方法，还包括：S901-S902。

S901、服务器确定与识别结果对应的待推荐内容数据。

一种可能的方式中，服务器可以配置有存储模块。存储模块可以用于存储多种类型的视频数据和多种类型的音频数据等数据。例如，多种方言类型的视频数据和多种语种类型的视频数据等。多种方言类型的音频数据、多种语种类型的音频数据和多种音乐类型(例如摇滚和古典等)的音频数据等。

一种可以实现的方式中，服务器在确定到待识别音频数据后，可以在存储模块中读取与识别结果对应的多个视频数据或者音频数据，并将多个视频数据或者音频数据中推送次数最多的视频数据或者音频数据，确定为与识别结果对应的待推荐内容数据。其中，推送次数可以用于表示一个视频数据或者音频数据被确定为待推荐内容数据的次数。

或者，服务器在读取到与识别结果对应的多个视频数据或者音频数据后，也可以将多个视频数据或者音频数据中存储时刻与当前时刻最接近的视频数据或者音频数据，确定为与识别结果对应的待推荐内容数据。

S902、服务器向终端发送待推荐内容数据。

一种可以实现的方式中，服务器在确定与识别结果对应的待推荐内容数据后，可以向终端发送待推荐内容数据。相应的，终端可以接收到服务器发送的待推荐内容数据。接着，终端可以在配置的社交内容服务客户端中展示待推荐内容数据，完成向用户的推荐流程。

上述实施例提供的技术方案至少带来以下有益效果：由S901-S902可知，在服务器得到待识别音频数据对应的识别结果后，服务器还可以确定与识别结果对应的待推荐内容数据，并向终端发送待推荐内容数据。由于待推荐内容数据与待识别音频数据类型相似，因此，本公开可以更好地满足用户喜好，提升用户体验，从而提升社交内容服务的用户数量和用户活跃度。

可以理解的，在实际实施时，本公开实施例所述的终端/服务器可以包含有用于实现前述对应音频识别方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种音频识别装置。图14示出了本公开实施例提供的音频识别装置的结构示意图。如图14所示，该音频识别装置可以包括：获取单元1001和处理单元1002；获取单元1001，被配置为执行获取待识别音频数据；处理单元1002，被配置为执行将待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；目标识别模型包括多个目标音频识别模块；目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理；输入音频数据为基于待识别音频数据的音频特征数据；目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。

可选地，获取单元1001，还被配置为执行获取多个样本音频数据和初始识别模型；初始识别模型包括多个初始音频识别模块；不同的初始音频识别模块用于执行不同的音频识别任务；处理单元1002，还被配置为执行对多个初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型；更新操作用于为预设类型模块添加初始验证单元得到初始目标音频识别模块；初始验证单元用于验证输入初始目标音频识别模块中的音频数据是否符合初始特征范围；处理单元1002，还被配置为执行根据预设损失函数和多个样本音频数据对更新后识别模型进行训练，得到目标识别模型；预设损失函数为基于期望通过率生成的；期望通过率用于表示在更新后识别模型包括的多个预设类型模块中，期望跳过的预设类型模块的占比。

可选地，预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种；处理单元1002，具体还被配置为执行：将多个初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个待更新识别模块；分别将各待更新识别模块的处理逻辑，更新为并行执行初始验证单元和待更新识别模块对应的音频识别任务的处理过程，得到包括多个初始目标音频识别模块的更新后识别模型；初始目标音频识别模块用于基于初始验证单元对待处理音频数据进行验证得到初始验证结果，并对待处理音频数据进行识别处理得到处理后音频数据，基于初始验证结果对待处理音频数据和处理后音频数据进行加权求和，得到输出结果，将输出结果输入至与初始目标音频识别模块相邻、且位于初始目标音频识别模块之后的下一音频识别模块。

可选地，处理单元1002，具体还被配置为执行：获取包括预设数量的样本音频数据的样本子集合；样本子集合为基于多个样本音频数据划分得到的；将样本子集合输入至更新后识别模型中进行识别处理，确定样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量；基于样本子集合中样本音频数据在识别处理过程中跳过的初始目标音频识别模块的数量、初始目标音频识别模块的总数量和期望通过率，确定样本子集合对应的损失值；在损失值小于或等于预设阈值时，分别将各初始目标音频识别模块的处理逻辑，更新为串行执行初始验证单元和初始目标音频识别模块对应的音频识别任务的处理过程，得到包括多个目标音频识别模块的目标识别模型。可选地，获取单元1001，具体被配置为执行：接收终端发送的待识别内容数据；待识别内容数据包括至少一段语音内容；对待识别内容数据中的至少一段语音内容进行拼接处理，得到待识别音频数据。

可选地，处理单元1002，具体被配置为执行：分别确定至少一段语音内容对应的开始时刻和终止时刻；基于各段语音内容对应的开始时刻和终止时刻进行拼接，得到待识别音频数据。

可选地，该音频识别装置，还包括：确定单元1003；确定单元1003，被配置为执行确定与识别结果对应的待推荐内容数据；向终端发送待推荐内容数据。

如上所述，本公开实施例可以根据上述方法示例对音频识别装置进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的音频识别装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

本公开实施例还提供一种终端，终端可以是手机、电脑等用户终端。图15示出了本公开实施例提供的终端的结构示意图。该终端可以是音频识别装置可以包括至少一个处理器61，通信总线62，存储器63以及至少一个通信接口64。

处理器61可以是一个CPU，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线62可包括一通路，在上述组件之间传送信息。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless localarea networks，WLAN)等。

存储器63可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器63用于存储执行本公开方案的应用程序代码，并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图15中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端可以包括多个处理器，例如图15中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信，可以以多种方式接受用户的输入。例如，输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信，可以以多种方式来显示信息。例如，输出设备61可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图15中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供一种服务器。图16示出了本公开实施例提供的服务器的结构示意图。该服务器可以是音频识别装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中，存储器72中存储有至少一条指令，至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的音频识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的音频识别方法。例如，计算机可读存储介质可以为包括指令的存储器63，上述指令可由终端的处理器61执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器72，上述指令可由服务器的处理器71执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述图3、图5、图6、图8和图10-图13任一附图所示的音频识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频识别方法，其特征在于，包括：

获取待识别音频数据；

将所述待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；所述目标识别模型包括多个目标音频识别模块；所述目标音频识别模块用于基于与所述目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；所述目标验证结果用于表征是否跳过所述目标音频识别模块对所述输入音频数据的识别处理；所述输入音频数据为基于所述待识别音频数据的音频特征数据；所述目标验证单元用于验证所述输入音频数据的音频信号特征是否符合目标特征范围。

2.根据权利要求1所述的音频识别方法，其特征在于，所述目标音频识别模块还用于在所述目标验证结果表征跳过所述目标音频识别模块对所述输入音频数据的识别处理时，将所述输入音频数据输入至与所述目标音频识别模块相邻、且位于所述目标音频识别模块之后的下一音频识别模块；

或者，在所述目标验证结果表征不跳过所述目标音频识别模块对所述输入音频数据的识别处理时，对所述输入音频数据进行识别处理得到输出音频数据，将所述输出音频数据输入至与所述目标音频识别模块相邻、且位于所述目标音频识别模块之后的下一音频识别模块。

3.根据权利要求1所述的音频识别方法，其特征在于，还包括：

获取多个样本音频数据和初始识别模型；所述初始识别模型包括多个初始音频识别模块；不同的所述初始音频识别模块用于执行不同的音频识别任务；

对多个所述初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型；所述更新操作用于为所述预设类型模块添加初始验证单元得到初始目标音频识别模块；所述初始验证单元用于验证输入所述初始目标音频识别模块中的音频数据是否符合初始特征范围；

根据预设损失函数和多个所述样本音频数据对所述更新后识别模型进行训练，得到所述目标识别模型；所述预设损失函数为基于期望通过率生成的；所述期望通过率用于表示在所述更新后识别模型包括的多个预设类型模块中，期望跳过的预设类型模块的占比。

4.根据权利要求3所述的音频识别方法，其特征在于，所述预设类型模块包括卷积类型模块、激活类型模块和残差类型模块中的至少一种；所述对多个所述初始音频识别模块中的预设类型模块执行更新操作，得到更新后识别模型，包括：

将多个所述初始音频识别模块中的预设类型模块确定为待更新识别模块，得到多个所述待更新识别模块；

分别将各所述待更新识别模块的处理逻辑，更新为并行执行所述初始验证单元和所述待更新识别模块对应的音频识别任务的处理过程，得到包括多个所述初始目标音频识别模块的所述更新后识别模型；

所述初始目标音频识别模块用于基于所述初始验证单元对待处理音频数据进行验证得到初始验证结果，并对待处理音频数据进行识别处理得到处理后音频数据，基于所述初始验证结果对所述待处理音频数据和所述处理后音频数据进行加权求和，得到输出结果，将所述输出结果输入至与所述初始目标音频识别模块相邻、且位于所述初始目标音频识别模块之后的下一音频识别模块。

5.根据权利要求4所述的音频识别方法，其特征在于，所述根据预设损失函数和多个所述样本音频数据对所述更新后识别模型进行训练，得到所述目标识别模型，包括：

获取包括预设数量的所述样本音频数据的样本子集合；所述样本子集合为基于多个所述样本音频数据划分得到的；

将所述样本子集合输入至所述更新后识别模型中进行识别处理，确定所述样本子集合中样本音频数据在所述识别处理过程中跳过的所述初始目标音频识别模块的数量；

基于所述样本子集合中样本音频数据在所述识别处理过程中跳过的所述初始目标音频识别模块的数量、所述初始目标音频识别模块的总数量和所述期望通过率，确定所述样本子集合对应的损失值；

在所述损失值小于或等于预设阈值时，分别将各所述初始目标音频识别模块的处理逻辑，更新为串行执行所述初始验证单元和所述初始目标音频识别模块对应的音频识别任务的处理过程，得到包括多个所述目标音频识别模块的所述目标识别模型。

6.根据权利要求1所述的音频识别方法，其特征在于，所述获取待识别音频数据，包括：

接收终端发送的待识别内容数据；所述待识别内容数据包括至少一段语音内容；

对所述待识别内容数据中的至少一段所述语音内容进行拼接处理，得到所述待识别音频数据。

7.根据权利要求6所述的音频识别方法，其特征在于，所述对所述待识别内容数据中的至少一段所述语音内容进行拼接处理，得到所述待识别音频数据，包括：

分别确定至少一段所述语音内容对应的开始时刻和终止时刻；

基于各段所述语音内容对应的开始时刻和终止时刻进行拼接，得到所述待识别音频数据。

8.根据权利要求1所述的音频识别方法，其特征在于，所述将所述待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果之后，还包括：

确定与所述识别结果对应的待推荐内容数据；

向终端发送所述待推荐内容数据。

9.一种音频识别装置，其特征在于，包括：获取单元和处理单元；

所述获取单元，被配置为执行获取待识别音频数据；

所述处理单元，被配置为执行将所述待识别音频数据输入至预先训练得到的目标识别模型中，得到识别结果；所述目标识别模型包括多个目标音频识别模块；所述目标音频识别模块用于基于与所述目标音频识别模块对应的目标验证单元，对输入音频数据进行验证得到目标验证结果；所述目标验证结果用于表征是否跳过所述目标音频识别模块对所述输入音频数据的识别处理；所述输入音频数据为基于所述待识别音频数据的音频特征数据；所述目标验证单元用于验证所述输入音频数据的音频信号特征是否符合目标特征范围。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-8中任一项所述的音频识别方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-8中任一项所述的音频识别方法。