CN114627856A

CN114627856A - 语音识别方法、装置、存储介质及电子设备

Info

Publication number: CN114627856A
Application number: CN202210331745.0A
Authority: CN
Inventors: 周立峰; 朱浩齐; 周森; 杨卫强; 李雨珂; 魏凯峰
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-14

Abstract

本公开实施方式涉及一种语音识别方法、装置、存储介质与电子设备，涉及音频处理技术领域。该方法包括：获取目标人员的待识别音频数据；将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据；将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据；将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。本公开提高了伪造语音的精准度和识别效率。

Description

语音识别方法、装置、存储介质及电子设备

技术领域

本公开的实施方式涉及音频处理技术领域，更具体地，本公开的实施方式涉及一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备。

背景技术

随着音频处理技术的成熟，利用一定的语音处理技术合成并伪造目标人员的语音的情况时有发生，例如，可以将文字信息处理为目标人员的音频数据；或者，将非目标人员的音频数据处理为目标人员的音频数据。伪造语音会给被伪造人带来信息安全、财产等方面的侵害。特别的，对于一些具有一定社会影响力的目标人员，例如，企业家等，伪造其语音可能造成更加严重的不良影响。因此，需要对伪造语音进行识别。

本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

然而，现有的伪造语音识别方案，主要通过人工处理实现，容易出现错误，且效率低下。

为此，非常需要一种改进的语音识别方案，可以提高伪造语音的识别效率和精准度。

在本上下文中，本公开的实施方式期望提供一种语音识别方法、装置、计算机可读存储介质及电子设备。

根据本公开实施方式的第一方面，提供一种语音识别方法，所述方法包括：

获取目标人员的待识别音频数据；

将所述待识别音频数据输入第一语音特征提取子模型中，得到所述待识别音频数据的初始特征数据，所述初始特征数据包含所述待识别音频数据的相位数据，所述第一语音特征提取子模型为预先训练的语音识别模型的子模型，所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；

将所述初始特征数据输入所述第二语音特征提取子模型中，得到所述待识别音频数据的深度特征数据，所述深度特征数据包含所述待识别音频数据的时域特征数据、频域特征数据以及所述频域特征数据的特征权重数据；

将所述深度特征数据输入所述语音鉴伪子模型中，得到所述待识别音频数据的分类结果。

可选的，所述第二语音特征提取子模型包括多个时频特征提取网络，时频特征融合网络和特征权重构建网络，所述将所述初始特征数据输入所述第二语音特征提取子模型中，得到所述待识别音频数据的深度特征数据，包括：

将所述初始特征数据输入依次连接的多个所述时频特征提取网络中，得到每个所述时频特征提取网络输出的待融合时域特征数据和待融合频域特征数据；

将多个所述待融合时域特征数据和多个所述待融合频域特征数据输入所述时频特征融合网络中，融合多个所述时域特征数据得到融合时域特征数据，以及融合多个所述频域特征数据得到融合频域特征数据；

将所述融合频域特征数据输入所述特征权重构建网络中，确定所述融合频域特征数据在时序维度的特征权重数据；

将所述融合时域特征数据确定为所述时域特征数据，将所述融合频域特征数据确定为所述频域特征数据，以及将所述融合频域特征数据在时序维度的特征权重数据，确定为所述频域特征数据的特征权重数据，得到所述待识别音频数据的深度特征数据。

可选的，所述待识别音频数据为多帧待识别音频数据，所述第一语音特征特征提取子模型为wav2vec模型，所述wav2vec模型包括特征提取层和上下文编码层，所述将所述待识别音频数据输入第一语音特征提取子模型中，得到所述待识别音频数据的初始特征数据，包括：

将所述待识别音频数据输入所述特征提取层，得到每一帧所述待识别音频数据的浅层特征数据，所述浅层特征数据包括每一帧所述待识别音频数据的相位数据；

将多个所述浅层特征数据输入所述上下文编码层，提取所述待识别音频数据各帧间的关联特征数据，得到所述待识别音频数据的初始特征数据。

可选的，所述将所述深度特征数据输入所述语音鉴伪子模型中，得到所述待识别音频数据的分类结果，包括：

将所述深度特征数据输入所述语音鉴伪子模型中，得到分类结果值；

若所述分类结果值大于或者等于预设阈值，则确定所述待识别音频数据为所述目标人员的伪造语音，所述伪造语音包括合成语音和/或转换语音；

若所述分类结果值小于预设阈值，则确定所述待识别音频数据为所述目标人员的真实语音。

可选的，训练所述语音识别模型，包括：

获取与多名所述目标人员的样本音频数据对应的样本初始特征数据；

将所述样本初始特征数据输入待训练的所述第二语音特征提取子模型中，得到所述样本音频数据的样本深度特征数据；

将所述样本深度特征数据输入所述语音鉴伪子模型中，得到预测类别分类值；

根据所述预测类别分类值以及所述样本音频数据的类别标签值确定第一损失函数值；

根据所述第一损失函数值更新所述第二语音特征提取子模型和所述语音鉴伪子模型的参数。

可选的，所述将所述样本初始特征数据输入待训练的所述第二语音特征提取子模型中，得到所述样本音频数据的样本深度特征数据，包括：

将所述样本初始特征数据输入依次连接的多个待训练的所述时频特征提取网络中，得到每个待训练的所述时频特征提取网络输出的样本待融合时域特征数据和样本待融合频域特征数据；

将多个所述样本待融合时域特征数据和多个所述样本待融合频域特征数据输入待训练的所述时频特征融合网络中，融合多个所述样本待融合时域特征数据得到样本融合时域特征数据，以及融合多个所述样本待融合频域特征数据得到样本融合频域特征数据；

将所述样本融合频域特征数据输入待训练的所述特征权重构建网络中，确定所述样本融合频域特征数据在时序维度的样本特征权重数据；

将所述样本融合时域特征数据确定为样本时域特征数据、将所述样本融合频域特征数据确定为样本频域特征数据，以及将所述样本融合频域特征数据在时序维度的样本特征权重数据，确定为所述样本频域特征数据的样本特征权重数据，得到所述样本音频数据的样本深度特征数据。

可选的，所述根据所述预测类别分类值、所述样本音频数据的类别标签值确定第一损失函数值，包括：

将所述预测类别分类值、所述样本音频数据的类别标签值输入第一损失函数中，确定所述第一损失函数值；

所述第一损失函数包括：

其中，N表示样本音频数据的数量，i表示N个样本音频数据中的第i 个样本音频数据，α表示比例因子，

表示真实语音特征数据的中心与所述预测类别分类值的距离，

表示真实语音特征数据的中心，

表示所述预测类别分类值，y_i表示所述样本音频数据的类别标签值。

可选的，所述语音识别模型还包括语种分类子模型和梯度反传层，在将所述样本初始特征数据输入待训练的所述第二语音特征提取子模型中，得到所述样本音频数据的样本深度特征数据之后，所述方法还包括：

将所述样本深度特征数据依次输入所述梯度反传层和所述语种分类子模型中，得到预测语种分类值；

根据所述预测语种分类值、所述样本音频数据的语种标签值确定第二损失函数值；

所述根据所述第一损失函数值更新所述第二语音特征提取子模型和所述语音鉴伪子模型的参数，包括：

根据所述第一损失函数值更新所述语音鉴伪子模型的参数，并根据所述第二损失函数值，更新所述语种分类子模型的参数；

根据所述第一损失函数值、所述第二损失函数值和所述梯度反传层，更新所述第二语音特征提取子模型的参数。

可选的，所述根据所述第一损失函数值、所述第二损失函数值和所述梯度反传层，更新所述第二语音特征提取子模型的参数，包括：

将所述第二损失函数值传递给所述梯度反传层，根据梯度反传参数处理所述第二损失函数值，得到第二损失函数更新值；

根据所述梯度反传参数处理第二损失函数得到更新后的第二损失函数，并根据所述第一损失函数以及所述更新后的第二损失函数，确定组合损失函数；

确定所述组合损失函数关于所述第二语音特征提取子模型的参数的梯度值；

根据所述梯度值、所述第一损失函数值、所述第二损失函数更新值和模型学习率，得到所述第二语音特征提取子模型更新后的参数。

可选的，训练所述语音识别模型，包括：

获取多名所述目标人员的样本音频数据；

将所述样本音频数据输入待训练的所述第一语音特征提取子模型中，得到样本初始特征数据；

根据所述样本初始特征数据确定第三损失函数值；

根据所述第三损失函数值更新所述第一语音特征提取子模型的参数。

可选的，在获取目标人员的待识别音频数据之前，所述方法还包括：

获取待处理音频数据；

对所述待处理音频数据进行声学特征提取，得到所述待处理音频数据的声学特征数据；

若对所述声学特征数据的声纹识别结果对应于目标人员的声纹，则将所述待处理音频数据确定为所述目标人员的待识别音频数据。

根据本公开实施方式的第二方面，提供一种语音识别装置，所述装置包括：

获取模块，被配置为获取目标人员的待识别音频数据；

第一特征提取模块，被配置为将所述待识别音频数据输入第一语音特征提取子模型中，得到所述待识别音频数据的初始特征数据，所述初始特征数据包含所述待识别音频数据的相位数据，所述第一语音特征提取子模型为预先训练的语音识别模型的子模型，所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；

第二特征提取模块，被配置为将所述初始特征数据输入所述第二语音特征提取子模型中，得到所述待识别音频数据的深度特征数据，所述深度特征数据包含所述待识别音频数据的时域特征数据、频域特征数据以及所述频域特征数据的特征权重数据；

鉴伪模块，被配置为将所述深度特征数据输入所述语音鉴伪子模型中，得到所述待识别音频数据的分类结果。

可选的，所述第二语音特征提取子模型包括多个时频特征提取网络，时频特征融合网络和特征权重构建网络，所述第二特征提取模块，被配置为：

可选的，所述待识别音频数据为多帧待识别音频数据，所述第一语音特征特征提取子模型为wav2vec模型，所述wav2vec模型包括特征提取层和上下文编码层，所述第一特征提取模块，被配置为：

可选的，所述鉴伪模块，被配置为：

可选的，所述装置还包括，第一模型训练模块，被配置为：

可选的，所述第一模型训练模块，被配置为：

所述第一损失函数包括：

表示真实语音特征数据的中心，

可选的，所述语音识别模型还包括语种分类子模型和梯度反传层，第一模型训练模块，还被配置为：

所述第一模型训练模块，被配置为：

可选的，所述第一模型训练模块，被配置为：

可选的，所述装置还包括，第二模型训练模块，被配置为：

获取多名所述目标人员的样本音频数据；

根据所述样本初始特征数据确定第三损失函数值；

可选的，所述装置还包括，音频识别模块，被配置为：

获取待处理音频数据；

根据本公开实施方式的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的方法。

根据本公开实施方式的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面的方法。

根据本公开实施方式的语音方法、装置、计算机可读存储介质及电子设备，由于伪造语音和真实语音的相位信息和时频特征信息具有较大差异，语音识别模型可以基于包含待识别音频数据的相位数据的初始特征数据，以及包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据的深度特征数据，对待识别音频数据是否为伪造语音进行分类，可以提高得到的分类结果的精准度。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开实施方式的一种语音识别方法运行环境的系统架构图；

图2示出了本公开实施方式的一种语音识别方法的流程示意图；

图3示出了本公开实施方式的一种语音识别模型的结构示意图；

图4示出了本公开实施方式的一种第一语音特征提取子模型的结构示意图；

图5示出了本公开实施方式的一种第二语音特征提取子模型的结构示意图；

图6示出了本公开实施方式的一种训练语音识别模型的流程示意图；

图7示出了本公开实施方式的另一种训练语音识别模型的流程示意图；

图8示出了本公开实施方式的另一种语音识别模型的结构示意图；

图9示出了本公开实施方式的又一种训练语音识别模型的流程示意图；

图10示出了本公开实施方式的一种更新第二语音特征提取子模型的参数的流程示意图；

图11示出了本公开实施方式的一种语音识别装置的结构示意图；

图12示出了根据本公开实施方式的电子设备的结构方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提供一种语音识别方法、装置、计算机可读存储介质及电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐述本公开的原理和精神。

发明概述

本公开的发明人发现，随着音频处理技术的发展，可以依赖音频处理技术进行语音伪造，伪造语音通常可以基于语音合成技术和语音转换技术得到，其中，语音合成技术可以将非音频信息(例如，文字信息或者图片中的文字信息)转换为目标人员的音频数据得到伪造语音，该类伪造语音会导致公众误认为相应的非音频信息是由目标人员依据其真实意思表示而亲口说出的；语音转换技术可以将某一人员的音频数据转换为目标人员的音频数据得到伪造语音，该类伪造语音会导致不法分子将来自于他人的发言内容以目标人员的口吻、风格以及发音方式进行拟合，从而达到冒充目标人员讲话的目的。对于一些具有一定社会影响力的目标人员，关于他们的伪造语音如果在流媒体平台传播的话，会造成更加严重的不良影响。因此，流媒体平台在发布关于他们的音频文件之间，需要对音频文件中的音频数据进行鉴伪，防止不法分子发布关于目标人员的伪造音频文件。

因此，流媒体平台在发布音频文件之前，可以对音频文件进行识别处理，确定音频文件对应的音频数据是否为目标人员的伪造语音，相关技术中，音频文件的审核工作主要通过人工审核完成。需要审核人员熟悉每个目标人员的说话韵律、风格和音色等语音特征，导致审核效率低下，且需要付出极高的人力成本；同时，人工审核过程中，审核结果也会因审核人员的专业程度以及精力集中程度有关，容易出现将伪造语音判定为非伪造语音的情况，导致审核结果的精准度不高。

鉴于上述内容，本公开的基本思想在于：提供一种语音识别方法、装置、计算机可读存储介质及电子设备，可以获取目标人员的待识别音频数据；将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据，该初始特征数据包含待识别音频数据的相位数据，其中，第一语音特征提取子模型为预先训练的语音识别模型的子模型，该语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；并将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据，该深度特征数据包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据；将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。可以基于预先训练的语音识别模型对目标人员的待识别音频数据进行识别，提高确定待识别音频数据是否为伪造语音的识别效率；其中，语音识别模型可以基于待识别音频数据的初始特征数据和深度特征数据，提高判定待识别音频数据是否为伪造数据的精准度。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开可以应用于识别伪造语音的场景，尤其是适用于对语音合成技术或语音转换技术得到的伪造语音进行识别的场景，例如：音乐平台或者短视频平台，对于需要发布的待发布音频文件，可以在确定待发布音频文件为目标人员的音频文件后，利用预先训练的语音识别模型对该待发布音频文件进行识别，以确定待发布音频文件中存储的音频数据是否为目标人员的伪造音频数据。采用本公开实施方式的技术方案，可以提高待发布音频文件中的音频数据的识别效率，以及提高识别结果的精准度。

图1示出了本公开实施例中提供的语音识别方法运行环境的系统架构图。如图1所示，该系统架构100可以包括：服务器110和用户终端120。服务器110可以为语音识别服务方的后台服务器，例如，可以是音乐平台的服务器，短视频平台的服务器或者音视频平台的服务器。用户终端120 可以是用户所使用的用户终端，一般情况下，服务器110与用户终端120之间可以建立网络连接以进行交互。

在一种可选的实施方式中，语音识别服务方可以预先训练语音识别模型，训练好的语音识别模型可以部署于服务器110中；服务器110可以接收用户终端120发送的音视频上传请求，并解析音视频上传请求获取目标人员的待识别音频数据，服务器110可以利用预先训练的语音识别模型，对待识别音频数据进行识别，得到针对待识别音频数据的分类结果。

在一种可选的实施方式中，语音识别服务方可以预先训练语音识别模型，训练好的语音识别模型配置于语音识别服务方的应用程序中，服务器 110可以接收用户终端120发送的应用程序下载请求，配置有语音识别模型的应用程序安装包发送至用户终端120，用户终端120可以响应于用户的音视频文件上传操作，利用预先训练的语音识别模型，对待识别音频数据进行识别，得到针对待识别音频数据的分类结果。

示例性方法

本公开的示例性实施方式首先提供一种语音识别方法，该语音识别方法可以应用于服务器，本公开实施例以该语音识别方法应用于服务器为例，对该语音识别方法进行说明。如图2所示，该方法可以包括以下步骤S201 至步骤S204：

步骤S201，获取目标人员的待识别音频数据；

在本公开实施例中，目标人员为可能被伪造语音的特定人员。例如，在流媒体平台上不允许伪造领导人、企业家、明星等公众人物的语音，则目标人员可以是公众人物；或者，如在银行账户等涉及到信息安全、财产等的校验中，不允许伪造用户的语音，则目标人员可以是待校验的用户。

步骤S202，将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据；

在本公开实施例中，初始特征数据包含待识别音频数据的相位数据，第一语音特征提取子模型为预先训练的语音识别模型的子模型，该语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型。

步骤S203，将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据；

在本公开实施例中，深度特征数据包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据。

步骤S204，将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。

综上所述，本公开实施例提供的语音识别方法，可以获取目标人员的待识别音频数据，将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据，将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据，并将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。由于伪造语音和真实语音的相位信息和时频特征信息具有较大差异，语音识别模型可以基于包含待识别音频数据的相位数据的初始特征数据，以及包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据的深度特征数据，对待识别音频数据是否为伪造语音进行分类，可以提高得到的分类结果的精准度。

在一个可选的实施例中，在上述步骤S201中，服务器可以获取目标人员的待识别音频数据。

在本公开实施例中，对于第三方平台，在有音频文件需要发布时，可以将需要发布的音频文件中存储的音频数据确定为待处理音频数据，并判断待处理音频数据是否为目标人员的音频数据，在确定待处理音频数据为目标人员的音频数据时，将待处理音频数据确定为目标人员的待识别音频数据；在确定待处理音频数据不是目标人员的音频数据时，可以确定无需对该待处理音频数据进行伪造语音的识别处理，可以结束流程。

在一种可选的实施方式中，服务器确定待处理音频数据是否为目标人员的音频数据的过程可以包括：获取待处理音频数据；对待处理音频数据进行声学特征提取，得到待处理音频数据的声学特征数据；并对声学特征数据进行声纹识别，若对声学特征数据的声纹识别结果对应于目标人员的声纹，则将待处理音频数据确定为目标人员的待识别音频数据。声学特征是指表示语音声学特性的物理量，可以包括表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。可以基于声学特征提取技术和声纹识别技术确定待处理音频数据是否为目标人员的音频数据，提高待处理音频数据的识别精准度。

其中，服务器对待处理音频数据进行声学特征提取的过程，可以基于 MFCC(Mel-Frequency Ceptral Coefficients，Mel频率倒谱系数)技术实现，或者，基于FBank(Mel-scaleFilterBank，梅尔标度滤波器组)技术实现，本公开实施例对此不作限定；服务器对声学特征数据进行声纹识别的过程也可以基于MFCC技术或者FBank技术实现。

在一种可选的实施方式中，服务器在确定待处理音频数据是目标人员的音频数据时，将待处理音频数据确定为目标人员的待识别音频数据，并获取该目标人员的待识别音频数据。

在一个可选的实施例中，在上述步骤S202中，服务器可以将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据。

在本公开实施例中，对于目标人员的待识别音频数据，可以基于预先训练的语音识别模型对该待识别语音数据进行识别，以确定带识别音频数据是否是目标人员的伪造语音。

在一种可选的实施方式中，如图3所示，图3示出了本公开实施例提供的语音识别模型的结构示意图，语音识别模型可以包括第一语音特征提取子模型301，第二语音特征提取子模型302和语音鉴伪子模型303，其中，第一语音特征提取子模型301，用于提取待识别语音数据的初始特征数据，该初始特征数据包含待识别音频数据的相位数据，相位数据为待识别音频数据的相位信息的数据；第二语音特征提取子模型302，用于对初始特征数据进行深度特征提取，以获得待识别音频数据的深度特征数据，该深度特征数据可以包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据；语音鉴伪子模型303，用于根据深度特征数据对待识别语音数据进行识别，判断该待识别语音数据是否为目标人员的伪造语音，语音鉴伪子模型为全连接网络层。

需要说明的是，在本公开实施例提供的语音识别模型中，包括两个特征提取子模型，其中，第一语音特征提取子模型可以提取待识别音频数据中更丰富的特征数据，基于第一语音特征提取子模型提取的特征数据对待识别音频数据是否为伪造语音进行识别，可以提升语音识别结果的精准度；第二语音特征提取子模型可以基于第一语音特征提取子模型提取的初始特征数据，确定待识别音频数据的时域特征和频域特征，以及为频域特征确定特征权重，以提取待识别音频数据中，可供精准进行语音识别的特征数据，以进一步提高语音识别模型确定的语音识别结果的精准度。

在一种可选的实施方式中，由于第一语音特征提取子模型需要获取待识别音频数据中更丰富全面的特征信息，该第一语音特征提取子模型可以包括wav2vec模型。如图4所示，第一语音特征提取子模型可以是wav2vec 2.0模型，wav2vec2.0模型包括特征提取层401和上下文编码层402，特征提取层，用于提取音频数据中的浅层特征数据，该浅层特征数据可以包括音频数据的相位数据，便于更精准的对待识别音频数据是否为伪造音频进行识别；上下文编码层，用于提取音频数据各帧间的关联特征数据，以获取更丰富的特征数据。

由于第二语音特征提取子模型需要提取深度特征数据，该第二语音特征提取子模型可以包括时频特征提取网络和特征权重构建网络，可选的，为了获取更丰富的深度特征信息，该时频特征提取网络的数量可以包括多个，则如图5所示，第二语音特征提取子模型可以包括多个时频特征提取网络501，时频特征融合网络502和特征权重构建网络503，其中，时频特征提取网络用于根据初始特征数据，获取待识别音频数据的待融合时域特征数据和待融合频域特征数据，该时频特征提取网络可以是 CBAM-ResBlock网络，CBAM-ResBlock网络由卷积块注意力网络 (Convolutional Block Attention Module，CBAM)和残差网络(ResBlock)组成，时频特征提取网络的数量可以基于实际需要确定，本公开实施例对此不作限定，示例的，时频特征提取网络的数量可以为6个，可以保证语音识别效率的基础上，进一步提升获取的深度特征数据的丰富度；时频特征融合网络，用于融合多个时域特征数据得到融合时域特征数据，以及融合多个频域特征数据得到融合频域特征数据，时频特征融合网络可以是卷积神经网络；特征权重构建网络，用于确定融合频域特征数据在时序维度的特征权重数据，特征权重构建网络可以是自注意力网络(self-attention)。

需要说明的是，对于多个时频特征提取网络，底层时频特征提取网络提取的特征数据包含更丰富的局部语音信息，高层时频特征提取网络提取的特征数据包含更丰富的全局语音信息，根据局部语音信息和全局语音信息进行待识别音频数据的鉴伪，可以提升鉴伪结果的精准度；对于特征权重构建网络，可以基于注意力机制确定不同时刻的融合频域特征数据在语音识别中的重要程度，并为该融合频域特征数据分配相应的权重，有利于语音鉴伪子模型根据时域特征和频域特征，以及为频域特征确定特征权重，确定更精准的识别结果。其中，待识别音频数据通常为一段时长的音频数据，不同时刻指的是一段时长的音频数据中的不同时刻。

在本公开实施例中，语音识别模型的训练过程可以包括对第一语音特征提取子模型的训练，以及对第二语音特征提取子模型和语音鉴伪子模型的训练。其中，第一语音特征提取子模型的训练过程，以及第二语音特征提取子模型和语音鉴伪子模型的训练过程可以同时进行，也可分开单独进行，可以在服务器硬件条件受限情况下，分别对各子模型进单独训练，得到语音识别模型，可以理解的是，选择对语音识别模型中的子模型同时训练或者分开单独进行训练可以基于实际需要确定，本公开实施例对此不作限定。

在一种可选的实施方式中，本公开实施例以对第一语音特征提取子模型，以及对第二语音特征提取子模型和语音鉴伪子模型的训练过程分开进行为例对语音识别模型的训练过程进行说明。

其中，第一语音特征提取子模型为如图4所示的wav2vec模型，训练语音识别模型的过程可以如图6所示，包括步骤S601至步骤S604：

步骤S601，获取多名目标人员的样本音频数据；

在本公开实施例中，为了提升语音识别模型的泛化能力，可以利用多名不同目标人员的样本音频数据对待训练的语音识别模型进行训练。样本音频数据可以包括目标人员的样本真实音频数据和样本伪造音频数据。服务器中可以预先存储有不同目标人员的样本音频数据，该样本音频数据可以存储于服务器的数据存储器件中，该数据存储器件可以是磁盘。

在一种可选的实施方式中，服务器可以响应于对样本音频数据的加载操作，在数据存储器件中获取多名目标人员的样本音频数据。

步骤S602，将样本音频数据输入待训练的第一语音特征提取子模型中，得到样本初始特征数据；

在本公开实施例中，每个目标人员的样本音频数据可以包括多个，每个样本音频数据可以包括多帧样本音频数据。

在一种可选的实施方式中，服务器将样本音频数据输入待训练的第一语音特征提取子模型中，得到样本初始特征数据的过程可以包括：可以将样本音频数据输入待训练的第一语音特征提取子模型中，以使待训练的特征提取层，得到每一帧样本音频数据的样本浅层特征数据，该样本浅层特征数据包括每一帧样本音频数据的相位数据；并将多个样本浅层特征数据输入上下文编码层，提取样本音频数据各帧间的关联特征数据，得到样本音频数据的样本初始特征数据；

步骤S603，根据样本初始特征数据确定第三损失函数值；

在本公开实施例中，由于第一语音特征提取子模型为wav2vec模型，第三损失函数可以由两部分构成，包括对抗性损失函数(Contrastive Loss) 和多样性损失函数(Diversity Loss)，其中，可以将对抗性损失函数和多样性损失函数之和确定为第三损失函数。

在一种可选的实施方式中，服务器根据样本初始特征数据确定第三损失函数值的过程可以包括：根据样本初始特征数据和第三损失函数确定第三损失函数值。

步骤S604，根据第三损失函数值更新第一语音特征提取子模型的参数。

在本步骤S604中，根据第三损失函数值更新第一语音特征提取子模型的参数的过程可以包括：若第三损失函数值小于预设第一损失函数阈值，则确定第一语音特征提取子模型训练完毕；若第三损失函数值大于或者等于预设第一损失函数阈值，则确定第三损失函数关于第一语音特征提取子模型的第一梯度值，并确定模型学习率和第一梯度值的第一乘积，确定第一语音特征提取子模型的参数与第一乘积的差值，得到第一语音特征提取子模型更新后的参数，并继续重复上述步骤S602至步骤S604，直至第一语音特征提取子模型训练完毕。其中，第一损失函数阈值和模型学习率可以基于实际需要预先确定，本公开实施例对此不作限定。

其中，第二语音特征提取子模型的模型结构如图5所示，训练语音识别模型的过程可以如图7所示，该过程包括步骤S701至步骤S705：

步骤S701，获取与多名目标人员的样本音频数据对应的样本初始特征数据；

在本公开实施例中，服务器中可以预先存储有多名目标人员的样本初始特征数据，该样本初始特征数据是基于上述步骤S601至步骤S602确定的，本公开实施例对此不作赘述。

在本步骤S701中，服务器可以响应于对样本初始特征数据的加载操作，获取服务器中存储的与多名目标人员的样本音频数据对应的样本初始特征数据。

步骤S702，将样本初始特征数据输入待训练的第二语音特征提取子模型中，得到样本音频数据的样本深度特征数据；

在一种可选的实施方式中，服务器将将样本初始特征数据输入待训练的第二语音特征提取子模型中，得到样本音频数据的样本深度特征数据的过程可以包括：将样本初始特征数据输入依次连接的多个待训练的时频特征提取网络中，得到每个待训练的时频特征提取网络输出的样本待融合时域特征数据和样本待融合频域特征数据；将多个样本待融合时域特征数据和多个样本待融合频域特征数据输入待训练的时频特征融合网络中，融合多个样本待融合时域特征数据得到样本融合时域特征数据，以及融合多个样本待融合频域特征数据得到样本融合频域特征数据；将样本融合频域特征数据输入待训练的特征权重构建网络中，确定样本融合频域特征数据在时序维度的样本特征权重数据；将样本融合时域特征数据确定为样本时域特征数据、将样本融合频域特征数据确定为样本频域特征数据，以及将样本融合频域特征数据在时序维度的样本特征权重数据，确定为样本频域特征数据的样本特征权重数据，得到样本音频数据的样本深度特征数据。

步骤S703，将样本深度特征数据输入语音鉴伪子模型中，得到预测类别分类值；

步骤S704，根据预测类别分类值以及样本音频数据的类别标签值确定第一损失函数值；

在本公开实施例中，样本音频数据无法覆盖所有的伪造语音类型(将文字信息转换为音频数据，或者，将某一人员的音频数据转换为另一人员的音频数据)，如果采用二分类损失函数(例如交叉熵损失函数)，会导致语音识别模型过拟合；因此，基于单类别学习(one-class learning)的思想，只学习目标人员的真实语音特征数据的中心，使得真实语音特征数据与真实语音特征数据的中心的距离较小，且让伪造语音远离真实语音一定的距离，为实现这一目标，本公开实施例中的第一损失函数为oc-softmax loss，该第一损失函数包括：

表示真实语音特征数据的中心与预测类别分类值的距离，

表示真实语音特征数据的中心，

表示预测类别分类值，y_i表示样本音频数据的类别标签值。其中，α和

可以基于实际需要确定，本公开实施例对此不作限定。

在一种可选的实施方式中，服务器根据预测类别分类值以及样本音频数据的类别标签值确定第一损失函数值的过程可以包括，将预测类别分类值、样本音频数据的类别标签值输入第一损失函数中，确定第一损失函数值。

步骤S705，根据第一损失函数值更新第二语音特征提取子模型和语音鉴伪子模型的参数。

在一种可选的实施方式中，服务器根据第一损失函数值更新第二语音特征提取子模型和语音鉴伪子模型的参数的过程可以包括：若第一损失函数值小于预设第二损失函数阈值，则确定第二语音特征提取子模型和语音鉴伪子模型训练完毕；

若第一损失函数值大于或者等于预设第二损失函数阈值，则确定第一损失函数关于语音鉴伪子模型的第二梯度值，然后根据第二梯度值和模型学习率得到第二乘积，接着确定语音鉴伪子模型的参数与第二乘积的差值，得到语音鉴伪子模型更新后的参数。进一步的，确定第一损失函数关于第二语音特征提取子模型的第三梯度值，然后根据第三梯度值和模型学习率确定第三乘积，最后确定第二语音特征提取子模型的参数与第三乘积的差值，得到第二语音特征提取子模型更新后的参数。并继续重复上述步骤 S702至步骤S705，直至第二语音特征提取子模型和语音鉴伪子模型训练完毕。其中，第二损失函数阈值和模型学习率可以基于实际需要确定，本公开实施例对此不作限定。

在一种可选的实施方式中，目标人员的样本音频数据中，可能存在语种样本的数量不均衡的情况，例如语种A的样本音频数据的数量显著地多于语种B的样本音频数据。利用不同语种的、数量不均衡的样本音频数据训练语音识别模型，可能导致语音识别模型对于不同语种的语音具有不同的识别能力，例如语音识别模型对语种A的语音进行识别的精准度，高于对语种B的语音进行识别的精准度，即语音识别模型的识别能力受语种信息的干扰较大，可以称语音识别模型对语种信息具有较高的敏感度。

为了降低语音识别模型对语种信息的敏感度，提高模型的鲁棒性，语音识别模型还可以包括梯度反传层和语种分类子模型。图8所示出的语音识别模型，在图3示出的语音识别模型的模型结构的基础上，进一步包括梯度反传层304和语种分类子模型305，其中，在模型训练过程中，第二语音特征提取子模型和语音鉴伪子模型的学习目标包括两个，一是提高对于待识别语音是否为伪造语音的识别精准度，另一个是降低语音识别模型对语种信息的敏感度；第二语音特征提取子模型和语种分类子模型的目标是提升语音识别模型对语种信息的敏感度，可以对音频数据的语种进行精准分类，其中，第二语音特征提取子模型关于语种信息的训练目标包括一组对抗学习目标，则在语音识别模型训练过程中，可以利用梯度反传层的梯度反传参数，对与语种分类子模型相关联的损失函数进行更新，得到更新后的损失函数，在对第二语音特征提取子模型的模型参数进行更新的过程中，更新后的损失函数关于模型参数的梯度与未更新的损失函数关于模型参数的梯度是相反的，基于更新后的损失函数关于模型参数的梯度，可以实现模型参数的反向更新，以使第二语音特征提取子模型无法关注到语种信息，从而得到对待识别音频数据的语种信息具备低敏感度的语音识别模型；在实际应用中，语音识别模型无法提取到待识别音频数据中的语种信息，可以防止语种信息对语音识别模型的干扰，提升语音识别模型判定待识别音频数据是否为伪造数据的精准度。

可选的，在第二语音特征提取子模型的模型结构如图8所示时，训练语音识别模型的过程可以如图9所示，包括步骤S901至步骤S908：

步骤S901，获取与多名目标人员的样本音频数据对应的样本初始特征数据；

在一种可选的实施方式中，服务器获取与多名目标人员的样本音频数据对应的样本初始特征数据的过程，可以参考上述步骤S701，本公开实施例对此不作赘述。

步骤S902，将样本初始特征数据输入待训练的第二语音特征提取子模型中，得到样本音频数据的样本深度特征数据；

在一种可选的实施方式中，服务器将样本初始特征数据输入待训练的第二语音特征提取子模型中，得到样本音频数据的样本深度特征数据的过程，可以参考上述步骤S702，本公开实施例对此不作赘述。

步骤S903，将样本深度特征数据输入语音鉴伪子模型中，得到预测类别分类值；

步骤S904，根据预测类别分类值以及样本音频数据的类别标签值确定第一损失函数值；

在一种可选的实施方式中，服务器根据预测类别分类值以及样本音频数据的类别标签值确定第一损失函数值的过程，可以参考上述步骤S704，本公开实施例对此不作赘述。

步骤S905，将样本深度特征数据依次输入梯度反传层和语种分类子模型中，得到预测语种分类值；

在本公开实施例中，在语音识别模型训练过程中，模型参数的调整过程时基于误差反向传播方法实现的，在样本数据的正向预测过程中，梯度反传层起到数据传递的作用，在模型参数的反向调整的过程中，梯度反传层可以利用梯度反传参数，对与语种分类子模型关联的损失函数和损失函数值进行更新，并利用更新后的损失函数和损失函数更新值对第二语音特征提取子模型的模型参数进行更新，以使训练好的第二语音特征提取子模型提取到的深度特征数据中不包括语种信息，得到对待识别音频数据的语种信息具备低敏感度的语音识别模型。

在一种可选的实施方式中，将样本深度特征数据依次输入梯度反传层和语种分类子模型中，得到预测语种分类值的过程可以包括：将样本深度特征数据依次输入梯度反传层，以使梯度反传层将样本深度特征数据传递至语种分类子模型，语种分类子模型可以根据样本深度特征数据，确定预测语种分类值。

步骤S906，根据预测语种分类值、样本音频数据的语种标签值确定第二损失函数值；

在本公开实施例中，第二损失函数为与语种分类子模型关联的损失函数，第二损失函数的类型可以基于实际需要确定，本公开实施例对此不作限定，示例的，该第二损失函数可以是对抗损失函数L_a(Adversarial loss)。

在一种可选的实施方式中，服务器根据预测语种分类值、样本音频数据的语种标签值确定第二损失函数值的过程可以包括：将预测语种分类值、样本音频数据的语种标签值输入第二损失函数，得到第二损失函数值。

步骤S907，根据第一损失函数值更新语音鉴伪子模型的参数，并根据第二损失函数值，更新语种分类子模型的参数；

在一种可选的实施方式中，服务器根据第一损失函数值更新语音鉴伪子模型的参数的过程可以包括：若第一损失函数值小于预设第二损失函数阈值，则确定语音鉴伪子模型训练完毕；若第一损失函数值大于或者等于预设第二损失函数阈值，则确定第一损失函数关于语音鉴伪子模型的第二梯度值，并确定模型学习率和第二梯度值的第二乘积，确定语音鉴伪子模型的参数与第二乘积的差值，得到语音鉴伪子模型更新后的参数。并继续执行上述步骤S902至步骤S907，直至语音鉴伪子模型训练完毕。

服务器根据第二损失函数值，更新语种分类子模型的参数的过程可以包括：若第二损失函数值小于预设第三损失函数阈值，则确定语种分类子模型训练完毕；若第二损失函数值大于或者等于预设第三损失函数阈值，则确定第二损失函数关于语种分类子模型的第四梯度值，并确定模型学习率和第四梯度值的第四乘积，确定语音鉴伪子模型的参数与第四乘积的差值，得到语音鉴伪子模型更新后的参数。并继续执行上述步骤S902至步骤S907，直至语音鉴伪子模型训练完毕。其中，模型学习率和预设第三损失函数阈值可以基于实际需要确定，本公开实施例对此不作限定。

步骤S908，根据第一损失函数值、第二损失函数值和梯度反传层，更新第二语音特征提取子模型的参数。

在一种可选的实施方式中，如图10所示，服务器根据第一损失函数值、第二损失函数值和梯度反传层，更新第二语音特征提取子模型的参数的过程可以包括步骤S1001至步骤S1004：

步骤S1001，将第二损失函数值传递给梯度反传层，根据梯度反传参数处理第二损失函数值，得到第二损失函数更新值；

在本公开实施例中，梯度反传参数可以是：

其中，γ为预先设置的参数值，p为模型的当前迭代次数与模型迭代总次数的比值，模型迭代总次数可以基于实际需要确定，本公开实施例对此不作限定。

在一种可选的实施方式中，服务器根据梯度反传参数处理第二损失函数值，得到第二损失函数更新值的过程可以包括：确定梯度反传参数和第二损失函数值的乘积，得到第二损失函数更新值。

步骤S1002，根据梯度反传参数处理第二损失函数得到更新后的第二损失函数，并根据更新后的第二损失函数和第一损失函数，确定组合损失函数；

在一种可选的实施方式中，根据梯度反传参数处理第二损失函数得到更新后的第二损失函数的过程可以包括：确定梯度反传参数和第二损失函数的乘积，得到更新后的第二损失函数。

服务器根据更新后的第二损失函数和第一损失函数，确定组合损失函数的过程可以包括：确定第一损失函数和更新后的第二损失函数之和，得到组合损失函数L＝L_OCS-λL_a。

步骤S1003，确定组合损失函数关于第二语音特征提取子模型的参数的梯度值；

步骤S1004，根据梯度值、第一损失函数值、第二损失函数更新值和模型学习率，得到第二语音特征提取子模型更新后的参数。

在一种可选的实施方式中，根据梯度值、第一损失函数值、第二损失函数更新值和模型学习率，得到第二语音特征提取子模型更新后的参数的过程可以包括：确定第一损失函数值和第二损失函数更新值之和，得到损失函数总值，若损失函数总值小于第四损失函数阈值，则确定第二语音特征提取子模型训练完毕；若损失函数总值大于或者等于第四损失函数阈值，则确定梯度值和模型学习率的第五乘积，确定第二语音特征提取子模型的参数与第五乘积的差值，得到第二语音特征提取子模型更新后的参数。并继续执行上述步骤S902至步骤S908，直至确定第二语音特征提取子模型训练完毕。其中，本步骤S1004中的梯度值为组合损失函数关于第二语音特征提取子模型的参数的梯度值，第四损失函数阈值和模型学习率可以基于实际需要确定，本公开实施例对此不作限定。

需要说明的是，在本公开实施例中，在语音识别模型训练过程中，在确定语音识别模型中的每个子模型训练完毕后，可以确定语音识别模型训练完毕。

在一种可选的实施方式中，语音识别模型中的第一语音特征特征提取子模型为wav2vec模型，在上述步骤S202中，服务器将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据的过程可以包括：将待识别音频数据输入特征提取层，得到每一帧待识别音频数据的浅层特征数据；将多个浅层特征数据输入上下文编码层，提取待识别音频数据各帧间的关联特征数据，得到待识别音频数据的初始特征数据。其中，待识别音频数据为多帧待识别音频数据，浅层特征数据包括每一帧待识别音频数据的相位数据。可以利用第一语音特征提取子模型获取更丰富的特征信息，提升语音识别结果的精准度。

在一个可选的实施例中，在上述步骤S203中，服务器可以将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据。

其中，服务器将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据的过程可以包括：将初始特征数据输入依次连接的多个时频特征提取网络中，得到每个时频特征提取网络输出的待融合时域特征数据和待融合频域特征数据；将多个待融合时域特征数据和多个待融合频域特征数据输入时频特征融合网络中，融合多个时域特征数据得到融合时域特征数据，以及融合多个频域特征数据得到融合频域特征数据；将融合频域特征数据输入特征权重构建网络中，确定融合频域特征数据在时序维度的特征权重数据；将融合时域特征数据确定为时域特征数据，将融合频域特征数据确定为频域特征数据，以及将融合频域特征数据在时序维度的特征权重数据，确定为频域特征数据的特征权重数据，得到待识别音频数据的深度特征数据。可以获取待识别音频数据的深度特征数据，以提高基于深度特征数据确定的待识别音频数据的识别结果的精准度。

在一个可选的实施例中，步骤S204，服务器可以将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。

在本公开实施例中，待识别音频数据的分类结果可以指示待识别音频数据时目标人员的真实音频数据，或者，指示待识别音频数据时目标人员的伪造音频数据，其中，伪造音频数据的类型可以是将文字信息转换为目标人员的音频数据，或者，将某一人员的音频数据转换为目标人员的音频数据。

在一种可选的实施方式中，服务器将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果的过程可以包括：将深度特征数据输入语音鉴伪子模型中，得到分类结果值；若分类结果值大于或者等于预设阈值，则确定待识别音频数据为目标人员的伪造语音，伪造语音包括合成语音和/或转换语音；若分类结果值小于预设阈值，则确定待识别音频数据为目标人员的真实语音。其中，预设阈值可以基于实际需要确定，本公开实施例对此不作限定。合成语音指的是将非音频信息(例如，文字信息或者图片中的文字信息)转换为目标人员的音频数据得到的伪造语音，该类伪造语音会导致公众误认为相应的非音频信息是由目标人员依据其真实意思表示而亲口说出的；转换语音指的是将某一人员的音频数据转换为目标人员的音频数据得到的伪造语音，该类伪造语音会导致不法分子将来自于他人的发言内容以目标人员的口吻、风格以及发音方式进行拟合，从而达到冒充目标人员讲话的目的。

示例性装置

在介绍了本公开示例性实施方式的方法之后，接下来，参考图11对本公开示例性实施方式的装置进行说明。

本公开实施例提供一种语音识别装置，如图11所示，语音识别装置 1100包括：

获取模块1101，被配置为获取目标人员的待识别音频数据；

第一特征提取模块1102，被配置为将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据，初始特征数据包含待识别音频数据的相位数据，第一语音特征提取子模型为预先训练的语音识别模型的子模型，语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；

第二特征提取模块1103，被配置为将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据，深度特征数据包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据；

鉴伪模块1104，被配置为将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。

综上所述，本公开实施例提供的语音识别装置，可以获取目标人员的待识别音频数据，将待识别音频数据输入第一语音特征提取子模型中，得到待识别音频数据的初始特征数据，将初始特征数据输入第二语音特征提取子模型中，得到待识别音频数据的深度特征数据，并将深度特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果。由于伪造语音和真实语音的相位信息和时频特征信息具有较大差异，语音识别模型可以基于包含待识别音频数据的相位数据的初始特征数据，以及包含待识别音频数据的时域特征数据、频域特征数据以及频域特征数据的特征权重数据的深度特征数据，对待识别音频数据是否为伪造语音进行分类，可以提高得到的分类结果的精准度。

可选的，第二语音特征提取子模型包括多个时频特征提取网络，时频特征融合网络和特征权重构建网络，第二特征提取模块1103，被配置为：

将初始特征数据输入依次连接的多个时频特征提取网络中，得到每个时频特征提取网络输出的待融合时域特征数据和待融合频域特征数据；

将多个待融合时域特征数据和多个待融合频域特征数据输入时频特征融合网络中，融合多个时域特征数据得到融合时域特征数据，以及融合多个频域特征数据得到融合频域特征数据；

将融合频域特征数据输入特征权重构建网络中，确定融合频域特征数据在时序维度的特征权重数据；

将融合时域特征数据确定为时域特征数据，将融合频域特征数据确定为频域特征数据，以及将融合频域特征数据在时序维度的特征权重数据，确定为频域特征数据的特征权重数据，得到待识别音频数据的深度特征数据。

可选的，待识别音频数据为多帧待识别音频数据，第一语音特征特征提取子模型为wav2vec模型，wav2vec模型包括特征提取层和上下文编码层，第一特征提取模块1102，被配置为：

将待识别音频数据输入特征提取层，得到每一帧待识别音频数据的浅层特征数据，浅层特征数据包括每一帧待识别音频数据的相位数据；

将多个浅层特征数据输入上下文编码层，提取待识别音频数据各帧间的关联特征数据，得到待识别音频数据的初始特征数据。

可选的，鉴伪模块1104，被配置为：

将深度特征数据输入语音鉴伪子模型中，得到分类结果值；

若分类结果值大于或者等于预设阈值，则确定待识别音频数据为目标人员的伪造语音，伪造语音包括合成语音和/或转换语音；

若分类结果值小于预设阈值，则确定待识别音频数据为目标人员的真实语音。

可选的，如图11所示，语音识别装置1100还包括，第一模型训练模块1105，被配置为：

获取与多名目标人员的样本音频数据对应的样本初始特征数据；

将样本初始特征数据输入待训练的第二语音特征提取子模型中，得到样本音频数据的样本深度特征数据；

将样本深度特征数据输入语音鉴伪子模型中，得到预测类别分类值；

根据预测类别分类值以及样本音频数据的类别标签值确定第一损失函数值；

根据第一损失函数值更新第二语音特征提取子模型和语音鉴伪子模型的参数。

可选的，第一模型训练模块1105，被配置为：

将样本初始特征数据输入依次连接的多个待训练的时频特征提取网络中，得到每个待训练的时频特征提取网络输出的样本待融合时域特征数据和样本待融合频域特征数据；

将多个样本待融合时域特征数据和多个样本待融合频域特征数据输入待训练的时频特征融合网络中，融合多个样本待融合时域特征数据得到样本融合时域特征数据，以及融合多个样本待融合频域特征数据得到样本融合频域特征数据；

将样本融合频域特征数据输入待训练的特征权重构建网络中，确定样本融合频域特征数据在时序维度的样本特征权重数据；

将样本融合时域特征数据确定为样本时域特征数据、将样本融合频域特征数据确定为样本频域特征数据，以及将样本融合频域特征数据在时序维度的样本特征权重数据，确定为样本频域特征数据的样本特征权重数据，得到样本音频数据的样本深度特征数据。

可选的，第一模型训练模块1105，被配置为：

将预测类别分类值、样本音频数据的类别标签值输入第一损失函数中，确定第一损失函数值；

第一损失函数包括：

表示真实语音特征数据的中心，

可选的，语音识别模型还包括语种分类子模型和梯度反传层，第一模型训练模块1105，还被配置为：

将样本深度特征数据依次输入梯度反传层和语种分类子模型中，得到预测语种分类值；

根据预测语种分类值、样本音频数据的语种标签值确定第二损失函数值；

第一模型训练模块，被配置为：

根据第一损失函数值更新语音鉴伪子模型的参数，并根据第二损失函数值，更新语种分类子模型的参数；

根据第一损失函数值、第二损失函数值和梯度反传层，更新第二语音特征提取子模型的参数。

可选的，第一模型训练模块1105，被配置为：

将第二损失函数值传递给梯度反传层，根据梯度反传参数处理第二损失函数值，得到第二损失函数更新值；

根据梯度反传参数处理第二损失函数得到更新后的第二损失函数，并根据第一损失函数以及更新后的第二损失函数，确定组合损失函数；

确定组合损失函数关于第二语音特征提取子模型的参数的梯度值；

根据梯度值、第一损失函数值、第二损失函数更新值和模型学习率，得到第二语音特征提取子模型更新后的参数。

可选的，如图11所示，语音识别装置1100还包括，第二模型训练模块1106，被配置为：

获取多名目标人员的样本音频数据；

将样本音频数据输入待训练的第一语音特征提取子模型中，得到样本初始特征数据；

根据样本初始特征数据确定第三损失函数值；

根据第三损失函数值更新第一语音特征提取子模型的参数。

可选的，如图11所示，语音识别装置1100还包括，音频识别模块1107，被配置为：

获取待处理音频数据；

对待处理音频数据进行声学特征提取，得到待处理音频数据的声学特征数据；

若对声学特征数据的声纹识别结果对应于目标人员的声纹，则将待处理音频数据确定为目标人员的待识别音频数据。

此外，本公开实施方式的其他具体细节在上述方法的发明实施方式中已经详细说明，在此不再赘述。

示例性存储介质

下面对本公开示例性实施方式的存储介质进行说明。

本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、 C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(FAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

参考图12对本公开示例性实施方式的电子设备进行说明。

图12显示的电子设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备 1200的组件可以包括但不限于：至少一个处理单元1210、至少一个存储单元1220、连接多名系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。

其中，存储单元存储有程序代码，程序代码可以被处理单元1210执行，使得处理单元1210执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元1210可以执行如图所示的方法步骤等。

存储单元1220可以包括易失性存储单元，例如随机存取存储单元 (RAM)1221和/或高速缓存存储单元1222，还可以进一步包括只读存储单元(ROM)1223。

存储单元1220还可以包括具有一组(至少一个)程序子模型1225的程序/实用工具1224，这样的程序子模型1225包括但不限于：操作系统、一个或者多个应用程序、其它程序子模型以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以包括数据总线、地址总线和控制总线。

电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1250 进行。电子设备1200还包括显示单元1240，其连接到输入/输出(I/O) 接口1250，用于进行显示。并且，电子设备1200还可以通过网络适配器 1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230 与电子设备1200的其它子模型通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件子模型，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干子模型或子子模型，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/子模型的特征和功能可以在一个单元/子模型中具体化。反之，上文描述的一个单元/子模型的特征和功能可以进一步划分为由多个单元/子模型来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取目标人员的待识别音频数据；

2.根据权利要求1所述的方法，其特征在于，所述第二语音特征提取子模型包括多个时频特征提取网络，时频特征融合网络和特征权重构建网络，所述将所述初始特征数据输入所述第二语音特征提取子模型中，得到所述待识别音频数据的深度特征数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述待识别音频数据为多帧待识别音频数据，所述第一语音特征特征提取子模型为wav2vec模型，所述wav2vec模型包括特征提取层和上下文编码层，所述将所述待识别音频数据输入第一语音特征提取子模型中，得到所述待识别音频数据的初始特征数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述深度特征数据输入所述语音鉴伪子模型中，得到所述待识别音频数据的分类结果，包括：

5.根据权利要求1所述的方法，其特征在于，训练所述语音识别模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述语音识别模型还包括语种分类子模型和梯度反传层，在将所述样本初始特征数据输入待训练的所述第二语音特征提取子模型中，得到所述样本音频数据的样本深度特征数据之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在获取目标人员的待识别音频数据之前，所述方法还包括：

获取待处理音频数据；

8.一种语音识别装置，其特征在于，所述装置包括：

获取模块，被配置为获取目标人员的待识别音频数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。