CN110298150A

CN110298150A - 一种基于语音识别的身份验证方法及系统

Info

Publication number: CN110298150A
Application number: CN201910460102.4A
Authority: CN
Inventors: 任行; 顾少丰
Original assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Current assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-10-01
Anticipated expiration: 2039-05-29
Also published as: CN110298150B

Abstract

本发明公开一种基于语音识别的身份验证方法及系统，该方法至少包括：预先录制并分析用户根据第一提示语句录入的第一语音口令并将获得的第一口令密码存储在本地；验证时，录制用户根据第一提示语句输入的语音验证口令并将语音验证口令与第一提示语句进行语义内容匹配并将语音验证口令的语音分析结果与第一口令密码进行比对；若比对通过则完成身份验证；若比对不通过且采用其他方式完成身份验证后，根据语音分析结果对第一口令密码进行更新，获得第二口令密码用于之后的身份验证。该基于语音识别的身份验证方法可避免短信劫持、产生短信费用等问题，能避免繁琐地填写及用户隐私的泄露，提高用户体验。

Description

一种基于语音识别的身份验证方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种基于语音识别的身份验证方法及系统。

背景技术

目前电子产品的功能越来越强大，通常隐藏着大量的隐私数据，用户对于电子产品特别是手机的使用安全性要求也越来越高。手机通常采用指纹验证、问题验证、短信动态码等方式进行身份验证。

然而，采用指纹验证时，指纹容易泄露及复制，安全性不高。采用问题验证时，设置时一般需要填写三个问题保证信息的独特和安全性，用户需要填写大量的信息，用户体验较差；这些信息存在一定程度上收集用户隐私的嫌疑；因为填写信息的随意性和用户填写的不确定性，导致需要验证的时候，通过率低，同时需要输入大量文字信息体验差，并且，很多问题验证方案中，要求电子产品为连网状态。采用短信验证时，如果手机停机或信号等其他原因导致短信，容易受外界原因的干扰导致短信信息无法及时触达；同时发短信会产生一定的费用；发送短信的过程会有一个等待和接收的过程；短信的存在被劫持问题，安全性不高。

因此，寻求一种在手机停机或断网状态下也能有效进行身份验证的方法，且该验证方法设置过程简单并同时不涉及用户隐私，为亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明提供了一种基于语音识别的身份验证方法及系统，其能在确保安全性的基础上，提高验证的通过率及准确性，进而提高用户体验。

本发明实施例提供的技术方案如下：

第一方面，提供了一种基于语音识别的身份验证方法，所述方法至少包括如下步骤：

预先录制用户根据第一提示语句录入的第一语音口令，对所述第一语音口令进行语义解析确认，并进行语音分析获得第一口令密码，并将所述第一口令密码存储在本地；

进行身份验证时，录制用户根据所述第一提示语句输入的语音验证口令，对所述语音验证口令进行语义解析，并进行语音分析，获得语音分析结果，并将所述语音验证口令与所述第一提示语句进行语义内容比对，且将所述语音分析结果与所述第一口令密码进行比对，若均比对通过，则完成身份验证；

若所述语音分析结果与所述第一口令密码比对未通过，且用户采用其他方式完成身份验证后，根据所述语音分析结果对所述第一口令密码进行更新，获得第二口令密码用于之后的身份验证。

在一些实施例中，预先录制用户根据第一提示语句录入的第一语音口令，对所述第一语音口令进行语义解析确认，并进行语音分析获得第一口令密码，并将所述第一口令密码存储在本地，至少包括如下子步骤：

录制用户根据第一提示语句而录入的第一语音口令，并对其进行第一次预处理，所述第一次预处理包括在所述第一语音口令中抵消环境声音；

对所述第一次预处理后的第一语音口令进行语义解析确认，判断其语义内容与所述第一提示语句的语义内容是否匹配；

若匹配，则对所述第一次预处理后的第一语音口令进行语音分析获得第一口令密码，并将所述第一口令密码存储在本地，所述语音分析包括对所述第一语音口令进行第二次预处理、对所述第二次预处理后的第一语音口令打标签获得第一口令密码。

在一些实施例中，所述语音分析具体包括如下子步骤：

采用数字化、预加重、加窗、加帧及去噪对所述第一次预处理后的第一语音口令进行第二次预处理，获得稳定的声学特征；

对所述声学特征进行编码并过滤易变编码类型，获得编码结果，所述编码结果至少包括生理性特征编码类型及发音习惯编码类型；

通过预先训练生成的分类模型对所述编码结果打标签，获得第一口令密码。

在一些实施例中，所述进行身份验证时，录制用户根据所述第一提示语句输入的语音验证口令，对所述语音验证口令进行语义解析，并进行语音分析，获得语音分析结果，并将所述语音验证口令与所述第一语音口令进行语义内容比对，且将所述语音分析结果与所述第一口令密码进行比对，若均比对通过，则完成身份验证，具体包括如下子步骤：

向用户输出第一提示语句；

录制用户根据所述第一提示语句输入的语音验证口令；

对所述语音验证口令进行第一次预处理；

将所述第一次预处理后的语音验证口令进行语义分析，判断其语义内容与所述第一提示语句的语义内容是否匹配；

若匹配，则对所述语音验证口令进行语音分析，对所述语音验证口令打标签获得语音分析结果；

计算所述语音分析结果中属于第一口令密码的标签数量在所述第一口令密码中总标签数量中的占比；

若所述占比在预设占比阈值范围内，则比对通过，完成身份验证。

在一些实施例中，所述根据所述语音分析结果对所述第一口令密码进行更新，获得第二口令密码用于之后的身份验证，至少包括如下子步骤：

获取所述语音分析结果中相对于所述第一口令密码不同的差异标签；

对所述第一口令密码中与所述差异标签相近似的标签进行替换，一次替换比例为5％～10％；

完成一次替换后，再次进行身份验证，若通过，则完成替换；

若未通过，则再次进行替换及身份验证，所述替换次数不超过三次。

另一方面，提供一种基于语音识别的身份验证系统，所述系统至少包括：

录制模块：用于预先录制用户根据第一提示语句录入的第一语音口令，还用于录制用户根据所述第一提示语句输入的语音验证口令；

分析模块：用于对预先录制用户根据第一提示语句录入的第一语音口令及语音验证口令进行分析，分别获得第一口令密码及语音分析结果；

存储模块：用于将所述第一口令密码存储在本地；

比对模块：用于将所述语音验证口令与所述第一提示语句进行语义内容比对，且将所述语音分析结果与所述第一口令密码比对，并获得比对结果；

更新模块：用于当所述语音分析结果与所述第一口令密码比对时未通过，且用户采用其他方式完成身份验证后，根据所述语音分析结果对所述第一口令密码进行更新，获得第二口令密码用于之后的身份验证。

在一些实施例中，所述分析模块至少包括如下子模块：

第一预处理子模块：用于对所述第一语音口令/语音验证口令进行第一次预处理，所述第一次预处理包括在所述第一语音口令/语音验证口令中抵消环境声音；

语义匹配子模块：用于对所述第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行语义解析，判断其语义内容与所述第一提示语句的语义内容是否匹配；

语音分析子模块：用于对所述第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行语音分析，所述语音分析包括对所述第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行第二次预处理、对所述第二次预处理后的第一语音口令/语音验证口令打标签，分别获得第一口令密码和语音分析结果。

在一些实施例中，所述语音分析子模块至少包括如下单元：

第二预处理单元：用于采用数字化、预加重、加窗、加帧及去噪对所述第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行第二次预处理，获得稳定的声学特征；

编码结果获取单元：用于对所述声学特征进行编码并过滤易变编码类型，获得编码结果，所述编码结果至少包括生理性特征编码类型及发音习惯编码类型；

打标单元：用于通过预先训练生成的分类模型对所述编码结果打标签，获得第一口令密码/语音分析结果。

在一些实施例中，所述比对模块至少包括如下子模块：

计算子模块：用于计算所述语音分析结果中属于第一口令密码的标签在所述口令密码中中的占比；

判断子模块：用于当所述占比在预设占比阈值范围内，则比对通过，完成身份验证。

在一些实施例中，所述更新模块至少包括如下子模块：

差异标签子模块：用于获取所述语音分析结果相对于所述第一口令密码不同的差异标签；

替换子模块：用于对所述第一口令密码中与所述差异标签相近似的标签进行替换，一次替换比例为5％～10％。

本发明相比现有技术而言的有益效果在于：

本发明实施例提供一种基于语音识别的身份验证方法及系统，其通过在本地存储第一口令密码及相关模型，实现根据预设的用户本人阅读第一提示语句而存储第一口令密码，验证时，用户再次阅读与第一提示语句对应的语音验证口令，以进行身份验证，先后进行语义内容匹配及语音分析比对，以提高验证准确性，并且，当用户声音状态发生变化时，能对第一语音口令进行更新，在确保安全性的基础上，提高验证的通过率及准确性，进而提高用户体验；

进一步，本实施例中保护的一种基于语音识别的身份验证方法，其通过在本地设置第一口令密码及相关模型，可实现在停机或断网状态下的身份验证，而不受网络状态的影响，并且，相对于传统的短信验证的方法，可避免短信劫持、短信费用等问题，相对于填写用户隐私相关问题的方法，无需进行繁琐地填写，且能避免用户隐私的泄露，以及用户一旦填写不准确就验证不通过的情况，进一步提高用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的一种基于语音识别的身份验证方法的流程图；

图2是本发明实施例二中的一种基于语音识别的身份验证系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种基于语音识别的身份验证方法，属于计算机技术领域，适用于手机、平板等多种电子产品的语音识别身份验证业务场景，为了便于描述，本实施例以手机为例进行具体撰述。

本实施例中基于语音识别的身份验证方法至少包括如下步骤：

S1、预先录制用户根据第一提示语句录入的第一语音口令，对第一语音口令进行语义解析确认，并进行语音分析获得第一口令密码，并将第一口令密码存储在本地。

为确保该身份验证方法的实现，首先需要获取相应硬件设备的权限，硬件设备如麦克风、喇叭、CPU/GPU、本地存储设备等。

第一提示语句为系统自定义的短句，作为优选，通常为经过机器学习预先分析获取的最容易体现个人特性且容易进行标记的语句，一般为5个字之内的祈使句。与第一提示语句对应的第一口令密码存储在本地的口令密码数据库中，口令密码数据库中可以包括与多条不同语义的提示语句对应的口令密码。然而，为了提高用户的使用便捷性、提高身份验证准确性并减小数据处理量，进而最大限度地简化身份验证过程，本实施例中的口令密码数据库中仅包含与唯一一条第一提示语句对应的第一口令密码。

在语音识别身份安全验证的设置时，自动获取相应硬件设备的权限，显示屏显示第一语音口令对应的第一提示语句，用户根据第一提示语句进行阅读。

系统录制并分析用户的第一语音口令，至少包括如下子步骤：

S11、录制用户根据第一提示语句而录入的第一语音口令，并对其进行第一次预处理，第一次预处理包括在第一语音口令中抵消环境声音。

因此，在步骤S11之前，还包括步骤S10、录制环境声音，用于将步骤S11中录制的第一语音口令中的环境声音抵消，以排除环境声音的干扰。

作为优选，为了进一步排除干扰声频，系统设置识别声频阈值，为100HZ～1000HZ，实现仅对人类的声音进行识别。

S12、第一次预处理后的第一语音口令进行语义解析确认，判断其语义内容与第一提示语句的语义内容是否匹配。

目前针对声音的语义解析模型较多，技术也较为成熟，本实施例不做限制，作为优选，本实施例采用隐马尔科夫模型(HMMs)。

具体地，隐马尔科夫模型能把人说话发出的声音分成各种音节(syllable)，本实施例中的第一语音口令是一连串的音节。对语音识别系统而言，语音这个音节序列是看得到的讯号，而系统想要做的是推测出与其相对应的，看不到的文字序列，当解析出文字序列并完成与当前的第一提示语句进行比对，即能判断其语义内容与第一提示语句的语义内容是否匹配。

S13、若匹配，则对第一次预处理后的第一语音口令进行语音分析获得第一口令密码，并将第一口令密码存储在本地，语音分析包括对第一语音口令进行第二次预处理、对第二次预处理后的第一语音口令打标签获得第一口令密码。

具体地，步骤S13中进行语音分析时，具体包括如下子步骤：

S131、采用数字化、预加重、加窗、加帧及去噪对第一次预处理后的第一语音口令进行第二次预处理，获得稳定的声学特征。

语音是一个连续的音频流，它是由大部分的稳定态和部分动态改变的声学特征混合构成。一个单词的发声(波形)实际上取决于很多因素，例如音素、上下文、说话者(包括生理性特性)、语音风格(包括发音习惯、声调及语气等)等。实际上我们并不需要考虑所有的声学特征，而仅需要考虑稳定的声学特征，因此我们需要对第一语音口令进行降维。本实施例中，可采用帧frames去分割第一语音口令的语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的声学特征。然后通过去噪去除一些不稳定的声学特征，从而获得稳定的声学特征。

S132、对声学特征进行编码并过滤易变编码类型，获得编码结果，编码结果至少包括生理性特征编码类型及发音习惯编码类型。

在编码过程中，进一步去除如声调、语气等易变编码类型。

S133、通过预先训练生成的分类模型对编码结果打标签，获得第一口令密码。

本实施例中，对分类模型并不加以限制，可以是运用traina.py类来进行训练数据，也可以采用输出双标签的AdaBoost+C4.5模型实现。

在录制第一语音口令时，需要录制三次用户阅读第一提示语句的语音，且对三次录入的语音均进行语音分析，获得稳定的特征，打上一定数量的标签(不低于5000个标签)。若录制三次后仍无法获得稳定特征或无法打上足够多的标签来作为再次验证的依据，则将第一提示语句自动更换成第二提示语句，让用户继续录制，直到获得一条可提取到第一口令密码的第一语音口令为止，并存储该第一口令密码。

S2、进行身份验证时，录制用户根据第一提示语句输入的语音验证口令，对语音验证口令进行语义解析，并进行语音分析，获得语音分析结果，并将语音验证口令与第一提示语句进行语义内容比对，且将语音分析结果与第一口令密码进行比对，若均比对通过，则完成身份验证。

步骤S2具体包括如下子步骤：

S21、向用户输出第一提示语句，第一提示语句内容与第一语音口令内容相同；

S22、录制用户根据第一提示语句输入的语音验证口令；

S23、对语音验证口令进行第一次预处理；

S24、将第一次预处理后的语音验证口令进行语义分析，判断其语义内容与第一提示语句的语义内容是否匹配；

S25、若匹配，则对语音验证口令进行语音分析，对语音验证口令打标签获得语音分析结果；

S26、计算语音分析结果中属于第一口令密码的标签数量在第一口令密码中总标签数量中的占比；

若占比在预设占比阈值范围内，则比对通过，完成身份验证。

本实施例中，步骤S22～S25的具体处理过程与步骤S11～S13的处理过程基本相似，区别仅在于处理对象的差别，以及用于进行比较的对象的差别，对于相似之处，此处不再赘述。

其中，步骤S26中计算获得占比结果后，若占比在预设占比阈值范围内，则比对通过，完成身份验证。

关于预设占比阈值范围，系统默认(85～100)％，用户也可以根据对身份验证的通过率高低要求自行设置。可以预期，占比阈值下限越小，验证的通过率越高，安全性就相应较低。

S3、若语音分析结果与第一口令密码比对未通过，且用户采用其他方式完成身份验证后，根据语音分析结果对第一口令密码进行更新，获得第二口令密码用于之后的身份验证。

通过该步骤，可实现随着用户年龄、身体状况的变化带来语音变化来更新口令密码数据库(在本实施例中仅录制一条第一语音口令的情况下，即为第一口令密码的更新)，在确保安全性的基础上，提高验证的通过率及准确性，进而提高用户体验。

当然，本实施例中的口令密码数据库及相关模型在存储在本地的同时，也可在云端进行备份，以提高数据的可扩展性，对此本实施例并不加以限制。

本发明实施例提供一种基于语音识别的身份验证方法及系统，其通过在本地存储第一口令密码及相关模型，实现根据预设的用户本人阅读第一提示语句而存储第一口令密码，验证时，用户再次阅读与第一提示语句对应的语音验证口令，以进行身份验证，先后进行语义内容匹配及语音分析比对，以提高验证准确性，并且，当用户声音状态发生变化时，能对第一口令密码进行更新，在确保安全性的基础上，提高验证的通过率及准确性，进而提高用户体验；

实施例二

为执行上述实施例一中的一种基于语音识别的身份验证方法，本实施例提供一种基于语音识别进行身份验证的系统。

图2为该基于语音识别的身份验证系统的结构示意图，如图2所示，该系统100至少包括：

录制模块1：用于预先录制用户根据第一提示语句录入的第一语音口令，还用于录制用户根据第一提示语句输入的语音验证口令；

分析模块2：用于对预先录制用户根据第一提示语句录入的第一语音口令及语音验证口令进行分析，分别获得第一口令密码及语音分析结果；

存储模块3：用于将第一口令密码存储在本地；

比对模块4：用于将语音验证口令与第一提示语句进行语义内容比对，且将语音分析结果与第一口令密码比对，并获得比对结果；

更新模块5：用于当语音分析结果与第一口令密码比对时未通过，且用户采用其他方式完成身份验证后，根据语音分析结果对第一口令密码进行更新，获得第二口令密码用于之后的身份验证。

在一些实施例中，分析模块2至少包括如下子模块：

第一预处理子模块21：用于对第一语音口令/语音验证口令进行第一次预处理，第一次预处理包括在第一语音口令/语音验证口令中抵消环境声音；

语义匹配子模块22：用于对第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行语义解析，判断其语义内容与第一提示语句的语义内容是否匹配；

语音分析子模块23：用于对第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行语音分析，语音分析包括对第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行第二次预处理、对第二次预处理后的第一语音口令/语音验证口令打标签，分别获得第一口令密码和语音分析结果。

在一些实施例中，语音分析子模块23至少包括如下单元：

第二预处理单元231：用于采用数字化、预加重、加窗、加帧及去噪对第一次预处理后的第一语音口令/第一次预处理后的语音验证口令进行第二次预处理，获得稳定的声学特征；

编码结果获取单元232：用于对声学特征进行编码并过滤易变编码类型，获得编码结果，编码结果至少包括生理性特征编码类型及发音习惯编码类型；

打标单元233：用于通过预先训练生成的分类模型对编码结果打标签，获得第一口令密码/语音分析结果。

在一些实施例中，比对模块4至少包括如下子模块：

计算子模块41：用于计算语音分析结果中属于第一口令密码的标签在口令密码中中的占比；

判断子模块42：用于当占比在预设占比阈值范围内，则比对通过，完成身份验证。

在一些实施例中，更新模块5至少包括如下子模块：

差异标签子模块51：用于获取语音分析结果相对于第一口令密码不同的差异标签；

替换子模块52：用于对第一口令密码中与差异标签相近似的标签进行替换，一次替换比例为5％～10％。

需要说明的是：上述实施例提供的一种基于语音识别的身份验证系统在触发身份验证业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的一种基于语音识别的身份验证系统与基于语音识别的身份验证方法的实施例属于同一构思，即该系统是基于该方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别的身份验证方法，其特征在于，所述方法至少包括如下步骤：

2.根据权利要求1所述的一种基于语音识别的身份验证方法，其特征在于，预先录制用户根据第一提示语句录入的第一语音口令，对所述第一语音口令进行语义解析确认，并进行语音分析获得第一口令密码，并将所述第一口令密码存储在本地，至少包括如下子步骤：

3.根据权利要求1或2所述的一种基于语音识别的身份验证方法，其特征在于，所述语音分析具体包括如下子步骤：

4.根据权利要求3所述的一种基于语音识别的身份验证方法，其特征在于，所述进行身份验证时，录制用户根据所述第一提示语句输入的语音验证口令，对所述语音验证口令进行语义解析，并进行语音分析，获得语音分析结果，并将所述语音验证口令与所述第一语音口令进行语义内容比对，且将所述语音分析结果与所述第一口令密码进行比对，若均比对通过，则完成身份验证，具体包括如下子步骤：

向用户输出第一提示语句；

录制用户根据所述第一提示语句输入的语音验证口令；

对所述语音验证口令进行第一次预处理；

5.根据权利要求4所述的一种基于语音识别的身份验证方法，其特征在于，所述根据所述语音分析结果对所述第一口令密码进行更新，获得第二口令密码用于之后的身份验证，至少包括如下子步骤：

6.一种基于语音识别的身份验证系统，其特征在于，所述系统至少包括：

存储模块：用于将所述第一口令密码存储在本地；

7.根据权利要求6所述的一种基于语音识别的身份验证系统，其特征在于，所述分析模块至少包括如下子模块：

8.根据权利要求6或7所述的一种基于语音识别的身份验证系统，其特征在于，所述语音分析子模块至少包括如下单元：

9.根据权利要求8所述的一种基于语音识别的身份验证系统，其特征在于，所述比对模块至少包括如下子模块：

10.根据权利要求8所述的一种基于语音识别的身份验证系统，其特征在于，所述更新模块至少包括如下子模块：