CN103236259A

CN103236259A - 语音识别处理及反馈系统、语音回复方法

Info

Publication number: CN103236259A
Application number: CN2013100956595A
Authority: CN
Inventors: 毛惟谦; 王珏; 彭培源; 郑园蓁
Original assignee: Shanghai LG Electronics Co Ltd
Current assignee: LG Electronics China Research and Development Center Co Ltd; Shanghai LG Electronics Co Ltd
Priority date: 2013-03-22
Filing date: 2013-03-22
Publication date: 2013-08-07
Anticipated expiration: 2033-03-22
Also published as: CN103236259B

Abstract

本发明提供一种语音识别处理及反馈系统、语音回复方法，该方法包括：采集用户的语音信息；对用户的语音信息进行识别，将识别出的语音信息转化为文字信息；生成对应于文字信息的文字反馈；检测用户的性别；检测用户的年龄；获取并存储男性语音库、女性语音库和儿童语音库；当检测出用户为男性且不是儿童时，选择女性语音库对文字反馈进行语音合成，生成女声语音文件回复用户；当检测出用户为女性且不是儿童时，选择男性语音库对文字反馈进行语音合成，生成男声语音文件回复用户；当检测出用户为儿童时，选择儿童语音库对文字反馈进行语音合成，生成卡通语音文件回复用户。该方法能够根据说话者年龄和性别进行有差别的、不同语调的语音回复。

Description

语音识别处理及反馈系统、语音回复方法

技术领域

本发明涉及语音识别以及语音合成，具体地涉及一种语音识别处理及反馈系统、语音回复方法。

背景技术

在现有语音识别处理及反馈系统中，通常包括三个重要的组成部分：语音识别、语音理解和语音回复。在第三部分语音回复这个模块，所采用的是单一语音语调和无差别回复，基本只能分为男声和女声，用户对于不同语音的需求也只能通过提前设置来进行选择。无法满足用户对于多样性语音回复的需求，更无法针对当前说话用户来自动地转换为用户喜好的语音回复。

传统语音识别处理以及反馈系统，操作平台可为带有网络功能的各种多媒体平台如手机，或者移动终端等，此处以电视平台为例。传统语音识别处理以及反馈系统主要分为如下三个模块：语音识别模块、语音理解和处理模块、语音回复模块。系统预先设置固定语音语调回复，一般分为男声和女声，需要在系统设置由用户自行选择，回复内容男女生一致。

图1为传统语音识别处理以及反馈系统中的语音回复方法示意图。如图1所示，当任何一类用户（如男人，女人或者儿童）首先对系统进行语音输入，明确各自的指令。系统对用户的语音输入进行识别，将语音信息转化为文字信息。然后进入语音理解和处理模块，对文字信息进一步理解和分析，得出相应的文字反馈。最终转入语音回复模块，文字反馈会被输入语音合成库，语音库一般分为男声和女声，用户需要提前设置选择，被选择的语音库可以生成语音文件，最终将语音反馈给用户。这种语音回复和反馈服务是：1，同样的发音；2，同样的反馈。

发明人在实现本发明的过程中发现，现有技术存在的问题至少包括：

1、语音回复单一

传统的系统一般只会集成1到2个语音库，使用时需要用户自行选择。因此无论哪一类用户所听到的语音反馈都只有一种语音语调。用户在长期使用的过程中，会产生听觉疲劳。即使再有的语音系统中加入了身份识别功能，但是在最终的语音回复模块也只是增加了个性化服务，并没有对语音和语调进行过相应的调整。

2、无法吸引儿童群体

对于儿童群体来说，语音系统的吸引力更多的体现在听说的互动的体验上，对于当前传统的语音系统，无法满足儿童群体对于多样性和趣味性的要求。因此无法调动这个群体的使用兴趣。从某种意义上阻碍了将语音系统拓展为一种教育方式的潜在功能。

发明内容

本发明的目的在于，克服现有技术的不足，提供一种语音识别处理及反馈系统、语音回复方法，以便于在语音系统中向用户提供多种个性化的、差异化的语音回复功能，能够根据说话者年龄和性别进行有差别的、不同语调的语音回复。

一方面，为达上述目的，本发明实施例提供了一种语音识别处理及反馈系统，所述系统包括：

语音采集单元，用于采集用户的语音信息；

语音识别单元，用于对采集的用户的语音信息进行识别，将识别出的语音信息转化为文字信息；

语音理解和处理单元，所述语音理解和处理单元包括：文字反馈模块，用于生成地应于所述文字信息的文字反馈；性别检测模块，用于检测用户的性别；以及，年龄检测模块，用于检测用户的年龄；

存储单元，用于存储语音库，所述语音库包括：男性语音库、女性语音库和儿童语音库；

语音回复单元，包括语音合成模块和语音播放模块，所述语音合成模块用于当检测出的用户为男性且不是儿童时，选择所述女性语音库对所述文字反馈进行语音合成，生成女声语音文件；当检测出的用户为女性且不是儿童时，选择所述男性语音库对所述文字反馈进行语音合成，生成男声语音文件；当检测出的用户为儿童时，选择所述儿童语音库对所述文字反馈进行语音合成，生成卡通语音文件；所述语音播放单元，用于播放所述语音合成模块生成的相应的语音文件。

另一方面，为达上述目的，本发明实施例提供了一种语音识别处理及反馈系统的语音回复方法，所述方法包括：

采集用户的语音信息；

对采集的用户的语音信息进行识别，将识别出的语音信息转化为文字信息；

生成地应于所述文字信息的文字反馈；

检测用户的性别；

检测用户的年龄；

获取并存储语音库，所述语音库包括：男性语音库、女性语音库和儿童语音库；

当检测出的用户为男性且不是儿童时，选择女性语音库对所述文字反馈进行语音合成，生成女声语音文件回复所述用户；当检测出的用户为女性且不是儿童时，选择男性语音库对所述文字反馈进行语音合成，生成男声语音文件回复所述用户；当检测出的用户为儿童时，选择儿童语音库对所述文字反馈进行语音合成，生成卡通语音文件回复所述用户。

本发明实施例的上述技术方案的有益技术效果在于：

1，在语音系统中，本发明提供用户多种个性化的，差异化的语音回复功能，将原本只有2种语音回复的单一选择，提升到n种选择，增强用户的好感度和用户体验，提高用户使用该产品的兴趣，增加购买该产品的机率。

2，本发明对于儿童群体来说，多样性和趣味性的语音调动了这个群体的使用兴趣。将语音系统拓展为一种潜在的教育系统。同时在识别儿童身份信息的基础上，还可以对儿童的视听内容进行监控。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为传统语音识别处理以及反馈系统中的语音回复方式的示意图；

图2为本发明实施例的语音识别处理及反馈系统的系统功能框图；

图3为本发明另一实施例中语音识别处理及反馈系统的具体功能框图；

图4为本发明实施例的语音识别处理及反馈系统检测使用者性别及年龄来自动选择回复语音的示意图；

图5为本发明实施例的语音识别处理及反馈系统采集喜好对象的声音特征由系统合成作为回复语音的示意图；

图6为本发明实施例的语音回复方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种语音识别处理及反馈系统。图2为本发明实施例的系统功能框图，如图2所示，该系统100包括：

语音采集单元110，用于采集用户的语音信息；

语音识别（Speech Recognition）单元120，用于对采集的用户的语音进行识别，将识别出的语音信息转化为文字信息；

语音理解和处理（Language Understanding and Processing）单元130，其包括：文字反馈模块131，用于生成地应于所述文字信息的文字反馈；性别检测（gender detection）模块132，用于检测用户的性别；以及，年龄检测（agedetection，儿童或者成人）模块133，用于检测用户的年龄；

存储单元140，用于存储语音库，所述语音库包括：男性语音库、女性语音库和儿童语音库；

语音回复单元150，包括语音合成（Text to Speech）模块151和语音播放模块152，所述语音合成模块151用于当检测出的用户为男性且不是儿童时，选择所述女性语音库对所述文字反馈进行语音合成，生成女声语音文件；当检测出的用户为女性且不是儿童时，选择所述男性语音库对所述文字反馈进行语音合成，生成男声语音文件；当检测出的用户为儿童时，选择所述儿童语音库对所述文字反馈进行语音合成，生成卡通语音文件；所述语音播放单元152，用于播放所述语音合成模块生成的相应的语音文件。

该系统100的工作过程如下：系统通过语音采集单元110接收用户的语音输入，经过语音识别单元120转换成文字，进入语音理解和处理单元130进行处理，确定用户身份并得到回复文字，然后由语音回复单元确定用哪个语音库（男声/女声/卡通声音/用户自定义声音/名人声音等），从存储单元140调用相应语音库，经语音合成模块151将回复文字合成为语音，由语音播放模块152播放出声音。

具体地，语音识别单元生成的文字信息，进入文字反馈模块后，生成回复文字；得到的声音特征信息，经性别检测模块和年龄检测模块判断用户性别和年龄段，并将检测结果输出到语音合成模块，由该语音合成模块决定采用哪个语音库。

在一较佳实施例中，所述语音回复单元150，还可以用于在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后，回复所述用户。

在又一较佳实施例中，提供了另一种语音识别处理及反馈系统200，请参阅图3，所述系统200还包括：模式设置单元160，用于接收外部指令，设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式；在所述多语调语音回复模式下，性别检测模块132和年龄检测模块133处于工作状态，在其他模式下，性别检测模块132和年龄检测模块133处于不工作状态。

所述语音理解和处理单元130还可以进一步包括：声音特征提取及合成（speech feature extraction and synthesis）模块134，用于在喜好对象语音回复模式下，采集指定用户的喜好对象的语音特征，并根据采集的语音特征生成喜好对象的语音库。所述语音合成模块151，还可以用于当所述用户为指定用户时，选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成，生成喜好对象语音文件，并由该语音播放单元152回复所述指定用户。

在又一较佳实施例中，所述存储单元140，还存储有特色语音库。所述语音合成模块151，还可以用于在特色语音回复模式下，选择所述特色语音库对所述文字反馈进行语音合成，生成特色语音文件，并由该语音播放模块152回复所述用户。

其中，该多语调语音回复模式为之前图2中所描述的工作模式，根据用户性别、年龄执行相应的多语调语音回复。

具体地，在自动选择男性／女性／儿童语音回复模式（多语调语音回复模式）中，模块131、132、133工作，模块134不工作；在喜好对象语音回复模式中，模块131、134工作，模块132、133不工作；在特殊语音（如名人）回复模式中，模块131工作，模块132、133、134不工作。

本发明实施例可以增强用户的对于整个语音识别系统的好感度和用户体验，使得整个系统的在提供服务的同时更加丰富了用户的感官体验和使用乐趣，并且衍生了新的服务模式。

以下对本发明实施例的语音识别处理及反馈系统进行更为详细的描述：

本发明实施例通过下列多种方式来实现针对用户性别、年龄、身份、喜好的多语调语音回复。

1、检测使用者性别及年龄来自动选择回复语音。通过在语音理解和处理单元中加入性别识别，年龄识别（成人或儿童），特定身份识别此类已成熟的关键技术，来获得说话人信息，并且提前集成多种语音包，针对不同身份（指年龄和性别）的人自动切换到相对符合其喜好的语音回复，例如用女声回复男用户，男声回复女用户，卡通声音回复儿童用户。

在第一种实现方式中，如图4所示，本发明实施例在语音理解和处理单元中加入性别检测、年龄检测等功能模块，同时在系统中再添加一个针对儿童喜好的卡通语音库。系统在识别语音和处理的同时，可以把说话者身份信息传给语音回复模块，语音回复单元自动根据提供的身份信息来选择对应的语音库进行语音合成。这样就可以实现针对不同群体的三种回复效果。

其中，性别检测模块、年龄检测模块、身份检测模块可分别检测出说话者的年龄、性别、身份。在该语音识别及语音处理单元中，载入三种语音包，分别为男性语音包、女性语音包和针对儿童的卡通语音包。以上都属于成熟技术。

在该具体实现方式中，系统可以自动提供针对性的语音、称谓和服务反馈。例如：

针对女性用户，自动提供男性语音回复。对女性的尊称以及针对其喜好回复。

针对男性用户，自动提供女性语音回复。对男性的尊称以及针对其喜好回复。

针对儿童用户，自动提供卡通语音回复。对儿童的称呼以及针对其喜好回复。

另外，该具体实现方式中，能够提供的个性化服务包括：1）针对不同群体的分类推荐等；2）对儿童的观看和收听进行监控和保护。

2、采集喜好对象的声音特征由系统合成作为回复语音。通过集成喜欢对象的声音来替代，在系统中加入声音合成模块，利用此系统将自己喜欢的人或者身边亲人的声音进行特征采样，然后利用样本采集发音特征，可以最大限度的模仿采样人的发声，从而来取代单一的语音回复。

在第二种实现方式中，如图5所示，针对某些用户更喜欢听到自己熟悉或者喜好者的声音作为语音回复，本发明可以提供用户选择喜好对象语音回复选项。本发明实施例加入声音特征提取及合成模块，喜好对象可以通过2种方式来对系统进行声音采样：1），非系统工作状态采样，即在不使用语音系统的情况下，打开输入端口，在系统的指导下进行语音收集。2），系统工作状态采样，即当通过方式1已采得喜好对象样本的前提下，如果喜好对象也正在使用语音系统，那么系统在在处理的过程中可以通过身份检测的功能来确认此声音来源于喜好对象，自动为其进行语音收集，由于越多语音信息的收集，可以使得最终生成的语音更接近采集者的语调，方式2）可以作为一种学习的功能。系统通过以上2种方式采集对象的语音特征并且自动生成喜好对象的语音库。在最终语音回复的模块，系统就自动采用此喜好人的语音库来生成语音，将喜欢对象的语音回复反馈给发言人。

在该具体实现方式中，语音识别及语音处理单元包括：性别检测模块、年龄检测模块、身份检测模块，分别用于检测出说话者的性别、年龄、身份；以及，语音特征采集合成模块，用于采集喜好对象的语音特征，自动生成喜好对象的语音包括，并保存在系统内。

3、提供名人或者特色语音下载服务。提供名人或者特色语音（例如机器人，外星人）下载服务，来丰富系统自身的语音回复。

在第三种实现方式中，本发明实施例在方式1，2的基础上再提供名人或者特色语音回复的选项。可以将名人或者一些有特色的语音（例如机器人发声，外星人发声等）预先合成放在云端。由用户自行在有网络的条件下下载语音库文件，并且安装到指定位置。同样，在最终语音回复的模块，系统采用下载的库文件生成语音回复给发言人。以上三种方式作为选项可以同时存在，并不互相影响，供用户选择其中一种。

第三种方式可由用户触发，即系统提供名人或特色语音库选项，用户可选择某一种特色语音作为系统回复的语音。系统根据用户所选的语音库来将反馈文本合成语音，回复让用户听到。

图6为本发明实施例的一种语音识别处理及反馈系统的语音回复方法的流程图。如图6所示，所述方法包括如下步骤：

610、采集用户的语音信息；

620、对采集的用户的语音信息进行识别，将识别出的语音信息转化为文字信息；

630、生成地应于所述文字信息的文字反馈；

640、检测用户的性别；

650、检测用户的年龄；

660、获取并存储语音库，所述语音库包括：男性语音库、女性语音库和儿童语音库；

670、当检测出的用户为男性且不是儿童时，选择女性语音库对所述文字反馈进行语音合成，生成女声语音文件回复所述用户；当检测出的用户为女性且不是儿童时，选择男性语音库对所述文字反馈进行语音合成，生成男声语音文件回复所述用户；当检测出的用户为儿童时，选择儿童语音库对所述文字反馈进行语音合成，生成卡通语音文件回复所述用户。

在一个较佳实施例中，所述方法还可以包括如下步骤：在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后，回复所述用户。

在又一个较佳实施例中，所述方法还可以包括如下步骤：

接收外部指令，设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式；

在喜好对象语音回复模式下，采集指定用户的喜好对象的语音特征，并根据采集的语音特征生成喜好对象的语音库；当所述用户为指定用户时，选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成，生成喜好对象语音文件回复所述指定用户。

在又一个较佳实施例中，所述方法还可以包括如下步骤：在特色语音回复模式下，获取特色语音库；根据用户指令选择所述特色语音库对所述文字反馈进行语音合成，生成特色语音文件回复所述用户。

本发明实施例的有益技术效果：

2，在语音系统中，本发明提供了用户选择不同语音回复的多种选项，相对于传统的只能在选项中选择语音的方式，用户可以根据自我兴趣选择想要的语音，也可以由系统通过识别身份信息来自动为用户选择。提供了更多的选择空间，同时系统的自动选择也方便了用户的使用，使操作更便利。

3，本发明对于儿童群体来说，多样性和趣味性的语音调动了这个群体的使用兴趣。将语音系统拓展为一种潜在的教育系统。同时在识别儿童身份信息的基础上，还可以对儿童的视听内容进行监控。

4，本发明针对在传统语音回复方式种，无法针对说话者身份进行有差别的回复缺点，也进行了改进，根据身份信息识别，系统不但能够提供不同语调的语音回复，同时还可以加入不同的称谓以及使用者可能感兴趣的回复内容。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块（illustrative logical block），单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性（interchangeability），上述的各种说明性部件（illustrative components），单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路（ASIC），现场可编程门阵列（FPGA）或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电脑、双绞线、数字用户线（DSL）或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片（disk）和磁盘（disc）包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别处理及反馈系统，其特征在于，所述系统包括：

语音采集单元，用于采集用户的语音信息；

2.根据权利要求1所述的系统，其特征在于，所述语音合成模块，还用于在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后，由所述语音播放单元回复所述用户。

3.根据权利要求1或2所述的系统，其特征在于，所述系统还包括：模式设置单元，用于接收外部指令，设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式；

在所述多语调语音回复模式下，所述性别检测模块和所述年龄检测模块处于工作状态，在其他模式下，所述性别检测模块和所述年龄检测模块处于不工作状态；

所述语音理解和处理单元还包括：

声音特征提取及合成模块，用于在喜好对象语音回复模式下，采集指定用户的喜好对象的语音特征，并根据采集的语音特征生成喜好对象的语音库；

所述语音合成模块，还用于当所述用户为指定用户时，选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成，生成喜好对象语音文件，并由所述语音播放单元回复所述指定用户。

4.根据权利要求1或2所述的系统，其特征在于，所述存储单元，还存储有特色语音库；

所述语音合成模块，还用于在特色语音回复模式下，选择所述特色语音库对所述文字反馈进行语音合成，生成特色语音文件，并由所述语音播放单元回复所述用户。

5.一种语音识别处理及反馈系统的语音回复方法，其特征在于，所述方法包括：

采集用户的语音信息；

生成地应于所述文字信息的文字反馈；

检测用户的性别；

检测用户的年龄；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后，回复所述用户。

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

在喜好对象语音回复模式下，采集指定用户的喜好对象的语音特征，并根据采集的语音特征生成喜好对象的语音库；

当所述用户为指定用户时，选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成，生成喜好对象语音文件回复所述指定用户。

8.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

在特色语音回复模式下，获取特色语音库；

根据用户指令选择所述特色语音库对所述文字反馈进行语音合成，生成特色语音文件回复所述用户。