CN107871506A - 语音识别功能的唤醒方法及装置 - Google Patents
语音识别功能的唤醒方法及装置 Download PDFInfo
- Publication number
- CN107871506A CN107871506A CN201711132605.6A CN201711132605A CN107871506A CN 107871506 A CN107871506 A CN 107871506A CN 201711132605 A CN201711132605 A CN 201711132605A CN 107871506 A CN107871506 A CN 107871506A
- Authority
- CN
- China
- Prior art keywords
- word
- wake
- target
- confidence level
- audio frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002618 waking effect Effects 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 6
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000037007 arousal Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000004378 air conditioning Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000000151 deposition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明是关于一种语音识别功能的唤醒方法及装置,其中,方法包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。通过该技术方案,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别功能的唤醒方法及装置。
背景技术
目前,相关技术中可以通过语音对设备进行控制,设备不是实时录音并识别语音命令的,而是先识别是否收到唤醒词,如果收到唤醒词则激活,然后识别语音命令。而如果误识别了唤醒词,则会导致误唤醒。
发明内容
本发明实施例提供一种语音识别功能的唤醒方法及装置,用以实现提高语音识别功能唤醒的准确率,降低误唤醒。
根据本发明实施例的第一方面,提供一种语音识别功能的唤醒方法,包括:
获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
获取用户输入的当前语音信息;
根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
根据所述置信度确定是否允许唤醒所述语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
在一个实施例中,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:
当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
在一个实施例中,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:
将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
在一个实施例中,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
获取所述当前语音信息对应的当前音频帧特征序列信息;
将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
在一个实施例中,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
根据本发明实施例的第二方面,提供一种语音识别功能的唤醒装置,包括:
第一获取模块,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块,用于获取用户输入的当前语音信息;
第一确定模块,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
在一个实施例中,所述第二确定模块包括:
第一处理子模块,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在一个实施例中,所述训练模块包括:
第一确定子模块,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在一个实施例中,所述第一确定模块包括:
获取子模块,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在一个实施例中,所述第二确定子模块用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别功能的唤醒方法的流程图。
图2是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S105的流程图。
图3是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S102的流程图。
图4是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S104的流程图。
图5是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S404的流程图。
图6是根据一示例性实施例示出的一种语音识别功能的唤醒装置的框图。
图7是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第二确定模块的框图。
图8是根据一示例性实施例示出的一种语音识别功能的唤醒装置中训练模块的框图。
图9是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第一确定模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别功能的唤醒方法的流程图。该语音唤醒方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音控制功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词。
例如,空调的唤醒词可以为空调空调,冗余命令词可以为:空调开机,空调关机,升高温度,降低温度,十六度,十七度,十八度,十九度,二十度,二十一度,二十二度,二十三度,二十四度,二十五度,二十六度,二十七度,二十八度,二十九度,三十度,增大风速,减小风速,打开扫风,关闭扫风,制冷模式,加热模式。
步骤S102,利用深度神经网络对目标唤醒词和至少一个冗余命令词进行训练,得到唤醒词识别模型;
步骤S103,获取用户输入的当前语音信息;
步骤S104,根据唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度;
步骤S105,根据置信度确定是否允许唤醒语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
图2是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S105的流程图。
在一个实施例中,上述步骤S105包括步骤S201-S202:
步骤S201,当置信度大于预设置信度时,允许唤醒语音识别功能;
步骤S202,当置信度小于或者等于预设置信度时,禁止唤醒语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
图3是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S102的流程图。
如图3所示,在一个实施例中,上述步骤S102包括步骤S301-S302:
步骤S301,将目标唤醒词确定为正例词,将至少一个冗余命令词确定为负例词;
步骤S302,利用深度神经网络对正例词和负例词进行训练,得到唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
图4是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S104的流程图。
如图4所示,在一个实施例中,上述步骤S104包括步骤S401-S404:
步骤S401,获取当前语音信息对应的当前音频帧特征序列信息;
步骤S402,将当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从当前音频帧序列信息中定位出与目标识别模型序列信息中的每个音素对应的音频帧的范围;
步骤S403,计算每个音频帧的范围中每个音频帧的声学似然评分,并从每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
步骤S404,根据唤醒词识别模型和目标音频帧对应的特征信息,确定当前语音信息属于目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从当前音频帧序列信息中定位出与目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
图5是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S404的流程图。
如图5所示,在一个实施例中,上述步骤S404包括步骤S501-S503:
步骤S501,使用唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
步骤S502,从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
步骤S503,根据所有音素的最大声学后验得分计算当前语音信息属于目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6是根据一示例性实施例示出的一种语音识别功能的唤醒装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示,该语音识别功能的唤醒装置包括:
第一获取模块61,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块62,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块63,用于获取用户输入的当前语音信息;
第一确定模块64,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块65,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
图7是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第二确定模块的框图。
如图7所示,在一个实施例中,所述第二确定模块65包括:
第一处理子模块71,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块72,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
图8是根据一示例性实施例示出的一种语音识别功能的唤醒装置中训练模块的框图。
如图8所示,在一个实施例中,所述训练模块62包括:
第一确定子模块81,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块82,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
图9是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第一确定模块的框图。
如图9所示,在一个实施例中,所述第一确定模块64包括:
获取子模块91,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块92,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块93,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块94,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
在一个实施例中,所述第二确定子模块94用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别功能的唤醒方法,其特征在于,包括:
获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
获取用户输入的当前语音信息;
根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
根据所述置信度确定是否允许唤醒所述语音识别功能。
2.根据权利要求1所述的方法,其特征在于,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:
当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
3.根据权利要求1所述的方法,其特征在于,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:
将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
获取所述当前语音信息对应的当前音频帧特征序列信息;
将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
6.一种语音识别功能的唤醒装置,其特征在于,包括:
第一获取模块,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块,用于获取用户输入的当前语音信息;
第一确定模块,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
第一处理子模块,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
8.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
第一确定子模块,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
9.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
获取子模块,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
10.根据权利要求9所述的装置,其特征在于,所述第二确定子模块用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711132605.6A CN107871506A (zh) | 2017-11-15 | 2017-11-15 | 语音识别功能的唤醒方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711132605.6A CN107871506A (zh) | 2017-11-15 | 2017-11-15 | 语音识别功能的唤醒方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107871506A true CN107871506A (zh) | 2018-04-03 |
Family
ID=61754095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711132605.6A Pending CN107871506A (zh) | 2017-11-15 | 2017-11-15 | 语音识别功能的唤醒方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107871506A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109143879A (zh) * | 2018-08-10 | 2019-01-04 | 珠海格力电器股份有限公司 | 一种以空调为中心控制家电的方法 |
CN109215658A (zh) * | 2018-11-30 | 2019-01-15 | 广东美的制冷设备有限公司 | 设备的语音唤醒方法、装置和家电设备 |
CN109273007A (zh) * | 2018-10-11 | 2019-01-25 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
CN109753665A (zh) * | 2019-01-30 | 2019-05-14 | 北京声智科技有限公司 | 唤醒模型的更新方法及装置 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN110600023A (zh) * | 2018-06-12 | 2019-12-20 | Tcl集团股份有限公司 | 一种终端设备交互方法、装置和终端设备 |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110689887A (zh) * | 2019-09-24 | 2020-01-14 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN111081225A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 技能语音唤醒方法及装置 |
CN111462756A (zh) * | 2019-01-18 | 2020-07-28 | 北京猎户星空科技有限公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN111599350A (zh) * | 2020-04-07 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种命令词定制识别方法及系统 |
CN112509556A (zh) * | 2019-09-16 | 2021-03-16 | 北京声智科技有限公司 | 一种语音唤醒方法及装置 |
CN112767935A (zh) * | 2020-12-28 | 2021-05-07 | 北京百度网讯科技有限公司 | 唤醒指标监测方法、装置及电子设备 |
CN112967718A (zh) * | 2021-04-02 | 2021-06-15 | 江苏吉祥星智能科技有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN113707132A (zh) * | 2021-09-08 | 2021-11-26 | 北京声智科技有限公司 | 一种唤醒方法及电子设备 |
CN114220440A (zh) * | 2021-12-28 | 2022-03-22 | 科大讯飞股份有限公司 | 一种语音唤醒方法、装置、存储介质及设备 |
CN114360508A (zh) * | 2021-12-24 | 2022-04-15 | 北京声智科技有限公司 | 一种标记方法、装置、设备及存储介质 |
WO2023010861A1 (zh) * | 2021-08-06 | 2023-02-09 | 佛山市顺德区美的电子科技有限公司 | 一种唤醒处理方法、装置、设备和计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021409A (zh) * | 2012-11-13 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 一种语音启动拍照系统 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN105741840A (zh) * | 2016-04-06 | 2016-07-06 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
WO2017054122A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
-
2017
- 2017-11-15 CN CN201711132605.6A patent/CN107871506A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021409A (zh) * | 2012-11-13 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 一种语音启动拍照系统 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
WO2017054122A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN105741840A (zh) * | 2016-04-06 | 2016-07-06 | 北京云知声信息技术有限公司 | 一种语音控制方法及装置 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600023A (zh) * | 2018-06-12 | 2019-12-20 | Tcl集团股份有限公司 | 一种终端设备交互方法、装置和终端设备 |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN109143879A (zh) * | 2018-08-10 | 2019-01-04 | 珠海格力电器股份有限公司 | 一种以空调为中心控制家电的方法 |
CN109273007A (zh) * | 2018-10-11 | 2019-01-25 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
CN109273007B (zh) * | 2018-10-11 | 2022-05-17 | 西安讯飞超脑信息科技有限公司 | 语音唤醒方法及装置 |
CN109215658A (zh) * | 2018-11-30 | 2019-01-15 | 广东美的制冷设备有限公司 | 设备的语音唤醒方法、装置和家电设备 |
CN111462756A (zh) * | 2019-01-18 | 2020-07-28 | 北京猎户星空科技有限公司 | 声纹识别方法、装置、电子设备及存储介质 |
CN109753665A (zh) * | 2019-01-30 | 2019-05-14 | 北京声智科技有限公司 | 唤醒模型的更新方法及装置 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
US11620984B2 (en) | 2019-09-03 | 2023-04-04 | Beijing Dajia Internet Information Technology Co., Ltd. | Human-computer interaction method, and electronic device and storage medium thereof |
CN110634483B (zh) * | 2019-09-03 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN110556099B (zh) * | 2019-09-12 | 2021-12-21 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN112509556B (zh) * | 2019-09-16 | 2023-11-17 | 北京声智科技有限公司 | 一种语音唤醒方法及装置 |
CN112509556A (zh) * | 2019-09-16 | 2021-03-16 | 北京声智科技有限公司 | 一种语音唤醒方法及装置 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110428811B (zh) * | 2019-09-17 | 2021-09-07 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110689887B (zh) * | 2019-09-24 | 2022-04-22 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110689887A (zh) * | 2019-09-24 | 2020-01-14 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
US11721328B2 (en) | 2019-12-31 | 2023-08-08 | Ai Speech Co., Ltd. | Method and apparatus for awakening skills by speech |
CN111081225A (zh) * | 2019-12-31 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 技能语音唤醒方法及装置 |
CN111599350A (zh) * | 2020-04-07 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种命令词定制识别方法及系统 |
CN111599350B (zh) * | 2020-04-07 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种命令词定制识别方法及系统 |
CN112767935B (zh) * | 2020-12-28 | 2022-11-25 | 北京百度网讯科技有限公司 | 唤醒指标监测方法、装置及电子设备 |
CN112767935A (zh) * | 2020-12-28 | 2021-05-07 | 北京百度网讯科技有限公司 | 唤醒指标监测方法、装置及电子设备 |
CN112967718A (zh) * | 2021-04-02 | 2021-06-15 | 江苏吉祥星智能科技有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN112967718B (zh) * | 2021-04-02 | 2024-04-12 | 深圳吉祥星科技股份有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
WO2023010861A1 (zh) * | 2021-08-06 | 2023-02-09 | 佛山市顺德区美的电子科技有限公司 | 一种唤醒处理方法、装置、设备和计算机存储介质 |
CN113707132A (zh) * | 2021-09-08 | 2021-11-26 | 北京声智科技有限公司 | 一种唤醒方法及电子设备 |
CN113707132B (zh) * | 2021-09-08 | 2024-03-01 | 北京声智科技有限公司 | 一种唤醒方法及电子设备 |
CN114360508A (zh) * | 2021-12-24 | 2022-04-15 | 北京声智科技有限公司 | 一种标记方法、装置、设备及存储介质 |
CN114220440A (zh) * | 2021-12-28 | 2022-03-22 | 科大讯飞股份有限公司 | 一种语音唤醒方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107871506A (zh) | 语音识别功能的唤醒方法及装置 | |
CN106782536A (zh) | 一种语音唤醒方法及装置 | |
US20210201911A1 (en) | System and method for dynamic facial features for speaker recognition | |
US11074904B2 (en) | Speech synthesis method and apparatus based on emotion information | |
CN109769099B (zh) | 通话人物异常的检测方法和装置 | |
CN106649694A (zh) | 语音交互中确定用户意图的方法及装置 | |
US11222636B2 (en) | Intelligent voice recognizing method, apparatus, and intelligent computing device | |
CN105654949B (zh) | 一种语音唤醒方法及装置 | |
CN104036774B (zh) | 藏语方言识别方法及系统 | |
US11373647B2 (en) | Intelligent voice outputting method, apparatus, and intelligent computing device | |
CN106782529B (zh) | 语音识别的唤醒词选择方法及装置 | |
CN107170456A (zh) | 语音处理方法及装置 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN109858445A (zh) | 用于生成模型的方法和装置 | |
US11189282B2 (en) | Intelligent voice recognizing method, apparatus, and intelligent computing device | |
CN107146618A (zh) | 语音处理方法及装置 | |
US20200035216A1 (en) | Speech synthesis method based on emotion information and apparatus therefor | |
US11580992B2 (en) | Intelligent voice recognizing method, apparatus, and intelligent computing device | |
CN111261195A (zh) | 音频测试方法、装置、存储介质及电子设备 | |
US11636845B2 (en) | Method for synthesized speech generation using emotion information correction and apparatus | |
US20210134301A1 (en) | Gathering user's speech samples | |
US20210158802A1 (en) | Voice processing method based on artificial intelligence | |
CN106558305A (zh) | 语音数据处理方法及装置 | |
CN113096647B (zh) | 语音模型训练方法、装置和电子设备 | |
US12086727B2 (en) | Modified media detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180403 |