CN102522091A - 基于仿生模式识别的极低速率语音编码方法 - Google Patents
基于仿生模式识别的极低速率语音编码方法 Download PDFInfo
- Publication number
- CN102522091A CN102522091A CN2011104223081A CN201110422308A CN102522091A CN 102522091 A CN102522091 A CN 102522091A CN 2011104223081 A CN2011104223081 A CN 2011104223081A CN 201110422308 A CN201110422308 A CN 201110422308A CN 102522091 A CN102522091 A CN 102522091A
- Authority
- CN
- China
- Prior art keywords
- cos
- prime
- recognition
- ellipsoid
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种语音编码方法,属于语音传送领域。一种基于仿生模式识别的极低速率语音编码方法,其特征在于:针对组成语音的基元,采用仿生模式识别后得到文本信息,把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息,然后再将识别出的语音基元文本信息和个体特征信息进行合并编码。本发明中使用的语音识别方法与传统的语音识别方法相比,仿生模式识别是单模板识别,有识别速度快、关键词误识率低等优点,识别后的文本信息编码极大地降低了码率,满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求。
Description
技术领域
本发明涉及一种语音编码方法,尤其涉及基于仿生模式识别的极低速率语音编码方法。
背景技术
根据语音编码速率可将语音编码划分为五类:高速率32Kb/s以上,中高速率16~32Kb/s,中速率4.8~16Kb/s(其中编码速率在16Kb/s以下的语音编码通常称为语音压缩编码),低速率为1.2~4.8Kb/s,极低速率语音编码是指其比特率低于1.2Kb/s一下。低速率语音编码和极低速率语音编码是现代语音编码技术研究和发展的一个重要方向,现有的极低速率语音编码系统所使用的算法种类繁多并呈现出交叉渗透的现象,主要归结为混合激励线性预测(MELP)、多带激励(MBE)、波形内插(WI)和正弦变换编码(STC)四种模型
虽然从信息论的观点来看,语音编码的信息速率下限是50b/s。但是,大量的研究结果证明,要将比特率降到400b/s以下,目前的低速率语音编码中所使用的基于线性预测(LP)分析合成的各种算法都难以满足要求,其提供的语音质量无法达到公众能够接受的程度。为了使语音编码的速率降到400b/s一下,逼近50b/s左右的下界,必需研究新的编码方法。
发明内容
本发明所要解决的技术问题是提供一种基于仿生模式识别的极低速率语音编码方法,解决现在低速率语音编码中所使用的基于LP分析合成的各种算法都无法将比特率降到400b/s以下的缺陷。
技术方案
一种基于仿生模式识别的极低速率语音编码方法,其特征在于:针对组成语音的基元,采用仿生模式识别后得到文本信息,把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息,然后再将识别出的语音基元文本信息和个体特征信息进行合并编码;所述仿生模式中,对于全部语音基元组成的集合,设为全体连续映射到特征空间中的“像”所组成的点形成的一个闭集,在特征空间中构筑一个能覆盖所述闭集的n维空间几何形体,采用仿生模式识别,即对语音的基元进行判断,判断其是否位于所述覆盖闭集的n维空间几何形体内。
所述仿生模式识别中在特征空间中构筑一个能覆盖闭集的n维空间几何形体为在特征空间中作一个超椭球面,采用仿生模式识别即判断语音的基元是否位于所述超椭球面内。
所述在特征空间中作一个超椭球面的具体步骤如下:
(1)首先在二维空间中,所述超椭球面为椭圆,假定二维空间有m个样本,它们可用XOY平面上的m个点(x1,y1)、(x2,y2)...(xm,ym)来表示,采用一次直线拟合法分别求出椭圆的两根轴的长度,即假设y与x之间近似为一线性关系y=kx+d,但是这m个点不可能位于同一直线上,利用计算值和真实值的误差趋进为0的极值原理求出参数,得到椭圆的两根轴的长度和方向角,进而得到椭圆的方程式如下:其中: x、y为样本点的位置值,a、b为椭圆的两个轴的长度,α1、β1分别表示a轴在XOY坐标系中的方向角,α2、β2为b轴对应的方向角,
其中:
(2)对于三维空间,所述超椭球面为椭球,采用与二维空间相同的方法确定椭球的三根轴的长度和其方向向量,即采用一次直线拟合法分别求出各轴,即采用公式z=k1x+k2y+k3求出各参数,得到三根轴的长度和方向角,然后得到椭球的方程式表示为:
其中
x、y、z为样本点的位置值,a、b、c为椭圆的三根轴的长度,三根轴a、b、c对应的方向余弦分别为cosα1、cosβ1、cosγ1;cosα2、cosβ2、cosγ2;cosα3、cosβ3、cosγ3;
(3)对于n维空间,方法与三维空间相同,得到椭球的方程式表示为:
其中
一种应用上述方法进行编码的基于仿生模式识别的语音编码。
有益效果
本发明与传统的语音识别方法在低速率语音编码中的应用相比,仿生模式识别是单模板识别,有识别速度快、关键词误识率低等优点,识别后的文本信息编码能极大地降低码率,满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求,具有重大的理论意义和实践意义。
附图说明
图1为本发明方法进行编码及合成的原理框图。
图2为本发明中仿生模式识别的二维空间样本示意图。
具体实施方式
下面结合具体实施例和附图,进一步阐述本发明。
为了使语音编码的速率降到400b/s一下,逼近50b/s左右的下界,只有采用语音识别与合成技术,如图1所示为对语音进行识别、编码及合成基本原理,具体为采用仿生模式识别与合成技术对语音进行编码与解码。
语音的基元可以是音素、音节或词,任何一种语言的音素或音节是一个有限数目的集合,用其作为基元进行编码,可实现无限词汇语音编码。这种语音识别与合成技术在发送端采用仿生模式识别技术进行语音基元的识别和编码,接收端根据收到的语音基元代码(文本信息)和某些附加的韵律信息(语义信息或称为个体特征信息)再重新合成语音。由于这种技术需要编码传输的参数很少,而在接收端是按规则合成语音,因而其传输码率很低,信息传送量大,并且接收端恢复出的合成语音质量也相当好。
在仿生模式识别中,任何一类事物全体连续映射到特征空间Rn中的“像”所组成的点都被视为一个闭集A,根据仿生模式识别的具体应用对象不同,集合A可以是不同维数的流形。识别过程就是判断某一被识别事物映射到特征空间Rn中的“像”是否属于集合A。这就必须在特征空间Rn中构筑一个能覆盖A的n维空间几何形体。因此,算法的实质就是在特征空间中作一个合适的超椭球面。
在二维空间中,该超椭球面为椭圆。要确定椭圆的方程,需要知道椭圆的参数a、b和θ,其中a、b为椭圆的两个半轴,θ为旋转角。而关键就在于如何确定椭圆的两根半轴的长度。
第一步,先使用最小二乘法进行曲线拟合,本方法采用一次直线拟合。现假定二维空间有m个样本,它们可用XOY平面上的m个点(x1,y1)、(x2,y2)...(xm,ym)来表示。我们假设y与x之间近似为一线性关系
y=kx+d(1)
其中k、d为待定系数。一般来说,这m个点不可能位于同一直线上。现记
εi=yi-(kxi+d),i∈1,2,..m(2)
它反映了用直线(式1)来描述点(xi,yi)时,计算值y与真实值yi之间的误差。根据最小均方误差准则,应使其取得极小值。
由极值原理,最小值时刻应满足
即
解此联立方程组得
第二步,这里可以确定椭圆两根轴的方向向量分别为a轴(1,k),b轴(k,-1),并求出两轴的所有方向余弦:
此处α1、β1分别表示a轴在OXY坐标系中的方向角,α2、β2为b轴对应的方向角。
再求出所有样本点在直线y=kx+d上的投影∑(x′i,y′i),然后找出投影点中相距最远的两个点(x′i,y′i)、(x′j,y′j),并求出它们之间的距离dmax,则a=dmax/2,以及椭圆的圆心坐标
接下来确定b,计算每个样本点到所拟合直线的最大距离,取其中最大值,即
第三步,至此,椭圆的所有参数都已确定,椭圆方程可表示为
其中
识别时的判别函数为
如Φ>0,表示输入量(x′,y′)落入椭圆所覆盖的区域内。图2所示为四类样本在二维特征空间的分布及用仿生模式识别方法进行划分后的情形,分布在不同椭圆区域的点表示不同类的样本。
对于三维空间,算法的目标就是在其中作出一个椭球。关键就是确定椭球的三根轴的长度和其方向向量。
仿照一维直线拟合的方法,设有一平面z=k1x+k2y+k3,同样根据最小均方误差准则,令
则有
解之得k1、k2、k3,则该平面的法向量为L=(k1,k2,-1),L同时也是椭圆某一个轴的方向向量,定为a轴。取所有样本点到该平面的距离最大值为此轴的半轴长,再将所有样本点投影到所确定的平面上,在此平面内再确定一个椭圆即可,方法与二维空间确定椭圆完全一样。如此可确定椭球的三根轴的方向向量。假设三根轴a、b、c对应的方向余弦分别为cosα1、cosβ1、cosγ1;cosα2、cosβ2、cosγ2;cosα3、cosβ3、cosγ3,则椭球的方程可表示为:
其中 同样的,判别函数为
如果是n维空间,那么关键是确定一个n维超椭球的n个轴。方法与三维空间一样,首先根据最小均方误差准则求出一个n-1维超平面,其法向量即为一个轴的方向向量,再将所有样本点投影到此超平面上,则投影点可视为n-1维空间内的样本点,这样就实现了n维空间到n-1维空间的降维。重复这样的投影过程,最后将n维空间降为三维空间,可求出其个轴的方向向量。类比式(4)可写出n维超椭球的方程及判别函数如下:
这里
综上所述,将仿生模式识别应用到关键词识别中最大的优点就是对于词表外的词汇能自动进行拒识。而不会误识为已知关键词。换句话说,仿生模式识别正是因为能够主动拒识外来词汇,从而降低了误识率,但是对外来词汇的拒识不会增加漏识率。仿生模式识别的这一特性正好符合低速率语音编码识别系统的评价标准。
与传统的语音识别在低速率语音编码中的应用相比,仿生模式识别是单模板识别,有识别速度快、指令(关键词)误识率低等优点,识别后的编码极大地降低了码率,满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求,具有重大的理论意义和实践意义。
Claims (5)
1.一种基于仿生模式识别的极低速率语音编码方法,其特征在于:针对组成语音的基元,采用仿生模式识别后得到文本信息,把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息,然后再将识别出的语音基元文本信息和个体特征信息进行合并编码;所述仿生模式中,对于全部语音基元组成的集合,设为全体连续映射到特征空间中的“像”所组成的点形成的一个闭集,在特征空间中构筑一个能覆盖所述闭集的n维空间几何形体,采用仿生模式识别,即对语音的基元进行判断,判断其是否位于所述覆盖闭集的n维空间几何形体内。
2.如权利要求1所述的基于仿生模式识别的极低速率语音编码方法,其特征在于:所述仿生模式识别中在特征空间中构筑一个能覆盖闭集的n维空间几何形体为在特征空间中作一个超椭球面,采用仿生模式识别即判断语音的基元是否位于所述超椭球面内。
3.如权利要求2所述的基于仿生模式识别的极低速率语音编码方法,其特征在于:所述在特征空间中作一个超椭球面的具体步骤如下:
(1)首先在二维空间中,所述超椭球面为椭圆,假定二维空间有m个样本,它们可用XOY平面上的m个点(x1,y1)、(x2,y2)...(xm,ym)来表示,采用一次直线拟合法分别求出椭圆的两根轴的长度,即假设y与x之间近似为一线性关系y=kx+d,但是这m个点不可能位于同一直线上,利用计算值和真实值的误差趋进为0的极值原理求出参数,得到椭圆的两根轴的长度和方向角,进而得到椭圆的方程式如下:
其中: x、y为样本点的位置值,a、b为椭圆的两个轴的长度,α1、β1分别表示a轴在XOY坐标系中的方向角,α2、β2为b轴对应的方向角,
其中:
a=dmax/2, 其中:
(2)对于三维空间,所述超椭球面为椭球,采用与二维空间相同的方法确定椭球的三根轴的长度和其方向向量,即采用一次直线拟合法分别求出各轴,即采用公式z=k1x+k2y+k3求出各参数,得到三根轴的长度和方向角,然后得到椭球的方程式表示为:
其中
x、y、z为样本点的位置值,a、b、c为椭圆的三根轴的长度,三根轴a、b、c对应的方向余弦分别为cosα1、cosβ1、cosγ1;cosα2、cosβ2、cosγ2;cosα3、cosβ3、cosγ3;
(3)对于n维空间,方法与三维空间相同,得到椭球的方程式表示为:
其中
4.如权利要求3所述的基于仿生模式识别的极低速率语音编码方法,其特征在于:以步骤3所述的方程式得到超椭球面后,判断语音的基元是否位于所述超椭球面内的方程式为:如Φ>0,则表示样本落入超椭球面所覆盖的区域内。
5.一种应用如权利要求1所述的方法进行编码的基于仿生模式识别的语音编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104223081A CN102522091A (zh) | 2011-12-15 | 2011-12-15 | 基于仿生模式识别的极低速率语音编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104223081A CN102522091A (zh) | 2011-12-15 | 2011-12-15 | 基于仿生模式识别的极低速率语音编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102522091A true CN102522091A (zh) | 2012-06-27 |
Family
ID=46292988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104223081A Pending CN102522091A (zh) | 2011-12-15 | 2011-12-15 | 基于仿生模式识别的极低速率语音编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102522091A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004913A (zh) * | 2006-01-18 | 2007-07-25 | 中国科学院半导体研究所 | 基于仿生模式识别原理的说话人识别方法 |
US20090030676A1 (en) * | 2007-07-26 | 2009-01-29 | Creative Technology Ltd | Method of deriving a compressed acoustic model for speech recognition |
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
-
2011
- 2011-12-15 CN CN2011104223081A patent/CN102522091A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004913A (zh) * | 2006-01-18 | 2007-07-25 | 中国科学院半导体研究所 | 基于仿生模式识别原理的说话人识别方法 |
US20090030676A1 (en) * | 2007-07-26 | 2009-01-29 | Creative Technology Ltd | Method of deriving a compressed acoustic model for speech recognition |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及系统 |
Non-Patent Citations (2)
Title |
---|
HENG-CHOU CHEN ET.AL: "A 0.75kbps speech codec using recognition and synthesis schemes", 《IEEE WORKSHOP ON SPEECH CODING FOR TELECOMMUNICATIONS PROCEEDING 1997》 * |
徐毅等: "基于仿生模式识别的语音识别研究", 《上海电机学院学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7167074B2 (ja) | 音声認識方法、装置、機器及びコンピュータ可読記憶媒体 | |
Shon et al. | Frame-level speaker embeddings for text-independent speaker recognition and analysis of end-to-end model | |
CN109886272B (zh) | 点云分割方法、装置、计算机可读存储介质和计算机设备 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN101393740B (zh) | 一种计算机多方言背景的汉语普通话语音识别的建模方法 | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
Wong et al. | Tinyspeech: Attention condensers for deep speech recognition neural networks on edge devices | |
Zhang et al. | Improving end-to-end single-channel multi-talker speech recognition | |
CN110309287A (zh) | 建模对话轮次信息的检索式闲聊对话打分方法 | |
US11900957B2 (en) | Voice conversion learning device, voice conversion device, method, and program | |
Wu et al. | Steganography and steganalysis in voice over IP: A review | |
CN102568469A (zh) | G.729a压缩语音流信息隐藏检测装置及检测方法 | |
US8386249B2 (en) | Compressing feature space transforms | |
Jung et al. | Additional shared decoder on Siamese multi-view encoders for learning acoustic word embeddings | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN101785049A (zh) | 为话音识别导出压缩声学模型的方法 | |
CN107808664B (zh) | 基于稀疏神经网络的语音识别方法、语音识别装置和电子设备 | |
Srinivasan | Speech recognition using Hidden Markov model | |
CN102522091A (zh) | 基于仿生模式识别的极低速率语音编码方法 | |
Huzaifah et al. | An analysis of semantically-aligned speech-text embeddings | |
Lee et al. | Speech/audio signal classification using spectral flux pattern recognition | |
CN104199811A (zh) | 短句解析模型建立方法及系统 | |
CN108182938B (zh) | 一种基于dnn的蒙古语声学模型的训练方法 | |
CN103226946A (zh) | 一种基于受限玻尔兹曼机的语音合成方法 | |
CN116184197A (zh) | 一种电机检测方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120627 |