CN102522091A

CN102522091A - 基于仿生模式识别的极低速率语音编码方法

Info

Publication number: CN102522091A
Application number: CN2011104223081A
Authority: CN
Inventors: 殷业; 尹岩岩; 殷建
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University; University of Shanghai for Science and Technology
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2012-06-27

Abstract

本发明涉及一种语音编码方法，属于语音传送领域。一种基于仿生模式识别的极低速率语音编码方法，其特征在于：针对组成语音的基元，采用仿生模式识别后得到文本信息，把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息，然后再将识别出的语音基元文本信息和个体特征信息进行合并编码。本发明中使用的语音识别方法与传统的语音识别方法相比，仿生模式识别是单模板识别，有识别速度快、关键词误识率低等优点，识别后的文本信息编码极大地降低了码率，满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求。

Description

基于仿生模式识别的极低速率语音编码方法

技术领域

本发明涉及一种语音编码方法，尤其涉及基于仿生模式识别的极低速率语音编码方法。

背景技术

根据语音编码速率可将语音编码划分为五类：高速率32Kb/s以上，中高速率16～32Kb/s，中速率4.8～16Kb/s(其中编码速率在16Kb/s以下的语音编码通常称为语音压缩编码)，低速率为1.2～4.8Kb/s，极低速率语音编码是指其比特率低于1.2Kb/s一下。低速率语音编码和极低速率语音编码是现代语音编码技术研究和发展的一个重要方向，现有的极低速率语音编码系统所使用的算法种类繁多并呈现出交叉渗透的现象，主要归结为混合激励线性预测(MELP)、多带激励(MBE)、波形内插(WI)和正弦变换编码(STC)四种模型

虽然从信息论的观点来看，语音编码的信息速率下限是50b/s。但是，大量的研究结果证明，要将比特率降到400b/s以下，目前的低速率语音编码中所使用的基于线性预测(LP)分析合成的各种算法都难以满足要求，其提供的语音质量无法达到公众能够接受的程度。为了使语音编码的速率降到400b/s一下，逼近50b/s左右的下界，必需研究新的编码方法。

发明内容

本发明所要解决的技术问题是提供一种基于仿生模式识别的极低速率语音编码方法，解决现在低速率语音编码中所使用的基于LP分析合成的各种算法都无法将比特率降到400b/s以下的缺陷。

技术方案

一种基于仿生模式识别的极低速率语音编码方法，其特征在于：针对组成语音的基元，采用仿生模式识别后得到文本信息，把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息，然后再将识别出的语音基元文本信息和个体特征信息进行合并编码；所述仿生模式中，对于全部语音基元组成的集合，设为全体连续映射到特征空间中的“像”所组成的点形成的一个闭集，在特征空间中构筑一个能覆盖所述闭集的n维空间几何形体，采用仿生模式识别，即对语音的基元进行判断，判断其是否位于所述覆盖闭集的n维空间几何形体内。

所述仿生模式识别中在特征空间中构筑一个能覆盖闭集的n维空间几何形体为在特征空间中作一个超椭球面，采用仿生模式识别即判断语音的基元是否位于所述超椭球面内。

所述在特征空间中作一个超椭球面的具体步骤如下：

(1)首先在二维空间中，所述超椭球面为椭圆，假定二维空间有m个样本，它们可用XOY平面上的m个点(x₁，y₁)、(x₂，y₂)...(x_m，y_m)来表示，采用一次直线拟合法分别求出椭圆的两根轴的长度，即假设y与x之间近似为一线性关系y＝kx+d，但是这m个点不可能位于同一直线上，利用计算值和真实值的误差趋进为0的极值原理求出参数，得到椭圆的两根轴的长度和方向角，进而得到椭圆的方程式如下：

其中：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} \\ \cos β_{1} & \cos β_{2} \end{matrix}] [\begin{matrix} x \\ y \end{matrix}],

x、y为样本点的位置值，a、b为椭圆的两个轴的长度，α₁、β₁分别表示a轴在XOY坐标系中的方向角，α₂、β₂为b轴对应的方向角，

\cos β_{1} = \frac{k}{\sqrt{(1 + k^{2})}},

\cos α_{2} = \frac{k}{\sqrt{(1 + k^{2})}},

\cos β_{2} = \frac{- 1}{\sqrt{(1 + k^{2})}},

其中：

k = \frac{m Σ_{i = 1}^{m} x_{i} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}}, i = 1,2, . . . m,

a = d_{\max} / 2, b = \max (\frac{| {kx}_{i} - y_{i} + d |}{\sqrt{k^{2} + d^{2}}}),

其中：

d = \frac{\underset{i = 1}{Σ} x_{i}^{2} Σ_{i = 1}^{m} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} x_{i} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}};

(2)对于三维空间，所述超椭球面为椭球，采用与二维空间相同的方法确定椭球的三根轴的长度和其方向向量，即采用一次直线拟合法分别求出各轴，即采用公式z＝k₁x+k₂y+k₃求出各参数，得到三根轴的长度和方向角，然后得到椭球的方程式表示为：

其中

[\begin{matrix} x^{'} \\ y^{'} \\ z^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} & \cos α_{3} \\ \cos β_{1} & {\cos β}_{2} & \cos β_{3} \\ \cos γ_{1} & \cos γ_{2} & \cos γ_{3} \end{matrix}] [\begin{matrix} {x - x}_{0} \\ {y - y}_{0} \\ {z - z}_{0} \end{matrix}],

x、y、z为样本点的位置值，a、b、c为椭圆的三根轴的长度，三根轴a、b、c对应的方向余弦分别为cosα₁、cosβ₁、cosγ₁；cosα₂、cosβ₂、cosγ₂；cosα₃、cosβ₃、cosγ₃；

(3)对于n维空间，方法与三维空间相同，得到椭球的方程式表示为：

\frac{{e^{'}}_{1}^{2}}{{r_{1}}^{2}} + \frac{{e^{'}}_{2}^{2}}{{r_{2}}^{2}} + . . . + \frac{{e^{'}}_{n}^{2}}{{r_{n}}^{2}} = 1

其中

[\begin{matrix} {e^{'}}_{1} \\ {e^{'}}_{2} \\ . \\ . \\ . \\ {e^{'}}_{n} \end{matrix}] = [\begin{matrix} \cos θ_{1}^{1} & \cos θ_{1}^{2} & . . . & \cos θ_{1}^{n} \\ \cos θ_{2}^{1} & \cos θ_{2}^{2} & . . . & \cos θ_{2}^{n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ \cos θ_{n}^{1} & \cos θ_{n}^{2} & . . . & \cos θ_{n}^{n} \end{matrix}] [\begin{matrix} e_{1} - e_{1}^{0} \\ e_{2} - e_{2}^{0} \\ . \\ . \\ . \\ e_{n} - e_{n}^{0} \end{matrix}] .

以步骤3所述的方程式得到超椭球面后，判断语音的基元是否位于所述超椭球面内的方程式为：

如Φ＞0，则表示样本落入超椭球面所覆盖的区域内。

一种应用上述方法进行编码的基于仿生模式识别的语音编码。

有益效果

本发明与传统的语音识别方法在低速率语音编码中的应用相比，仿生模式识别是单模板识别，有识别速度快、关键词误识率低等优点，识别后的文本信息编码能极大地降低码率，满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求，具有重大的理论意义和实践意义。

附图说明

图1为本发明方法进行编码及合成的原理框图。

图2为本发明中仿生模式识别的二维空间样本示意图。

具体实施方式

下面结合具体实施例和附图，进一步阐述本发明。

为了使语音编码的速率降到400b/s一下，逼近50b/s左右的下界，只有采用语音识别与合成技术，如图1所示为对语音进行识别、编码及合成基本原理，具体为采用仿生模式识别与合成技术对语音进行编码与解码。

语音的基元可以是音素、音节或词，任何一种语言的音素或音节是一个有限数目的集合，用其作为基元进行编码，可实现无限词汇语音编码。这种语音识别与合成技术在发送端采用仿生模式识别技术进行语音基元的识别和编码，接收端根据收到的语音基元代码(文本信息)和某些附加的韵律信息(语义信息或称为个体特征信息)再重新合成语音。由于这种技术需要编码传输的参数很少，而在接收端是按规则合成语音，因而其传输码率很低，信息传送量大，并且接收端恢复出的合成语音质量也相当好。

在仿生模式识别中，任何一类事物全体连续映射到特征空间Rⁿ中的“像”所组成的点都被视为一个闭集A，根据仿生模式识别的具体应用对象不同，集合A可以是不同维数的流形。识别过程就是判断某一被识别事物映射到特征空间Rⁿ中的“像”是否属于集合A。这就必须在特征空间Rⁿ中构筑一个能覆盖A的n维空间几何形体。因此，算法的实质就是在特征空间中作一个合适的超椭球面。

在二维空间中，该超椭球面为椭圆。要确定椭圆的方程，需要知道椭圆的参数a、b和θ，其中a、b为椭圆的两个半轴，θ为旋转角。而关键就在于如何确定椭圆的两根半轴的长度。

第一步，先使用最小二乘法进行曲线拟合，本方法采用一次直线拟合。现假定二维空间有m个样本，它们可用XOY平面上的m个点(x1，y1)、(x2，y2)...(xm，ym)来表示。我们假设y与x之间近似为一线性关系

y＝kx+d(1)

其中k、d为待定系数。一般来说，这m个点不可能位于同一直线上。现记

ε_i＝y_i-(kx_i+d)，i∈1，2，..m(2)

它反映了用直线(式1)来描述点(xi，yi)时，计算值y与真实值yi之间的误差。根据最小均方误差准则，应使其取得极小值。

E (k, d) = Σ_{i = 1}^{m} {ϵ_{i}}^{2} = Σ_{i = 1}^{m} {(y_{i} - {kx}_{i} - d)}^{2}

由极值原理，最小值时刻应满足

\frac{&PartialD; E}{&PartialD; k} = \frac{&PartialD; E}{&PartialD; d} = 0

即

\frac{&PartialD; E}{&PartialD; k} = - 2 Σ_{i = 1}^{m} x_{i} (y_{i} - {kx}_{i} - d) = 0

\frac{&PartialD; E}{&PartialD; d} = - 2 Σ_{i = 1}^{m} (y_{i} - {kx}_{i} - d) = 0

解此联立方程组得

k = \frac{m Σ_{i = 1}^{m} x_{i} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}}

d = \frac{\underset{i = 1}{Σ} x_{i}^{2} Σ_{i = 1}^{m} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} x_{i} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}}

第二步，这里可以确定椭圆两根轴的方向向量分别为a轴(1，k)，b轴(k，-1)，并求出两轴的所有方向余弦：

\cos α_{1} = \frac{1}{\sqrt{(1 + k^{2})}},

\cos β_{1} = \frac{k}{\sqrt{(1 + k^{2})}}

\cos α_{2} = \frac{k}{\sqrt{(1 + k^{2})}},

\cos β_{2} = \frac{- 1}{\sqrt{(1 + k^{2})}}

此处α₁、β₁分别表示a轴在OXY坐标系中的方向角，α₂、β₂为b轴对应的方向角。

再求出所有样本点在直线y＝kx+d上的投影∑(x′_i，y′_i)，然后找出投影点中相距最远的两个点(x′_i，y′_i)、(x′_j，y′_j)，并求出它们之间的距离d_max，则a＝d_max/2，以及椭圆的圆心坐标

(x_{0}, y_{0}) = (\frac{x_{i}^{'} + x_{j}^{'}}{2}, \frac{y_{i}^{'} + y_{j}^{'}}{2})

接下来确定b，计算每个样本点到所拟合直线的最大距离，取其中最大值，即

b = \max (\frac{| {kx}_{i} - y_{i} + d |}{\sqrt{k^{2} + d^{2}}}) .

第三步，至此，椭圆的所有参数都已确定，椭圆方程可表示为

\frac{x^{' 2}}{a^{2}} + \frac{y^{' 2}}{b^{2}} = 1 - - - (3)

其中

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} \\ \cos β_{1} & \cos β_{2} \end{matrix}] [\begin{matrix} x \\ y \end{matrix}]

识别时的判别函数为

Φ (x^{'}, y^{'}) = 1 - (\frac{x^{' 2}}{a^{2}} + \frac{y^{' 2}}{b^{2}})

如Φ＞0，表示输入量(x′，y′)落入椭圆所覆盖的区域内。图2所示为四类样本在二维特征空间的分布及用仿生模式识别方法进行划分后的情形，分布在不同椭圆区域的点表示不同类的样本。

对于三维空间，算法的目标就是在其中作出一个椭球。关键就是确定椭球的三根轴的长度和其方向向量。

仿照一维直线拟合的方法，设有一平面z＝k₁x+k₂y+k₃，同样根据最小均方误差准则，令

E = Σ_{i = 1}^{m} {(z_{i} - k_{1} x_{i} - k_{2} y_{i} - k_{3})}^{2}

则有

\frac{&PartialD; E}{{&PartialD; k}_{1}} = \frac{&PartialD; E}{{&PartialD; k}_{2}} = \frac{&PartialD; E}{{&PartialD; k}_{3}} = 0

解之得k₁、k₂、k₃，则该平面的法向量为L＝(k₁，k₂，-1)，L同时也是椭圆某一个轴的方向向量，定为a轴。取所有样本点到该平面的距离最大值为此轴的半轴长，再将所有样本点投影到所确定的平面上，在此平面内再确定一个椭圆即可，方法与二维空间确定椭圆完全一样。如此可确定椭球的三根轴的方向向量。假设三根轴a、b、c对应的方向余弦分别为cosα₁、cosβ₁、cosγ₁；cosα₂、cosβ₂、cosγ₂；cosα₃、cosβ₃、cosγ₃，则椭球的方程可表示为：

\frac{x^{' 2}}{a^{2}} + \frac{y^{' 2}}{b^{2}} + \frac{z^{' 2}}{c^{2}} = 1 - - - (4)

其中

[\begin{matrix} x^{'} \\ y^{'} \\ z^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} & \cos α_{3} \\ \cos β_{1} & {\cos β}_{2} & \cos β_{3} \\ \cos γ_{1} & \cos γ_{2} & \cos γ_{3} \end{matrix}] [\begin{matrix} {x - x}_{0} \\ {y - y}_{0} \\ {z - z}_{0} \end{matrix}],

同样的，判别函数为

Φ (x, y, z) = 1 - (\frac{x^{' 2}}{a^{2}} + \frac{y^{' 2}}{b^{2}} + \frac{z^{' 2}}{c^{2}})

如果是n维空间，那么关键是确定一个n维超椭球的n个轴。方法与三维空间一样，首先根据最小均方误差准则求出一个n-1维超平面，其法向量即为一个轴的方向向量，再将所有样本点投影到此超平面上，则投影点可视为n-1维空间内的样本点，这样就实现了n维空间到n-1维空间的降维。重复这样的投影过程，最后将n维空间降为三维空间，可求出其个轴的方向向量。类比式(4)可写出n维超椭球的方程及判别函数如下：

\frac{{e^{'}}_{1}^{2}}{{r_{1}}^{2}} + \frac{{e^{'}}_{2}^{2}}{{r_{2}}^{2}} + . . . + \frac{{e^{'}}_{n}^{2}}{{r_{n}}^{2}} = 1

这里

[\begin{matrix} {e^{'}}_{1} \\ {e^{'}}_{2} \\ . \\ . \\ . \\ {e^{'}}_{n} \end{matrix}] = [\begin{matrix} \cos θ_{1}^{1} & \cos θ_{1}^{2} & . . . & \cos θ_{1}^{n} \\ \cos θ_{2}^{1} & \cos θ_{2}^{2} & . . . & \cos θ_{2}^{n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ \cos θ_{n}^{1} & \cos θ_{n}^{2} & . . . & \cos θ_{n}^{n} \end{matrix}] [\begin{matrix} e_{1} - e_{1}^{0} \\ e_{2} - e_{2}^{0} \\ . \\ . \\ . \\ e_{n} - e_{n}^{0} \end{matrix}]

Φ = 1 - (\frac{e_{1}^{' 2}}{{r_{1}}^{2}} + \frac{e_{2}^{' 2}}{{r_{2}}^{2}} + . . . + \frac{e_{n}^{' 2}}{{r_{n}}^{2}})

综上所述，将仿生模式识别应用到关键词识别中最大的优点就是对于词表外的词汇能自动进行拒识。而不会误识为已知关键词。换句话说，仿生模式识别正是因为能够主动拒识外来词汇，从而降低了误识率，但是对外来词汇的拒识不会增加漏识率。仿生模式识别的这一特性正好符合低速率语音编码识别系统的评价标准。

与传统的语音识别在低速率语音编码中的应用相比，仿生模式识别是单模板识别，有识别速度快、指令(关键词)误识率低等优点，识别后的编码极大地降低了码率，满足了在某些特殊条件下比如军事通信、水下通信和保密通信等的需求，具有重大的理论意义和实践意义。

Claims

1.一种基于仿生模式识别的极低速率语音编码方法，其特征在于：针对组成语音的基元，采用仿生模式识别后得到文本信息，把由所述文本信息组成的标准语音和实际说话语音进行“比较”运算后得到个体特征信息，然后再将识别出的语音基元文本信息和个体特征信息进行合并编码；所述仿生模式中，对于全部语音基元组成的集合，设为全体连续映射到特征空间中的“像”所组成的点形成的一个闭集，在特征空间中构筑一个能覆盖所述闭集的n维空间几何形体，采用仿生模式识别，即对语音的基元进行判断，判断其是否位于所述覆盖闭集的n维空间几何形体内。

2.如权利要求1所述的基于仿生模式识别的极低速率语音编码方法，其特征在于：所述仿生模式识别中在特征空间中构筑一个能覆盖闭集的n维空间几何形体为在特征空间中作一个超椭球面，采用仿生模式识别即判断语音的基元是否位于所述超椭球面内。

3.如权利要求2所述的基于仿生模式识别的极低速率语音编码方法，其特征在于：所述在特征空间中作一个超椭球面的具体步骤如下：

\frac{x^{' 2}}{a^{2}} + \frac{y^{' 2}}{b^{2}} = 1

其中：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} \\ \cos β_{1} & \cos β_{2} \end{matrix}] [\begin{matrix} x \\ y \end{matrix}],

\cos α_{1} = \frac{1}{\sqrt{(1 + k^{2})}},

\cos β_{1} = \frac{k}{\sqrt{(1 + k^{2})}},

\cos α_{2} = \frac{k}{\sqrt{(1 + k^{2})}},

\cos β_{2} = \frac{- 1}{\sqrt{(1 + k^{2})}}

其中：

k = \frac{m Σ_{i = 1}^{m} x_{i} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}}, i = 1,2, . . . m

a＝d_max/2，

b = \max (\frac{| {kx}_{i} - y_{i} + d |}{\sqrt{k^{2} + d^{2}}}),

其中：

d = \frac{\underset{i = 1}{Σ} x_{i}^{2} Σ_{i = 1}^{m} y_{i} - Σ_{i = 1}^{m} x_{i} Σ_{i = 1}^{m} x_{i} y_{i}}{m Σ_{i = 1}^{m} x_{i}^{2} - {(Σ_{i = 1}^{m} x_{i})}^{2}};

其中

[\begin{matrix} x^{'} \\ y^{'} \\ z^{'} \end{matrix}] = [\begin{matrix} \cos α_{1} & \cos α_{2} & \cos α_{3} \\ \cos β_{1} & {\cos β}_{2} & \cos β_{3} \\ \cos γ_{1} & \cos γ_{2} & \cos γ_{3} \end{matrix}] [\begin{matrix} {x - x}_{0} \\ {y - y}_{0} \\ {z - z}_{0} \end{matrix}],

\frac{{e^{'}}_{1}^{2}}{{r_{1}}^{2}} + \frac{{e^{'}}_{2}^{2}}{{r_{2}}^{2}} + . . . + \frac{{e^{'}}_{n}^{2}}{{r_{n}}^{2}} = 1

其中

[\begin{matrix} {e^{'}}_{1} \\ {e^{'}}_{2} \\ . \\ . \\ . \\ {e^{'}}_{n} \end{matrix}] = [\begin{matrix} \cos θ_{1}^{1} & \cos θ_{1}^{2} & . . . & \cos θ_{1}^{n} \\ \cos θ_{2}^{1} & \cos θ_{2}^{2} & . . . & \cos θ_{2}^{n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ \cos θ_{n}^{1} & \cos θ_{n}^{2} & . . . & \cos θ_{n}^{n} \end{matrix}] [\begin{matrix} e_{1} - e_{1}^{0} \\ e_{2} - e_{2}^{0} \\ . \\ . \\ . \\ e_{n} - e_{n}^{0} \end{matrix}] .

4.如权利要求3所述的基于仿生模式识别的极低速率语音编码方法，其特征在于：以步骤3所述的方程式得到超椭球面后，判断语音的基元是否位于所述超椭球面内的方程式为：如Φ＞0，则表示样本落入超椭球面所覆盖的区域内。

5.一种应用如权利要求1所述的方法进行编码的基于仿生模式识别的语音编码。