CN101009096B - 子带清浊音模糊判决的方法 - Google Patents
子带清浊音模糊判决的方法 Download PDFInfo
- Publication number
- CN101009096B CN101009096B CN200610165246XA CN200610165246A CN101009096B CN 101009096 B CN101009096 B CN 101009096B CN 200610165246X A CN200610165246X A CN 200610165246XA CN 200610165246 A CN200610165246 A CN 200610165246A CN 101009096 B CN101009096 B CN 101009096B
- Authority
- CN
- China
- Prior art keywords
- vbp
- subband
- value
- vector
- pitch period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000005311 autocorrelation function Methods 0.000 claims description 23
- 238000013139 quantization Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000005086 pumping Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101100243558 Caenorhabditis elegans pfd-3 gene Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
子带清浊音模糊判决方法,属于低速率语音压缩编码技术领域。其特征在于,在利用目前通用的带通浊音度参数提取方法得到除第一子带以外的其余四个子带的浊音隶属度后,将第一个子带滤波后信号的自相关函数在基音周期参数处的值乘以一个设定的增益因子,作为第一个子带的浊音隶属度,如果结果超过1,则令其等于1;将各子带的浊音隶属度一起进行矢量量化,得到量化后各子带的浊音隶属度,和基音周期参数等一起合成激励信号。这种方法可以提高合成语音的自然度。该方法适合低速率参数语音编码。
Description
技术领域
本发明属于语音编码技术领域,特别涉及低速率参数语音编码技术。
背景技术
语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和一些国家相继制定了一系列语音压缩编码标准,在编码速率为1.2kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在1.2kb/s速率以下高质量语音压缩编码上,主要用于无线通信、保密通信、大容量语音存储回放等。低速率语音编码中激励信号的合成非常重要,而多带激励信号合成是目前激励信号合成的重要手段。多带激励信号合成主要依靠于带通浊音度参数,目前带通浊音度参数求取的主要步骤如下:
(1)对输入语音信号样点按时间顺序分帧;
(2)对当前帧提取基音周期参数;
(3)对当前帧提取余量谱幅度参数;
(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,其通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz;
(6)求取第一个子带滤波后语音信号的自相关函数在步骤(5)中求取的基音周期参数位置上的值Vbpn,1;
Vbpn,j=max{Vbpn,j′,Vbpn,j″}i=2,3,4,5
(8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即,Vbpn,j=0 i=2,3,4,5,否则保持不变;
(9)将步骤(7)与步骤(8)中求取的值做二值化,即分别与阈值0.6作比较,如果大于0.6,则认为当前子带为浊音,用1表示其带通浊音度,否则为清音,用0表示其带通浊音度,即:
(10)将步骤(9)中得到的各子带的带通浊音度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
上述已有技术对于子带浊音度的表示采用了0、1判决,即当前子带不是浊音就是清音。实际上子带的浊音性与清音性之间并没有明确的分界,简单的将子带划分为清音或者浊音会导致语音帧过渡的不自然。
如图1所示,在表示带通浊音度时,原有技术采用简单的0、1判决,这会使低码率参数语音编码合成感增强,自然度下降。
发明内容
本发明的目的是为克服已有技术的不足之处,改变旧有的不是清音就是浊音的简单判决方法,提出带通清浊音模糊判决的方法,增强语音的自然度。
本发明提出的子带清浊音模糊判决的方法,包括以下步骤:
(1)对输入语音信号样点按时间顺序分帧;
(2)对当前帧提取基音周期参数;
(3)对当前帧提取余量谱幅度参数;
(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;
Vbpn,i=max{Vbpn,i′,Vbpn,i″) i=2,3,4,5
(8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;
(9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:
(10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量 一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:
其中表示待量化的输入矢量,表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即 其中Vbpk为待量化矢量的第k个分量,Vbpi,k为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度
(11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
本发明的特点是对低速率参数语音编码中的带通浊音度参数采用了模糊判决的方法。原有的技术对带通浊音度参数采用了0、1判决,增加了语音的合成感,降低了自然度。本发明采用模糊数学的相关原理,用自相关函数来决定当前子带的浊音隶属度。并考虑到第一个子带往往受噪声的影响比较大,因此其浊音隶属度要乘上一个增益因子,更精确合理地描述了各个子带的浊音度。
本方法可以提高合成语音的自然度。该方法最适合600~800b/s低速率参数语音编码,将在信号处理器芯片DSP上实现。
附图说明
图1为已有技术的带通浊音度判决方法流程框图。
图2为本发明提出的带通浊音度模糊判决方法流程框图。
具体实施方式
本发明提出的带通浊音度模糊判决方法结合附图及实施例进一步说明如下:
本发明的方法流程如图2所示,包括以下步骤:
(1)对输入语音信号样点按时间顺序分帧;
(2)对当前帧提取基音周期参数;
(3)对当前帧提取余量谱幅度参数;
(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;
Vbpn,j=max{Vbpn,j′,Vbpn,j″}i=2,3,4,5
(8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;
(9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:
(10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量 一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:
其中表示待量化的输入矢量,表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即 ,其中Vbpk为待量化矢量的第k个分量,Vbpi,k为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度
(11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
本发明上述方法各步骤的具体实施例分别详细说明如下:
上述方法步骤(1)对输入语音信号样点按时间顺序分帧的实施例是按8kHz频率采样、已经过高通滤波去除工频干扰的语音样点。每25ms,也就是200个语音样点构成一帧;
上述方法步骤(2)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧的基音周期参数pn;
上述方法步骤(3)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求当前帧的余量谱幅度参数,记为矢量R,其维数为k,R=[r1,r2,...,rk] k=10;
上述方法步骤(4)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧语音信号进行带通滤波;
上述方法步骤(5)中的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法对当前帧语音信号的基音周期参数进行进一步改善,改善后的基音周期参数为
述方法步骤(6)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧语音信号第一个子带语音信号自相关函数及其在处的值,作为该子带的浊音隶属度Vbp1;
上述方法步骤(7)的实施例为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法求取当前帧语音信号后4个子带滤波信号以及包络信号自相关函数在处的值,并取两者中的较大值作为该子带的浊音隶属度Vbpi;
上述方法步骤(8)的实施例为:若Vbp1<0.6,则Vbpi=0,i=2,3,4,5;
上述方法步骤(9)的实施例为:Vbp1=Vbp1×1.2,如果Vbp1>1,则令Vbp1=1;
上述方法步骤(10)的实施例的具体做法为:对带通浊音度参数进行矢量量化, 。矢量量化的码本需要单独训练,训练算法采用LBG算法迭代生成。码字训练与搜索时,失真测度采用最小加权均方误差,加权因子W,即 ,其中,Er为失真测度,Vbpi为训练矢量或者待量化矢量的第i个分量,为码本中矢量的第i个分量,W为加权因子向量,W=[16,8,4,2,1];码字搜索采用全搜索的方法获得最优量化码字,即遍历码本中所有的码字取失真最小的码字作为最后量化的结果。
上述方法步骤(11)的实施例的具体做法为:按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法,利用带通浊音度参数、基音周期参数、余量谱幅度参数进行激励信号合成。
Claims (2)
1.子带清浊音模糊判决的方法,其特征在于该方法包括以下步骤:
(1)对输入语音信号样点按时间顺序分帧;
(2)对当前帧提取基音周期参数;
(3)对当前帧提取余量谱幅度参数;
(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;
Vbpn,i=max{Vbp′n,i,Vbp″n,i} i=2,3,4,5
(8)如果步骤(6)中求取的值Vbpn,1小于0.6,则将步骤(7)中的值全部修改为0,即Vbpn,i=0 i=2,3,4,5,否则保持不变;
(9)将步骤(6)中求取的值Vbpn,1乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:
2.按权利要求1所述的子带清浊音模糊判决方法,其特征在于,所述步骤(1)中每一帧包含180个或200个语音样点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610165246XA CN101009096B (zh) | 2006-12-15 | 2006-12-15 | 子带清浊音模糊判决的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610165246XA CN101009096B (zh) | 2006-12-15 | 2006-12-15 | 子带清浊音模糊判决的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101009096A CN101009096A (zh) | 2007-08-01 |
CN101009096B true CN101009096B (zh) | 2011-01-26 |
Family
ID=38697493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200610165246XA Expired - Fee Related CN101009096B (zh) | 2006-12-15 | 2006-12-15 | 子带清浊音模糊判决的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101009096B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261836B (zh) * | 2008-04-25 | 2011-03-30 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
CN108461088B (zh) * | 2018-03-21 | 2019-11-19 | 山东省计算中心(国家超级计算济南中心) | 基于支持向量机在语音解码端重构子带清浊音度参数的方法 |
CN110580920A (zh) * | 2019-08-28 | 2019-12-17 | 南京梧桐微电子科技有限公司 | 一种声码器子带清浊音判决的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1173690A (zh) * | 1996-04-15 | 1998-02-18 | 索尼公司 | 识别浊音/清音的方法和装置及其语音编码方法 |
CN1338095A (zh) * | 1998-11-24 | 2002-02-27 | 微软公司 | 音调跟踪装置和方法 |
US6687667B1 (en) * | 1998-10-06 | 2004-02-03 | Thomson-Csf | Method for quantizing speech coder parameters |
CN1614686A (zh) * | 2004-11-12 | 2005-05-11 | 清华大学 | 一种超帧声道参数矢量量化方法 |
-
2006
- 2006-12-15 CN CN200610165246XA patent/CN101009096B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1173690A (zh) * | 1996-04-15 | 1998-02-18 | 索尼公司 | 识别浊音/清音的方法和装置及其语音编码方法 |
US6687667B1 (en) * | 1998-10-06 | 2004-02-03 | Thomson-Csf | Method for quantizing speech coder parameters |
CN1338095A (zh) * | 1998-11-24 | 2002-02-27 | 微软公司 | 音调跟踪装置和方法 |
CN1614686A (zh) * | 2004-11-12 | 2005-05-11 | 清华大学 | 一种超帧声道参数矢量量化方法 |
Non-Patent Citations (10)
Title |
---|
于俊凤,曹俊兴.基于组合参数的清浊音判决方法.太原理工大学学报35 4.2004,35(4),467-469. |
于俊凤,曹俊兴.基于组合参数的清浊音判决方法.太原理工大学学报35 4.2004,35(4),467-469. * |
周志杰,胡光锐.采用非线性网络实现清浊音判决.南京航空航天大学学报30 1.1998,30(1),47-50. |
周志杰,胡光锐.采用非线性网络实现清浊音判决.南京航空航天大学学报30 1.1998,30(1),47-50. * |
朱益厅,李永明,陈弘毅.一种多带清浊音判决方法.微电子学与计算机 5.1999,(5),1-4. |
朱益厅,李永明,陈弘毅.一种多带清浊音判决方法.微电子学与计算机 5.1999,(5),1-4. * |
李军林 杜松 崔慧娟 唐昆.0.8kb/s高质量声码器算法.清华大学学报(自然科学版)43 1.2003,43(1),12-15. |
李军林 杜松 崔慧娟 唐昆.0.8kb/s高质量声码器算法.清华大学学报(自然科学版)43 1.2003,43(1),12-15. * |
毛六平,唐艳,王耀南.基于模糊MLP网络的清浊音判决.湖南师范大学自然科学学报26 4.2003,26(4),27-30. |
毛六平,唐艳,王耀南.基于模糊MLP网络的清浊音判决.湖南师范大学自然科学学报26 4.2003,26(4),27-30. * |
Also Published As
Publication number | Publication date |
---|---|
CN101009096A (zh) | 2007-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101030377B (zh) | 提高声码器基音周期参数量化精度的方法 | |
CN102341852B (zh) | 滤波语音信号的方法和滤波器 | |
KR101143724B1 (ko) | 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치 | |
CN101261836B (zh) | 基于过渡帧判决及处理的激励信号自然度提高方法 | |
CN1750124A (zh) | 带限音频信号的带宽扩展 | |
US9123350B2 (en) | Method and system for extracting audio features from an encoded bitstream for audio classification | |
CN103050121A (zh) | 线性预测语音编码方法及语音合成方法 | |
JP2003514263A (ja) | マッピング・マトリックスを用いた広帯域音声合成 | |
CN102623014A (zh) | 变换编码装置和变换编码方法 | |
CN103325375A (zh) | 一种极低码率语音编解码设备及编解码方法 | |
CN101261835B (zh) | 基于超帧模式的多矢量多码本尺寸联合优化方法 | |
CN101057275B (zh) | 矢量变换装置以及矢量变换方法 | |
CN104025189A (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN1186765C (zh) | 2.3kb/s谐波激励线性预测语音编码方法 | |
CN101009096B (zh) | 子带清浊音模糊判决的方法 | |
CN103050122A (zh) | 一种基于melp的多帧联合量化低速率语音编解码方法 | |
KR100651712B1 (ko) | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 | |
CN104517614A (zh) | 基于各子带特征参数值的清浊音判决装置及其判决方法 | |
CN101295507B (zh) | 带级间预测的超帧声道参数多级矢量量化方法 | |
JPH07225599A (ja) | 音声の符号化方法 | |
CN106935243A (zh) | 一种基于melp的低比特数字语音矢量量化方法和系统 | |
CN101377926B (zh) | 加速量化循环程序功能的音频编码方法 | |
KR100263298B1 (ko) | 음성부호화기에서 양자화 오차의 상관관계 특성을 이용한피치 검색 방법 | |
Xiang et al. | Mobile audio coding using lattice vector quantization based on Gaussian mixture model | |
CN1614686A (zh) | 一种超帧声道参数矢量量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110126 Termination date: 20141215 |
|
EXPY | Termination of patent right or utility model |