当前位置: 首页 > 专利查询>清华大学专利>正文

用于语种识别的时频二维倒谱特征提取方法技术

技术编号:3044477 阅读:231 留言:0更新日期:2012-04-11 18:40
用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。

【技术实现步骤摘要】

本专利技术属于语音识别领域,具体地说,涉及一种时频二维倒谱特征提取方法,可用于语 种识别。
技术介绍
语种识别是指使用机器从一段语音信号中识别出其语言的种类。语种识别技术主要用于 人及语音交互对话、语音査询和监控等系统。目前语种识别中使用最为普遍的特征是MFCC (Md频率倒谱系数)及其衍生特征,另 外还有LPCC (线性预测倒谱系数)和PLP (感知线性预测)等。其中LPCC是根据人的发 声机理的提出的,而MFCC和PLP已经部分考虑了人的听感知特性。语种识别中, 一般利用上述基本特征再进行运算,得到衍生特征,然后与原特征拼接后 一并使用。最常用的衍生特征是差分特征, 一般包括一阶差分和二阶差分。假设第/帧的基 本特征为= 0, 1, ...,W- 1},则其一阶差分特征为《(0=乙=1、 乂。2; ~风2』-l (1)其中D为差分窗的大小, 一般取值为2。同理,由一阶差分《仍按式(2)进行计算即可得到二 阶差分a/0。yD丰,(力-A(卜力)将基本特征与其一阶和二阶差分拼接,即可得到一个新的特征矢量,{。《),7 = 0,1,...,^-1;柳,7 = 0, 1, ...,7V- l;,,y, = 0, 1,…,iV— 1}。另外,在语种识别中,时序信息是一个非常主要的特征,为了充分利用语音中的时序信 息,近年来学者们提出了 SDC (偏移差分倒谱)特征。SDC特征实际上是由《块一阶差分特 征拼接而成的,可以表示为 V) (0 = 。 (WS + 6) - 。 (WS - 6), _/ = 1, 2,. J 一 l; i = o, 1,…,X -1 (3)其中6为计算一阶差分特征时的帧数差, 一般取值为l;《为块数, 一般取值为7; S为各块 之间的偏移帧数, 一般取值为3。与差分特征类似,SDC也可以与基本特征拼接,形成新的特征矢量{0,/ = 0, 1, ...,iV- 1; ^v)(0,/ = 0, 1, ...,iV- 1,/ = 0, 1,1}。实验证明,这种特征比单纯的SDC特征更为有 效。虽然SDC特征中含有了较多的时序信息,但是,由于它是由若干块一阶差分拼接而成的, 这会存在两方面的问题第一,其维数较高,增加了系统的复杂度;第二,各维之间仍然存在较强的相关性,不利于后端分类器对其建模。
技术实现思路
为了解决现有SDC特征存在的不足,本专利技术提供一种时频二维倒谱特征的提取方法,既 减小了特征各维之间的相关性,又降低了特征的维数,可以降低语种识别系统的复杂度并提 高其性能。使用数字集成电路实现时,与目前常用的56维SDC特征相比,采用本专利技术(21维 特征)可使特征存储模块和分类器运算模块节约资源62.5%。本专利技术的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的步骤(1):对语音信号进行零均值化和预加重,其中零均值化是指整段语音减去其均值,预加重是对语音进行高通滤波,滤波器传输函数为<formula>formula see original document page 6</formula>; 步骤(2):对语音信号按帧长20ms,帧移10ms进行分帧处理;步骤(3):按以下步骤建立一个同时反映语音短时平稳性和语种长时信息的二维时频分布矩阵:步骤(3.1):对所述语音信号加汉明窗,得到数据<formula>formula see original document page 6</formula>M为一帧数据点数;步骤(3.2):对加加汉明窗的数据做DFT变换(离散傅立叶变换),得到:m=0其中叫代表频率,A:代表频率标号;步骤(3.3):按Mel频标在频率域中用下式计算每个帧内尸个三角窗的子带能量印<formula>formula see original document page 6</formula>其中。和Z/分别为第/个子带的上下边界,再把F个子带能量组成一个矢量e:<formula>formula see original document page 6</formula>]其中上标T表示转置;步骤(3.4):取步骤(3.3)中r帧矢量并列在一起,形成一个二维时频分布矩阵EO),<formula>formula see original document page 6</formula>步骤(4):对矩阵E(f)进行二维DCT (离散余弦变换),得到二维倒谱系数C(M) = V H e/ 0 + r — U cos ,T cos ;其中T和/为求和变量,&和)V为归一化系数; = 0 fl/V^,《=0步骤(5):选取作为矩阵E(O主要分量的左上角部分的元素作为特征,用TFC表示,则 把左上角部分排列为矢量的重排公式为TFC本专利技术的有益效果是,可以从语音信号中提取有效的用于语种识别的长时特征,既减小 了特征各维之间的相关性,又降低了特征的总维数。这样可以提高语种识别的识别率,同时 又降低识别系统的复杂度,减少对特征存储和分类器运算资源的需求。附图说明图i是本专利技术的特征提取流程框图。图2是本专利技术的时频二维倒谱特征编号示意图。具体实施方式由于语音具有短时平稳性,特征提取时一般选取20ms的帧长进行短时傅立叶变换。如果 取更长的帧长进行处理,语音信号在一个帧长内不再平稳。而语种的信息又蕴含于较长的语 音段中,例如汉语一个汉字大约持续250ms,如果帧移为10ms,则大约相当于25帧。基于以上考虑,本专利技术首先采用短时傅立叶技术,假设一帧加汉明窗后的数据为(x(w), w=0, 1, 1},其DFT变换为= J^(m)e、 (4)m=0其中叫代表频率,A代表频率标号。按Mel频标在频域计算F (—般取值为24)个三角窗内的各子带能量,可得4(5)其中C/和Z分别是第w个子带的上下边界cF个子带能量可以组成一个矢j(6)其中上标T表示转置。r(一般取值为19)帧这样的矢量并列在一起,即可形成一个二维时频分布矩阵E(O = [e(O, e(f +1),…,eO + T —1)]、W …e。(r一i)'(7)、e』…e, + r-1、 E(r)矩阵既利用了语音的短时平稳性,又提取了语种的长时信息。但是, 一方面其维数较高,达到TxF维;另一方面,由于时频分布的连续性,其横向(时间方向)和纵向(频率方向)元素之间都存在着一定的相关性。这两方面都不利于分类器对其建模。可以通过线性变换技术消除特征之间的线性相关和维数。本专利技术对E(f)矩阵进行二维DCT变换,得到二维倒谱系数r-i f-1、 cos- 、 7 r=0 /=02r(8)其中r和/为求和变量,yp和)V为归一化系数:(9)y^T7, pi,这样可以去除纵向和横向的相关性,同时可以使E(O矩阵的主要分量压縮至矩阵左上角部分,这样选取矩阵左上角部分元素,即可近似描述整个矩阵,从而达到维数压縮的目的。假设矩 阵左上角部分元素用TFC表示,则对三角部分排列为矢量的重排列公式为<formula>formula see original document page 9<本文档来自技高网
...

【技术保护点】
用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的:    步骤(1):对语音信号进行零均值化和预加重,其中零均值化是指整段语音减去其均值,预加重是对语音进行高通滤波,滤波器传输函数为H(z)=1-0.975z↑[-1];    步骤(2):对语音信号按帧长20ms,帧移10ms进行分帧处理;    步骤(3):按以下步骤建立一个同时反映语音短时平稳性和语种长时信息的二维时频分布矩阵:    步骤(3.1):对所述语音信号加汉明窗,得到数据{x(m),m=0,1,…,M-1},M为一帧数据点数;    步骤(3.2):对加加汉明窗的数据做DFT变换(离散傅立叶变换),得到:    X(ω↓[k])=*x(m)e↑[-j2π/Mmk]    其中ω↓[k]代表频率,k代表频率标号;    步骤(3.3):按Mel频标在频率域中用下式计算每帧内F个三角窗的子带能量e↓[f],F=24:    ***    其中U↓[f]和L↓[f]分别为第f个子带的上下边界,再把F个子带能量组成一个矢量e:    e=[e↓[0],e↓[1],…,e↓[F-1]]↑[T]    其中上标T表示转置;    步骤(3.4):取步骤(3.3)中T帧矢量并列在一起,形成一个二维时频分布矩阵E(t),T=19:    E(t)=[e(t),e(t+1),…,e(t+T-1)]    ***    步骤(4):对矩阵E(t)进行二维DCT(离散余弦变换),得到二维倒谱系数:    C(p,q)=γ↓[p]γ↓[q]**e↓[f](t+τ-1)cosπ(2τ+1)p/2Tcosπ(2f+1)q/2F    其中τ和f为求和变量,γ↓[p]和γ↓[q]为归一化系数:    ***    步骤(5):选取作为矩阵E(t)主要分量的左上角部分的元素作为特征,用TFC表示,则把左上角部分排列为矢量的重排公式为:    TFC((p+q)↑[2]+3p+q/2)=C(p,q)。...

【技术特征摘要】
1. 用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的步骤(1)对语音信号进行零均值化和预加重,其中零均值化是指整段语音减去其均值,预加重是对语音进行高通滤波,滤波器传输函数为H(z)=1-0.975z-1;步骤(2)对语音信号按帧长20...

【专利技术属性】
技术研发人员:张卫强刘加
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1