用于语种识别的时频二维倒谱特征提取方法技术

技术编号：3044477 阅读：247 留言：0更新日期：2012-04-11 18:40

用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法，其特征在于所述方法首先分帧计算语音信号子带能量，多帧子带能量拼接后得到时频分布矩阵，然后进行二维ＤＣＴ变换，去除矩阵时间方向和频率方向的相关性，再对变换后的系数进行重排列并降低维数，可得到最后特征。该特征既利用了语音的短时平稳性，又提取了用于语种识别的长时信息。可以用于语种识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别领域，具体地说，涉及一种时频二维倒谱特征提取方法，可用于语种识别。
技术介绍
语种识别是指使用机器从一段语音信号中识别出其语言的种类。语种识别技术主要用于人及语音交互对话、语音査询和监控等系统。目前语种识别中使用最为普遍的特征是MFCC (Md频率倒谱系数)及其衍生特征，另外还有LPCC (线性预测倒谱系数)和PLP (感知线性预测)等。其中LPCC是根据人的发声机理的提出的，而MFCC和PLP已经部分考虑了人的听感知特性。语种识别中，一般利用上述基本特征再进行运算，得到衍生特征，然后与原特征拼接后一并使用。最常用的衍生特征是差分特征，一般包括一阶差分和二阶差分。假设第/帧的基本特征为= 0， 1， ...，W- 1}，则其一阶差分特征为《(0=乙=1、乂。2; ~风2』-l (1)其中D为差分窗的大小，一般取值为2。同理，由一阶差分《仍按式(2)进行计算即可得到二阶差分a/0。yD丰,(力-A(卜力)将基本特征与其一阶和二阶差分拼接，即可得到一个新的特征矢量，{。《),7 = 0,1,...,^-1;柳，7 = 0, 1, ...,7本文档来自技高网...

【技术保护点】
用于语种识别的时频二维倒谱特征提取方法，其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的：　　　　步骤（１）：对语音信号进行零均值化和预加重，其中零均值化是指整段语音减去其均值，预加重是对语音进行高通滤波，滤波器传输函数为Ｈ（ｚ）＝１－０．９７５ｚ↑［－１］；　　　　步骤（２）：对语音信号按帧长２０ｍｓ，帧移１０ｍｓ进行分帧处理；　　　　步骤（３）：按以下步骤建立一个同时反映语音短时平稳性和语种长时信息的二维时频分布矩阵：　　　　步骤（３．１）：对所述语音信号加汉明窗，得到数据｛ｘ（ｍ），ｍ＝０，１，…，Ｍ－１｝，Ｍ为一帧数据点数；　　　　步骤（３．２）：对加加汉明窗的数据做ＤＦＴ变换...

【技术特征摘要】
1. 用于语种识别的时频二维倒谱特征提取方法，其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的步骤(1)对语音信号进行零均值化和预加重，其中零均值化是指整段语音减去其均值，预加重是对语音进行高通滤波，滤波器传输函数为H(z)＝1-0.975z-1；步骤(2)对语音信号按帧长20...

【专利技术属性】
技术研发人员：张卫强，刘加，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人