【技术实现步骤摘要】
本专利技术属于语音识别领域,具体地说,涉及一种时频二维倒谱特征提取方法,可用于语 种识别。
技术介绍
语种识别是指使用机器从一段语音信号中识别出其语言的种类。语种识别技术主要用于 人及语音交互对话、语音査询和监控等系统。目前语种识别中使用最为普遍的特征是MFCC (Md频率倒谱系数)及其衍生特征,另 外还有LPCC (线性预测倒谱系数)和PLP (感知线性预测)等。其中LPCC是根据人的发 声机理的提出的,而MFCC和PLP已经部分考虑了人的听感知特性。语种识别中, 一般利用上述基本特征再进行运算,得到衍生特征,然后与原特征拼接后 一并使用。最常用的衍生特征是差分特征, 一般包括一阶差分和二阶差分。假设第/帧的基 本特征为= 0, 1, ...,W- 1},则其一阶差分特征为《(0=乙=1、 乂。2; ~风2』-l (1)其中D为差分窗的大小, 一般取值为2。同理,由一阶差分《仍按式(2)进行计算即可得到二 阶差分a/0。yD丰,(力-A(卜力)将基本特征与其一阶和二阶差分拼接,即可得到一个新的特征矢量,{。《),7 = 0,1,...,^-1;柳,7 = 0 ...
【技术保护点】
用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的: 步骤(1):对语音信号进行零均值化和预加重,其中零均值化是指整段语音减去其均值,预加重是对语音进行高通滤波,滤波器传输函数为H(z)=1-0.975z↑[-1]; 步骤(2):对语音信号按帧长20ms,帧移10ms进行分帧处理; 步骤(3):按以下步骤建立一个同时反映语音短时平稳性和语种长时信息的二维时频分布矩阵: 步骤(3.1):对所述语音信号加汉明窗,得到数据{x(m),m=0,1,…,M-1},M为一帧数据点数; 步骤(3.2):对加加汉明 ...
【技术特征摘要】
1. 用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法是在数字集成电路芯片中按以下步骤实现的步骤(1)对语音信号进行零均值化和预加重,其中零均值化是指整段语音减去其均值,预加重是对语音进行高通滤波,滤波器传输函数为H(z)=1-0.975z-1;步骤(2)对语音信号按帧长20...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。