本发明专利技术公开了基于HRSF及改进DTW算法的孤立词语音识别方法,其包括如下步骤:(1)对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;(2)通过FFT得到该帧信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;(3)利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果。本发明专利技术通过改进的DTW算法解决单个汉字的识别问题,提高了单个汉字的识别率与识别速度。
【技术实现步骤摘要】
本专利技术涉及语音识别的应用领域,具体涉及基于半升正弦函数倒谱提升(Half Raised-Sine function, HRSF)及改进动态时间弯折(Dynamic Time Warping, DTff)算法进行孤立词识别方法。
技术介绍
在语音识别领域,一般来说语音识别的方法有三种基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。—、基于语音学和声学的方法。基于语音学和声学的方法起步较早,在语音识别技术提出的开始就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现第一步分段和标号把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号;第二步得到词序列根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。二、模板匹配的方法。模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤特征提取、模板训练、模板分类、判决。常用的技术有三种动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。I、动态时间规整(DTW) 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率, 但效果往往不明显。60年代学者Itakura提出了动态时间规整算法(DTW :Dynamic Time Warping)。该算法的思想就是把未知量均匀地升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。现有的DTW算法介绍动态时间弯折(Dynamic Time Warping ,DTW)是把时间归正和距离测度计算结合起来的一种非线性归正技术。它也是语音识别中的一种很成功的匹配算法。DTW算法可以分两步进行,一是计算两个模版(测试模版和参考模版)各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。假设参考模版的特征矢量序列为Spa2, ···, am,…,aM,输入语音特征矢量序列为 b” b2, ...,bn, ...,bN,N关M (此处N、M与其他地方出现的N、M 一致),那么动态时间规整是要寻找时间规整函数m=w (η),它把输入模版(即
技术实现思路
中的测试模板)的帧数η非线性地映射到参考模版的帧数m,并且该w满足η权利要求1.基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于包括如下步骤(1)语音信号的数字化和预处理对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;(2)语音信号的参数提取通过离散FFT变换得到经步骤(I)处理后的语音信号的功率谱X (η),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;(3)语音信号参数特征的训练和识别利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果;参考模版表示为U= IU1, U2,, υω;... UM} m为模板语音巾贞的顺序标号,m=l为起点语音巾贞,m=M为终点语音巾贞,因此M为该模式包含的语音帧总数,Ui为第i帧语音的语音特征矢量;所要识别的一个输入词条语音称为测试模版,测试模版表示为V=IV1, V2,. . . , Vn,. . . , VJ , η为测试语音帧号,模版中一共包括N帧语音,' 为第j帧特征矢量,参考模板中的语音特征矢量和测试模板中的特征矢量由步骤(2)中经过半升正弦函数倒谱提升后的MFCC参数构成。2.根据权利要求I所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于步骤(2)所述MFCC参数的计算包括如下步骤I、首先确定每一帧语音信号采样序列的点数N,对每帧序列x(n)(n=l, 2,…N)进行预加重处理后再经过离散FFT变换,取其模的平方得到离散功率谱X (η);II、计算Χ(η)通过MfHm(η)后所得到的功率值,即计算X(η)和扎(11)在各离散频率点上乘积之和,得到M个参数Pm, m=0, I,…,M-I ;III、计算Pm的自然对数,得到UL1,…,Lnrl;IV、对Lci,L1,…,Lnri计算其离散余弦变换,得到Dm,m=0, I,…,M-I ;V、舍去代表直流成分的Dtl,取Dtl,D1,…,Dk^1作为MFCC参数。3.根据权利要求2所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于步骤(2)中对提取的MFCC参数进行半阶正弦倒谱提升,提高数值相对较小的中高阶分量值,降低易受噪声干扰的低阶分量值,权重公式的前半部分加O. 5保证倒谱分量不完全衰减,后半部分则对高低阶分量进行不同程度的加权,加权MFCC参数C^riDiri=0. 5+0. 5sin(n i/H)其中i=0,I··· H-I ;H为特征阶数,Di为提取的MFCC特征参数,Ci为加权MFCC参数, Γ 为加权系数。4.根据权利要求I所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于步骤(3)所述改进的DTW算法具体采用已有DTW算法中Ui (测试模版矢量数据)和Vj (参考模版矢量数据)两个特征矢量相似度作为匹配计算的测度,以相似度最大作为相互匹配点位的标准,并以总相似度最大作为U和V两个序列的动态匹配测度,分两个步骤逐步减少计算量(3. I)采用矢量的余弦值的大小进行取舍相似度L (i, j)采用矢量间夹角的余弦来加以计算,即L (i,j)〈= 1,当L (i,j)=l时矢量X和欠量Y完全相似,为了减少运算量,经过上式计算出的L (i,j)〈=0.5时,直接令L (i,j)=0 ;对于有N帧的参考模板和M帧的测试模板来说,计算他们之间的最大相似度L是一个代价很高的行为,需要用到N*M的矩阵,这时可以采取分块矩阵;(3.2)采取分块矩阵以减少计算量在矩阵中找到 k 个点 U (m)、V (η),记为 U(In1),V(Ii1),U(m2),V(n2),….U(mk),V(nk),使 L(U(Hi1),VOi1)),L(U(m2),V(n2)), .... L(U(mk),V(nk))最大,且满足 Oi1 < n2 <···< nk),Oii1 < m2 <···< mk),这样只需要计算 L…L [ (U (Iiv1), V (Iiv1)), (U (mk), V (nk)) },其中K为选取的最大相似点的个数,再把他们相加即得,5.根据权利要求I所述的基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于步骤(I)中所述预滤波是抑制输入语音信号各频域分量中频率超出1/2采样频率的所有分量,同时抑制50Hz的电源本文档来自技高网...
【技术保护点】
基于HRSF及改进DTW算法的孤立词语音识别方法,其特征在于包括如下步骤:(1)语音信号的数字化和预处理:对接收到的模拟语音信号进行预处理,所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测;?(2)语音信号的参数提取:通过离散FFT变换得到经步骤(1)处理后的语音信号的功率谱X(n),转换为Mel频率下的功率谱,计算MFCC参数,对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升;(3)语音信号参数特征的训练和识别:利用改进的DTW算法将测试模版和参考模版进行匹配,将匹配分数最高的参考模板作为识别结果;参考模版表示为U={U1,U2,...,Um,…?UM}m为模板语音帧的顺序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模式包含的语音帧总数,?Ui为第i帧语音的语音特征矢量;所要识别的一个输入词条语音称为测试模版,测试模版表示为V={V1,V2,...,Vn,...,VN},n为测试语音帧号,?模版中一共包括N帧语音,?Vj为第j帧特征矢量,参考模板中的语音特征矢量和测试模板中的特征矢量由步骤(2)中经过半升正弦函数倒谱提升后的MFCC参数构成。...
【技术特征摘要】
【专利技术属性】
技术研发人员:胡晓晖,李玉婷,彭宏利,薛云,蔡倩华,黄海东,曾广祥,
申请(专利权)人:华南师范大学,广州极盛信息科技开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。