一种基于改进型动态时间规整语音识别算法的实现方法技术

技术编号:18528083 阅读:206 留言:0更新日期:2018-07-25 13:42
本发明专利技术公开了一种基于改进型动态时间规整语音识别算法的实现方法,包括:根据参考模板和测试模板选取匹配路径时满足边界条件、连续性和单调性约束的特点,将两者匹配路径的选取范围限制在相似度矩阵上靠近对角线周围的平行四边形区域内,因此无需计算平行四边形之外的路径点所对应的时间帧的匹配距离,并且不需要保存全部的帧匹配距离和累加距离矩阵。针对传统动态时间规整算法在匹配过程中匹配路径过多导致运算量过大的问题,本发明专利技术通过在路径匹配过程中进一步加入边界范围的约束,成功筛除一些与模板匹配最终结果无关的路径,大大减少了匹配过程中的不必要的运算以及内存使用,有效提高了动态时间规整语音识别算法的运算速度以及识别效率。

【技术实现步骤摘要】
一种基于改进型动态时间规整语音识别算法的实现方法
本专利技术涉及一种基于改进型动态时间规整语音识别算法的实现方法,属于语音识别控制
,可用于对计算量和内存使用比较敏感的嵌入式语音识别

技术介绍
随着人类社会的进步和科学技术的迅速发展,人们开始追求智能、便捷的家居环境,语音识别控制技术在智能家居中的运用变得尤其重要,它可以使得人们摆脱手动控制设备的烦恼,只通过语音就可以达到控制家电设备的目的,所以语音识别控制成为一个热门的研究方向。语音识别技术在PC(计算机)这种可用资源较多、运算能力强的设备上发展已较为成熟,其识别效果也已经很好,但是在硬件资源有限、运算能力相对较弱的嵌入式平台上仍然面临一些问题,选择合适的语音识别算法并进行优化改进以节省硬件使用、减少计算量已经成为必须考虑的问题。其中,DTW(动态时间规整)算法是比较经典和成熟的语音识别算法,它利用动态规划(DP)的方法有效解决了语音信号特征参数的帧长度不等(在语音识别领域表现为人的语速变化导致的发音时间长短不一)的问题,即采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致,从而计算两个语音序列之间的相似性(匹配度)。在基于中小词汇量的孤立词语音识别系统中,其识别率与隐马尔可夫模型(HMM)算法相差无几,而算法复杂度却低得多,所以DTW算法比较适合于较少词汇量的孤立词为主的语音命令控制。DTW是一个典型的优化问题,它用满足一定条件的时间规整函数W(n)来描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。测试语音参数共有I帧矢量,而参考模板共有J帧矢量,I和J不等,寻找一个时间规整函数j=W(i),它将测试矢量的时间轴i非线性地映射到参考模板的时间轴j上,并使该函数满足:D(i,j)为第i帧测试矢量Q(i)和第j帧模板矢量C(j)之间的距离测度,最优时间规整情况下,所有矢量帧间的距离和∑D(i,j)最小。给定测试语音序列为Q=[q1,q2,…,qi,…,qn](其中,n=N为测试语音序列的总帧数,qi为该语音序列中每一帧的特征值)以及参考语音序列为C=[c1,c2,…,cj,…,cm](其中,m=M为参考语音序列的总帧数,cj为该语音序列中每一帧的特征值),那么在n≠m的情况下(若n=m,可直接计算两个序列的距离),为对齐这两个语音序列,构造一个n×m的矩阵网络,该矩阵(i,j)处的元素为qi和cj两个点的距离d(qi,cj)(即序列Q的每一个点和序列C的每一个点之间的相似度,距离越小则相似度越高),一般采用欧氏距离,即d(qi,cj)=(qi-cj)2;该DP方法可以归结为寻找一条通过此矩阵网络中若干格点的路径,路径通过的格点(i,j)即为两个序列进行计算的对齐的点。我们把这条路径定义为warpingpath规整路径,并用W来表示,W的第k个元素定义为Wk=(i,j)k,也就是,W=w1,w2,…,wk,…,wK,且max{m,n+≤K≤m+n-1。这条路径不是随意选择的,它需要满足以下几个约束条件:(1)边界条件:w1=(1,1),wK=(m,n)即所选路径一定是从左下角出发,在右上角结束;(2)连续性:匹配的路径不能跳跃,必须连续的,保证两个序列里面的所有点都被匹配到,因此,如果Wk-1=(x′,y′),那么对于路径的下一个点Wk=(x,y)需要满足:(x-x′)≤1,(y-y′)≤1;(3)单调性:在计算的过程中不能往左或者往下后退,否则会出现无意义的循环,必须具有单调性,因此,如果Wk-1=(x′,y′),那么对于路径的下一个点Wk=(x,y)需要满足:0≤(x-x′),0≤(y-y′)。综合连续性和单调性约束,每一个格点的路径就只有三个方向,如果路径已经通过了格点(i,j),那么下一个通过的格点只可能是(i+1,j),(i,j+1),(i+1,j+1)三者中的一个。满足上面这些约束条件的路径可以有指数个,然后我们感兴趣的是使得下面的规整代价最小的路径:也就是使得两个时间序列之间累加距离最短的路径。当从一个方格(i-1,j-1)或(i-1,j)或(i,j-1)中到下一个方格(i,j),如果是横着或者竖着的话其增加距离为d(i,j),如果是斜着对角线过来的则是2d(i,j),得到约束条件:其中g(i,j)表示测试和参考两个模板都从起始分量逐次匹配,到了Q中的i分量和C中的j分量时两个模板之间的累加距离。可以看出,上述传统的动态时间规整算法是通过计算大量匹配路径的累加距离之后实现的,仍存在有运算量过大、内存占用过多、运算时间过长等技术问题,大大影响了动态时间规整算法在语音识别过程中的识别效率。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于改进型动态时间规整语音识别算法的实现方法,通过限制动态时间规整算法的匹配路径筛除一些与模板匹配最终结果无关的路径,有效的减少计算量和内存使用量,提高系统的整体性能。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于改进型动态时间规整语音识别算法的实现方法,根据参考模板和测试模板选取匹配路径时满足边界条件、连续性和单调性约束的特点,将两者匹配路径的选取范围限制在相似度矩阵上靠近对角线周围的平行四边形区域内,即在匹配过程中进一步加入边界范围的约束,因此无需计算平行四边形之外的路径点所对应的时间帧的匹配距离,并且不需要保存全部的帧匹配距离和累加距离矩阵,有效减少了匹配过程中的不必要的运算,提高了运算的速度并减少了内存使用。进一步的,具体包括以下步骤:S1:通过测试模板的语音序列Q=[q1,q2,…,qi,…,qn](其中,n=N为测试模板的语音序列的总帧数,qi为该语音序列中每一帧的特征值)以及参考模板的语音序列C=[c1,c2,…,cj,…,cm](其中,m=M为参考模板的语音序列的总帧数,cj为该语音序列中每一帧的特征值)得到一个n×m的相似度矩阵网络,该矩阵(i,j)处的元素为qi和cj两个点的距离d(qi,cj),即d(qi,cj)=(qi-cj)2,同时建立坐标系,以参考模板的时间帧j为x轴,以测试模板的时间帧i为y轴,来寻找一条通过此矩阵网络中若干格点的规整代价最小的匹配路径;S2:判断测试模板和参考模板之间是否满足公式(1)的限制条件,若不能满足,我们就认为两个模板之间的差别过大,无法进行下述匹配路径的选取范围限制,得到ymax=N和ymin=1(其中,ymax为匹配路径选取范围的上边界,ymin为匹配路径选取范围的下边界),直接转至步骤S6,如果满足公式(1)的限制条件则继续下一步;S3:计算得到xa=int[(2N-M)/3],xb=int[(4M-2N)/3],下面构建以(1,1)和(M,N)为对角线顶点以及边的斜率分别为2和1/2的平行四边形区域,以限制匹配路径的选取范围;S4:选取范围的边界计算包括以下三种情况:如果xa等于xb,则在(1,xa)、(xa+1,M)两段内通过公式(2)、(3)计算ymax和ymin;如果xa大于xb,则在(1,xb)、(xb+1,xa)、(xa+1,M)三段内通过公式(2)、(3)计算ymax和ymin;如果xa小于xb,则在(1,xa)、(xa+1,xb)、(xb+本文档来自技高网
...

【技术保护点】
1.一种基于改进型动态时间规整语音识别算法的实现方法,其特征在于,根据参考模板和测试模板选取匹配路径时满足边界条件、连续性和单调性约束的特点,将两者匹配路径的选取范围限制在相似度矩阵上靠近对角线周围的平行四边形区域内,即在匹配过程中进一步加入边界范围的约束。

【技术特征摘要】
1.一种基于改进型动态时间规整语音识别算法的实现方法,其特征在于,根据参考模板和测试模板选取匹配路径时满足边界条件、连续性和单调性约束的特点,将两者匹配路径的选取范围限制在相似度矩阵上靠近对角线周围的平行四边形区域内,即在匹配过程中进一步加入边界范围的约束。2.根据权利要求1所述的一种基于改进型动态时间规整语音识别算法的实现方法,其特征在于,具体包括以下步骤:S1:通过测试模板的语音序列Q=[q1,q2,…,qi,…,qn],其中,n=N为测试模板的语音序列的总帧数,qi为该语音序列中每一帧的特征值,以及参考模板的语音序列C=[c1,c2,…,cj,…,cm],其中,m=M为参考模板的语音序列的总帧数,cj为该语音序列中每一帧的特征值,得到一个n×m的相似度矩阵网络,该矩阵(i,j)处的元素为qi和cj两个点的距离d(qi,cj),即d(qi,cj)=(qi-cj)2,同时建立坐标系,以参考模板的时间帧j为x轴,以测试模板的时间帧i为y轴,来寻找一条通过此矩阵网络中若干格点的规整代价最小的匹配路径;S2:判断测试模板和参考模板之间是否满足公式(1)的限制条件:如果不能满足,则得到ymax=N和ymin=1,其中,ymax为匹配路径选取范围的上边界,ymin为匹配路径选取范围的下边界,直接转至步骤S5;如果满足公式(1)的限制条件则继续下一步;S3:计算得到xa=int[(2N-M)/3],xb=int[(4M-2N)/3]...

【专利技术属性】
技术研发人员:刘昊吕修任姚国良
申请(专利权)人:东南大学—无锡集成电路技术研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1