嵌入式语音命令识别系统中非命令词快速拒识方法技术方案

技术编号:3046402 阅读:206 留言:1更新日期:2012-04-11 18:40
一种语音技术领域的嵌入式语音命令识别系统中非命令词快速拒识方法,直接利用语音识别结果中前N个候选词的识别得分,通过计算归一化识别得分以及归一化一阶差分,以很小的计算代价提取具有高度区别性的特征向量用于识别结果的验证,同时采用支持向量机理论,结合数据融合技术,提出基于类融合中心的支持向量机,在使用前首先采用训练数据得到分类器的优化参数,使用时只需将提取的特征向量输入到此分类器中,就能根据分类结果实现对非命令词的快速拒识。本发明专利技术利用了识别结果中包含的区别性信息,不仅能有效区分命令词与非命令词,而且无需额外的计算。通过采用具有最大推广能力的支持向量机处理信息,能够快速有效地进行非命令词的拒识。

【技术实现步骤摘要】

本专利技术涉及一种语音
的非命令词快速拒识方法,具体涉及一种。
技术介绍
语音识别系统中的识别词汇总是有限的,说话人可能会讲到识别词表以外的单词,夹带一些呼吸声、咳嗽声,周围的环境也会有一些突发的噪声,这些声音都会被系统采集到,此时如果系统不能够正确判断,必然会得出错误识别结果,有可能使系统进一步向错误的方向发展。因此在语音识别系统的实际应用中,为提高系统的稳健性和可靠性,系统必须能够处理非关键词以及咳嗽、呼吸、背景噪声等非语音发声,采用拒识算法对这些词表以外的语音进行检测与拒识,从而提高系统的整体性能。大多数现有的拒识算法分为两类,一种基于废料模型,它需要为非命令词发音建立模型(基于HMM的语音识别)或模板(基于DTW的语音识别),虽然算法具有一定的效果,但这些模型或模板难以设计和训练,并且会大大增加识别时的计算量。另一种拒识算法则直接应用识别结果,例如前N个候选词的概率,通过计算置信度或采用分类器(例如神经网络)来实现命令词与非命令词的分类。在语音识别系统的实际应用中,特别是基于DSP等硬件的识别系统,识别的实时性和有限的运算资源要求拒识算法简单有效,因此直接采用识别结果进行拒识是比较可行的方案,它避免了废料模型的训练以及多余的计算。经文献检索发现,Changxue Ma等人在《Acoustics,Speech and SignalProcessing,2001 IEEE》Volume1,7-11 May 2001上发表“A Support VectorMachines-based Rejection Technique for Speech Recognition”(《IEEE声学、语音与信号处理》,“语音识别中基于支持向量机的拒识技术”),该文中对于HMM模型提出了基于支持向量机的置信度计算方法对识别结果进行验证与拒识,但不适用于DTW识别方法,也不便于DSP实现。因此,针对嵌入式语音识别系统,需要在控制拒识算法复杂度的基础之上,进一步提高算法的性能。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提出一种,使得在保持计算简单、适于嵌入式应用的同时,还能进一步提高对非命令词语音的拒识率,可以做到对识别结果的实时验证。本专利技术是通过以下技术方案实现的,本专利技术直接利用语音识别结果中前N个候选词的识别得分,通过计算归一化识别得分以及归一化一阶差分,以很小的计算代价提取具有高度区别性的特征向量用于识别结果的验证;同时采用先进的支持向量机理论,结合数据融合技术,提出具有最大推广能力和抗噪能力的分类器—基于类融合中心的支持向量机;在使用前首先采用训练数据得到分类器的优化参数,使用时只需将提取的特征向量输入到此分类器中,就能根据分类结果实现对非命令词的快速拒识。本专利技术直接利用识别结果提取特征,计算简单有效,并通过数据融合技术改进传统支持向量机分类器的抗噪性能,进一步提高了非命令词的拒识效果,特别适用于资源非常有效的嵌入式实时语音识别系统。以下对本专利技术作进一步的说明,本专利技术包括特征提取、改进的支持向量机算法和非命令词快速拒识三个步骤1、特征提取在语音识别系统中,一般只为待识别的命令建立模型或模板。当输入的语音是非命令词时,识别结果的得分一般低于命令词,由于识别得分对不同说话人存在较大差异,因此其本身并不能很好的区别命令词和非命令词两类语音。从识别结果可以发现,对于非命令词语音而言,其识别所得的最优候选词归一化得分比命令词的归一化识别得分相对较小,即使是不同说话人情况下也是如此。同时,相应的归一化一阶差分值也具有相似的特性。由此可以利用每次识别所得的前N个候选词,将其归一化识别得分及其归一化一阶差分作为识别结果验证的依据,将它们组成特征向量后输入到预先训练好的支持向量机中,实现对命令词和非命令词语音的快速分类。2、基于类融合中心的支持向量机作为统计学习理论所提出的一种可以直接用于实践的机器学习方法,支持向量机通过在结构风险最小化原则下使分类间隔最大,获得了很好的泛化能力,明显优于传统的基于经验风险最小化(ERM)的常规神经网络方法,但它对噪声比较敏感。为提高算法的容噪性能,本专利技术采用数据融合技术中的分布图法计算得到命令词和非命令词两类数据集的类融合中心x+和x-,通过计算两类中心之间的分类超平面获得类似SVM的最佳推广能力。根据SVM中最优问题的求解,可得到与其相类似的优化问题为MaxmizeW(α)=Σi=1SΔ·αi+β-12[Σi=1Sαiyixi+β(x+-x-)]·[Σj=1Sαjyjxj+β(x+-x-)]]>s.t.Σi=1Sαiyi=0]]>0≤αi≤Ci=1,…,S其中C>0是控制惩罚程度的常数,s为样本数。最后得到其分类函数为f(x)=sgn(w*·x+b*),其中w*=Σi=1Sαi*yixi+β*(x+-x-),]]>α*,β*为上式的解。参数b*可由训练集中的任一支持向量确定,也可以是所有支持向量所求b*的平均值。非线性情况下仍然采用核函数实现高维特征空间的映射,这时的分类函数将为f(x)=sgn[K(w*·x)+b*]]]>=sgn[Σi=1Sαi*yiK(xi,x)+β*K(x+,x)-β*K(x-,x)+b*]]]>通过求解两类中心之间的分类超平面,使得噪声经过分布图法剔除以及类融合中心的平均得到抑制,从而有效地提高了支持向量机的容噪性能。此外,可以根据上式的形式简化算法,简化后的分类函数为f(x)=sgn[(1-λ)Σi=1SαiSVMyiK(xi,x)+λ(K(x+,x)-K(x-,x))+b*]]]>如果采用线性核函数,则f(x)=sgn(w*·x+b*),其中w*=(1-λ)wSVM+λ(x+-x-),0≤λ≤1是结合参数,根据应用情况决定。3、非命令词的快速拒识针对每次识别所得的特征向量,利用已训练好的支持向量机,将特征向量作为支持向量机的输入,并根据支持向量机分类函数的输出结果,快速拒识非命令词,再利用支持向量机输出的分类函数结果y=fSVM(x)∈[-1,1],根据其符号判断当前识别结果所属的类,分类函数结果的正负即对应命令词与非命令词两类。即当分类函数值为非负值时认为语音识别系统的识别结果是命令词,即待识别的命令,输出识别结果,当其为负值时则认为是非命令词,系统进行拒识,不输出识别结果。本专利技术利用了识别结果中包含的区别性信息,不仅能有效区分命令词与非命令词,而且无需额外的计算。通过采用具有最大推广能力的支持向量机处理信息,能够快速有效地进行非命令词的拒识。本专利技术应用本文档来自技高网
...

【技术保护点】
一种嵌入式语音命令识别系统中非命令词快速拒识方法,其特征在于,直接利用语音识别结果中前N个候选词的识别得分,通过计算归一化识别得分以及归一化一阶差分,以很小的计算代价提取具有高度区别性的特征向量用于识别结果的验证,同时采用支持向量机理论,结合数据融合技术,提出基于类融合中心的支持向量机,在使用前首先采用训练数据得到分类器的优化参数,使用时只需将提取的特征向量输入到此分类器中,就能根据分类结果实现对非命令词的快速拒识。

【技术特征摘要】
1.一种嵌入式语音命令识别系统中非命令词快速拒识方法,其特征在于,直接利用语音识别结果中前N个候选词的识别得分,通过计算归一化识别得分以及归一化一阶差分,以很小的计算代价提取具有高度区别性的特征向量用于识别结果的验证,同时采用支持向量机理论,结合数据融合技术,提出基于类融合中心的支持向量机,在使用前首先采用训练数据得到分类器的优化参数,使用时只需将提取的特征向量输入到此分类器中,就能根据分类结果实现对非命令词的快速拒识。2.根据权利要求1所述的嵌入式语音命令识别系统中非命令词快速拒识方法,其特征是,对其进一步的限定,包括特征提取、基于类融合中心支持向量机和快速拒识三个基本步骤①特征提取直接利用识别的计算结果...

【专利技术属性】
技术研发人员:朱杰蔡铁
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2014年12月17日 08:18
    非命指不从命遭遇祸害而死亡
    0
1
相关领域技术
  • 暂无相关专利