一种语音指令范围动态变化的连续语音识别方法技术

技术编号:8367210 阅读:252 留言:0更新日期:2013-02-28 06:33
一种语音指令范围动态变化的连续语音识别方法,(1)输入语音指令集,并按规则将语音指令集分组,分别构建解码网络;(2)输入语音,提取声学特征,基于解码网络进行解码,在解码的同时允许根据当前的运行情况动态地增删解码网络;(3)判断接收到的语音是否为有效语音,并给出反馈是否为有效反馈;(4)依据命令做出相应的操作;(5)是否仍有语音输入,若是转入(2),否则结束。本发明专利技术允许用户连续输入语音,且允许系统在识别过程中依据系统运行状态动态地增加和删除语音指令,实时调整解码网络并参与解码,在提高识别效率的同时,也大大的改善了识别的准确性。

【技术实现步骤摘要】

本专利技术涉及一种语音指令识别方法,尤其是一种对语音指令范围可变的连续语音识别方法。
技术介绍
与机器进行交流,让其明白你在说什么,是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术作为解决人机交互的重要途径,在近年来得到了越来越多的应用。如基于计算机平台的、大词汇量连续语音识别系统,主要应用于与电话网或互联网相结合的语音信息查询服务系统;在小型化、便携式语音产品中的应用,如智能玩具、家电遥控等方面。语音指令的识别应用场景有两种,一种是对固定不变的指令内容进行识别;另一种情况是要识别的指令内容是随着时间而变化的,对于下一刻可能要识别的内容是未知的,且识别过程中用户的语音是连续输入的。这里语音指令可以是简单的命令词,也可以是语句,即围绕着某个命令词或应用场景的很多种说法。场景二的例子如酷豆游戏,屏幕上实时动态地显示用户可读入的命令词,即当前可识别的命令词,对于识别系统和用户来说,下一时刻可用于识别的命令词是完全未知的,且在命令词变化的整个过程中,用户的语音是连续输入的,此时,识别系统也应实时准确的识别出用户的语音。而传统的语音指令识别方法往往满足不了需求。传统的语音指令识别方法主要处理的是指令集固定的情况。在评测开始前,依据指令集的内容构建固定不变的解码网络,因此,该种识别技术灵活性较差,对于指令集需随时变换的情况束手无策。其具体流程如图I所示第一步依据需求设定指令集;第二步依据指令集内容构建解码网络;第三步接受用户输入的语音;第四步判断接收到的语音是否为有效语音,并给出反馈是否为有效反馈,若是转入步五,否则转入步三;第五步系统依据命令做出相应的操作;第六步是否仍有语音输入,若是转入步3,否则结束。现有的语音指令识别方法主要存在以下几个缺点(I)仅可处理语音指令集固定且已知的情况,在指令集需实时变换,且一下时刻要识别的内容完全未知时,现有方法则无计可施;(2)现有语音指令识别方法的解码网络多依据所有的命令词构建一个复杂的且固定不变的解码网络,该种方法在面临语音指令数目较多情况时,解码网络将会非常庞大,因此需要的内存开销以及时间开销都较大;且此种方法相似语音指令同时存在的概率较大,当解码网络中相似语音指令较多时,系统的识别效果就会较差。
技术实现思路
本专利技术技术解决问题克服现有技术的不足,提供,该方法允许用户连续输入语音,且允许系统在识别过程中依据系统运行状态动态地增加和删除语音指令,实时调整解码网络并参与解码,在提高识别效率的同时,也大大的改善了识别的准确性。本专利技术技术解决方案,实现步骤下(I)输入初始语音指令集文本,并进行文本处理;所述语音指令集文本可根据应用需要分为一组或多组,不同组指令集可具有不同的生命周期;(2)根据步骤(I)中输出的文本,为每组语音指令集分别搭建解码网络,并将解码网络、声学模型传给各自的解码器;所述声学模型是语音识别的基础数学模型,模型单元是音素、音节或字;(3)实时接收语音数据片段,并提取声学特征序列传给每个解码器并进行解码。所述声学特征是描述短时语音本质特征的一组值。(4)在解码的过程中允许外部应用系统根据运行逻辑的需要动态地增、删语音指令集,并根据语音指令集的动态变化实时更新解码网络。所述根据语音指令集的动态变化实时更新解码网络的过程具体如下(41)接受外部应用系统语音指令集调整请求;(42)若需要增加新的语音指令集,则对新语音指令集进行文本处理,依据文本构建相应的解码网络,并开始进行解码;若需要删除某些语音指令集,则停止该语音指令集对应解码器的所有运算,并删除对应的解码网络;(5)当某个解码器率先解码至网络的结束位置时,获取所有解码器的最优结果,并进行排序,取概率最大的结果作为最优结果,并判断此时结果是否可信,若可信则终止所有解码器的运算,转入第(6)步,否则转入第(3)步继续解码;(6)外部应用系统依据第(5)步的判断结果做出相应的操作。所述步骤(2)中解码网络为命令词解码网络或Ivcsr解码网络。所述步骤(3)中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。所述步骤(5)中判断可信结果的过程如下(51)当某个解码器率先解码至网络的结束位置时,获取所有解码器的最优结果;(52)根据概率对所有解码结果进行排序;(53)取排序后概率最大的结果作为最优结果;(54)计算该结果的置信度得分,并与阈值进行比较;(55)若大于阈值时,则认为该结果可信,反之,认为不可信。在步骤(5)中所述的对解码结果进行可信度判断时,为了保证判断的准确性,可以参照vad (Voice Activation Detection)的检测结果,即确认解码结束位置是否处于vad结果中的静音段,若是则认为本次识别结果是可信的,否则认为不可信。本专利技术与现有技术相比的优点在于(I)本专利技术允许用户连续输入语音,且允许外部应用系统根据运行逻辑的需要动态地增删语音指令集,实时调整解码网络并参与解码,有效的解决了语音指令范围动态变化的连续语音识别问题。(2)本专利技术为每个语音指令集构建一个解码网络,网络结构较简单,在对大批量语音指令集进行识别时,与传统识别方法相比,此种方法识别率更高、运算量更低且占用内存更小。附图说明图I为现有技术的实现流程图2为本专利技术实现流程图3为本专利技术动态调整语音指令集过程图4为本专利技术的解码过程流程图5为指令集以每个单词为一组的解码网络示例图图6为本专利技术声学特征提取流程图。具体实施例方式如图2所示,本专利技术具体实现如下( I)输入初始语音指令集文本,并进行文本处理。输入的语音指令集是外部应用系统预定的可识别的语音指令,也是构建解码网络的依据之一。此步骤主要完成三个任务首先,依据规则对语音指令集进行分组,可划分为一组或多组,不同组指令集可具有不同的生命周期,相同组内语音指令具有相同的生命周期。此处的规则可根据实际应用的需求设定,例如根据指令集的个数,类型等进行分组。如图5所示,每个单词划分为一组。其次,对分组后的指令集文本编码格式进行统一转换,比如统一转换成UTF8格式,这样做的好处在于解析文本的代码仅需要实现一套;最后,按照声学模型中对应模型单元的颗粒度(如字、音节、音素)进行解析(一般采用音素作为建模单元效果更佳),生成解析结果树状结构,该结构包含句子、词语、字、音节、音素五个层次的完整信息,其中前3个层次可以按照文本前端分词算法进行解析,后2个层次可以根据发音词典进行解析。(2)为每组语音指令集分别搭建解码网络。依据步骤(I)中的分组结果,对每组语音指令集分别构建解码网络,如图5所示。具体操作流程如下a)获取文本处理步骤中得到的模型单元序列;b)针对每组单元序列,根据回读,漏读等允许的朗读规则计算网络中的弧数,并为弧分配内存;c)根据朗读规则,构建弧把节点连接起来;d)输出每组语音指令集对应的解码网络。(3)实时接收语音数据片段,并提取声学特征序列传给每个解码器并行解码。声学特征的类型较多,下面以MFCC特征为例说明,MFCC特征的提取流程如图6所示,具体步骤如下a) A/D变换,将模拟信号转换为数字信号;b)预加重通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦本文档来自技高网
...

【技术保护点】
一种语音指令范围动态变化的连续语音识别方法,其特征在于实现步骤如下:(1)输入初始语音指令集文本,并进行文本处理;所述语音指令集文本可根据应用需要分为一组或多组,不同组指令集可具有不同的生命周期;(2)根据步骤(1)中输出的文本,为每组语音指令集分别搭建解码网络,并将解码网络、声学模型传给各自的解码器;所述声学模型是语音识别的基础数学模型,模型单元是音素、音节或字;(3)实时接收语音数据片段,并提取声学特征序列传给每个解码器并进行解码。所述声学特征是描述短时语音本质特征的一组值;(4)在解码的过程中允许外部应用系统根据运行逻辑的需要动态地增、删语音指令集,并根据语音指令集的动态变化实时更新解码网络。所述根据语音指令集的动态变化实时更新解码网络的过程具体如下:(41)接受外部应用系统语音指令集调整请求;(42)若需要增加新的语音指令集,则对新语音指令集进行文本处理,依据文本构建相应的解码网络,并开始进行解码;若需要删除某些语音指令集,则停止该语音指令集对应解码器的所有运算,并删除对应的解码网络;(5)当某个解码器率先解码至网络的结束位置时,获取所有解码器的最优结果,并进行排序,取概率最大的结果作为最优结果,并判断此时结果是否可信,若可信则终止所有解码器的运算,转入第(6)步,否则转入第(3)步继续解码;(6)外部应用系统依据第(5)步的判断结果做出相应的操作。...

【技术特征摘要】

【专利技术属性】
技术研发人员:赵乾朱群吴玲潘颂声何春江王兵
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1