长语音连续识别及识别结果实时反馈方法和系统技术方案

技术编号:8563599 阅读:185 留言:0更新日期:2013-04-11 05:30
本发明专利技术公开了一种长语音连续识别及语音识别结果实时反馈的方法及系统。该方法包括:在识别网络中增加句尾结束点到识别起始点的扩展可能性;解码过程中,识别路径在扩展时既可以生成单一句子,也可以生成多个连续句子,通过声学和语言概率的整体寻优来分割大篇幅语音信号;定期对所有活跃节点的最优历史路径的共有部分进行检测;获得当前时刻已经固定下来的识别单词序列;将更新的局部识别结果实时反馈给用户;回收已经确定下来的识别部分对应的解码空间。利用本发明专利技术,不依赖于端点检测算法,即可实现长语音信号的连续、可持续识别,同时给用户更好的人机交互体验。

【技术实现步骤摘要】

本专利技术涉及语音识别
,特别地涉及ー种长语音连续识别及语音识别结果的实时反馈方法及系统。
技术介绍
随着移动互联网的发展,作为最自然高效的人机交互手段之一,语音识别及其相关技术越来越广泛的应用在生活中。语音识别不再仅仅是好看的花瓶.而是实实在在地进入了普通人的生活,给我们的社会带来便捷和快乐。在实际应用中,对于面向大篇幅的语音信号输入进行实时语音识别的应用,传统的方法是采用在线端点检测的方法,对语音的起始点和结束点进行在线的检测,并通知在线解码器进行相应的操作发现语音起始点后,启动在线语音识别,并对后续语音进行在线解码;发现语音结束点后,对已经处理完毕的解码状态记录进行回溯,获得最优历史路径及其对应的单词列表,即识别結果。该方法的问题在于一方面,在线端点检测的精度有限。端点检测算法通常采用短时能量和短时过零率分析的方法,或者采用基于模型的方法进行语音、非语音的分类。采用短时能量和短时过零率分析的方法,需要为语音非语音段的划分选择ー个甚至多个门限,而该门限的选择很大程度上需要依赖于对实际语音的特点进行调整才能获得最优的效果。采用基于模型的方法进行语音、非语音的分类,则依赖于模型的语音训练样本与实际语音的一致性。因此,目前来说,较难获得ー个通用且高效的端点检测算法。另ー方面,端点检测的标准仅仅是依赖于语音段和非语音段的判別,而实际上,完整的语音句子的分割更多的还依赖于语义的完整性。例如,在实际ロ语说话中,常常出现因为犹豫、语速慢或没有想清楚而出现句中停顿的现象,如果停顿时间稍长,语音的端点检测系统会因为误判为语音结束点而强行将ー个完整的句子截成两段。再如,在表达一段比较长的意思时,很多人的说话习惯是一句说话之后,马上把下一句的连接词说完之后再做停顿,以告知其他人其意思尚未表达完。这种情况下,也会造成语音端点检测系统错误的对语音进行分割。总之,实际应用中,端点检测的目标与完整语义句子的分割目标并不是严格一致的。从上面的分析可以看出,对于大篇幅的语音信号,采用将连续语音信号分割成独立的语音片断和非语音片断,然后对分割得到的语音片断进行识别的方法,有较多的局限性和依赖性。如上所述,分割结果不可避免的错误必然会带入后续的识别结果中,造成不必要的识别错误。对于实际系统来说,用户对系统的响应速度有着越来越高的要求。采用在线语音识别技术,可以在语音输入的同时进行同步的实时解码,将所有可能的识别结果进行实时的同步扩展。一旦发现语音输入结束点,立即进行当前全局最优路径的回溯,从而获取识别結果。这种在线语音识别技术,节约了语音本身的输入时间,只需要较短的时间延迟,即可获取语音输入的识别結果。但这种方式的ー个局限性在于,需要到达一段语音的结束点,才确定该语音全局最优的识别結果。因为在这段语音的中间任ー时刻,获得的当前时间最优路径仅仅是局部最优点,如果从局部最优点进行回溯,其结果并不一定与整段语音的识别结果相一致。因此,对于用户来说,至少需要等到一句话说完的一定时间之后,才能看到识别的結果。尤其在用户语速较密,端点检测方法较难判断语音结束点时,用户会等待较长的时间才能看到识别结果反馈,这是一种较差的用户体验。
技术实现思路
有鉴于此,为了更好的解决长语音信号连续识别问题,同时给用户更好的反馈体验,本专利技术提供了ー种长语音连续识别及识别结果实时反馈方法及系统,在语音识别的过程中,减少对端点检测算法的依赖,更多的引入对语义完整性的判断,采用全局最优的方式寻找语音信号中句子的结束点,实现大篇幅语音连续识别;同时,实时检测当前时刻下已经确定的最优识别结果,无需等待句子结尾即可反馈给用户,从而提高响应速度。为此,本专利技术提出了ー种语音识别结果实时反馈方法,其包括步骤I,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检測;步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别結果,并将其作为当前时刻已经确定下来的语音识别结果;步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。本专利技术还提出了ー种利用上述语音识别结果实时反馈方法所确定下来的语音识别结果的长语音信号连续识别方法,其包括构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每ー帧进行解码;其中,解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;根据上述语音识别结果实时反馈方法定期获取已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别结果;在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。本专利技术还提出了ー种语音识别结果实时反馈装置,其包括历史共有部分检测单元,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;识别结果实时反馈单元,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果,如果所述确定下来的语音识别结果有更新,则反馈更新后的语音识别結果。本专利技术还提出了ー种包括上述语音识别结果实时反馈装置的长语音信号连续识别系统,包括网络构建単元,用于构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;解码单元,用于接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每ー帧进行解码;语音句子结束点辅助判断単元,用于在解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;上述语音识别结果实时反馈装置;独立句子判断単元,用于定期从所述语音识别结果实时反馈装置已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别結果;独立句子处理单元,用于在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;内存清理単元,用于清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。本专利技术实施例长语音连续识别及识别结果实时反馈方法和系统,采用在识别网络中増加句尾结束点到识别起始点的扩展可能,使得在解码过程中,识别路径在扩展时既可以生成单一句子,也可以生成多个连续句子。所述方法通过声学和语言概率的整体寻优来分割大篇幅语音信号,从而避免了对端点检测算法的依赖。此外,采用定期对所有活跃节点的最优历史路径的共有部分进行检测,实时更新已经固定下来的识别結果,既实现更快的人机交互,又解决了长语音识别时计算资源的动态回收,达到识别的可持续性。附图说明图1是本专利技术的语音识别结果实时反馈方法的流程图;图2是本专利技术实施例中确定活跃节点历史路径中的共有部分时采用的一种优化的回溯节点的方式;图3是本专利技术实施例中通过记录回溯节点的方式确定活跃节点历史路径中的共有部分及识别结果更新的流程图;图4是本专利技术实施例中采用的基于N-gram的语言模型示意图;图5是本专利技术实施例中増加了句尾结束点到识别起始点的扩展跳转路径的示意图;图6是本专利技术的长语音连续识别及识别结果实时反馈系统的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例本文档来自技高网
...

【技术保护点】
一种语音识别结果实时反馈方法,其特征在于,包括:步骤1,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果;步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。

【技术特征摘要】
1.一种语音识别结果实时反馈方法,其特征在于,包括步骤I,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果;步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。2.如权利要求1所述的方法,其特征在于,所述共有部分指当前所有活跃节点的历史路径的相同部分。3.如权利要求1所述的方法,其特征在于,从当前时刻所有活跃节点出发对其历史路径进行回溯,记录历史路径上的单词序列;所有活跃节点都处理完毕之后,所获得的所有单词序列的交集,即为所述已经确定下来的语音识别结果。4.如权利要求1所述的方法,其特征在于,通过记录回溯节点的方式确定活跃节点历史路径中的共有部分。5.如权利要求4所述的方法,其特征在于,在通过记录回溯节点的方式确定活跃节点历史路径中的共有部分时,用于确定语音识别结果的具体方式为步骤a,获取当前时刻解码中所有活跃节点的集合;步骤b,设置回溯路径节点交集为当前时刻最优历史路径上节点的集合;其中,获取所述最优历史路径时,仅回溯到当前时刻的回溯截止点,初始时刻回溯截止点为解码识别网络的初始起始点;步骤C,从所述活跃节点集合中取出未进行过回溯的节点作为回溯节点,回溯其历史路径,直到首次遇到回溯路径节点交集中的节点,然后将该节点作为重合节点记录下来;步骤d,更新回溯路径节点交集为所述回溯节点在其回溯路径上所述重合节点之前的所有节点;步骤e,判断活跃节点集合中是否仍有未回溯的节点;如果是,重新执行步骤c ;否则, 执行步骤f ;步骤f,从回溯路径节点交集的尾节点回溯到回溯截止点,获得从所述尾节点到所述回溯截止点的路径上的单词序列,并将所述回溯路径节点交集的尾节点,作为新的回溯截止占.步骤g,判断所述单词序列是否不为空;如果不为空,则将所述单词序列作为当前时刻已经确定下来的识别结果反馈给用户。6.如权利要求1所述的方法,其特征在于,在语音识别过程中,判断已经确定下来的语音识别结果对应的识别路径是否跨越了解码识别网络中的句尾结束点,如果是,则认为有一个独立的句子被确定了,并将该确定的独立的句子对应的识别网络中的各状态及跳转弧删除,以重新规整所述解码识别网络。7...

【专利技术属性】
技术研发人员:徐波孟猛高鹏
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1