一种基于机载设备的数字串语音识别方法技术

技术编号:13496977 阅读:59 留言:0更新日期:2016-08-08 15:41
本发明专利技术公开了一种基于机载设备的数字串语音识别方法,在识别阶段采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。在结果确认阶段采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。本发明专利技术通过改善数字串识别性能和优化修改错误识别结果的人机交互流程,尽可能减少飞行员低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。

【技术实现步骤摘要】


本专利技术属于语音识别领域,具体涉及一种基于机载设备的数字串语音识别方法,主要用于机载设备上快速输入数字串并快速修改识别错误的数字。

技术介绍

飞机座舱空间狭小,操控复杂,利用语音识别的方式可以改善飞行员操控飞机的人机工效,减少飞行员的操作负荷。语音识别是将人类说话的音频数字信号识别为说话内容的文本信息的一种技术,利用这种技术可以在某些需要向机器输入信息的场合将手动输入替换为语音输入,给人类提供了一种人机交互的新方式。
语音识别属于模式识别的范畴,其功能实现需要用到事先训练好的模型,并采用一整套识别算法完成将语音识别成文字的过程。语音识别并不能保证所有识别结果百分百正确,其识别性能受限于模型训练的好坏和识别算法工程实现的优劣。通常语音识别用于机载设备时,所需要识别的内容是一个较小的文本集合,识别难度较小,因此可以获得较好的识别性能。
数字串输入在机载领域是一个普遍的需求,类似飞行高度、经纬度、通信频率等信息都涉及大量的数字串。但是数字串识别却是语音识别的一个难点,因为十个数字的混淆度大,一串数字在识别过程中出现删除错误、插入错误、替代错误的比例会大大增加。如果让飞行员通过语音输入一串数字后还需要通过触摸显示屏上的虚拟数字键盘逐个修改识别错误的数字,错误越多,修改的操作就越多,花费的时间也越长,无法达到通过语音输入替代手工输入减少操作负荷和飞行安全隐患的预期效果。因此,针对语音识别在机载设备上的应用场景,必须改善数字串识别的效果。

技术实现思路

本专利技术的目的在于提供一种基于机载设备的数字串语音识别方法,主要是针对语音识别中数字串识别性能较差的问题提出一种解决方案,尤其是考虑到飞行员在狭小的座舱空间内操作不便的因素,尽可能减少他们低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。
为了实现上述目的,本专利技术的集水方案如下:一种基于机载设备的数字串语音识别方法,其特征在于所述方法包括以下步骤:A、指令语音输入;B、利用语音识别模型对输入语音进行一遍解码并判断语音中是否存在数字串,如否则输出最终识别结果,如是则进入C;C、获取数字串边界信息,通过所述边界信息得到数字串对应音频信息;D、利用数字专用模型对数字串对应音频信息进行二次识别,输出二次识别结果;E、输出最终识别结果。
步骤D中还包括:在输出二次识别结果时,还包括结果确认这一步骤。所述结果确认步骤:包括:a、在触摸屏上输出二次识别结果,其中每一数字串为一单元;b、判断数字串是否正确,如正确则结束修正,如不正确,则进入c;c、定位需要替代的错误数字串并重新语音输入所述数字串;d、利用数字专用模型对该数字串进行识别,并替换错误的数字串;e、输出最终结果。对带有数字串的语音做二次确认时,数字串语音的边界信息可以根据当前指令的语法规则关键字的边界信息进行校准。
其中定位错误数字串可以是通过触摸屏指出需要替代的错误数字串,也可以是语音输入所述数字串时,在数字串的结尾处加上边界信息字符,通过判断边界信息字符来判断需要替代的错误数字串。
本专利技术采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。在结果确认阶段采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。本专利技术通过改善数字串识别性能和优化修改错误识别结果的人机交互流程,使得飞行员在修正时的后续操作更加简便,尽可能减少飞行员低头在触摸显示屏上操作数字串输入的时间,从而提升飞行安全保障,减轻飞行员操控负荷。
附图说明
图1为本专利技术的数字串二次确认方案的流程框图。
图2为本专利技术的错误结果修改方案的流程框图。
图3为本专利技术的数字串识别整体方案流程图。
下面结合附图和实施例对本专利技术作详细说明。
具体实施方式
本专利技术从两个方面改善数字串语音识别的性能。一、采用两遍识别的框架对带有数字串的语音做二次确认,在二次确认过程中使用数字专用模型进行识别,从而提升数字串的识别准确率。二、采用局部语音重新输入的方式修改识别错误的数字串,通过减少识别内容的方式提高输入内容全部被正确识别的概率,减少修改识别错误的操作时间。下面以一个具体的例子详细阐述上述方案。
假定飞行员想通过语音输入的方式设置导航目的地的经度,他需要说出以下内容:“设置目的地经度,东经135度36分48秒。”(为了形成对比,我们将上述内容拆成两条语音指令,分别是“设置目的地经度”和“东经135度36分48秒”。)
当飞行员说完“设置目的地经度”后,机载语音识别系统将识别出该条指令的具体内容,按照本专利技术提出的语音识别方案,系统将检查该条指令是否包含数字串。确认该指令不包含数字串内容后,系统将等待下一条语音指令的输入。
当飞行员继续说完“东经135度36分48秒”后,机载语音识别系统识别出该条指令的具体内容,继续判断该条指令是否包含数字串。确认该条指令包含数字串内容,系统将通过识别结果中每个字/词/数字的边界信息找到数字串对应的音频数据。识别结果的边界信息可以在识别过程中获取并保存下来,或者在识别结束后重新做一遍强制对准(ForceAlignment)获取。找到数字串对应的音频数据后,使用事先训练好的数字专用模型对该段音频数据重新做一遍识别,本专利技术称之为二次确认。因为已经有了识别内容是数字串的先验知识,识别范围可以大大缩小,加上使用了专门针对数字串训练的模型,识别准确率将比第一遍识别有所提高。“东经135度36分48秒”这条指令中一共有三个数字串,则对应的三段音频数据都会重新做一遍上述二次确认的过程。在具体的机载语音识别系统中,在得到飞行员“设置目的地经度”的指令后,识别系统将对后续指令内容的语法格式产生符合先验知识的期望,即识别系统已经知道后续指令内容将会是“东/西经**度**分**秒”的格式,只是具体的数字串内容未知或者度分秒的信息有可能不完整。在有了这个先验知识的前提下,识别系统可以用“经”“度”“分”“秒”等事先设置的语法规则关键字对识别结果进行定位,用这些关键字的边界信息辅助确认数字串的边界信息,从而可以使得数字串对应的音频数据更完整准确,对于后续的二次确认识别性能也有帮助。
通过上述的二次确认过程,“东经135度36分48秒”这条指令的正确识别的概率将得到提高,但是仍然有可能存在识别错误,并且错误将更多地出现在“135”、“36”、“48”这三个数字串上,更有可能是其中的一个数字串出现了识别错误。如果要修改错误,普通的机载设备有两种选择。一种是重新在触摸显示屏上调出虚拟数字键盘,将错误的数字删除,并输入正确的数字。一种是重复用语音输入“东经135度36分48秒”这个指令,期望第二遍的识别可以得到正确结果,但第二遍识别有一定的概率仍然无法得到完全正确的结果。这两种方式都会使得飞行员觉得语音输入的后续操作过于繁琐,从而倾向于在一开始就采用手工输入数字串的方式而不采用语音输入的方式。
本专利技术提出用局部语音重新输入的方式对识别错误的数字串进行修改,是基于“在数字串识别性能有保障的情况下数字串出现错误的概率不会很大”这样一个前提。即“本文档来自技高网
...

【技术保护点】
一种基于机载设备的数字串语音识别方法,其特征在于所述方法包括以下步骤:A、指令语音输入;B、利用语音识别模型对输入语音进行一遍解码并判断语音中是否存在数字串,如否则输出最终识别结果,如是则进入C;C、获取数字串边界信息,通过所述边界信息得到数字串对应音频信息;D、利用数字专用模型对数字串对应音频信息进行二次识别,输出二次识别结果;E、输出最终识别结果。

【技术特征摘要】
1.一种基于机载设备的数字串语音识别方法,其特征在于所述方法包括以下步骤:A、指令语音输入;B、利用语音识别模型对输入语音进行一遍解码并判断语音中是否存在数字串,如否则输出最终识别结果,如是则进入C;C、获取数字串边界信息,通过所述边界信息得到数字串对应音频信息;D、利用数字专用模型对数字串对应音频信息进行二次识别,输出二次识别结果;E、输出最终识别结果。
2.如权利要求1所述的数字串语音识别方法,其特征在于步骤D中还包括:在输出二次识别结果时,还包括结果确认这一步骤。
3.如权利要求2所述的数字串语音识别...

【专利技术属性】
技术研发人员:李曜
申请(专利权)人:上海航空电器有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1