一种语音交互方法及系统技术方案

技术编号:11182698 阅读:92 留言:0更新日期:2015-03-25 11:56
本发明专利技术公开了一种语音交互方法及系统,该方法包括录制用户输入的音频数据;对音频数据进行端点检测,直至检测到语音前端点;对从语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,该前缀词为反映执行动作类型的词语;获取音频数据中从前缀词语音的前端点起的语音段作为语音指令;对语音指令进行语音识别;如果语音识别结果有效则执行对应语音识别结果的操作。本发明专利技术的方法及系统由于将音频数据中从前缀词语音的前端点起的语音段作为语音指令,并将反映执行动作类型的词语作为前缀词,因此实现了前缀词与语音指令间的有机结合,可以有效避免出现因强制切分语音指令带来的无法获得有效语音识别结果的问题,提高了语音交互的效率。

【技术实现步骤摘要】

本专利技术涉及语音交互领域,尤其涉及一种语音交互方法及系统
技术介绍
为了避免手机等移动设备在待机时将周边的说话噪音误识别为语音指令,用户在每次启动移动设备的语音交互功能时,移动设备均需要完成以下操作:1、录制用户输入的音频数据;2、获取音频数据进行唤醒检测,直至唤醒成功;3、于唤醒成功后提示用户输入语音指令;4、于提示用户输入语音指令后,再次录制用户输入的音频数据;5、获取再次录制的音频数据中的语音段作为语音指令;6、对语音指令进行语音识别,得到语音识别结果;7、确定语音识别结果是否有效,如果有效则执行语音识别结果。对应地,用户在每次启动移动设备的语音交互功能时,均需要完成以下操作:1、说出唤醒词,以唤醒移动设备;2、在移动设备提示用户输入语音指令时,说出语音指令,例如说出“打电话给张三”时。由此可见,该种语音交互方法具有使用便捷性较差的缺陷。为了解决上述语音交互方法存在的使用便捷性较差的问题,目前还提出了一种基于唤醒词的语音交互方法,该种语音交互方法是在唤醒成功后直接处理用户在说出唤醒词后连续说出的语音指令。与该种语音交互方法相对应,用户需要完成的操作是连续说出唤醒词和语音指令,例如,对于要“打电话给张三”的应用,用户需要说出“语点通,打电话给张三”,其中的“语点通”即为预先设定的固定唤醒词,而“打电话给张三”即为语音指令。该种语音交互方法虽然在使用便捷性上具有一定的优势,但是,用户通常都是连续说话,唤醒词与后面的语音指令会顺连在一起,因此,这种将音频数据中于唤醒成功起的语音段作为语音指令的强制切分方式,很可能导致语音指令不完整,进而导致语音识别模块无法获得有效的语音识别结果,降低了语音识别模块的识别准确率,这就在一定程度上降低了语音交互的效率。另外,该种语音交互方法仅针对固定的唤醒词起作用,用户需要硬性记忆设定的唤醒词,否则将无法开始整个语音交互过程,因此,该种语音交互方法的使用便捷性仍有待进一步提高。
技术实现思路
本专利技术实施例的目的在于克服现有语音交互方法存在的语音交互效率较低的问题,提供了一种高效的基于前缀词的语音交互方法。为实现上述目的,本专利技术采用的技术方案为:一种语音交互方法,包括:录制用户输入的音频数据;对所述音频数据进行端点检测,直至检测到语音前端点;对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,其中,所述前缀词为反映执行动作类型的词语;获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音指令,直至检测到指令获取终止事件;对所述语音指令进行语音识别,得到语音识别结果;判断所述语音识别结果是否有效,如果有效则执行对应所述语音识别结果的操作。优选的是,所述方法还包括:在对所述音频数据进行端点检测之前,对所述音频数据进行降噪处理。优选的是,所述对从所述语音前端点起的音频数据进行前缀词检测包括:基于包括前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前端点起的音频数据中是否存在所述前缀词语音。优选的是,所述判断所述语音识别结果是否有效包括:判断命令词网络中是否存在与所述语音识别结果相匹配的命令词,如存在,则判定所述语音识别结果有效。优选的是,所述指令获取终止事件包括:所述语音段结束和所述语音段已持续设定时间。为了实现上述目的,本专利技术采用的技术方案为:一种语音交互系统,包括:录音模块,用于录制用户输入的音频数据;端点检测模块,用于对所述音频数据进行端点检测,直至检测到语音前端点;前缀词检测模块,用于对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,其中,所述前缀词为反映执行动作类型的词语;语音活动检测模块,用于获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音指令,直至检测到指令获取终止事件;语音识别模块,用于对所述语音指令进行语音识别,得到语音识别结果;判断模块,用于判断所述语音识别结果是否有效;以及,执行模块,用于执行有效的语音识别结果对应的操作。优选的是,所述系统还包括:降噪模块,分别与所述录音模块及所述端点检测模块连接,用于对所述录音模块录制的音频数据进行降噪处理,并将降噪处理后的音频数据传送给所述端点检测模块。优选的是,所述前缀词检测模块具体用于基于包括前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前端点起的音频数据中是否存在所述前缀词语音。优选的是,所述判断模块具体用于判断命令词网络中是否存在与所述语音识别结果相匹配的命令词,如存在,则判定所述语音识别结果有效。优选的是,所述指令获取终止事件包括:所述语音段结束和所述语音段已持续设定时间。本专利技术的有益效果在于,本专利技术的语音交互方法及系统由于将音频数据中从前缀词语音的前端点起的语音段作为语音指令,并将例如是“打电话给”、“发短信给”、“打开QQ”等反映执行动作类型的词语作为前缀词,因此实现了前缀词与语音指令间的有机结合,这不仅可以有效避免出现因强制切分语音指令带来的无法获得有效语音识别结果的问题,提高了语音交互的效率,而且这种将符合常规语言习惯的词语作为前缀词的方式,使用户无需硬性记忆固定的唤醒词,只需按照常规语言习惯说出需要执行的动作即可实现语音交互的唤醒和动作的执行,进而进一步提高了语音交互的使用便捷性。附图说明图1示出了根据本专利技术所述语音交互方法的一种实施方式的流程图;图2示出了根据本专利技术所述语音交互系统的一种实施结构的方框原理图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本专利技术的限制。本专利技术为了解决现有语音交互方法存在的因对语音指令进行强制切分而影响语音交互效率的问题,提供一种更为高效的语音交互方法,如图1所示,该方法包括如下步骤:步骤S1:录制用户输入的音频数据。在此,可将录制的音频数据存储在固定长度的循环缓冲区中,并记录存储地址,以供后续步骤获取该音频数据。步骤S2:对音频数据进行端点检测,直至检测到语音前端点。该语音前端点就是非语音段到语音段的边界帧,进行音频数据处理时,首先对音频数据进行分帧,然后对音频数据的每帧数据计算能量特征,能本文档来自技高网
...
一种语音交互方法及系统

【技术保护点】
一种语音交互方法,其特征在于,包括:录制用户输入的音频数据;对所述音频数据进行端点检测,直至检测到语音前端点;对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,其中,所述前缀词为反映执行动作类型的词语;获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音指令,直至检测到指令获取终止事件;对所述语音指令进行语音识别,得到语音识别结果;判断所述语音识别结果是否有效,如果有效则执行对应所述语音识别结果的操作。

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:
录制用户输入的音频数据;
对所述音频数据进行端点检测,直至检测到语音前端点;
对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀
词语音,其中,所述前缀词为反映执行动作类型的词语;
获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音
指令,直至检测到指令获取终止事件;
对所述语音指令进行语音识别,得到语音识别结果;
判断所述语音识别结果是否有效,如果有效则执行对应所述语音识别
结果的操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在对所述音频数据进行端点检测之前,对所述音频数据进行降噪处理。
3.根据权利要求1所述的方法,其特征在于,所述对从所述语音前端
点起的音频数据进行前缀词检测包括:
基于包括前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前
端点起的音频数据中是否存在所述前缀词语音。
4.根据权利要求1所述的方法,其特征在于,所述判断所述语音识别
结果是否有效包括:
判断命令词网络中是否存在与所述语音识别结果相匹配的命令词,如
存在,则判定所述语音识别结果有效。
5.根据权利要求1至4中任一项所述的语音交互方法,其特征在于,
所述指令获取终止事件包括:所述语音段结束和所述语音段已持续设定时
间。
6.一种语音交互系统,其特征在于,包括:
录音模块,用于录制用户输入的音频数...

【专利技术属性】
技术研发人员:张凯陈盛
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1