一种语音交互方法、装置、设备及存储介质制造方法及图纸

技术编号:21005449 阅读:19 留言:0更新日期:2019-04-30 21:52
本发明专利技术实施例提出一种语音交互方法、装置、设备及存储介质,其中方法包括:判断收音时长是否超时;如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。本发明专利技术实施例能够降低语音交互过程中对语音信号的误识别率,提高用户体验。

【技术实现步骤摘要】
一种语音交互方法、装置、设备及存储介质
本专利技术涉及语音交互
,尤其涉及一种语音交互方法、装置、设备及存储介质。
技术介绍
传统的语音交互设备采用一问一答的方式进行。在语音交互时,用户首先需要唤醒设备(一般采用用户说出固定的唤醒词的方式唤醒设备),然后发出语音指令,设备响应该语音指令。响应的方式包括语音播报、屏幕呈现等方式。完成一轮语音交互之后,如果用户希望开始下一轮语音交互,则需要重新唤醒设备,并发出语音指令。在上述方式中,由于每一次语音交互均需要唤醒设备,造成用户的使用体验不佳。因此,目前出现了支持一次唤醒多次交互的语音交互技术。采用这种技术,在初次语音交互时,用户需要唤醒设备。完成初次语音交互之后,语音交互设备开启计时器。在计时器未超时的情况下,如果用户希望开始下一轮语音交互,则可以直接发出语音指令,而无需重新唤醒设备。可见,这种交互方式更接近于真实的人类对话,能够给用户带来较好的使用体验。但是,这种一次唤醒多次交互的语音交互技术的缺点是容易受到非指令的人声干扰,出现误识别。例如,语音交互设备被唤醒之后,在计时器未超时的情况下,可能接收到语音指令以外的其他语音信号。例如人与人对话中发出的声音,或者广播、电视等设备中发出的语音等。此时,语音交互设备会将该语音信号误认为是语音指令,并对该语音信号进行响应,从而造成一次错误的人机交互,影响用户体验。
技术实现思路
本专利技术实施例提供一种语音交互方法及装置,以至少解决现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种语音交互方法,包括:判断收音时长是否超时;如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。在一种实施方式中,还包括:当所述初次检测结果为通过时,对所述待检测文本进行二次检测;当所述二次检测结果为通过时,响应所述待检测文本,并返回执行所述判断的步骤。在一种实施方式中,对所述待检测文本进行初次检测,包括:采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;所述对所述待检测文本进行二次检测,包括:采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。在一种实施方式中,所述初次检测模型的建立方式为:采用多个指令文本及多个非指令文本训练所述初次检测模型;所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。在一种实施方式中,所述初次检测包括:将所述待检测文本输入所述初次检测模型;当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。在一种实施方式中,所述二次检测模型的建立方式为:采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。在一种实施方式中,所述二次检测包括:将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。第二方面,本专利技术实施例还提出一种语音交互装置,包括:判断模块,用于判断收音时长是否超时;识别模块,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;初次检测模块,用于对所述待检测文本进行初次检测,当所述初次检测结果为未通过时,指示所述判断模块进行判断。在一种实施方式中,还包括:二次检测模块,用于当所述初次检测结果为通过时,对所述待检测文本进行二次检测;响应模块,用于当所述二次检测结果为通过时,响应所述待检测文本,并指示所述判断模块进行判断。在一种实施方式中,所述初次检测模块,用于采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;所述二次检测模块,用于采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。在一种实施方式中,所述初次检测模型的建立方式为:采用多个指令文本及多个非指令文本训练所述初次检测模型;所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。在一种实施方式中,所述初次检测模块,用于将所述待检测文本输入所述初次检测模型;当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。在一种实施方式中,所述二次检测模型的建立方式为:采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。在一种实施方式中,所述二次检测模块,用于将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。第三方面,本专利技术实施例提供了一种语音交互设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述语音交互方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储语音交互设备所用的计算机软件指令,其包括用于执行上述语音交互方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例提出的语音交互方法,在语音交互设备被唤醒之后,判断收音时长是否超时。在收音时长未超时的情况下,接收待检测语音信号,并对待检测语音信号进行语音识别,得到待检测文本。之后,对待检测文本进行后续处理。通过这种方式,降低了语音交互过程中对语音信号的误识别率,从而提高用户体验。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,包括:判断收音时长是否超时;如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:判断收音时长是否超时;如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。2.根据权利要求1所述的方法,其特征在于,还包括:当所述初次检测结果为通过时,对所述待检测文本进行二次检测;当所述二次检测结果为通过时,响应所述待检测文本,返回执行所述判断的步骤。3.根据权利要求2所述的方法,其特征在于,所述对所述待检测文本进行初次检测,包括:采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;所述对所述待检测文本进行二次检测,包括:采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。4.根据权利要求3所述的方法,其特征在于,所述初次检测模型的建立方式为:采用多个指令文本及多个非指令文本训练所述初次检测模型;所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。5.根据权利要求4所述的方法,其特征在于,所述初次检测包括:将所述待检测文本输入所述初次检测模型;当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。6.根据权利要求3所述的方法,其特征在于,所述二次检测模型的建立方式为:采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。7.根据权利要求6所述的方法,其特征在于,所述二次检测包括:将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。8.一种语音交互装置,其特征在于,包括:判断模块,用于判断收音时长是否超时;识别模块,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;初次检测模块,用于对所述待检测文本进行初次检测,...

【专利技术属性】
技术研发人员:张刚朱凯华高聪王丹
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1