语音交互的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32632544 阅读:9 留言:0更新日期:2022-03-12 18:07
本公开提供了语音交互的方法、装置、电子设备及可读存储介质,涉及计算机技术领域,具体涉及计算机技术领域,具体涉及语音技术、自然语言处理等人工智能技术领域。一种具体实现方案为:对用户发送的请求语句进行语音识别,在接收到请求语句后的第一预设时间内,得到至少一个中间识别结果;响应于识别出第一个语义完整的中间识别结果,获取第一个语义完整的中间识别结果的第一语义解析结果并据此确定第一答复语句;响应于识别出第二个语义完整的中间识别结果,获取第二个语义完整的中间识别结果的第二语义解析结果;响应于第一语义解析结果与第二语义解析结果一致,播放第一答复语句。句。句。

【技术实现步骤摘要】
语音交互的方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及语音技术、自然语言处理等人工智能
,尤其涉及语音交互的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的进步,人机语音交互(简称:语音交互)也得到了迅速发展和广泛应用,例如,可广泛应用于智能电视、智能音箱、虚拟现实(virtual reality,VR)眼镜等智能设备,以及各种语音助手应用(APP)中。
[0003]在传统的人机语音交互中,语音识别和后续调用对话服务进行响应是串行进行的,即在语音活动检测(Voice Activity Detection,VAD)的尾点后才将进行语音识别并根据该语音识别结果调用对话服务进行响应。由此导致语音交互的响应时间较长,影响用户体验。针对该问题,现有技术提出了流式提前拉取对话资源的方案,通过提前进行流式语音识别,将VAD过程与后续调用对话服务进行响应的过程并行化,从而减少语音交互的响应时间。
[0004]本公开的专利技术人通过研究发现,上述流式提前拉取对话资源的方案,虽然可以减少语音交互的响应时间,但是在流式语音识别的过程中,并不知道用户何时会停止说话,需要在语音识别结果变化时,不停的调用对话服务,获取对应的结果并缓存起来,由此导致对话服务的请求量增加,造成大量对话服务计算资源的浪费,尤其是针对一些需要调用收费资源服务应用程序接口(Application Programming Interface,API)的情况,例如对话服务需要调用天气服务商、音频内容提供商的接口以获取响应资源时,需要按次付费,会进一步增加经济成本。

技术实现思路

[0005]本公开提供了一种语音交互的方法、装置、电子设备及存储介质。
[0006]根据本公开的一方面,提供了一种语音交互的方法,包括:
[0007]对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;
[0008]响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,获取所述第一个语义完整的中间识别结果的第一语义解析结果,并根据所述第一个语义完整的中间识别结果确定第一答复语句;
[0009]响应于从所述至少一个中间识别结果中识别出第二个语义完整的中间识别结果,获取所述第二个语义完整的中间识别结果的第二语义解析结果;
[0010]响应于所述第一语义解析结果与所述第二语义解析结果一致,播放所述第一答复语句。
[0011]根据本公开的另一方面,提供了一种语音交互的装置,包括:
[0012]语音识别单元,用于对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;
[0013]语义完整识别单元,用于响应于得到所述至少一个中间识别结果中的第一个中间识别结果,按照得到所述至少一个中间识别结果的时间顺序,依次识别所述至少一个中间识别结果中各中间识别结果的语义是否完整;
[0014]语义解析单元,用于响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,获取所述第一个语义完整的中间识别结果的第一语义解析结果;以及响应于从所述至少一个中间识别结果中识别出第二个语义完整的中间识别结果,获取所述第二个语义完整的中间识别结果的第二语义解析结果;
[0015]确定单元,用于根据所述第一个语义完整的中间识别结果确定第一答复语句;
[0016]播放单元,用于响应于所述第一语义解析结果与所述第二语义解析结果一致,播放所述第一答复语句。
[0017]根据本公开的又一方面,提供了一种电子设备,包括:
[0018]至少一个处理器;以及
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
[0021]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
[0022]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
[0023]根据本公开的又一方面,提供了一种人工智能设备,包括如上所述的电子设备。
[0024]由上述技术方案可知,本公开实施例通过对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内得到至少一个中间识别结果,其中的第一预设时间的结束时刻早于所述请求语句的语音活动检测的尾点时刻,响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,获取该第一个语义完整的中间识别结果的第一语义解析结果,并根据该第一个语义完整的中间识别结果确定第一答复语句;响应于从所述至少一个中间识别结果中识别出第二个语义完整的中间识别结果,获取该第二个语义完整的中间识别结果的第二语义解析结果,并在第一语义解析结果与第二语义解析结果一致时,播放所述第一答复语句。
[0025]由此,本公开实施例在提前进行流式语音识别并调用对话服务的基础上,引入语义完整性识别和语义解析技术,识别出前两个语义完整的中间识别结果且这前两个语义完整的中间识别结果的语义解析结果相同时,直接采用第一答复语句作为对话结果而不再针对第二个语义完整的中间识别结果调用对话服务,既可以通过提前拉取对话资源减少语音交互的响应时间,又可以减少对对话服务的重复调用,减少对话服务的请求量,节省对话服务的计算资源和存储资源、以及收费资源服务,从而降低成本。
[0026]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0027]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0028]图1是根据本公开第一实施例的示意图;
[0029]图2是根据本公开第二实施例的示意图;
[0030]图3是根据本公开实施例的一个应用实施例的示意图;
[0031]图4是根据本公开第四实施例的示意图;
[0032]图5是根据本公开第五实施例的示意图;
[0033]图6是用来实现本公开实施例的语音交互的方法的电子设备的框图。
具体实施方式
[0034]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互的方法,包括:对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,获取所述第一个语义完整的中间识别结果的第一语义解析结果,并根据所述第一个语义完整的中间识别结果确定第一答复语句;响应于从所述至少一个中间识别结果中识别出第二个语义完整的中间识别结果,获取所述第二个语义完整的中间识别结果的第二语义解析结果;响应于所述第一语义解析结果与所述第二语义解析结果一致,播放所述第一答复语句。2.根据权利要求1所述的方法,其中,所述第一语义解析结果包括:领域,意图和槽位信息;所述第二语义解析结果包括:领域,意图和槽位信息;所述第一语义解析结果与所述第二语义解析结果一致,包括:所述第一语义解析结果中的领域与所述第二语义解析结果中的领域一致,所述第一语义解析结果中的意图与所述第二语义解析结果中的意图一致,所述第一语义解析结果中的槽位信息与所述第二语义解析结果中的槽位信息一致。3.根据权利要求1或2所述的方法,还包括:响应于所述第一语义解析结果与所述第二语义解析结果不一致,根据所述第二个语义完整的中间识别结果确定第二答复语句;响应于从所述至少一个中间识别结果中识别出第三个语义完整的中间识别结果,获取所述第三个语义完整的中间识别结果的第三语义解析结果;响应于所述第二语义解析结果与所述第三语义解析结果一致,播放所述第二答复语句。4.根据权利要求1

3中任一项所述的方法,还包括:在接收到所述请求语句后的第二预设时间内,得到所述请求语句的最终识别结果,其中,所述第二预设时间的结束时刻,晚于所述请求语句的语音活动检测的尾点时刻。5.根据权利要求4所述的方法,其中,所述得到至少一个中间识别结果之后,还包括:响应于得到所述至少一个中间识别结果中的第一个中间识别结果,按照得到所述至少一个中间识别结果的时间顺序,依次识别所述至少一个中间识别结果的语义是否完整。6.根据权利要求5所述的方法,其中,所述得到所述请求语句的最终识别结果之后,还包括:响应于从所述至少一个中间识别结果中未识别出语义完整的中间识别结果,根据所述最终识别结果确定最终答复语句,并播放所述最终答复语句。7.根据权利要求4所述的方法,其中,所述得到所述请求语句的最终识别结果之后,还包括:响应于所述至少一个中间识别结果中任意两个相邻的语义完整的中间识别结果的语义解析结果均不一致,根据所述最终识别结果确定最终答复语句,并播放所述最终答复语
句。8.根据权利要求1

7中任一项所述的方法,其中,所述获取所述第一个语义完整的中间识别结果的第一语义解析结果,包括:利用预先训练得到的语义解析模型,获取所述第一个语义完整的中间识别结果的第一语义解析结果;或者,所述获取所述第二个语义完整的中间识别结果的第二语义解析结果,包括:利用所述语义解析模型,获取所述第二个语义完整的中间识别结果的第二语义解析结果。9.根据权利要求8所述的方法,其中,所述语义解析模型的训练包括:分别将至少一个训练样本中各训练样本输入待训练的语义解析模型,经所述待训练的语义解析模型输出所述各训练样本的语义解析预测结果,所述语义解析预测结果包括:领域,意图和槽位信息;所述训练样本标注有语义解析标注信息,所述语义解析标注信息包括:领域,意图和槽位信息;基于所述各训练样本的语义解析预测结果与对应的语义解析标注信息之间的差异,对所述待训练的语义解析模型进行训练,直至满足预设训练完成条件。10.一种语音交互的装置,包括:语音识别单元,用于对用户发送的请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;语义解析单元,用于响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,获取所述第一个语义完整的中间识别结果的第一语义解析结...

【专利技术属性】
技术研发人员:吴震王潇苏显泽瞿琴吴玉芳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1