语音交互的方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:32658718 阅读:54 留言:0更新日期:2022-03-17 11:07
本公开提供了语音交互的方法、装置、电子设备及可读存储介质,涉及计算机技术领域,具体涉及语音技术、自然语言处理等人工智能技术领域。一种具体实现方案为:响应于接收到用户发送的请求语句,从本地存储模块中获取历史信息,并将所述请求语句与所述历史信息发送给服务器;接收所述服务器返回的答复语句和所述请求语句对应的当前上文信息;播放所述答复语句,并将所述当前上文信息作为历史信息存储在所述存储模块中。所述存储模块中。所述存储模块中。

【技术实现步骤摘要】
语音交互的方法、装置、系统、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及语音技术、自然语言处理等人工智能
,尤其涉及语音交互的方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的进步,人机语音交互(简称:语音交互)也得到了迅速发展和广泛应用,例如,可广泛应用于智能电视、智能音箱、虚拟现实(virtual reality,VR)眼镜等智能设备,以及各种语音助手应用(APP)中。
[0003]现有的人机交互过程,主要包括语音识别、语义解析、对话服务、语音合成四个部分。其中,语义解析和对话服务均需要依赖于上文信息(session信息)。同样的用户请求,如果上文信息不同,语音交互系统会给出不同的回复。例如针对当前轮的用户请求“明天八点”,若上一轮用户请求是“给我定一个闹钟”,上一轮语音交互的装置反问“好的,您想定几点的闹钟”,则针对本轮用户请求“明天八点”,装置会回复“好的,已为您定好明天八点的闹钟”;若上一轮用户请求是“提醒我开会”,上一轮装置反问“好的,您希望我在几点提醒您”,则针对本轮用户请求“明天八点”,装置会回复“好的,我会在明天八点提醒您开会”。
[0004]现有技术中,将上文信息存储在专用的云端上文信息存储器中,至少存在以下问题:需要云端维护额外的上文信息存储器资源,有一定的经济成本;语音交互系统中的中控模块与上文信息存储器的连接需要依赖于网络连接,导致最终用户感知的人机交互响应时间增加;另外,若云端中控获取上文信息失败,会导致对用户的回复错误,不符合用户预期;用户的上文信息通常包括大量的用户行为,存储在云端,存在一定的隐私风险。

技术实现思路

[0005]本公开提供了一种语音交互的方法、装置、系统、电子设备及存储介质。
[0006]根据本公开的一方面,提供了一种语音交互的方法,应用于客户端,所述方法包括:
[0007]响应于接收到用户发送的请求语句,从本地存储模块中获取历史信息,并将所述请求语句与所述历史信息发送给服务器;
[0008]接收所述服务器返回的答复语句和所述请求语句对应的当前上文信息;
[0009]播放所述答复语句,并将所述当前上文信息作为历史信息存储在所述存储模块中。
[0010]根据本公开的另一方面,提供了另一种语音交互的方法,应用于服务器,所述方法包括:
[0011]接收客户端发送的请求语句与历史信息;
[0012]对所述请求语句进行语音识别,得到语音识别结果;
[0013]基于所述语音识别结果和所述历史信息确定答复语句,以及基于所述语音识别结果和所述答复语句生成所述请求语句对应的当前上文信息;
[0014]将所述答复语句和所述当前上文信息发送给所述客户端,以便所述客户端播放所述答复语句、并将所述当前上文信息作为历史信息存储在所述客户端本地的存储模块中。
[0015]根据本公开的又一方面,提供了一种客户端,包括:
[0016]存储模块,用于存储历史信息;
[0017]第一接收单元,用于响应于接收到用户发送的请求语句,从所述存储模块中获取历史信息;
[0018]收发单元,用于将所述请求语句与所述历史信息发送给服务器;以及接收所述服务器返回的答复语句和所述请求语句对应的当前上文信息;
[0019]播放单元,用于播放所述答复语句;
[0020]存储处理单元,用于将所述当前上文信息作为历史信息存储在所述存储模块中。
[0021]根据本公开的又一方面,提供了一种语音交互的装置,应用于服务器,所述装置包括:
[0022]第二接收单元,用于接收客户端发送的请求语句与历史信息;
[0023]语音识别单元,用于对所述请求语句进行语音识别,得到语音识别结果;
[0024]确定单元,用于基于所述语音识别结果和所述历史信息确定答复语句;
[0025]生成单元,用于基于所述语音识别结果和所述答复语句生成所述请求语句对应的当前上文信息;
[0026]发送单元,用于将所述答复语句和所述当前上文信息发送给所述客户端,以便所述客户端播放所述答复语句、并将所述当前上文信息作为历史信息存储在所述客户端本地的存储模块中。
[0027]根据本公开的又一方面,提供了一种语音交互的系统,包括如上所述的任一可能的客户端和如上所述的任一可能的语音交互的装置。
[0028]根据本公开的又一方面,提供了一种电子设备,包括:
[0029]至少一个处理器;以及
[0030]与所述至少一个处理器通信连接的存储器;其中,
[0031]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
[0032]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
[0033]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
[0034]根据本公开的又一方面,提供了一种人工智能设备,包括如上所述的电子设备。
[0035]由上述技术方案可知,本公开实施例在客户端接收到用户发起的交互请求时,将接收到的请求语句与本次存储的历史信息发送给服务器,由服务器对所述请求语句进行语音识别,得到语音识别结果,然后,基于所述语音识别结果和所述历史信息确定答复语句,以及基于所述语音识别结果和所述答复语句生成所述请求语句对应的当前上文信息,进而,将所述答复语句和所述当前上文信息发送给所述客户端,以便客户端播放所述答复语
句、并将所述当前上文信息作为历史信息更新存储在客户端本地的存储模块中。
[0036]这样,通过客户端本地存储历史信息,云端服务器不再需要维护专用的上文信息存储器,可以降低云端的存储及维护成本;不再需要语音交互系统中的中控模块与上文信息存储器通过建立网络连接发送接收数据、进行上文信息存储器的读/写,可以节省时间,减少用户感知的人机交互响应时间,提高用户体验。
[0037]另外,将用户的上行请求语句与历史信息绑定发送给服务器,将答复语句与当前上文信息绑定返回客户端,可以保证语音识别结果和语音交互系统回复的一致性,即只要用户的请求语句识别成功、答复语句播报成功,上文信息的内容便存取成功,提高了语音回复结果的正确性。
[0038]另外,通过客户端本地存储用户的历史信息,可以更好的保护用户隐私。
[0039]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0040]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互的方法,所述方法包括:响应于接收到用户发送的请求语句,从本地存储模块中获取历史信息,并将所述请求语句与所述历史信息发送给服务器;接收所述服务器返回的答复语句和所述请求语句对应的当前上文信息;播放所述答复语句,并将所述当前上文信息作为历史信息存储在所述存储模块中。2.根据权利要求1所述的方法,其中,所述从本地存储模块中获取历史信息,包括:基于预设规则,从所述存储模块中获取最近预设轮次的历史信息。3.根据权利要求1或2所述的方法,其中,所述将所述当前上文信息作为历史信息存储在所述存储模块中,包括:基于接收时间顺序,将所述当前上文信息作为历史信息存储在所述存储模块中。4.根据权利要求1

3中任一项所述的方法,其中,所述当前上文信息包括:所述请求语句对应的语义解析结果中的领域、所述答复语句的播报话术和所述答复语句中的槽位信息。5.一种语音交互的方法,所述方法包括:接收客户端发送的请求语句与历史信息;对所述请求语句进行语音识别,得到语音识别结果;基于所述语音识别结果和所述历史信息确定答复语句,以及基于所述语音识别结果和所述答复语句生成所述请求语句对应的当前上文信息;将所述答复语句和所述当前上文信息发送给所述客户端,以便所述客户端播放所述答复语句、并将所述当前上文信息作为历史信息存储在所述客户端本地的存储模块中。6.根据权利要求5所述的方法,其中,所述历史信息包括:所述客户端基于预设规则,从所述存储模块中获取最近预设轮次的历史信息。7.根据权利要求5或6所述的方法,其中,所述对所述请求语句进行语音识别,得到语音识别结果,包括:对所述请求语句进行语音识别,在接收到所述请求语句后的第一预设时间内,得到至少一个中间识别结果;其中,所述第一预设时间的结束时刻,早于所述请求语句的语音活动检测的尾点时刻;响应于得到所述至少一个中间识别结果中的第一个中间识别结果,按照得到所述至少一个中间识别结果的时间顺序,依次识别所述至少一个中间识别结果的语义是否完整;响应于从所述至少一个中间识别结果中识别出第一个语义完整的中间识别结果,以所述第一个语义完整的中间识别结果作为所述语音识别结果。8.根据权利要求7所述的方法,其中,所述依次识别所述至少一个中间识别结果的语义是否完整,包括:依次针对所述至少一个中间识别结果中的各中间识别结果,利用语义完整性模型,获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率;所述语义完整性模型基于用户日志中的最终识别结果进行统计计算得到;基于所述第一概率和所述第二概率确定所述各中间识别结果语义完整的第三概率;根据所述第三概率是否大于预设阈值,确定所述各中间识别结果的语义是否完整。
9.根据权利要求7所述的方法,其中,所述依次识别所述至少一个中间识别结果的语义是否完整,包括:依次针对所述至少一个中间识别结果中的各中间识别结果,获取所述各中间识别结果的词向量;获取所述各中间识别结果作为历史最终识别结果中前缀的第一概率,以及所述各中间识别结果作为所述历史最终识别结果的第二概率;获取所述各中间识别结果的热度;将所述词向量、所述第一概率、所述第二概率和所述热度输入神经网络模型,经所述神经网络模型输出所述各中间识别结果语义完整的第四概率;根据所述第四概率是否大于预设阈值,确定所述当前文本的语义是否完整。10.根据权利要求7

9中任一项所述的方法,其中,所述对所述请求语句进行语音识别,得到语音识别结果,还包括:在接收到所述请求语句后的第二预设时间内,得到所述请求语句的最终识别结果,其中,所述第二预设时间的结束时刻,晚于所述请求语句的语音活动检测的尾点时刻;响应于从所述至少一个中间识别结果中未识别出语义完整的中间识别结果,以所述最终识别结果作为所述语音识别结果。11.根据权利要求5

10中任一项所述的方法,其中,所述基于所述语音识别结果和所述历史信息确定答复语句,包括:基于所述语音识别结果和所述历史信息,对所述语音识别结果进行语义解析,得到语义解析结果;基于所述语义解析结果和所述历史信息,获取播报话术和资源结果;对所述播报话术和所述资源结果进行语音合成,得到所述答复语句。12.根据权利要求11所述的方法,其中,所述基于所述语音识别结果和所述答复语句生成所述请求语句对应的当前上文信息,包括:基于所述语义解析结果、所述播报话术和所述资源结果生成所述当前上文信息;所述当前上文信息包括:所述语义解析结果中的领域、所述播报话术和所述资源结果中的槽位信息。13.一种客户端,包括:存储模块,用于存储历史信息;第一接收单元,用于响应于接收到用户发送的请求语句,从所述存储模块中获取历史信息;收发单元,用于将所述请求语句与所述历史信息发送给服务器;以及接收所述服务器返回的答复语句和所述请求语句对应的当前上文信息;播放单元,用于播放所述答复语句;存储处理单元,用于将所述当前上文信息作为历史信息存储在所述存储模块中。14.根据权利要求13所述的装置,其中,所述第一接收单元...

【专利技术属性】
技术研发人员:吴震革家象王潇杨松王丹
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1