System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及智能问答,尤其涉及一种数字人智能交互方法及系统、电子设备、存储介质。
技术介绍
1、数字人是通过人工智能技术实现的虚拟角色或代理实体,具备一定程度的智能和自主行为能力,目前,数字人智能交互已经涵盖了多种形式和渠道,包括文本、语音和视频等。未来,随着人工智能技术的不断进步和创新,数字人智能交互将会变得更加丰富和多样化。预计在不久的将来,数字人将能够更好地理解和回应人类的情感、意图和需求,实现更加自然、智能和无缝的交互体验。
2、目前在智能客服机器人的解决方案中主要有文字交互和语音交互,数字人视频交互在实时交互中存在很大的性能问题,这源于生成视频需要较高算力和传输带宽,已有的一些解决方案有:基于常用的固定话术预先生成视频,并在服务端缓存,然后在服务端应答时根据应答文本从缓存中取出视频并返回,来提高一定的响应性能,但是实时性仍然不高。
3、总之,基于常用的固定话术预先生成视频并在服务端缓存的方式,能够一定程度提高响应性能,但是由于客户端加载音频、视频的时候需要从云端(服务端)加载到用户本地终端,耗时较长,影响用户体验和后续交互的连续性。如果固定话术的视频长度较长,则加载耗时更长,体验更差。
技术实现思路
1、本申请实施例的目的是提供一种数字人智能交互方法及系统、电子设备、存储介质,以解决相关技术中存在的客户端服和服务端视频整体交互传输耗时高、客户端加载视频时间长交互不流畅的技术问题。
2、根据本申请实施例的第一方面,提供一种数字人智能交互方法
3、接收客户端发送的用户输入,对所述用户输入进行处理,得到意图识别结果;
4、根据所述意图识别结果,判断所需的参数是否全部包含,如果有缺失,生成相应的应答文本作为回复;如完整,则生成表示任务成功或失败的结果应答文本作为回复;
5、判断所述应答文本对应的视频是否已存在缓存中,如果命中,则直接从缓存中获取对应的应答视频;如果未命中,则利用所述应答文本生成应答视频,并存入缓存;
6、根据所述应答文本以及意图识别结果,从预先设置的缓存中查找该意图下所有相关的文本以及对应视频,对优先级前n个的文本及对应视频组装为预测文本和预测视频;将所述应答文本和应答视频、预测文本和预测视频一起打包组装返回给客户端,以使得客户端取出应答文本和应答视频,并根据所述应答视频判断是否在客户端本地缓存,如果缓存命中,则直接使用并播放应答视频,如果未命中,则同步加载播放,同时展示应答文本;对于所述预测文本和预测视频,利用异步线程的方式逐一判断所述预测视频是否命中本地缓存,如果未命中,则进行后台异步加载,并更新缓存。
7、可选的,接收客户端发送的用户输入,对所述用户输入进行处理,得到意图识别结果,包括:
8、接收客户端发送的用户输入,所述用户输入包括文本信息或者语音信息,如果所述用户输入为语音信息,需将所述语音信息转为文本信息;
9、对所述文本信息进行分词和用户意图的识别,得到意图识别结果,所述意图识别结果包括参数配置和结果配置,所述参数配置是指处理具体业务所需的入参参数以及对应参数缺失时反馈给用户的提示文本信息,所述结果配置是指处理业务成功或者失败后反馈给用户的结果提示文本信息。
10、可选的,将所述语音信息转为文本信息,包括:
11、利用asr技术将所述语音信息转为文本信息。
12、可选的,对所述文本信息进行分词和用户意图的识别,得到意图识别结果,包括:
13、对所述文本信息进行分词和词类判定,然后判断该用户是否存在未完成的意图,如果存在,则上一次的意图判定此次意图,否则根据各个意图配置中词类的权重进行计算,意图权重值最大的,即判定为最终意图。
14、可选的,根据所述意图识别结果,判断所需的参数是否全部包含,如果有缺失,生成相应的应答文本作为回复;如完整,则生成表示任务成功或失败的结果应答文本作为回复,包括:
15、根据所述意图识别结果,对分词和意图入参参数进行匹配处理,判断意图的所需的入参参数是全部包含,如果缺失意图所需的参数,则将缺失参数对应的提示文本生成为应答文本作为回复,如果入参参数都已经包含,则将处理业务成功的结果提示文本信息或者处理业务失败的结果提示文本生成为应答文本作为回复。
16、可选的,利用所述应答文本生成应答视频,包括:
17、对所述应答文本利用语音合成技术,生成音频;
18、对生成的音频结合用户输入的人像图片或者系统默认的人像图片合成应答视频。
19、可选的,还包括:
20、重复执行以上步骤,直到客户端输出用户获取业务处理结果,即一次意图交互结束。
21、根据本申请实施例的第二方面,提供一种数字人智能交互系统,应用于服务端,所述服务端与客户端相连,所述交互系统包括:
22、接收处理模块,用于接收客户端发送的用户输入,对所述用户输入进行处理,得到意图识别结果;
23、第一判断模块,用于根据所述意图识别结果,判断所需的参数是否全部包含,如果有缺失,生成相应的应答文本作为回复;如完整,则生成表示任务成功或失败的结果应答文本作为回复;
24、第二判断模块,用于判断所述应答文本对应的视频是否已存在缓存中,如果命中,则直接从缓存中获取对应的应答视频;如果未命中,则利用所述应答文本生成应答视频,并存入缓存;
25、返回模块,用于根据所述应答文本以及意图识别结果,从预先设置的缓存中查找该意图下所有相关的文本以及对应视频,对优先级前n个的文本及对应视频组装为预测文本和预测视频;将所述应答文本和应答视频、预测文本和预测视频一起打包组装返回给客户端,以使得客户端取出应答文本和应答视频,并根据所述应答视频判断是否在客户端本地缓存,如果缓存命中,则直接使用并播放应答视频,如果未命中,则同步加载播放,同时展示应答文本;对于所述预测文本和预测视频,利用异步线程的方式逐一判断所述预测视频是否命中本地缓存,如果未命中,则进行后台异步加载,并更新缓存。
26、根据本申请实施例的第三方面,提供一种电子设备,包括:
27、一个或多个处理器;
28、存储器,用于存储一个或多个程序;
29、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
30、根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。本申请的实施例提供的技术方案可以包括以下有益效果:
31、由上述实施例可知,本申请服务端采用了缓存应答视频的方案解决了客户端服和服务端视频整体交互传输耗时高的问题,通过预先生成视频并缓存的方式可以快速获取应答取视频达到实时响应的效果;服务端采用了应答视频和预测本文档来自技高网...
【技术保护点】
1.一种数字人智能交互方法,其特征在于,应用于服务端,所述服务端与客户端相连,所述交互方法包括:
2.根据权利要求1所述的一种数字人智能交互方法,其特征在于,接收客户端发送的用户输入,对所述用户输入进行处理,得到意图识别结果,包括:
3.根据权利要求2所述的一种数字人智能交互方法,其特征在于,将所述语音信息转为文本信息,包括:
4.根据权利要求2所述的一种数字人智能交互方法,其特征在于,对所述文本信息进行分词和用户意图的识别,得到意图识别结果,包括:
5.根据权利要求1所述的一种数字人智能交互方法,其特征在于,根据所述意图识别结果,判断所需的参数是否全部包含,如果有缺失,生成相应的应答文本作为回复;如完整,则生成表示任务成功或失败的结果应答文本作为回复,包括:
6.根据权利要求1所述的一种数字人智能交互方法,其特征在于,利用所述应答文本生成应答视频,包括:
7.根据权利要求1所述的一种数字人智能交互方法,其特征在于,还包括:
8.一种数字人智能交互系统,其特征在于,应用于服务端,所述服务端与客户端
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种数字人智能交互方法,其特征在于,应用于服务端,所述服务端与客户端相连,所述交互方法包括:
2.根据权利要求1所述的一种数字人智能交互方法,其特征在于,接收客户端发送的用户输入,对所述用户输入进行处理,得到意图识别结果,包括:
3.根据权利要求2所述的一种数字人智能交互方法,其特征在于,将所述语音信息转为文本信息,包括:
4.根据权利要求2所述的一种数字人智能交互方法,其特征在于,对所述文本信息进行分词和用户意图的识别,得到意图识别结果,包括:
5.根据权利要求1所述的一种数字人智能交互方法,其特征在于,根据所述意图识别结果,判断所需的参数是否全...
【专利技术属性】
技术研发人员:陈旭东,周鹏举,吴良辰,吴松,
申请(专利权)人:浙江数链科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。