基于多模态的人机交互方法及数字人系统技术方案

技术编号:38908937 阅读:21 留言:0更新日期:2023-09-25 09:27
本说明书实施例提供了基于多模态的人机交互方法及数字人系统。该方法应用于数字人系统,包括:在目标用户与数字人系统模拟的数字人进行交互的过程中,获取目标用户在说话时的多模态交互信息;将多模态交互信息输入预先训练的多任务预测模型,得到多任务预测模型输出的目标用户当前的第一用户意图,以及对目标用户当前语句是否结束的第一预测结果;在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容,数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系;响应于查找到目标承接内容,向目标用户输出目标承接内容。用户输出目标承接内容。用户输出目标承接内容。

【技术实现步骤摘要】
基于多模态的人机交互方法及数字人系统


[0001]本说明书实施例涉及计算机
,具体地,涉及基于多模态的人机交互方法及数字人系统。

技术介绍

[0002]随着互联网软硬件技术发展逐步成熟,“元宇宙”概念成为热点的同时,虚拟数字人产业也进入爆发期。虚拟数字人出现在越来越多的领域,在越来越多的场景实现人机交互,成为一种人机交互的新模式。现阶段虚拟数字人的交互能力一般沿用早期人机对话产品中的交互方案,在和用户的交互过程中,通常不能适时承接,无法达到和真人交流的体感。
[0003]因此,迫切需要一种合理、可靠的方案,可以使得数字人在和用户的交互过程中,适时的承接以表示正在倾听和理解,达到和真人交流的体感。

技术实现思路

[0004]本说明书实施例提供了基于多模态的人机交互方法及数字人系统,可以使得数字人在和用户的交互过程中,适时的承接以表示正在倾听和理解,达到和真人交流的体感。
[0005]第一方面,本说明书实施例提供了一种基于多模态的人机交互方法,应用于数字人系统,包括:在目标用户与所述数字人系统模拟的数字人进行交本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的人机交互方法,应用于数字人系统,包括:在目标用户与所述数字人系统模拟的数字人进行交互的过程中,获取所述目标用户在说话时的多模态交互信息;将所述多模态交互信息输入预先训练的多任务预测模型,得到所述多任务预测模型输出的所述目标用户当前的第一用户意图,以及对所述目标用户当前语句是否结束的第一预测结果;在预设的数字人承接内容库中查找与所述第一用户意图和所述第一预测结果的组合相对应的目标承接内容,所述数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系;响应于查找到所述目标承接内容,向所述目标用户输出所述目标承接内容。2.根据权利要求1所述的方法,其中,所述多模态交互信息包括以下中的至少两种:近N次采样的所述目标用户的语音流、通过对所述语音流进行文本转换而得到的第一文本信息、从近N次采样的所述目标用户的视频流中提取的若干帧用户动作图像。3.根据权利要求1所述的方法,其中,所述目标承接内容包括以下中的至少一种:文本承接内容、语音承接内容、动作动画承接内容。4.根据权利要求2所述的方法,其中,所述多模态交互信息包括所述语音流,当所述第一预测结果为所述目标用户当前语句结束时,还包括:获取所述语音流所在的完整语音对应的第二文本信息;基于所述第二文本信息,预测数字人应答文本和若干帧数字人动作图像;将所述数字人应答文本转换成语音信息,以及基于所述若干帧数字人动作图像生成动作动画;在向所述目标用户输出所述目标承接内容之后,还包括:向所述目标用户输出所述语音信息和所述动作动画。5.根据权利要求4所述的方法,还包括:在向所述目标用户输出所述语音信息和所述动作动画的过程中,响应于检测到所述目标用户的用于打断对话的行为,停止对所述语音信息和所述动作动画的输出。6.根据权利要求5所述的方法,其中,所述用于打断对话的行为包括以下中的任一种:所述目标用户开始说话、用于表示所述目标用户要开始说话的动作。7.根据权利要求2所述的方法,其中,所述多任务预测模型包括用于不同模态交互信息编码的若干编码器,针对用户意图的第一预测模块,以及针对用户当前语句是否结束的第二预测模块。8.根据权利要求7所述的方法,其中,所述多模态交互信息包括所述语音流、所述第一文本信息和所述若干帧用户动作图像,所述若干编码器包括第一编码器、第二编码器和第三编码器;以及所述将所述多模态交互信息输入预先训练的多任务预测模型,得到所述多任务预测模型输出的所述目标用户当前的第一用户意图,以及对所述目标用户当前语句是否结束的第一预测结果,包括:将所述语音流输入所述第一编码器,得到所述第一编码器输出的第一编码结果;将所述第一文本信息输入所述第二编码器,得到所述第二编码器输出的第二编码结
果;将所述若干帧用户动作...

【专利技术属性】
技术研发人员:王晶
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1