一种虚拟数字人的实时驱动交互方法及系统技术方案

技术编号：43359522 阅读：64 留言：0更新日期：2024-11-19 17:44

本申请涉及数字人驱动交互技术领域，其具体地公开了一种虚拟数字人的实时驱动交互方法及系统，其采用基于深度学习的人工智能技术对数字人的对话输入文本进行语义解析，充分理解所述对话输入文本中各个动词之间的上下文语义关联，将各个动词的上下文语义特征与目标对象的人脸特征进行特征交互筛选，以将动作语义信息融入人脸特征中，进而基于融合动作语义信息的人脸特征，采用图像生成模型将其转化为连贯的数字人动作图像，以实现虚拟数字人的实时驱动与交互，可以有效提升虚拟数字人的动作表现能力，从而提高了交互的自然性和流畅性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数字人驱动交互，且更为具体地，涉及一种虚拟数字人的实时驱动交互方法及系统。

技术介绍

1、随着人工智能技术的迅猛发展，虚拟数字人作为人机交互的新形式，正逐渐发展到娱乐、教育、客服等多个领域，展现出巨大的市场潜力和应用价值。虚拟数字人不仅可以模拟真实人物的外貌和行为，还能够通过自然语言处理技术实现与用户的高效沟通。然而，要达到高度逼真且流畅的交互体验，虚拟数字人在实时驱动和交互方面面临着诸多技术挑战。

2、早期的虚拟数字人多采用预设动画序列的方式响应用户输入，这种方式虽然简单易行，但由于缺乏灵活性和自然性，难以满足日益增长的用户体验需求。近年来，随着深度学习技术的突破，虚拟数字人的实时驱动交互技术取得了显著进展。

3、公开号为cn117893653a的中国专利技术专利提出了一种大模型驱动的2d实时交互式数字人驱动方法，其基于真人录制的底座视频提取一系列的人脸图像帧，根据对话输入文本、人脸图像帧和原始视频图像帧，通过口型生成模型生成对应的口型视频图像帧，并对其进行超分处理后驱动2d实时交互式数字人，从而实现...

【技术保护点】

1.一种虚拟数字人的实时驱动交互方法，其特征在于，包括：

2.根据权利要求1所述的虚拟数字人的实时驱动交互方法，其特征在于，对所述对话输入文本中的动词进行上下文语义编码以得到上下文动词语义嵌入编码向量的序列，包括：

3.根据权利要求2所述的虚拟数字人的实时驱动交互方法，其特征在于，提取所述人脸图像帧的人脸特征以得到目标对象人脸特征图，包括：

4.根据权利要求3所述的虚拟数字人的实时驱动交互方法，其特征在于，基于所述第一上下文动词语义映射模式表示向量和所述第二上下文动词语义映射模式表示向量的特征梯度分布，对所述目标对象人脸特征图进行复合特征交互筛选以得到...

【技术特征摘要】

1.一种虚拟数字人的实时驱动交互方法，其特征在于，包括：

3.根据权利要求2所述的虚拟数字人的实时驱动交互方法，其特征在于，提取所述人脸图像帧的人脸特征以得到目标对象人脸特征图，包括：

4.根据权利要求3所述的虚拟数字人的实时驱动交互方法，其特征在于，基于所述第一上下文动词语义映射模式表示向量和所述第二上下文动词语义映射模式表示向量的特征梯度分布，对所述目标对象人脸特征图进行复合特征交互筛选以得到所述动作语义引导目标对象人脸特征图，包括：

5.根据权利要求4所述的虚拟数字人的实时驱动交互方法，其特征在于，基于所述第一上下文动词语义映射模式表示向量中各个位置的梯度幅值，对所述第一上下文动词语义映射模式表示向量进行基于梯度幅值的掩码处理以得到掩码化第一上下文动词语...

【专利技术属性】
技术研发人员：罗泽，郑群威，李帅，罗玉海，章榆，
申请(专利权)人：温州专帮信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人