当前位置: 首页 > 专利查询>浙江大学专利>正文

一种情感增强的数字人驱动与呈现系统及方法技术方案

技术编号:44431164 阅读:16 留言:0更新日期:2025-02-28 18:43
本发明专利技术公开了一种情感增强的数字人驱动与呈现系统及方法,属于计算机技术领域,该系统包括音频解耦模块、潜在扩散模型模块、人体运动先验模块、训练模块及渲染图像生成模块,通过语音驱动面部表情和手势动作序列生成,对面部表情和手势动作序列进行预测和重构获得最终的动作序列;基于最终的动作序列生成神经渲染图像。本发明专利技术通过语音输入,捕捉到语音中的情感和风格特征,引入交叉注意力特征融合机制来增强情感和个人风格特征的表达,将语音驱动手势生成任务扩展至面部表情和手势动作同步生成任务,实现了生成数字人动作的完整性,极大地提升了数字人面部表情和手势动作的情感表现力。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种情感增强的数字人驱动与呈现系统及方法


技术介绍

1、在人工智能和计算机图形学的交叉邻域中,数字人技术是近年来研究的热点。数字人技术是指通过计算机图形学、人工智能、计算机视觉、语音识别和自然语言处理等技术,将人类的行为、表情和声音等特征模拟出来,形成具有人类外观和行为特征的虚拟角色。随着虚拟现实(vr)、增强显示(ar)、三维动画、游戏开发、电影制作和智能客服等技术的快速发展,对数字人的真实感和交互能力提出了更高的要求。

2、语音驱动数字人面部表情和手势动作生成在数字人领域扮演着核心角色。它使数字人能够根据语音输入生成逼真的面部表情和精确的手势动作,极大增强了数字人的交互性和真实感,提升了用户体验。这项技术的发展不仅能够降低vr、虚拟直播和游戏等领域的驱动成本,在跨领域融合拓展上,该技术为教育、医疗及智能服务等行业数字化转型赋能。

3、例如,公开号为cn116977499a的专利技术申请中公开了一种面部、身体运动参数的联合生成方法及相关设备,通过获取音频数据,并获取预设的风格数据;根据音频数据和风格本文档来自技高网...

【技术保护点】

1.一种情感增强的数字人驱动与呈现系统,其特征在于,所述系统包括音频解耦模块、潜在扩散模型模块、人体运动先验模块、训练模块、及渲染图像生成模块;

2.根据权利要求1所述的情感增强的数字人驱动与呈现系统,其特征在于,所述的三个独立的编码器包括内容编码器、情感编码器及个人风格编码器;

3.根据权利要求1所述的情感增强的数字人驱动与呈现系统,其特征在于,所述的基于融合机制通过迭代去噪将内容潜在向量、情感潜在向量、个人风格潜在向量、扩散时间步编码及运动噪声转化为预测的运动潜在向量,包括:通过在Transformer块中引入交叉注意力层,将内容潜在向量、情感潜在向量、个人风...

【技术特征摘要】

1.一种情感增强的数字人驱动与呈现系统,其特征在于,所述系统包括音频解耦模块、潜在扩散模型模块、人体运动先验模块、训练模块、及渲染图像生成模块;

2.根据权利要求1所述的情感增强的数字人驱动与呈现系统,其特征在于,所述的三个独立的编码器包括内容编码器、情感编码器及个人风格编码器;

3.根据权利要求1所述的情感增强的数字人驱动与呈现系统,其特征在于,所述的基于融合机制通过迭代去噪将内容潜在向量、情感潜在向量、个人风格潜在向量、扩散时间步编码及运动噪声转化为预测的运动潜在向量,包括:通过在transformer块中引入交叉注意力层,将内容潜在向量、情感潜在向量、个人风格潜在向量、扩散时间步编码及运动噪声按照向量第一维度进行拼接操作获得新的噪声潜在向量,将情感潜在向量和个人风格潜在向量按照向量第一维度进行拼接操作获得条件潜在向量,将新的噪声潜在向量和条件潜在向量作为交叉注意力层的输入,经线性层获得最终输出,迭代去噪获得预测的运动潜在向量用于后续传播。

4.根据权利要求3所述的情感增强的数字人驱动与呈现系统,其特征在于,所述的transformer块包括两个独立的transformer块,分别为面部表情transformer块和手势动作transformer块,用于接收面部表情噪声和手势动作噪声进行去噪。

5.根据权利要求3所述的情感增强的...

【专利技术属性】
技术研发人员:耿卫东杨蕾郑烽达厉向东
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1