当前位置: 首页 > 专利查询>上海大学专利>正文

一种实时数字人生成方法及系统技术方案

技术编号:46224868 阅读:14 留言:0更新日期:2025-08-26 19:26
本发明专利技术涉及一种实时数字人生成方法及系统,所述方法包括以下步骤:获取目标人物的单目视频,并提取单目视频中的3DMM信息;根据3DMM信息将单目视频进行高斯点初始化,得到规范空间下的高斯参数;提取单目视频中的语音音频特征,将语音音频特征输入音频‑运动模型中,得到通用人脸关键点运动序列;通过投影算法将通用人脸关键点运动序列转换为目标人脸关键点运动序列;将目标人脸关键点运动序列和规范空间下的高斯参数输入人脸关键点引导的高斯变形网络中,得到高斯变形参数;将高斯变形参数通过高斯光栅化器渲染为对应的视频帧,进而得到目标人物的数字人视频。与现有技术相比,本发明专利技术提高了数字人视频生成的精确度和创作灵活性。

【技术实现步骤摘要】

本专利技术涉及数字人生成,尤其是涉及一种实时数字人生成方法及系统


技术介绍

1、近年来,随着短视频、直播、虚拟现实等新兴交互技术的迅速发展,人们对更加自然、生动、低成本的交互体验需求日益提升。传统的视频内容制作往往依赖真人出镜,不仅成本高昂,而且灵活性不足。为此,语音驱动数字人技术的出现,可以在一定程度上替代真人出镜,并有效创建多种风格和个性化的数字化虚拟形象。目前该技术已广泛应用于直播、在线教育、智能客服、影视制作及虚拟社交等多个领域,展现出广泛的应用价值。

2、与此同时,用户对语音驱动数字人技术提出了更加严格且多样化的要求。首先是对视频生成效果的高保真需求,人们期望合成的视频人物具备高度真实自然的细节表现,包括皮肤细节、面部自然度以及口腔内部等细节特征。其次,实时性需求也逐渐重要起来,特别是在直播、视频会议等实时互动场景中,用户需要确保生成的视频能够达到每秒30帧以上的流畅速度。此外,随着创作需求的不断丰富,单一的语音驱动已无法完全满足用户需求,用户更倾向于多模态的控制方式,如支持文本输入、面部表情系数输入等多种模态驱动,以增强数字人生成本文档来自技高网...

【技术保护点】

1.一种实时数字人生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的实时数字人生成方法,其特征在于,所述3DMM信息包括3DMM系数、人脸关键点和头部姿态序列。

3.根据权利要求2所述的实时数字人生成方法,其特征在于,将所述单目视频进行高斯点初始化,得到规范空间下的高斯参数的具体步骤为:

4.根据权利要求1所述的实时数字人生成方法,其特征在于,通过投影算法将所述通用人脸关键点运动序列转换为目标人脸关键点运动序列的转换公式为:

5.根据权利要求1所述的实时数字人生成方法,其特征在于,所述人脸关键点引导的高斯变形网络利用每一个高斯点...

【技术特征摘要】

1.一种实时数字人生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的实时数字人生成方法,其特征在于,所述3dmm信息包括3dmm系数、人脸关键点和头部姿态序列。

3.根据权利要求2所述的实时数字人生成方法,其特征在于,将所述单目视频进行高斯点初始化,得到规范空间下的高斯参数的具体步骤为:

4.根据权利要求1所述的实时数字人生成方法,其特征在于,通过投影算法将所述通用人脸关键点运动序列转换为目标人脸关键点运动序列的转换公式为:

5.根据权利要求1所述的实时数字人生成方法,其特征在于,所述人脸关键点引导的高斯变形网络利用每一个高斯点最近的k个人脸关键点位移来控制高斯点的偏移,所述高斯点的偏移为:

6.根据权利要求1所述的实时数字人生成方法,其特征在于,所述人脸关键点引导...

【专利技术属性】
技术研发人员:蒋智文朱幼佳谢志峰
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1