一种3D数字人生成方法及系统技术方案

技术编号：40110898 阅读：6 留言：0更新日期：2024-01-23 19:09

本发明专利技术涉及一种3D数字人生成方法及系统，属于涉及3D数字人技术领域，该方法包括：采集目标对象的图像，基于目标对象的图像获取二维人脸图像；得到完整的3D数字人模型，以及导出编辑好的骨骼权重；获取待使用人脸表情系数集合；获取各个人脸图像帧分别对应的自然状态下的各个关键点的三维坐标以及人脸旋转参数；获取3D数字人模型中各个关节点的位置，对3D数字人模型进行融合驱动。本申请提供的方法及系统可拟合出更贴近真人脸型的3D数字人模型，可以防止只获取图像帧对应的人脸表情系数集合或只获取语音信号帧对应的人脸表情系数集合时出现准确率较低的问题，且使得3D数字人模型的情感表达更生动。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及3d数字人，尤其涉及一种3d数字人生成方法及系统。

技术介绍

1、目前，现有技术中的数字人形象生成技术，有的是在预设3d模型基础上，让用户自主调参或照片匹配生成数字人，然而，该种技术存在的问题是：个性化程度低；有的是提取照片3d信息，训练人脸3d网格和蒙皮，然而，该种技术存在的问题是：拟真度低；还有的是需要扫描录制高质量视频，对真人进行高精度建模，然而，该种技术存在的问题是：成本高且效率低。

技术实现思路

1、本专利技术意在提供一种3d数字人生成方法及系统，以解决现有技术中存在的不足，本专利技术要解决的技术问题通过以下技术方案来实现。

2、本专利技术提供的3d数字人生成方法，包括：

3、采集目标对象的图像，并对其进行预处理，将预处理结果输入至编码器中获取人脸区域图像对应的形状参数、表情参数、动作参数、albedo参数、光照参数和细节参数，基于获取的参数分别得到三维mesh网格点、人脸的纹理贴图、人脸的位移贴图以及最终光照强度，并对得到的三维mesh网格点、人脸的纹理贴图、人脸的位移贴图以及最终光照强度进行渲染处理获取二维人脸图像；

4、在二维人脸图像满足误差阈值条件时将其输入至训练完成的细节编码器中获取二维人脸图像对应的3d人脸模型，并提供一个头部模型，对3d人脸模型和头部模型进行融合，在3d人脸模型和头部模型的融合结果中创建多个表情关节点，添加各个表情关节点对应的骨骼以及创建骨骼蒙皮，得到完整的3d数字人模型，以及导出编辑好的骨骼权重；

5、采集目标对象的视频以及与该视频对应的目标对象的语音信息，对采集的目标对象的视频和语音分别进行每秒相同帧的分帧处理，并获取视频分帧处理结果和语音分别分帧处理结果分别对应的人脸表情系数集合，将视频分帧处理结果和语音分别分帧处理结果分别对应的人脸表情系数集合进行匹配，基于匹配结果获取待使用人脸表情系数集合；

6、对目标对象的视频进行分帧处理得到的各个图像帧进行关键点提取，并对提取的关键点配准为3d网格信息，获取各个人脸图像帧分别对应的自然状态下的各个关键点的三维坐标，并基于提取的关键点得到人脸旋转参数；

7、基于提取的关键点得到各个关键点对应的三维坐标变化量，基于各个待使用人脸表情系数集合获取3d数字人模型的表情关节点位置，将获取的表情关节点位置、人脸旋转参数以及与各个关键点对应3d数字人模型中的关节点对应的骨骼权重输入至融合驱动模型中，获取3d数字人模型中各个关节点的位置，对3d数字人模型进行融合驱动。

8、在上述的方案中，对目标对象的图像进行预处理包括以下步骤：对目标对象的图像进行超分辨率重建，采用人脸检测算法对超分辨率重建后的目标对象的图像进行人脸区域检测，并将人脸区域从超分辨率重建后的目标对象的图像中裁剪出来，得到人脸区域图像。

9、在上述的方案中，基于获取的参数分别得到三维mesh网格点、人脸的纹理贴图、人脸的位移贴图以及最终光照强度包括以下步骤：

10、在编码器中构成一个参数空间，在所述参数空间中将所述形状参数、表情参数和动作参数通过解码器拟合到flame模型中获取三维mesh网格点；

11、在所述参数空间中通过解码器对所述albedo参数进行处理生成人脸的纹理贴图；在所述参数空间中通过解码器对所述表情参数、动作参数和细节参数进行处理生成人脸的位移贴图；

12、采用光照模型公式对所述光照参数进行处理获取最终光照强度，其中，光照模型公式为：i=ia×ka+id×kd×(n·l)，i为最终光照强度，ia为光照参数中的环境光照强度，ka为光照参数中的环境光照系数，id为光照参数中的光源强度，kd为光照参数中的漫反射系数，n为光照参数中的人脸的表面法线向量，l为光照参数中的光源方向向量。

13、在上述的方案中，获取视频分帧处理结果对应的人脸表情系数集合包括以下步骤：

14、对目标对象的视频进行分帧处理得到的各个图像帧进行关键点提取，并采用卡尔曼滤波器对提取的关键点进行平滑处理，将经过平滑处理的关键点以及提供的多个表情基输入至训练好的深度神经网络估计各个人脸图像帧分别对应的人脸表情系数集合。

15、在上述的方案中，获取语音分帧处理结果对应的人脸表情系数集合包括以下步骤：

16、采用融入了senet注意力模块的语音特征提取网络对经过语音分帧处理得到的各个语音信号帧进行频域特征提取和时域特征提取，将提取的频域特征和时域特征输入至训练完成的音视觉映射网络中获取各个语音信号帧分别对应的人脸表情系数集合。

17、在上述的方案中，将视频分帧处理结果和语音分别分帧处理结果分别对应的人脸表情系数集合进行匹配，基于匹配结果获取待使用人脸表情系数集合包括以下步骤：

18、将视频分帧处理结果对应的人脸表情系数集合和与视频分帧处理结果对应的语音分别分帧处理结果对应的人脸表情系数集合进行匹配，获取匹配率，并将匹配率与匹配率阈值进行比较，在所有视频分帧处理结果和与视频分帧处理结果对应的语音分别分帧处理结果之间的匹配率均大于等于匹配率阈值时，将视频分帧处理结果分别对应的人脸表情系数集合作为待使用人脸表情系数集合；

19、在存在视频分帧处理结果和与视频分帧处理结果对应的语音分别分帧处理结果之间的匹配率小于匹配率阈值时，重复对目标对象的视频以及与该视频对应的目标对象的语音信息进行分帧处理，直至所有视频分帧处理结果和与视频分帧处理结果对应的语音分别分帧处理结果之间的匹配率均大于等于匹配率阈值。

20、在上述的方案中，基于提取的关键点得到人脸旋转参数包括：

21、将提取的关键点映射至三维空间模型，得到人脸的俯仰角、偏转角和翻滚角，并根据俯仰角、偏转角和翻滚角得到人脸旋转参数。

22、在上述的方案中，获取3d数字人模型的表情关节点位置采用以下公式：

23、，其中，xk为3d数字人模型的第k个表情关节点的三维坐标，x0k为人脸图像帧对应的自然状态下的第k个关键点的三维坐标，βj为图像帧对应的人脸表情系数集合中的第j个人脸表情系数,n为图像帧对应的人脸表情系数集合中人脸表情系数的总个数，为图像帧中第j个人脸表情系数对应的表情中第k个关键点的三维坐标与自然状态下的第k个关键点的三维坐标之间的三维坐标变化量。

24、在上述的方案中，获取3d数字人模型中各个关节点的位置采用以下公式：

25、zk=xk×r×w，其中，zk为3d数字人模型中第k个关节点的三维坐标，xk为3d数字人模型的第k个表情关节点的三维坐标，r为xk对应的人脸图像帧对应的人脸旋转参数，w为3d数字人模型中第k个关节点对应的骨骼权重。

26、本专利技术提供的3d数字人生成系统，采用如上所述的3d数字人生成方法进行3d数字人，包括：

27、二维人脸图像重建模块，用于采集目标对象的图像，并对其进行预处理，将预处理结果输入至编码器中获取人脸区域图像对应的形状参数本文档来自技高网...

【技术保护点】

1.一种3D数字人生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的3D数字人生成方法，其特征在于，对目标对象的图像进行预处理包括以下步骤：对目标对象的图像进行超分辨率重建，采用人脸检测算法对超分辨率重建后的目标对象的图像进行人脸区域检测，并将人脸区域从超分辨率重建后的目标对象的图像中裁剪出来，得到人脸区域图像。

3.根据权利要求1所述的3D数字人生成方法，其特征在于，基于获取的参数分别得到三维mesh网格点、人脸的纹理贴图、人脸的位移贴图以及最终光照强度包括以下步骤：

4.根据权利要求1所述的3D数字人生成方法，其特征在于，获取视频分帧处理结果对应的人脸表情系数集合包括以下步骤：

5.根据权利要求1所述的3D数字人生成方法，其特征在于，获取语音分帧处理结果对应的人脸表情系数集合包括以下步骤：

6.根据权利要求1所述的3D数字人生成方法，其特征在于，将视频分帧处理结果和语音分别分帧处理结果分别对应的人脸表情系数集合进行匹配，基于匹配结果获取待使用人脸表情系数集合包括以下步骤：

7.根据权利要求1所

8.根据权利要求1所述的3D数字人生成方法，其特征在于，获取3D数字人模型的表情关节点位置采用以下公式：

9.根据权利要求1所述的3D数字人生成方法，其特征在于，获取3D数字人模型中各个关节点的位置采用以下公式：

10.一种3D数字人生成系统，采用如权利要求1-9任一项所述的3D数字人生成方法进行3D数字人，其特征在于，所述系统包括：

...

【技术特征摘要】

1.一种3d数字人生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的3d数字人生成方法，其特征在于，对目标对象的图像进行预处理包括以下步骤：对目标对象的图像进行超分辨率重建，采用人脸检测算法对超分辨率重建后的目标对象的图像进行人脸区域检测，并将人脸区域从超分辨率重建后的目标对象的图像中裁剪出来，得到人脸区域图像。

3.根据权利要求1所述的3d数字人生成方法，其特征在于，基于获取的参数分别得到三维mesh网格点、人脸的纹理贴图、人脸的位移贴图以及最终光照强度包括以下步骤：

4.根据权利要求1所述的3d数字人生成方法，其特征在于，获取视频分帧处理结果对应的人脸表情系数集合包括以下步骤：

5.根据权利要求1所述的3d数字人生成方法，其特征在于，获取语音分帧处理...

【专利技术属性】
技术研发人员：丁焰，李翔，庞文刚，姜三富，蔡闻哲，
申请(专利权)人：联通在线信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人