System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对2D数字人的视频生成算法及系统技术方案_技高网

一种针对2D数字人的视频生成算法及系统技术方案

技术编号:40494591 阅读:9 留言:0更新日期:2024-02-26 19:23
本发明专利技术公开了一种针对2D数字人的视频生成算法及系统,算法包括使用计算机图像深度学习技术输入的模特身材图像进行检测,获取模特的上半身区域图像;使用声音编码器进行原始音频进行音频特征提取;使用图像分割算法对模特的上半身区域图像进行分割,获取人脸区域与躯干区域;将获取的人脸区域,使用人脸关键点检测算法检测人脸区域,获取人脸关键点信息和人脸眨眼信息;将获取的人脸关键点信息、人脸眨眼信息和提取到的音频特征信息对神经辐射场模型进行训练;将实时采集的模特身材图像输入到训练好的神经辐射场模型中生成视频。优点是:解决了现有技术中嘴型生成不清晰的问题,能达到更为真实的2d数字人效果。

【技术实现步骤摘要】

本专利技术涉及视频生成,尤其涉及一种针对2d数字人的视频生成算法及系统。


技术介绍

1、2d数字人在电影、电子游戏等领域有着极大用处,2d数字人可以实现各种创意和想象,提供更丰富、更灵活的艺术表现形式。

2、目前市场上主流的2d数字人生成算法是wav2lip算法,该算法生成的2d数字人面部模糊,生成的嘴型对中文支持的不好,整体的2d数字人效果不真实。


技术实现思路

1、本专利技术的目的在于提供一种针对2d数字人的视频生成算法及系统,从而解决现有技术中存在的前述问题。

2、为了实现上述目的,本专利技术采用的技术方案如下:

3、一种针对2d数字人的视频生成算法,包括如下步骤,

4、s1、身躯检测:

5、使用计算机图像深度学习技术输入的模特身材图像进行检测,获取模特的上半身区域图像;

6、s2、音频提取:

7、使用声音编码器进行原始音频进行音频特征提取;

8、s3、人像分割:

9、使用图像分割算法对模特的上半身区域图像进行分割,获取人脸区域与躯干区域;

10、s4、人脸关键信息提取:

11、将获取的人脸区域,使用人脸关键点检测算法检测人脸区域,获取人脸关键点信息和人脸眨眼信息;

12、s5、模型训练:

13、将获取的人脸关键点信息、人脸眨眼信息和提取到的音频特征信息对神经辐射场模型进行训练;

14、s6、视频生成:

15、将实时采集的模特身材图像输入到训练好的神经辐射场模型中生成视频。

16、优选的,步骤s1具体包括如下内容,

17、s11、对输入的模特身材图像进行尺寸调整、归一化处理,以使处理后的模特身材图像适应目标检测模型;

18、s12、使用卷积神经网络对预处理后的模特身材图像进行特征提取;

19、s13、将提取的特征图分割成sxs的网格单元,对于每个网格单元,利用目标检测模型预测b个边界框以及c个类别概率;

20、s14、对预测结果进行阈值处理,去除置信度低于预设阈值的预测结果,再使用非极大值抑制处理重叠的预测结果,获取最终的目标检测结果,即得到模特的上半身区域图像。

21、优选的,每个边界框包含5个元素,分别为边界框中心相对于网格单元的横向偏移、边界框中心相对于网格单元的纵向偏移、边框的宽度、边框的高度和置信度。

22、优选的,步骤s2具体包括如下内容,

23、s21、将输入的原始音频转换为适合hubert模型处理的格式;

24、s22、使用对数梅尔频率倒谱系数特征提取算法对处理后的音频进行特征提取,将处理后的音频转换为一种表示音频内容的形式;

25、s23、将提取出的音频特征输入到hubert模型中,获取最终的音频特征。

26、优选的,步骤s3具体包括如下内容,

27、s31、对上半身区域图像进行尺寸调整、归一化、增强操作,以使处理后的上半身区域图像适应语义分割模型;

28、s32、使用卷积神经网络对处理后的上半身区域图像进行特征提取,并使用上采样或解卷积操作将提取到的特征图恢复到上半身区域图像的尺寸;

29、s33、使用语义分割模型对特征图每个像素的特征进行分类获取每个像素的类别,并确定各像素的预测类别,获取人脸区域和躯干区域;

30、s34、对预测结果进行去噪、平滑处理,优化分割结果。

31、优选的,步骤s32中,使用跳跃连接将浅层特征和深层特征合并,以获取更丰富的语义和空间信息。

32、优选的,步骤s33中,使用softmax函数计算每个类别的概率,选择概率最大的类别作为相应像素的预测类别。

33、优选的,步骤s4具体包括如下内容,

34、s41、获取人脸区域中的人脸;

35、s42、将检测到人脸进行灰度化、归一化、裁剪处理;

36、s43、基于dlib库中的人脸关键点,使用机器学习的方法检测处理后的人脸中各个关键点的位置及人脸眨眼信息;

37、s44、对确定的关键点位置及人脸眨眼信息进行去除误检、平滑处理操作。

38、优选的,步骤s5具体包括如下内容,

39、s51、人脸关键点信息、人脸眨眼信息和音频特征信息形成一组数据集;

40、s52、对于数据集中的每一张图片,选择一些像素点,根据相机参数计算这些像素点对应的光线路径,并在路径上采集一些样点,将样点的3d坐标以及光线方向作为输入,通过神经辐射场模型计算出样点的颜色以及密度;

41、s53、根据计算出的颜色以及密度,通过体积渲染公式计算出每条光线的颜色,获取各像素点对应神经辐射场模型预测的颜色;

42、s54、将神经辐射场模型预测的颜色与实际图片的颜色进行比较,计算出损失函数,并利用反向传播算法,更新神经辐射场模型的参数;

43、s55、重复s51-s54,直到神经辐射场模型收敛或达到预设的训练轮数,获取训练好的神经辐射场模型。

44、本专利技术的目的还在于提供一种针对2d数字人的视频生成系统,系统能够实现上述任一所述的算法,系统包括,

45、身躯检测模块:使用计算机图像深度学习技术输入的模特身材图像进行检测,获取模特的上半身区域图像;

46、音频提取模块:使用声音编码器进行原始音频进行音频特征提取;

47、人像分割模块:使用图像分割算法对模特的上半身区域图像进行分割,获取人脸区域与躯干区域;

48、人脸关键信息提取模块:将获取的人脸区域,使用人脸关键点检测算法检测人脸区域,获取人脸关键点信息和人脸眨眼信息;

49、模型训练模块:将获取的人脸关键点信息、人脸眨眼信息和提取到的音频特征信息对神经辐射场模型进行训练;

50、视频生成模块:将实时采集的模特身材图像输入到训练好的神经辐射场模型中生成视频。

51、本专利技术的有益效果是:1、本专利技术解决了现有技术中嘴型生成不清晰的问题,能达到更为真实的2d数字人效果。2、本专利技术使用很短时间的特制模特视频进行训练就能达到很真实的2d数字人效果,降低了2d数字人生成的门槛。

本文档来自技高网
...

【技术保护点】

1.一种针对2D数字人的视频生成算法,其特征在于:包括如下步骤,

2.根据权利要求1所述的针对2D数字人的视频生成算法,其特征在于:步骤S1具体包括如下内容,

3.根据权利要求2所述的针对2D数字人的视频生成算法,其特征在于:每个边界框包含5个元素,分别为边界框中心相对于网格单元的横向偏移、边界框中心相对于网格单元的纵向偏移、边框的宽度、边框的高度和置信度。

4.根据权利要求1所述的针对2D数字人的视频生成算法,其特征在于:步骤S2具体包括如下内容,

5.根据权利要求1所述的针对2D数字人的视频生成算法,其特征在于:步骤S3具体包括如下内容,

6.根据权利要求5所述的针对2D数字人的视频生成算法,其特征在于:步骤S32中,使用跳跃连接将浅层特征和深层特征合并,以获取更丰富的语义和空间信息。

7.根据权利要求5所述的针对2D数字人的视频生成算法,其特征在于:步骤S33中,使用softmax函数计算每个类别的概率,选择概率最大的类别作为相应像素的预测类别。

8.根据权利要求1所述的针对2D数字人的视频生成算法,其特征在于:步骤S4具体包括如下内容,

9.根据权利要求1所述的针对2D数字人的视频生成算法,其特征在于:步骤S5具体包括如下内容,

10.一种针对2D数字人的视频生成系统,其特征在于:系统能够实现上述权利要求1至9任一所述的算法,系统包括,

...

【技术特征摘要】

1.一种针对2d数字人的视频生成算法,其特征在于:包括如下步骤,

2.根据权利要求1所述的针对2d数字人的视频生成算法,其特征在于:步骤s1具体包括如下内容,

3.根据权利要求2所述的针对2d数字人的视频生成算法,其特征在于:每个边界框包含5个元素,分别为边界框中心相对于网格单元的横向偏移、边界框中心相对于网格单元的纵向偏移、边框的宽度、边框的高度和置信度。

4.根据权利要求1所述的针对2d数字人的视频生成算法,其特征在于:步骤s2具体包括如下内容,

5.根据权利要求1所述的针对2d数字人的视频生成算法,其特征在于:步骤s3具体包括如下内容,

6.根据权利要求5所述的针...

【专利技术属性】
技术研发人员:李璋张华伟
申请(专利权)人:新壹北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1