一种基于深度神经网络的实时高分辨率人像抠图方法技术

技术编号:38913384 阅读:11 留言:0更新日期:2023-09-25 09:28
本发明专利技术公开了一种基于深度神经网络的实时高分辨率人像抠图方法,包括获取训练数据集,并标注生成训练用groundtruth alpha matte;对训练数据集进行数据增强;分步阶段性训练网络模型;使用训练好的网络进行抠图。通过在网络构型中嵌入ConvLSTM模块,使用Max Pooling Indices,利用PRM进行高清细节优化,加入语义分割任务,打造出高精度实时人像抠图的核心技术,同时,创新了数据集和数据增强方法,采用阶段式训练,从简单到复杂,由粗糙到精细,强化了算法的训练效果,这三个方面的创新与应用相互作用,相互统一,全方位提升了算法的性能和实用性,为高精度实时人像抠图应用提供了强大的技术支持。供了强大的技术支持。供了强大的技术支持。

【技术实现步骤摘要】
一种基于深度神经网络的实时高分辨率人像抠图方法


[0001]本专利技术涉及一种人像抠图方法,具体涉及一种基于深度神经网络的实时高分辨率人像抠图方法。

技术介绍

[0002]传统的方法是绿幕抠像,即人物在绿幕前拍摄,用抠像算法把人像和手持物保留,背景换成目标背景。但是大多数时候,布设绿幕会不太方便,所以复杂自然背景的抠图成为需求。由此,出现了贝叶斯抠图、KNN抠图和泊松抠图等等算法。
[0003]随着深度学习的崛起,基于深度学习的抠图算法成为潮流。最初的有Adobe公司的Adobe Deep Image Matting[1],这是一个两阶段式的深度学习模型。第一阶段是一个基于深度卷积网络的编码解码阶段,它的输入是待抠图片和这张图片的三分图,输出是预测的alpha图。第二个阶段是一个小型卷积神经网络,用于对第一阶段的alpha图做精炼,使得边缘更加锐化。Adobe的输入所需的三分图在现实中人们难以获得,随后便有了以背景图和待抠图片作为输入的抠图算法,代表作为:Background Matting:The World is Your Green Screen[2]。[2]的算法由于网络结构过于复杂,速度上还不能达到实时,特别是对于4K高分辨率的图片。实时抠图的算法出现了,比如Real

Time High

Resolution Background Matting[3]。[3]对于[2],网络结构更加精简,它由两部分组成,第一部分是一个encoder

decoder的base网络,第二部分是refiner网络。虽然[3]达到了4K实时抠图的效果,但是缺点是输入不仅需要待抠图片,还需要背景图片。输入仅需要待抠图片的算法产生了:Robust High

Resolution Video Matting with Temporal Guidance[4]。[4]的输入仅需要待抠图片,同时,网络的ConvGRU模块考虑了前后帧之间的关联,让整个预测过程更加稳定。
[0004]绿幕抠像的缺点很明显,首先,绿幕需要事先获取和布置,这个过程较为繁琐和耗时。其次,有些场合布置绿幕并不合适,比如景区,机场,咖啡厅,最后,人物活动的范围有限,人物只能在绿幕前活动拍摄,不能在绿幕以外拍摄。
[0005][3][4]网络的encoder和decoder之间特征图的直接传递会占用大量的GPU显存空间,这对显存的要求会比较高。
[0006][1][2][3][4]对于人体投射的大片阴影区域,背景区域与人体肤色或衣着颜色相近,背景含大量纹理的情况下表现得难以令人满意。
[0007]以[1]为代表的matting工作需要trimap作为额外的输入,然而,这需要人工精细化标注来获得。
[0008][2][3]需要背景图片作为先验,它要求背景是静态的,也需要固定的相机位置。
[0009]在某些技术中,[7][8]首先生成伪trimap,然后根据这个伪trimap预测出matte。但是由于有限的训练数据,这些方法不能对真实世界的样例做到很好的泛化[2]。另外,它们也不能应用于一些实时性的任务,比如视频会议的实时背景置换等。
[0010][4]的输入虽然不需要背景图片作为先验,也不需要利用伪trimap来预测出alpha,对于4k分辨率图片速度上可达到实时,但其缺点是对于边缘细节的抠图比较模糊,
处理得较为粗糙,锐化度比较低,比如发丝,鞋带等。造成这种现象的原因之一是为了追求更快的推理速度。它使用的是一个比较简单的refiner[9]:DGF,DGF由简单的滤波构成,所以对细节的优化效果不佳。

技术实现思路

[0011]为了解决上述问题,本专利技术提供一种基于深度神经网络的实时高分辨率人像抠图方法,针对高精度实时人像抠图问题,提出一种新的网络构型,并从网络、数据、训练方面入手综合提升算法效能,更好地赋能应用场景,有效解决现有技术的不足。
[0012]本专利技术是通过以下技术方案来实现的:一种基于深度神经网络的实时高分辨率人像抠图方法,包括以下步骤:
[0013]S1、获取训练数据集,并标注生成训练用groundtruth alpha matte;
[0014]S2、对训练数据集进行数据增强;
[0015]S3、分步阶段性训练网络模型;
[0016]S4、使用S3训练好的网络进行抠图。
[0017]作为优选的技术方案,数据集通过以下方式获取并生成:
[0018]S1.1在多个不同场景中拍摄各实例的多角度视频,每个实例视频包含多种肢体动作和不同的衣着材质;
[0019]S1.2在绿幕背景下拍摄各实例的多角度多姿态视频,每个实例视频包含多种肢体动作和不同的衣着材质;
[0020]S1.3利用图像处理软件自动抠出大概的人像区域,然后进行手动修正,以生成训练用的groundtruth alpha matte;
[0021]S1.4利用绿幕背景下拍摄的图片的groundtruth alpha matte,前景图片与背景图片合成以产生大量训练用新数据;
[0022]S1.5利用该高精度数据集训练网络模型,提高模型对处理局部细节的抠图能力。
[0023]作为优选的技术方案,数据增强方法如下:
[0024]S2.1、在人体区域附近生成模糊平滑的阴影区域,用以处理人体因光照投射而产生影子的情况;
[0025]S2.2、提取人体区域主要颜色,并自动生成与该颜色相近的背景区块,用以处理前景和背景颜色相近时的预测误差;
[0026]S2.3、利用网络爬虫收集复杂纹理的背景图,并与人物前景合成训练图片,用以处理背景含大量纹理而预测有误的情况;
[0027]S2.4、实施时间维度的数据扩充,包括视频头尾翻转,帧率改变,随机暂停和帧跳跃,以增强模型在处理视频数据时的稳定性和连续性;
[0028]网络模型训练时,同步使用数据增强技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力,使用仿射形变,上下左右翻转、旋转、亮度色度饱和度对比度随机调整,模糊、锐化以及添加随机噪声,同时输入图片将被随机剪切成任意分辨率已让网络模型对任意大小尺寸的图片都有良好的鲁棒性。
[0029]作为优选的技术方案,S3中,网络训练方法具体包括以下步骤:
[0030]S3.1、阶段性训练,从简单到复杂,从粗糙到精细,首先在较低分辨率的数据集上
训练base

net网络的人像分割任务,用较大的learning rate,这样base

net能快速学习理解人像语义的能力,人像分割训练后再指导抠图过程,其专注于分割结果的边缘区域;
[0031]S3.2、训练base

net的人像抠图任务在较低分辨率的数据集上,在训练的奇数次迭代时,穿插进行人像分割任务的训练,以防止网络对人工合成的抠本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的实时高分辨率人像抠图方法,其特征在于,包括以下步骤:S1、获取训练数据集,并标注生成训练用groundtruth alpha matte;S2、对训练数据集进行数据增强;S3、分步阶段性训练网络模型;S4、使用S3训练好的网络进行抠图。2.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:数据集通过以下方式获取并生成:S1.1在多个不同场景中拍摄各实例的多角度视频,每个实例视频包含多种肢体动作和不同的衣着材质;S1.2在绿幕背景下拍摄各实例的多角度多姿态视频,每个实例视频包含多种肢体动作和不同的衣着材质;S1.3利用图像处理软件自动抠出大概的人像区域,然后进行手动修正,以生成训练用的groundtruth alpha matte;S1.4利用绿幕背景下拍摄的图片的groundtruth alpha matte,前景图片与背景图片合成以产生大量训练用新数据;S1.5利用该高精度数据集训练网络模型,提高模型对处理局部细节的抠图能力。3.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:数据增强方法如下:S2.1、在人体区域附近生成模糊平滑的阴影区域,用以处理人体因光照投射而产生影子的情况;S2.2、提取人体区域主要颜色,并自动生成与该颜色相近的背景区块,用以处理前景和背景颜色相近时的预测误差;S2.3、利用网络爬虫收集复杂纹理的背景图,并与人物前景合成训练图片,用以处理背景含大量纹理而预测有误的情况;S2.4、实施时间维度的数据扩充,包括视频头尾翻转,帧率改变,随机暂停和帧跳跃,以增强模型在处理视频数据时的稳定性和连续性;网络模型训练时,同步使用数据增强技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力,使用仿射形变,上下左右翻转、旋转、亮度色度饱和度对比度随机调整,模糊、锐化以及添加随机噪声,同时输入图片将被随机剪切成任意分辨率以让网络模型对任意大小尺寸的图片都有良好的鲁棒性。4.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:S3中,网络训练方法具体包括以下步骤:S3.1、阶段性训练,从简单到复杂,从粗糙到精细,首先在较低分辨率的数据集上训练base

net网络的人像分割任务,用较大的learning rate,这样base

net能快速学习理解人像语义的能力,人像分割训练后再指导抠图过程,其专注于分割结果的边缘区域;S3.2、训练base

net的人像抠图任务在较低分辨率的数据集上,在训练的奇数次迭代时,穿插进行人像分割任务的训练,以防止网络对人工合成的抠图数据过拟合,同时提高网络的语义理解能力,并在训练的后五个epoch时增加输入的视频序列长度;S3.3、在第三阶段,加入精细抠图模块,网络完整的训练在较高分辨率的数据集上;
S3.4、在最后的训练阶段,使用少量的高精度数据集进行训练,以提高抠图的精度和细节。5.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:用于深度学习人像抠图的权重优化方法,该方法通过人为地增大人像边缘区域的权重,以加强网络对人像边缘细节的学习能力,具体步骤如下:步骤一、利用距离变换,根据每个像素点到最近的人像边缘的距离;步骤二、对于训练集中的每个样本的ground truthalpha,权重图利用距离变换计算如下:d表示像素点x到最近的人像边缘的距离,在实际应用中,w0设为10,sigma设为5pixels。6.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法,其特征在于:包括用于人像抠图的网络模型High

Resolution Human Matting Network(HHMN),其基于输入图片预测出alpha matte,网络模型包括:一个Encoder,负责提取单帧图片的特征,其用ResNet

50作为主干并连接一个ASPP(Atrous Spatial Pyramid Pooling)模块,该Encoder分别在1/4,1/8,1/16,1/32,1/64尺度上提取特征,ASPP模块由多层具有不同dilated rate(3,6,9)的dilated卷积核组成,用以融合不同尺度的feature maps;一个带有循环模块的Decoder,该Decoder根据对应的Encoder层中的max

【专利技术属性】
技术研发人员:吕元俊王晓军
申请(专利权)人:深圳市超元创世科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1