一种基于深度神经网络的实时高分辨率人像抠图方法技术

技术编号：38913384 阅读：11 留言：0更新日期：2023-09-25 09:28

本发明专利技术公开了一种基于深度神经网络的实时高分辨率人像抠图方法，包括获取训练数据集，并标注生成训练用groundtruth alpha matte；对训练数据集进行数据增强；分步阶段性训练网络模型；使用训练好的网络进行抠图。通过在网络构型中嵌入ConvLSTM模块，使用Max Pooling Indices，利用PRM进行高清细节优化，加入语义分割任务，打造出高精度实时人像抠图的核心技术，同时，创新了数据集和数据增强方法，采用阶段式训练，从简单到复杂，由粗糙到精细，强化了算法的训练效果，这三个方面的创新与应用相互作用，相互统一，全方位提升了算法的性能和实用性，为高精度实时人像抠图应用提供了强大的技术支持。供了强大的技术支持。供了强大的技术支持。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的实时高分辨率人像抠图方法

[0001]本专利技术涉及一种人像抠图方法，具体涉及一种基于深度神经网络的实时高分辨率人像抠图方法。

技术介绍

[0002]传统的方法是绿幕抠像，即人物在绿幕前拍摄，用抠像算法把人像和手持物保留，背景换成目标背景。但是大多数时候，布设绿幕会不太方便，所以复杂自然背景的抠图成为需求。由此，出现了贝叶斯抠图、KNN抠图和泊松抠图等等算法。
[0003]随着深度学习的崛起，基于深度学习的抠图算法成为潮流。最初的有Adobe公司的Adobe Deep Image Matting[1],这是一个两阶段式的深度学习模型。第一阶段是一个基于深度卷积网络的编码解码阶段，它的输入是待抠图片和这张图片的三分图，输出是预测的alpha图。第二个阶段是一个小型卷积神经网络，用于对第一阶段的alpha图做精炼，使得边缘更加锐化。Adobe的输入所需的三分图在现实中人们难以获得，随后便有了以背景图和待抠图片作为输入的抠图算法，代表作为:Background Matting:The World is Your Green Screen[2]。[2]的算法由于网络结构过于复杂，速度上还不能达到实时，特别是对于4K高分辨率的图片。实时抠图的算法出现了，比如Real
‑
Time High
‑
Resolution Background Matting[3]。[3]对于[2]，网络结构更加精简，它由两部分组成，第一部分是一个encoder
‑
dec...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的实时高分辨率人像抠图方法，其特征在于，包括以下步骤：S1、获取训练数据集，并标注生成训练用groundtruth alpha matte；S2、对训练数据集进行数据增强；S3、分步阶段性训练网络模型；S4、使用S3训练好的网络进行抠图。2.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法，其特征在于：数据集通过以下方式获取并生成：S1.1在多个不同场景中拍摄各实例的多角度视频，每个实例视频包含多种肢体动作和不同的衣着材质；S1.2在绿幕背景下拍摄各实例的多角度多姿态视频，每个实例视频包含多种肢体动作和不同的衣着材质；S1.3利用图像处理软件自动抠出大概的人像区域，然后进行手动修正，以生成训练用的groundtruth alpha matte；S1.4利用绿幕背景下拍摄的图片的groundtruth alpha matte，前景图片与背景图片合成以产生大量训练用新数据；S1.5利用该高精度数据集训练网络模型，提高模型对处理局部细节的抠图能力。3.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法，其特征在于：数据增强方法如下：S2.1、在人体区域附近生成模糊平滑的阴影区域，用以处理人体因光照投射而产生影子的情况；S2.2、提取人体区域主要颜色，并自动生成与该颜色相近的背景区块，用以处理前景和背景颜色相近时的预测误差；S2.3、利用网络爬虫收集复杂纹理的背景图，并与人物前景合成训练图片，用以处理背景含大量纹理而预测有误的情况；S2.4、实施时间维度的数据扩充，包括视频头尾翻转，帧率改变，随机暂停和帧跳跃，以增强模型在处理视频数据时的稳定性和连续性；网络模型训练时，同步使用数据增强技术以防止网络过拟合并在真实图片数据上保持良好的泛化能力，使用仿射形变，上下左右翻转、旋转、亮度色度饱和度对比度随机调整，模糊、锐化以及添加随机噪声，同时输入图片将被随机剪切成任意分辨率以让网络模型对任意大小尺寸的图片都有良好的鲁棒性。4.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法，其特征在于：S3中，网络训练方法具体包括以下步骤：S3.1、阶段性训练，从简单到复杂，从粗糙到精细，首先在较低分辨率的数据集上训练base
‑
net网络的人像分割任务，用较大的learning rate，这样base
‑
net能快速学习理解人像语义的能力，人像分割训练后再指导抠图过程，其专注于分割结果的边缘区域；S3.2、训练base
‑
net的人像抠图任务在较低分辨率的数据集上，在训练的奇数次迭代时，穿插进行人像分割任务的训练，以防止网络对人工合成的抠图数据过拟合，同时提高网络的语义理解能力，并在训练的后五个epoch时增加输入的视频序列长度；S3.3、在第三阶段，加入精细抠图模块，网络完整的训练在较高分辨率的数据集上；
S3.4、在最后的训练阶段，使用少量的高精度数据集进行训练，以提高抠图的精度和细节。5.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法，其特征在于：用于深度学习人像抠图的权重优化方法，该方法通过人为地增大人像边缘区域的权重，以加强网络对人像边缘细节的学习能力，具体步骤如下：步骤一、利用距离变换，根据每个像素点到最近的人像边缘的距离；步骤二、对于训练集中的每个样本的ground truthalpha，权重图利用距离变换计算如下：d表示像素点x到最近的人像边缘的距离，在实际应用中，w0设为10，sigma设为5pixels。6.根据权利要求1所述的基于深度神经网络的实时高分辨率人像抠图方法，其特征在于：包括用于人像抠图的网络模型High
‑
Resolution Human Matting Network(HHMN)，其基于输入图片预测出alpha matte，网络模型包括：一个Encoder，负责提取单帧图片的特征，其用ResNet
‑
50作为主干并连接一个ASPP(Atrous Spatial Pyramid Pooling)模块，该Encoder分别在1/4,1/8,1/16,1/32,1/64尺度上提取特征，ASPP模块由多层具有不同dilated rate(3，6，9)的dilated卷积核组成，用以融合不同尺度的feature maps；一个带有循环模块的Decoder，该Decoder根据对应的Encoder层中的max

【专利技术属性】
技术研发人员：吕元俊，王晓军，
申请(专利权)人：深圳市超元创世科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人