当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于深度学习的自然图像抠图方法技术

技术编号:24172737 阅读:75 留言:0更新日期:2020-05-16 03:30
本发明专利技术公开了一种基于深度学习的自然图像抠图方法,其包括以下步骤:获取抠图数据集,并进行数据增强;搭建具有编码器‑解码器结构的自然图像抠图模型,为保留细节信息,设计编码器使其下采样倍数为4,为弥补下采样倍数下降带来的感受野变小,引入空洞卷积扩大感受野,保存最大池化操作中最大像素位置,以便为上采样阶段提供位置信息;为解决多尺度问题,在编码器顶部连接一个空洞空间金字塔模块;在解码器中设计全局语境模块,用于融合所述编码器与解码器对应的高层特征;最后训练并测试。本发明专利技术在提取特征过程中保留更多细节信息,同时关联多尺度特征,使模型能捕抓到全局信息,有利于模型处理细节以及大面积透明物体,提升抠图质量。

【技术实现步骤摘要】
一种基于深度学习的自然图像抠图方法
本专利技术涉及图像处理
,具体涉及一种基于深度学习的自然图像抠图方法。
技术介绍
抠图技术是在数字图像上进行的一种图像处理技术,它最初由影视行业发展而来,现已成为视觉特效制作中至关重要的技术。利用抠图技术,电影、广告、海报等领域制作人可以把一个需要的人物或物体无缝地嵌入到一个指定的场景中。但这类特效的制作大多使用蓝屏抠图技术,该技术需要把拟嵌入的人物或物体放置到一个纯色背景中拍摄,极大限制了抠图技术的应用。随着计算机技术的发展,用户对能从一幅自然图像中抠出感兴趣的物体的需求越来越强烈,同时也提出了更高的质量要求。普通的图像分割技术是把图像中的每个像素都明确归为某一类,其任务是实现对每个像素的分类,这类任务往往只是得到一张粗糙的分割掩膜。但抠图技术则提出了更高的要求,它更加关注诸如毛发等边缘细节,同时需要估计过渡边缘与半透明物体的透明度,它的任务是对每个像素回归一个前景的透明度,得到一张精细的alpha蒙版,其核心问题可以归结为求解以下公式:Ii=αi*Fi+(1-αi)*Bi式中本文档来自技高网...

【技术保护点】
1.一种基于深度学习的自然图像抠图方法,其特征在于,包括步骤:/nS1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;/nS2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;/nS3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型...

【技术特征摘要】
1.一种基于深度学习的自然图像抠图方法,其特征在于,包括步骤:
S1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;
S2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;
S3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型;
S4:将需要测试的图片及对应的三元图输入到已训练好的自然图像抠图模型中,得到预测的alpha蒙版。


2.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S1中,对训练集和测试集分别进行数据增强,方法是:
利用前景图和alpha蒙版把同一前景目标融合进不同的背景中,融合公式为:
Ii=αi*Fi+(1-αi)*Bi
式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。


3.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S2中,所述编码器由5个stage组成,在stage1和stage2中使用普通卷积和步长为2的最大池化操作,把stage3和stage4中最大池化操作的步长设为1,去除stage5的池化操作,以上结构使得所述编码器的下采样倍数为4;在stage4和stage5引入空洞卷积操作;把所有全连接层替换成一层卷积核大小为1的卷积层。


4.根据权利要求3所述的基于深度学习的自然图像抠图方法,其特征在于,所述最大池化操作需返回最大值像素的坐标信息;
所述空洞空间金字塔池化模块用于解决特征多尺度问题,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。


5.根据权利要求3所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S2中所述解码器包括4个阶段:
阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;
阶段D3:对输出自阶段D4的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3...

【专利技术属性】
技术研发人员:赖剑煌邓卓爽
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1