当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于深度学习的图像抠图方法技术

技术编号:37718809 阅读:29 留言:0更新日期:2023-06-02 00:16
一种基于深度学习的图像抠图方法,包括以下步骤:步骤1:获取抠图数据集,包括原图、标签图,根据标签图生成三分图,把所述抠图数据集中样本划分为训练集、验证集和测试集;步骤2:搭建基于GAN的编码器

【技术实现步骤摘要】
一种基于深度学习的图像抠图方法


[0001]本专利技术属于图像处理
,尤其涉及计算机视觉技术,具体涉及一种抠图网络及抠图方法。

技术介绍

[0002]图像抠图是将一幅图像中需要的部分提取出来的过程。其中,提取出来的部分称为前景,余下的部分叫做背景。Porter和Duff提出了抠图中的合成图像的数学原理,即公式(1):
[0003]I
i
=α
i
F
i
+(1

α
i
)B
i

i
∈[0,1]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0004]其中,I代表自然图像,F代表前景,B代表背景,α是不透明度,代表每个像素中前景和背景的比例。抠图的过程就是合成图像的逆过程。即已知一幅图像I,求解前景F,背景B和不透明度α。确定前景像素的α为1,确定背景像素的α为0,前景与背景相互混合的像素的α介于0到1之间。对于自然图像而言,F,B,I每个像素点都有三个颜色分量,通过公式(1)可知,抠图问题由三个方程和七个未本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图像抠图方法,其特征在于,包括以下步骤:步骤1:获取抠图数据集,包括原图、标签图,根据标签图生成三分图,把抠图数据集中样本划分为训练集、验证集和测试集;步骤2:搭建基于GAN的编码器

解码器结构的图像抠图网络模型;步骤3:将训练集输入模型进行训练,每训练完一轮,用验证集验证一遍,计算损失,保存最好的模型,即保留损失函数最低的模型;步骤4:将待测试的图像和三分图输入到模型中进行测试。2.根据权利要求1所述的方法,其特征在于,在步骤2中,在搭建基于GAN的编码器

解码器结构的图像抠图网络模型时,采用以下方法:2

1:构建基于Unet的生成器网络,生成无限接近于真实图像的alpha蒙板;2

2:构建五层结构的判别器网络,利用生成签图器结果和标计算损失,判别出伪图像与真实图像。3.根据权利要求2所述的方法,其特征在于,在步骤2

1中,构建基于Unet的生成器网络,生成无限接近于真实图像的alpha蒙板,基于Unet的生成器网络由编码器、解码器和跳跃密集链接三部分构成,具体还包括以下步骤:2
‑1‑
1:编码器对输入的特征图进行四次下采样;第一层将特征图F1通过一个DS

ASPP模块和一个卷积、标准化和激活层得到特征图F1.1,然后将特征图F1与特征图F1.1进行融合得到特征图F1.2;第二层将第一层输出的特征图F1.1经过池化下采样后得到特征图F2,再将特征图F2输入到一个DS

ASPP模块和一个卷积、标准化和激活层得到特征图F2.1,然后将特征图F2与特征图F2.1进行融合得到特征图F2.2;第三层将第二层输出的特征图F2.1经过池化下采样后得到特征图F3,将特征图F3输入到一个DS

ASPP模块和一个卷积、标准化和激活层得到特征图F3.1,然后特征图F3与特征图F3.1进行融合得到特征图F3.2;第四层将第三层输出的特征图F3,1经过池化下采样后得到特征图F4,将特征图F4输入到一个DS

ASPP模块和一个卷积、标准化和激活层得到特征图F4.1,然后特征图F4与特征图F4.1进行融合得到特征图F4.2;第五层将第四层输出的特征图F4,1经过池化下采样后得到特征图F5,将特征图F5输入到一个DS

ASPP模块并经过卷积调整通道后得到特征图F5.1;2
‑1‑
2:将第一层、第二层、第三层、第四层分别融合后的特征图F1.2,特征图F2.2,特征图F3.2,特征图F4.2分别输入到一个S

BAM模块中,S

BAM将输入的特征通过通道Mc和空间Ms两个单独的注意分支组合生成最终的3D的特征Mf,将该3D的Mf与输入特征图进行逐元素相乘,然后将其添加到原始输入特征图上,分别输出得到特征图F1.3,特征图F2.3,特征图F3.3,特征图F4.3;2
‑1‑
3:在跳跃密集链接中,分别对编码各层输出的特征进行密集融合;将编码器第四层的特征图F4.3经过上采样后输入到第三层,将特征图F4.3与编码器第三层的特征图F3.3融合得到特征图F3.4,然后将特征图F3.3、特征图F3.4分别经过上采样后传入第二层;将特征图F3.3编码器第二层的特征图F2.3融合得到特征图F2.4,将特征图F3.4与编码器第二层特征图F2.3、特征图F2.4融合得到特征图F2.5,然后将特征图F2.3、特征图F2.4、特征图
F2.5经过上采样后传入第一层;将特征图F2.3与第一层编码器的特征图F1.3融合得到特征图F1.4,将特征图F2.4与编码器第一层的特征图F1.3、特征图F1.4融合得到特征图F1.5,将特征图F2.5与编码器第一层的特征图F1.3、特征图F1.5融合得到特征图F1.6;2
‑1‑
4:解码器对DS

ASPP输出的特征图进行四次上次样,在每一次上采样后都与跳跃链接输出的特征图以通道拼接的方式融合;首先将编码器第五层DS

ASPP输出的特征图F5.1经过上采样传入解码器第二层与跳跃链接第一层的特征图F4.3融合得到特征图F4.4,将特征图F4.4经过卷积、标准化和激活层得到特征图F4.5,然后将特征图F4.5经过上采样后传入解码器第三层与跳跃链接第二层的特征图F3.4、特征图F3.3融合得到特征图F3.5,将特征图F3.5经过卷积、标准化和激活层得到特征图F3.6,然后将特征图F3.6经过上采样后传入解码器第四层与跳跃链接第三层的特征图F2.3、特征图F2.5融合得到特征图F2.6,将特征图F2.6经过卷积、标准化和激活层得到特征图F2.7,然后将特征图F2.7经过上采样后传入解码器第五层与跳跃链接第四层的特征图F1.3、特征图F1.6融合得到特征图F1.7,将特征图F1.7经过卷积、标准化和激活层得到输出特征图F。4.根据权利要求2所述的方法,其特征在于,在步骤2

2中,构建五层卷积网络结构的判别器,利用生成器结果和标签图计算损失,判别出伪图像与真实图像,具体还包括以下步骤:2
‑2‑
1:获取生成器输出的F,分别将F和图像真实标签输入到判别器中,判别器通过五层卷积网络,将生成图像的分割结果判别为假的能力不断提升,分别求出生成器分割图像和分割标签图像对应的判别器值.并使用交叉嫡计算判别器网络损失值;2
‑2‑
2:生成器利用判别器的训练损失来不断优化以拟合标签图像使得判别器将其判别为真,二者在训练过程中不断博弈,形成对抗.经过网络训练,生成器图像分割结果精度提升,能够在测试与实际使用中获得精确的图像分割结果。5.根据权利要求1所述的方法,其特征在于,在步骤3中,用于网络训练的损失函数如下:1)生成器损失函数生成器损失函数使用的是预测损失和对抗损失加权融合的方法,计算公式如下:L
G
=λ1L
α
+λ2L
ad
其中,λ1和λ2是权重,L
α
是α预测损失,L
ad
是对抗损失;α测损失表示每个像素点处的真实α值与预测α值之间的绝对值差,计算公式如下:其中,代表某个像素点i上的预测值,表示某个像素点i上的真实值,ε取10
‑6;对抗损失来源于生成器和判别器的对抗机制,以此优化生成器生成的图像蒙版,对抗损失计算为生成器生成的图像蒙版输入判别器得到结果矩阵,与相同尺寸的全1矩阵张量的均方误差值,当图像蒙版的结果矩阵每个元素都接近全1矩阵式,判别器就不能判别出图像的真伪,从而实现生成器和判别器的动态平衡,计算公式如下:其中,M是像素点数,i是一个像素点序号,x
i
是输入,G(x
i
)表示生成器网络输出的图像
蒙版,D(G(x
i
))表示判别器网络输出的结果矩阵,I
one
表示矩阵张量,MSE是均方误差;2)判别器损失函数:生成器生成的图像蒙版和真实图像标签合成的图像输入判别器时,判别器应将图像蒙版判别为假,而真实标签应该判别为真,使用全0和全1矩阵张量分别与生成图像和真实α图合成的图像的输出矩阵计算MSE,损失函数定义如下:其中,M是像素点数,i是一个像素点序号,x
i
,y
i
分别表示生成器和判别器的输入,G(x
i
)表示对于x
i
生成器网络的输出,D(y
i
)表示对于y
i
判别器网络的输出,D(G(x
i
))表示对于G(x
i
)判别器网络的输出,I
one
表示全1矩阵张量,Z
zero
表示全0矩阵,MSE是均方误差。6.根据权利要求1所述的方法,其特征在于,所搭建的基于GAN的编码器

解码...

【专利技术属性】
技术研发人员:王安慧向杰任东林荣
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1