一种基于深度卷积对抗生成网络的图像反射去除方法技术

技术编号:16102937 阅读:45 留言:0更新日期:2017-08-29 23:01
本发明专利技术公开了一种基于深度卷积对抗生成网络的图像反射去除方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)损失定义;5)模型训练;6)模型验证。本发明专利技术结合了深度卷积神经网络提取高层图像语义信息的能力以及对抗生成网络灵活的损失函数定义能力,突破了传统方法仅使用低层像素信息的限制,因此对一般化的图像反射去除问题具有更强的适应能力。

【技术实现步骤摘要】
一种基于深度卷积对抗生成网络的图像反射去除方法
本专利技术涉及计算机图像处理的
,尤其是指一种基于深度卷积对抗生成网络的图像反射去除方法。
技术介绍
当我们在室内透过玻璃拍摄室外的景物时,得到的照片中往往会包含有室内物体的反射影像。专业摄影师可能会选择使用偏振镜等专业的仪器设备来解决这个问题。但是对于普通消费者而言,使用反射去除算法来对照片进行后期处理会是更可行的做法。一张带有反射影像的照片可以看做是由一张反射图像(室内景物)和一张目标图像(室外景物)叠加而成的混合图像。反射去除问题的本质是从这样一张混合图像中分解得到两张图像。这个问题有明显的不适定性(ill-posed),即对于一张给定的混合图像,可能的分解方法是不唯一的。为了求解这样的不适定问题,我们需要为原问题增加足够的先验知识(prioriknowledge)作为额外的约束,使得求解得到的结果尽可能地接近目标结果。在过去的研究中,由于缺乏可靠的高层语义信息作为先验知识,大部分工作中使用的先验知识都是基于低层像素信息的。例如,在论文Learningtoperceivetransparencyfromthestatisticsofnaturalscenes中,Levin等使用的是自然图像的边缘直方图和角点直方图的统计规律;在论文Singleimagelayerseparationusingrelativesmoothness中,Li等针对的是反射图像相比目标图像更加平滑这一特殊情况并以此作为先验约束;而在论文Reflectionremovalusingghostingcues中,Shih等使用的是特定的反射图像中出现的鬼影(ghosting)这一约束。Levin等的方法可以在场景简单并且纹理稀疏的图像上取得较好的效果,但是对于更一般化的、具有丰富纹理信息的自然图像就不太适用了。这是因为自然图像之间的差异性很大,其分布无法简单地用统一的直方图来刻画。而Li等的方法和Shih等的方法针对的是在特定条件下拍摄的图像,这些条件并不是广泛存在的,因此这些方法的使用场景具有很大的限制性。
技术实现思路
本专利技术的目的在于克服现有技术的不足与缺点,提出了一种基于深度卷积对抗生成网络的图像反射去除方法,该方法结合了深度卷积神经网络提取高层图像语义信息的能力以及对抗生成网络灵活的损失函数定义能力,突破了传统方法仅使用低层像素信息的限制。为实现上述目的,本专利技术所提供的技术方案为:一种基于深度卷积对抗生成网络的图像反射去除方法,包括以下步骤:1)数据获取训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;2)数据处理将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络;4)损失定义根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;6)模型验证使用验证数据对训练得到的模型进行验证,测试其泛化性能。所述步骤2)包括以下步骤过程:2.1)将数据集中的图像在保持长宽比例不变的情况下缩放到较短的边为144像素大小;2.2)随机在缩放后的图像上裁剪得到长宽均为128像素大小的正方形图像;2.3)以0.5的概率随机水平翻转裁剪后的图像;2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。所述步骤3)包括以下步骤过程:3.1)构造编码器模型编码器是用于从输入的混合图像中提取出高层的语义信息并保存到一个低维的编码中,编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码,为了实现从输入到输出的转换,编码器包含了多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活层组成,其中,卷积层设置卷积步长为2,在增大感受野的同时逐渐减小了图像的尺寸,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到了稳定和加速模型训练的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高了模型的描述能力;3.2)构造解码器模型解码器是用于从低维的编码中拆解并还原出反射图像和目标图像,解码器的输入为1024×4×4的低维编码,输出为6×128×128的复原图像,得到的复原图像能够简单地直接拆解为两张3×128×128的输出图像,这两张拆解得到的图像即为还原出来的反射图像和目标图像;为了实现低维编码到复原图像的转换,解码器包含了多个级联的上采样层,上采样层由串联的反卷积层、批量正则化层、以及非线性激活层组成,其中,反卷积层设置反卷积步长为2,起到了从低维编码放大图像尺寸的作用,批量正则化层和非线性激活层的作用与编码器中同样;3.3)构造判别器模型判别器是用于约束解码器的输出结果,使其输出更接近自然图像;判别器的输入是两张3×128×128的图像,输出为一个用于指示输入的类型的标量;判别器的结构与编码器一样,也由级联的下采样层组成,所不同的是,判别器的首层输入是由两张输入图像叠加得到的6×128×128的层叠图像,而输出则是单一的标量;输入判别器的两张图像能够是由编解码器拆解还原得到的反射图像和目标图像,也能够是从数据集中抽取得到的原始图像;判别器的作用是读取输入的两张图像,尽可能地区分出它们是复原后的图像还是原始图像;如果判断是原始图像,则判别器应该输出一个尽可能大的值;相反,如果判断是复原图像,则判别器应该输出一个尽可能小的值。所述步骤4)包括以下步骤过程:4.1)定义判别器的损失函数判别器的作用是判定输入图像属于复原图像还是原始图像;判别器对于输入的原始图像和复原图像分别输出的判定值的差越大越能说明判别器能较好地区分二者,因此判别器的效用函数能够定义为二者均值的差值;为了优化判别器,系统需要最大化其效用函数,因此判别器的损失函数能够定义为其效用函数的相反数,这样,当判别器的效用函数取最大值时,其损失函数将取得最小值,这表明判别器已经训练到最优;4.2)定义编解码器的重建损失函数重建损失函数的作用是约束编解码器的重建输出,使之与原始图像尽可能接近,重建损失函数能够定义为原始图像之和与复原图像之和的像素差的欧几里得距离的均值;4.3)定义编解码器的判别损失函数编解码器的作用是从输入的混合图像中拆解还原出原始的反射图像和目标图像,步骤4.2)中定义的重建损失函数仅能约束拆解的两张图像的和等于原混合图像,但是并不能保证拆解出来的图像各自仍然类似与原始的自然图像;为此,系统引入了判别损失函数,这个函数的计算方法是将由编解码器拆解得到的两张图像输入到判别器中,判别器将给出一个数值;这个数值越大越能说明编解码器的拆解效果好,使得拆解的图像“欺骗”了判别器,使之误以为是原始的图像;否则说明拆解效果较差,使得判别器“看出”了拆解图像与原始图像的明显差异;因此,从判别器得到的这个数值的相反数能够作为编解码器的判别损失函数本文档来自技高网
...

【技术保护点】
一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;2)数据处理将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络;4)损失定义根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;6)模型验证使用验证数据对训练得到的模型进行验证,测试其泛化性能。

【技术特征摘要】
1.一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;2)数据处理将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络;4)损失定义根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;6)模型验证使用验证数据对训练得到的模型进行验证,测试其泛化性能。2.根据权利要求1所述的一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,所述步骤2)包括以下步骤过程:2.1)将数据集中的图像在保持长宽比例不变的情况下缩放到较短的边为144像素大小;2.2)随机在缩放后的图像上裁剪得到长宽均为128像素大小的正方形图像;2.3)以0.5的概率随机水平翻转裁剪后的图像;2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。3.根据权利要求1所述的一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,所述步骤3)包括以下步骤过程:3.1)构造编码器模型编码器是用于从输入的混合图像中提取出高层的语义信息并保存到一个低维的编码中,编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码,为了实现从输入到输出的转换,编码器包含了多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活层组成,其中,卷积层设置卷积步长为2,在增大感受野的同时逐渐减小了图像的尺寸,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到了稳定和加速模型训练的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高了模型的描述能力;3.2)构造解码器模型解码器是用于从低维的编码中拆解并还原出反射图像和目标图像,解码器的输入为1024×4×4的低维编码,输出为6×128×128的复原图像,得到的复原图像能够简单地直接拆解为两张3×128×128的输出图像,这两张拆解得到的图像即为还原出来的反射图像和目标图像;为了实现低维编码到复原图像的转换,解码器包含了多个级联的上采样层,上采样层由串联的反卷积层、批量正则化层、以及非线性激活层组成,其中,反卷积层设置反卷积步长为2,起到了从低维编码放大图像尺寸的作用,批量正则化层和非线性激活层的作用与编码器中同样;3.3)构造判别器模型判别器是用于约束解码器的输出结果,使其输出更接近自然图像;判别器的输入是两张3×128×128的图像,输出为一个用于指示输入的类型的标量;判别器的结构与编码器一样,也由级联的下采样层组成,所不同的是,判别器的首层输入是由两张输入图像叠加得到的6×128×128的层叠图像,而输出则是单一的标量;输入判别器的两张图像能够是由编解码器拆解还原得到的反射图像和目标图像,也能够是从数据集中抽取得到的原始图像;判别器的作用是读取输入的两张图像,尽可能地区分出它们是复原后的图像还是原始图像;如果判断是原始图像,则判别器应该输出一个尽可能大的值;相反,如果判断是复原图像,则判别器应该输出一个尽可能小的值。4.根据权利要求1所述的一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:徐雪妙周乐
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1