明度一致性学习的图像融合方法技术

技术编号:19747303 阅读:31 留言:0更新日期:2018-12-12 05:05
本发明专利技术公开了一种明度一致性学习的图像融合方法,该方法采用无监督式的深度学习方法,使用基于生成器‑对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,维持了前景部分的固有语义,同时通过加入背景覆盖层,确保背景外观保持不变,得到了具有真实感与明暗一致性的图像融合结果,并解决了传统图像融合技术中固有语义丢失的问题。

【技术实现步骤摘要】
明度一致性学习的图像融合方法
本专利技术涉及图像合成
,尤其是一种明度一致性学习的图像融合方法,使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得具有真实感与明暗一致性的融合效果。
技术介绍
图像融合问题是将前景图像与背景图像进行融合,目前,图像融合问题的关键技术中,主要的难点是在维持前景目标的固有特征的前提下,使融合后的图像具有光照、纹理等方面的一致性。现有的图像融合技术可分为基于梯度场的图像融合方法和基于多分辨率的图像融合方法等。基于梯度场的图像融合方法的主要思想是:在前景图像与背景图像的梯度场中对图像融合问题进行求解,该方法将前景图像的梯度场作为融合区域的引导场,目的是保持原图像的梯度场,从而维持前景图像的原始梯度特征。随着技术的发展,人们通过将融合区域与背景图像在边界处的颜色一致作为限制条件,保证了融合区域边界处的平滑性,并将问题转化为对泊松方程的求解。该方法虽然能够实现无缝的图像融合效果,但当边界处的颜色变化较大时,会产生渗色问题。随着图像融合技术的发展,在泊松融合方法基础上,出现了GrabCut分割方法,在给定的区域边界与前景目标的边界之间求解最优的融合边界,从而改善了图像融合的效果。目前,泊松融合方法存在的问题是,仅保留了前景图像的梯度场,即相对变化特征,而忽视了前景图像的色调、明暗等其他原始特征。这导致在前景与背景图像颜色差别较大时,融合后的前景图像的色调与原始图像会有较大的差别,破坏了前景图像的部分语义信息。基于多分辨率的图像融合方法利用图像在不同尺度下的信息,将图像表示为多分辨率金字塔的形式,在金字塔各层上进行前景与背景的融合,并结合各层的融合信息得到最终的融合结果。基于多分辨率的图像融合方法,较好地保证了原图像与目标图像在纹理和对比度等外观特征上的一致性。同时,在各层处理时可以采用一系列优化方法,避免融合图像出现明显的合成痕迹。基于多分辨率的图像融合方法在不同尺度下对图像进行融合,能够获得具有纹理与对比度一致性的融合结果,但在复杂的自然图像中,其不能取得较满意的结果。基于现有的融合技术研究中存在的问题,亟待一种外观一致性的融合方法,以满足实际应用的需要。
技术实现思路
本专利技术的目的是针对现有技术的不足,并针对图像融合现有技术中存在的实际问题,提出一种有效的明度一致性深度学习策略,可以实现外观一致性图像融合,设计了基于Lab颜色空间的图像融合策略,实现前景色调的保留,并使用基于生成器-对抗器网络结构(GAN)的深度学习模型对图像的明度通道进行预测,保证了融合区域的明暗一致性,获得了具有真实感与明暗一致性的融合效果。实现本专利技术目的的具体技术方案是:一种明度一致性学习的图像融合方法,特点是:该方法输入图像分辨率为Nt×Nt;Nt为224、448或者896,其图像融合包括以下具体步骤:步骤1:构建合成场景数据库DatabaseF及真实样本数据库DatabaseR图像融合问题采用GAN模型的网络结构对融合区域明度的学习和预测,需要建立DatabaseF及DatabaseR.具体地利用前景目标与背景图像合成策略构建DatabaseF,进一步在GAN生成模型中,利用DatabaseF的数据,对空洞区域明度的规律进行学习,同时,在GAN判别模型中,利用DatabaseR中真实样本作指导,以确保明度规律的预测能够符合真实场景的光照规律;(a)DatabaseF构建从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像,并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:式中是其中的前景图像;从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,NF-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为产生前景图像缩放因子s∈[0.5,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像作为网络的输入数据;进一步按照上述方法生成NS组数据,构建成DatabaseF,其中4364≤NS≤10000;(b)真实样本DatabaseR构建在SUN2012数据集中现有的16873张自然场景中,除去步骤(a)使用过的背景图像,从剩余的自然场景的图像中取出12000张,作为真实样本DatabaseR的数据;步骤2:构建图像融合神经网络F-NetF-Net结构与流程:F-Net采用生成式对抗网络(GAN)结构,将F-Net设计为三层架构:明度生成器子网络L-net、背景覆盖层、通道合并,在F-Net中采用Lab颜色空间对图像进行融合;F-Net的设计按照以下流程进行:(1)从DatabaseF中选取图像Iin输入F-Net,先对Iin转换为Lab颜色空间,然后进行通道分离,获取的ab通道为信息Ia和Ib,同时分离出来的明度通道信息为Lin;(2)将Iin输入到F-Net,先进入L-net,明度预测,得到明度图像L;(3)在背景覆盖层中对L的背景区的明度用Lin进行覆盖,其输出新的明度图像L′;(4)在通道合并处理中,L′图像的通道与Ia、Ib图像的通道进行合并,进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像,作为F-Net网络的输出;F-Net设计;输入是图像Iin,其张量形状为Nt×Nt×4,输出是3通道的彩色图像,输出为融合后的结果图像,张量形状为Nt×Nt×3;对于L-net、背景覆盖层、通道合并三部分结构:(1)L-net输入是Iin,输出L,张量形状为Nt×Nt×1;(2)背景覆盖层,输入是L及前景目标的掩模,输出是背景覆盖更新的张量L′,张量形状为Nt×Nt×1;(3)通道合并,输入L′和Ia、Ib,输出三个通道Lab空间的彩色图像;(a)L-net结构采用U-net架构,编码器及解码器均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;(1)编码器共有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用LeakyRelu激活函数;第1层卷积核个本文档来自技高网
...

【技术保护点】
1.一种明度一致性学习的图像融合方法,其特征在于,该方法输入图像分辨率为Nt×Nt;Nt为224、448或者896,其图像融合包括以下具体步骤:步骤1:构建合成场景数据库DatabaseF及真实样本数据库DatabaseR(a)DatabaseF构建从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:

【技术特征摘要】
1.一种明度一致性学习的图像融合方法,其特征在于,该方法输入图像分辨率为Nt×Nt;Nt为224、448或者896,其图像融合包括以下具体步骤:步骤1:构建合成场景数据库DatabaseF及真实样本数据库DatabaseR(a)DatabaseF构建从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:式中是其中的前景图像;从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再在[0,NF-1]之间生成1个随机的前景图像序号RF,从前景图像集合SF中按照RF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为产生前景图像缩放因子s∈[0.5,1.0],将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像作为网络的输入数据;进一步按照上述方法生成NS组数据,构建成DatabaseF,其中4364≤NS≤10000;(b)真实样本DatabaseR构建在SUN2012数据集中现有的16873张自然场景中,除去步骤(a)使用过的背景图像,从剩余的自然场景的图像中取出12000张,作为真实样本DatabaseR的数据;步骤2:构建图像融合神经网络F-NetF-Net结构与流程:F-Net采用生成式对抗网络(GAN)结构,将F-Net设计为三层架构:明度生成器子网络L-net、背景覆盖层、通道合并,在F-Net中采用Lab颜色空间对图像进行融合;F-Net的设计按照以下流程进行:(1)从DatabaseF中选取图像Iin输入F-Net,先对Iin转换为Lab颜色空间,然后进行通道分离,获取的ab通道为信息Ia和Ib,同时分离出来的明度通道信息为Lin;(2)将Iin输入到F-Net,先进入L-net,明度预测,得到明度图像L;(3)在背景覆盖层中对L的背景区的明度用Lin进行覆盖,其输出新的明度图像L′;(4)在通道合并处理中,L′图像的通道与Ia、Ib图像的通道进行合并,进一步将Lab色彩空间合并结果转换为RGB三通道的彩色图像,作为F-Net网络的输出;F-Net设计;输入是图像Iin,其张量形状为Nt×Nt×4,输出是3通道的彩色图像,输出为融合后的结果图像,张量形状为Nt×Nt×3;对于L-net、背景覆盖层、通道合并三部分结构:(1)L-net输入是Iin,输出L,张量形状为Nt×Nt×1;(2)背景覆盖层,输入是L及前景目标的掩模,输出是背景更新的张量L′,张量形状为Nt×Nt×1;(3)通道合并,输入L′和Ia、Ib,输出三个通道Lab空间的彩色图像;(a)L-net结构...

【专利技术属性】
技术研发人员:全红艳沈卓荟
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1