当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于图像融合的多模态图像目标检测方法技术

技术编号:22296494 阅读:47 留言:0更新日期:2019-10-15 05:28
本发明专利技术涉及一种基于图像融合的多模态图像目标检测方法,包括:1)将预先采集好的红外图像及其可见光图像,制作多模态图像数据集;2)将预处理好的成对图像作为融合模型中生成模型G的输入;生成模型G基于U‑Net等全卷积网络,以残差网络为基础的卷积神经网络作为生成网络模型结构,包括收缩过程和扩张过程,收缩路径包括多个卷积加ReLU激活层再加最大池化(Max Pooling)结构,下采样的每一步特征通道数都增加一倍,输出生成的融合图像;融合图像输入融合模型中的判别网络模型;根据训练过程中损失函数的变化,按迭代次数调节学习率训练指标,经训练,基于自有多模态图像数据集,能够得到同时保留红外图像热辐射特征和可见光图像结构性纹理特征的图像融合模型。

A Multi-modal Image Target Detection Method Based on Image Fusion

【技术实现步骤摘要】
一种基于图像融合的多模态图像目标检测方法
本专利技术属于深度学习、计算机视觉和图像融合领域,涉及一种基于深度神经网络的红外-可见光的多模态图像融合模型和目标检测模型的目标检测方法。
技术介绍
在自然环境中,物体会辐射出人眼无法看到的不同频率的电磁波,称为热辐射[1]。使用红外传感器所拍摄出的红外图像,能够记录不同物体的热辐射。红外(InfraredImage,IR)图像相较于可见光(VisibleImage,VI)图像,具有如下特征:能够减少阳光,烟雾等外部环境的影响[1];对具有明显红外热特性的物体和区域敏感。目前红外图像中的目标检测任务应用较广,包括军事、电力、建筑等方向均有重要应用。然而,红外图像不具有较高的空间分辨率和较丰富的细节和明暗对比度,可见边缘和物体细节等往往不可见。红外传感器仅从一个方面获取信息,因此无法提供所有必需的信息。对于红外图像而言,利用图像融合技术,可以针对同一个目标得到的不同的图像,以最大化提取有用信息为目的,生成包含可见光图像中丰富的细节信息和红外图像中热信息的互补的融合图像[2],可作为目标检测这一高层视觉任务的基础;也可以应用于医疗影像、电力缺陷等具体应用任务之上。目标检测(ObjectDetection)是模式识别领域中一个基础性的研究课题,作为被检测物体的两种不同信息的表达方式,物体类别的获取和物体位置信息的采集是物体检测任务主要针对的两个问题,主要的评价指标是准确性和实时性。目标检测任务也逐渐由传统方法向深度学习方法转变,特别是RossB.Girshick教授R-CNN,FastR-CNN,FasterR-CNN这三项里程碑式的工作,开创了把深度学习方法应用于目标检测的先河,学界也开启了新的一轮基于深度学习方法的目标检测技术研究讨论和进展[4]。目标检测包括以下几个步骤,创建样本数据集(一般均包括正样本和负样本),选择和提取目标特征,训练检测器。图像数据集中包含相当大的数据量,可以处理原始的图像数据来得到和其他相比最符合其类别的特点,即提取其特征。可把维数较高的原始数据空间中表现出的模式,通过非线性特征提取方法进行降维,用于分类和检测。卷积神经网络(ConvolutionalNeuralNetwork,CNN)提供了一种端到端的学习模型,经过训练后的卷积神经网络能够较好的学习到图像中的特征,并且完成对图像特征的提取和分类。现有的红外和可见光图像融合方法,一般根据其采用的基础理论可主要分为七类。即多尺度变换,稀疏表示,神经网络和其他方法。基于多尺度变换的方法是图像融合中最活跃的领域,其假设图像由不同区域中的多个层组成。此类型方法将源图像分解为多个层,使用人工设计的特定规则分别融合相应的层,并相应地通过逆变换重建目标图像。用于图像分解和重建的常用变换,包括小波变换,图像金字塔,曲线波等方法。基于稀疏表示的方法,利用在超完备字典中具有稀疏基础的线性组合的图像的可能表示,来实现其融合。基于神经网络的方法,通过设计人工神经网络(ArtificialNeuralNetwork,ANN)来模仿人脑的感知行为处理神经信息,具有良好的适应性,容错性和抗噪声能力。综上所述,现有通用性红外和可见光图像融合方法各有优缺,因而综合以上的混合模型着力于具体应用需求,结合了特定方法的优点来提高图像融合性能。除上述外,现今学界亦有基于总变差,模糊理论和信息熵等理论的图像融合方法[3]。参考文献[1]MaJ,MaY,LiC.Infraredandvisibleimagefusionmethodsandapplications:asurvey[J].InformationFusion,2019,45:153-178.[2]王峰,程咏梅.基于Shearlet变换域改进的IR与灰度VIS图像融合算法[J].控制与决策,2017(4):703-708.[3]LiS,KangX,FangL,etal.Pixel-levelimagefusion:Asurveyofthestateoftheart[J].InformationFusion,2017,33:100-112.[4]ElguebalyT,BouguilaN.FiniteasymmetricgeneralizedGaussianmixturemodelslearningforinfraredobjectdetection[J].ComputerVisionandImageUnderstanding,2013,117(12):1659-1671.
技术实现思路
本专利技术的目的是提供一种可以提升小目标检测效果的多模态图像目标检测方法。本方法将图像融合网络作为目标检测模型的前序步骤,提出一种通用的适用于红外图像的目标检测方法,在获取同一目标的红外和可见光图像的基础上,将图像对通过融合模型生成同时具有红外和可见光图像特征的融合图像,再通过基于深度神经网络的目标检测模型对融合图像进行检测,从而克服单一红外传感器的缺少结构特征的问题,对检测结果的提升和实际工程应用有着重要意义。技术方案如下:一种基于图像融合的多模态图像目标检测方法,包括下列步骤:1)将预先采集好的红外图像及其可见光图像,制作多模态图像数据集,图像格式均为单通道,包含具有结构和纹理特征的可见光图像和具有热成像信息的红外图像,按照图像模态分别制作训练集和测试集。2)将步骤1得到的训练集中的红外和可见光的多模态图像对进行包括进行裁剪和旋转平移操作在内的图像预处理,将预处理好的成对图像作为融合模型中生成模型G的输入;生成模型G基于U-Net等全卷积网络,以残差网络为基础的卷积神经网络作为生成网络模型结构,包括收缩过程和扩张过程,收缩路径包括多个卷积加ReLU激活层再加最大池化(MaxPooling)结构,下采样的每一步特征通道数都增加一倍,输出生成的融合图像。3)将步骤2中得到生成模型G输出的融合图像输入融合模型中的判别网络模型D,判别网络模型D由一组孪生架构的卷积神经网络组成,对生成的融合图像进行无监督的质量评估,包括一组由交叉熵、重建误差、结构误差组成的损失函数,用以对融合图像和训练集中的原图像进行相似度丈量,来确定图像融合任务的完成度;同时优化生成网络G和判别网络D,方法为:输入训练集中原图像,更新G,误差变大;更新D,误差变小;更新G,重建误差变小,最终实现纳什均衡的动态平衡和同时优化;优化方法采用最小二乘的生成对抗方法。4)重复进行步骤3,根据训练过程中损失函数的变化,按迭代次数调节学习率训练指标.经训练,基于自有多模态图像数据集,能够得到同时保留红外图像热辐射特征和可见光图像结构性纹理特征的图像融合模型。5)在步骤1中构造的测试集中取红外和可见光的多模态图像对,输入到步骤4中训练得到的融合模型中,继而输出融合图像。再将得到的测试集,融合串联进基于深度卷积神经网络的检测模型,以在检测行人的红外热信息进行试例分析,得到行人的位置以及置信度。该方法根据红外图像和可见光图像分别具有的热辐射特性和结构化特性,基于图像融合技术,利用深度神经网络的生成对抗模型和深度目标检测算法,通过训练融合图像生成模型和检测模型,能够生成同时具有红外辐射和清晰结构的融合图像,将融合模型和检测模型混合串联,相较于单本文档来自技高网
...

【技术保护点】
1.一种基于图像融合的多模态图像目标检测方法,包括下列步骤:1)将预先采集好的红外图像及其可见光图像,制作多模态图像数据集,图像格式均为单通道,包含具有结构和纹理特征的可见光图像和具有热成像信息的红外图像,按照图像模态分别制作训练集和测试集。2)将步骤1得到的训练集中的红外和可见光的多模态图像对进行包括进行裁剪和旋转平移操作在内的图像预处理,将预处理好的成对图像作为融合模型中生成模型G的输入;生成模型G基于U‑Net等全卷积网络,以残差网络为基础的卷积神经网络作为生成网络模型结构,包括收缩过程和扩张过程,收缩路径包括多个卷积加ReLU激活层再加最大池化(Max Pooling)结构,下采样的每一步特征通道数都增加一倍,输出生成的融合图像;3)将步骤2中得到生成模型G输出的融合图像输入融合模型中的判别网络模型D,判别网络模型D由一组孪生架构的卷积神经网络组成,对生成的融合图像进行无监督的质量评估,包括一组由交叉熵、重建误差、结构误差组成的损失函数,用以对融合图像和训练集中的原图像进行相似度丈量,来确定图像融合任务的完成度;同时优化生成网络G和判别网络D,方法为:输入训练集中原图像,更新G,误差变大;更新D,误差变小;更新G,重建误差变小,最终实现纳什均衡的动态平衡和同时优化;优化方法采用最小二乘的生成对抗方法;4)重复进行步骤3,根据训练过程中损失函数的变化,按迭代次数调节学习率训练指标.经训练,基于自有多模态图像数据集,能够得到同时保留红外图像热辐射特征和可见光图像结构性纹理特征的图像融合模型;5)在步骤1中构造的测试集中取红外和可见光的多模态图像对,输入到步骤4中训练得到的融合模型中,继而输出融合图像;再将得到的测试集,融合串联进基于深度卷积神经网络的检测模型,以在检测行人的红外热信息进行试例分析,得到行人的位置以及置信度。...

【技术特征摘要】
1.一种基于图像融合的多模态图像目标检测方法,包括下列步骤:1)将预先采集好的红外图像及其可见光图像,制作多模态图像数据集,图像格式均为单通道,包含具有结构和纹理特征的可见光图像和具有热成像信息的红外图像,按照图像模态分别制作训练集和测试集。2)将步骤1得到的训练集中的红外和可见光的多模态图像对进行包括进行裁剪和旋转平移操作在内的图像预处理,将预处理好的成对图像作为融合模型中生成模型G的输入;生成模型G基于U-Net等全卷积网络,以残差网络为基础的卷积神经网络作为生成网络模型结构,包括收缩过程和扩张过程,收缩路径包括多个卷积加ReLU激活层再加最大池化(MaxPooling)结构,下采样的每一步特征通道数都增加一倍,输出生成的融合图像;3)将步骤2中得到生成模型G输出的融合图像输入融合模型中的判别网络模型D,判别网络模型D由一组孪生架构的卷积神经网络组成,对生成的...

【专利技术属性】
技术研发人员:侯春萍夏晗杨阳莫晓蕾徐金辰
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1