一种基于可变形卷积神经网络的红外图像物体识别方法技术

技术编号:19009475 阅读:24 留言:0更新日期:2018-09-22 09:18
本发明专利技术公开了一种基于可变形卷积神经网络的红外图像物体识别方法,包括构建训练集与测试集,搭建卷积神经网络架构,在最后一层加上softmax分类器,设置目标函数,采用线性或非线性变形的卷积核进行采样并在池化层采用目前业界最好的基于规则块采样的兴趣区域(region of interests,ROI)池化方法进行池化操作;按经验设置学习率参数,能很容易进行标准反向传播端到端的训练,从而得到可变形卷积网络。经实验证明,本发明专利技术在卷积神经网络中引入了学习空间几何形变的能力,更好地解决了具有空间形变的图像识别任务。提高了卷积神经网络的几何变换建模的能力,在目标检测和识别这些视觉任务上的有效性,成功学习到空间上密集的几何形变。

A method of infrared image object recognition based on deformable convolution neural network

The invention discloses an infrared image object recognition method based on deformable convolution neural network, which includes constructing training set and test set, constructing convolution neural network framework, adding soft Max classifier at the last layer, setting object function, sampling with linear or nonlinear deformable convolution kernel and adopting pooling layer. At present, the best region of interest (ROI) pooling method based on rule block sampling is pooling operation; setting learning rate parameters according to experience, it is easy to carry out end-to-end training of standard back-propagation, thus obtaining deformable convolution network. Experiments show that the invention introduces the ability of learning spatial geometric deformation in convolution neural network, and better solves the image recognition task with spatial deformation. The geometric transformation modeling ability of convolutional neural network is improved, and the validity of object detection and recognition is improved. The dense geometric deformation in space is successfully learned.

【技术实现步骤摘要】
一种基于可变形卷积神经网络的红外图像物体识别方法
本专利技术涉及人机交互、计算机视觉领域及物体识别领域,更具体地,涉及一种基于可变形卷积神经网络的红外图像物体识别方法。
技术介绍
体识别是计算机视觉中一个十分重要的研究领域,包含人脸识别、手写体数字识别、手势识别以及物体识别等,可以广泛地应用于人机交互、图像分类以及图像检索等领域。衡量一个物体识别系统好坏的两个主要指标为:识别率核识别速度。一般情况而言,识别率越高意味着识别速度相对较慢,而识别速度越快意味着识别率相对较低。因此,如何权衡而这的利弊一直是物体识别领域一个不可回避的问题。物体识别系统主要包含特征提取、分类器判别等两个方面。近年来,卷积神经网络算法的发展极大地提高了物体识别技术的正确率,大部分已存在的卷积神经网络的深度结构改进方法大都趋向于调优网络的宽度与深度、改进激励函数、设计多样的卷积操作等等。2015年Simonyan和Zisserman提出VGG卷积神经网络,他们通过研究卷积神经网络的深度与大尺度图片识别精度的关系,提出了一个更深的卷积神经网络架构。通过调优网络的宽度与深度,达到了最当时最好的性能。2014年Min等人提出了一种深度网络结构叫做NIN卷积神经网络。在该网络结构中,作者引入了1*1的卷积操作,通过级联两层这样的卷积层,实现了多层感知器的功能,在拉深网络深度,调优网络宽度的同时,实现了当时最优的分类性能。基于卷积神经网络的物体识别算法中,特征提取占据了物体识别的大部时间,特征提取的精确度也决定着算法的性能。然而上述方法的特征提取的精确度依然存在不可忽视的局限性。这些局限来自于卷积网络的基本构成单元,即卷积操作。该操作在输入图像的每个位置进行基于规则格点位置的采样,然后对于采样到的图像值做卷积并作为该位置的输出。为了削弱这个限制,本专利对卷积核中每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点。本专利技术扩展后的卷积操作称为可变形卷积。
技术实现思路
本专利技术的目的是解决上述一个或多个缺陷,提出一种基于可变形卷积神经网络的红外图像物体识别方法。为实现以上专利技术目的,采用的技术方案是:一种基于可变形卷积神经网络的红外图像物体识别方法,包括以下步骤:S1:收集数据库样本并设定训练集与测试集,其中数据库样本采用COCO、PASCALVOC并设定类别和每一个类别在分类器中的编码,构建训练集;S2:搭建卷积神经网络架构,通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构;S3:在卷积层采用可变形卷积核进行采样,通过加入一个额外的卷积层来学习offset偏移量,共享输入特征图,然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层,此时可变形卷积层采样点发生偏移,再进行卷积;S4:在池化层采用可变形兴趣区域进行池化操作,其中ROI被分为n*n个bin,被输入到一个额外的全连接层学习offset,然后通过一个可变形兴趣区域池化层使每个bin发生偏移;S5:在卷积神经网络的最后一层加上softmax分类器并设置目标函数;S6:设置学习率参数,采用后向传播算法,使用训练集训练卷积神经网络模型一次,使用的得到的训练后的模型去识别测试集数据,统计整体识别率;S7:重复步骤S6,直到目标函数值完全收敛,识别率不再提高为止,此时网络参数训练完毕,得到可变形卷积神经网络模板,即红外图像物体识别系统;S8:应用该系统进行红外图像识别。其中步骤S1所述测试集为南方电网xx设备拍摄的变电站设备红外图像。其中步骤S3所述训练得到的offset偏移量包括通过外加offsetfield来训练卷积窗口的形状,卷积窗口在offsetfield上滑动就呈现了卷积像素偏移的效果,达到采样点优化的效果,其中采样公式为其中p0指特征图上的任意像素值,pn指在卷积核中位置相应的值,Δpn指卷积核发生的位移量。接着,网络按照不规则的偏移量(pn+Δpn)采样;又因为Δpn通常是不连续的,此处采用双线性插值,插出每个点的像素值。其中所述offsetfield的大小与输入层图片大小一致。其中步骤S4所述ROI被分为3*3个bin。其中步骤S4所述池化操作中池化公式为p0是ROI左上角的点,nij(i行,j列)是固定大小bin里的总像素数,同样采用双线性插值,插出每个点的像素值。其中步骤S5所述目标函数为计算所得值与目标标签值的差的平方。与现有技术相比,本专利技术的有益效果是:本专利技术提出了可变形卷积神经网络,通过端到端的自学习自适应过程,得到最优的池化模板值,有效地提取了更感兴趣的特征,进而提升了物体识别的性能。同时,该方法在池化层模板扫描特征图个数保持不变,只增加少量关于偏移量的参数和计算,能保证在计算速度略有下降的情况下,提升识别性能。附图说明图1为本专利技术的流程图;图2为本专利技术所提可变形卷积核示意原理图;图3为本专利技术可变形卷积采样示意原理图;图4为本专利技术可变形兴趣区域池化示意原理图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1一种基于可变形卷积神经网络的红外图像物体识别方法,如图1所示,包括以下步骤:S1:收集数据库样本并设定训练集与测试集,训练集采用COCO,该数据集图像包括91类目标,328,000影像和2,500,000个label。并设定每一类别在分类器中的编码,例如三类物体汽车、猴子、盆栽分别编码为100、010和001。测试集采用变电站设备的红外图像。S2:搭建卷积神经网络架构,通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构;S3:在卷积层采用可变形卷积核进行采样,通过加入一个额外的卷积层来学习offset偏移量,共享输入特征图,然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层,此时可变形卷积层采样点发生偏移,再进行卷积;在此我们有两组参数需要训练:滤波器权重和offset位移偏移量。首先根据原始卷积核的大小初始化一个常规卷积核,在本实例中应用一个3×3的卷积核。对于传统的卷积窗口偏移向量是这样的:R={(-1,-1),(-1,0),...,(0,1),(1,1)}典型的9点方格,中间向8个方向偏移8个点。在本专利技术中引入位移偏移量后,卷积输出的公式为:其中p0指特征图上的任意像素值,pn指在卷积窗口中的每个像素点,Δpn指卷积窗口中的每个像素点发生的位移量,x是输入层像素点集合。接着,网络按照不规则的偏移量(pn+Δpn)采样;又因为Δpn不是整数像素,而是一个不连续的高精度的小数,不能直接获取像素坐标,此处采用双线性插值,插出每个点的像素值。本实例中的双线性插值本质上就是找到小数的pn所在的图像周围4像素的格点,进行双向的线性差值。其中p=p0+pn+Δpn,指二维空间中的任意位置,q指输入图像中的任意像素点,G指双线性插值的核函数,它可由两个一维的线性差值矢量相乘得到:G(q,p)=g(qx,px)·g(qy,py)其中g(a,b)为一维线性差值函数:g(a,b)=max(0,1-|a-b|)如图2所示,可变形卷积单元中增加的偏移量是网络结构的一部分,把原来的卷积过程本文档来自技高网
...
一种基于可变形卷积神经网络的红外图像物体识别方法

【技术保护点】
1.一种基于可变形卷积神经网络的红外图像物体识别方法,其特征在于,包括以下步骤:S1:收集数据库样本并设定训练集与测试集,其中数据库样本采用COCO、PASCAL VOC并设定类别和每一个类别在分类器中的编码,构建训练集;S2:搭建卷积神经网络架构,通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构;S3:在卷积层采用可变形卷积核进行采样,通过加入一个额外的卷积层来学习offset偏移量,共享输入特征图,然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层,此时可变形卷积层采样点发生偏移,再进行卷积;S4:在池化层采用可变形兴趣区域进行池化操作,其中ROI被分为n*n个bin,被输入到一个额外的全连接层学习offset,然后通过一个可变形兴趣区域池化层使每个bin发生偏移;S5:在卷积神经网络的最后一层加上softmax分类器并设置目标函数;S6:设置学习率参数,采用后向传播算法,使用训练集训练卷积神经网络模型一次,使用的得到的训练后的模型去识别测试集数据,统计整体识别率;S7:重复步骤S6,直到目标函数值完全收敛,识别率不再提高为止,此时网络参数训练完毕,得到可变形卷积神经网络模板,即红外图像物体识别系统;S8:应用该系统进行红外图像识别。...

【技术特征摘要】
1.一种基于可变形卷积神经网络的红外图像物体识别方法,其特征在于,包括以下步骤:S1:收集数据库样本并设定训练集与测试集,其中数据库样本采用COCO、PASCALVOC并设定类别和每一个类别在分类器中的编码,构建训练集;S2:搭建卷积神经网络架构,通过交迭若干个卷积层和池化层设置卷积神经网络的深度与宽度架构;S3:在卷积层采用可变形卷积核进行采样,通过加入一个额外的卷积层来学习offset偏移量,共享输入特征图,然后把输入特征图和训练得到的offset偏移量共同作为可变形卷积层的输入层,此时可变形卷积层采样点发生偏移,再进行卷积;S4:在池化层采用可变形兴趣区域进行池化操作,其中ROI被分为n*n个bin,被输入到一个额外的全连接层学习offset,然后通过一个可变形兴趣区域池化层使每个bin发生偏移;S5:在卷积神经网络的最后一层加上softmax分类器并设置目标函数;S6:设置学习率参数,采用后向传播算法,使用训练集训练卷积神经网络模型一次,使用的得到的训练后的模型去识别测试集数据,统计整体识别率;S7:重复步骤S6,直到目标函数值完全收敛,识别率不再提高为止,此时网络参数训练完毕,得到可变形卷积神经网络模板,即红外图像物体识别系统;S8:应用该系统进行红外图像识别。2.根据权利要求1所述的一种基于可变形卷积神经网络的红外图像物体识别方法,其特征在于,步骤S1所...

【专利技术属性】
技术研发人员:肖立军廖志伟邹国惠裴星宇万新宇李晨熙韩玉龙吴伟力覃佳奎姜媛
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司珠海供电局
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1