一种可变形活体小目标的深度学习智能识别方法技术

技术编号:24093625 阅读:29 留言:0更新日期:2020-05-09 09:13
本发明专利技术涉及一种可变形活体小目标的深度学习智能识别方法,属于机器人视觉及其智能识别技术领域;本发明专利技术将可变形卷积模块和可变形ROI池化模块与Faster R‑CNN进行合理的结合,使用可变形网络的可变形卷积模块和可变形ROI池化模块对模型进行改进,对标准卷积的空间取样点和普通ROI池化加入二维甚至高维偏移,使得卷积的取样点发生形状变化,提高改进后模型的可变形特性,改进模型提高了对可变形目标的检测识别效果;考虑对不同层的特征图进行融合,对底层特征图池化处理降低分辨率,对高层特征逆卷积处理提高分辨率,然后融合低、中、高三层特征图;同时考虑增加一组小尺度预选框,增加小目标预选框的生成数量,改进模型提高了对小目标的检测识别效果。

A deep learning intelligent recognition method for small deformable living objects

【技术实现步骤摘要】
一种可变形活体小目标的深度学习智能识别方法
本专利技术涉及一种可变形活体小目标的深度学习智能识别方法,属于机器人视觉及其智能识别

技术介绍
机器人视觉及其智能识别技术,是机器人获取外界信息的最主要手段之一,目前已广泛用于机器人领域的探测、目标跟踪、作业等多个领域。然而,随着技术的变革和人们对系统效能提升的需要,视觉智能技术不仅需要机器人针对不同场景对小尺度目标进行检测和识别,而且需要可变形的活体目标进行视觉检测和识别。针对可变形活体目标检测困难的问题,当前主要有两类解决方法。第一类是建立一个目标拥有足够多的变化形状的训练集,这种方法主要通过增广已有数据实现。这种方法主要通过消耗大量的训练和复杂的模型参数来实现鲁棒性的检测可变形目标。第二类方法是使用具有变换不变性的特征和算法,这一类方法包含很多经典算法如SIFT即scaleinvariantfeaturetransform和基于滑窗的目标检测范例。然而,上述提及的方法存在这两个缺点。首先,几何变换是固定且已知的,这个先验知识被用来设计增广数据和设计特征和算法,然而,对于活体目标,其形状的变换有多种形式,而增广得到的目标形态是有限的,因此这种方法对与那些未增广到的形态就无法处理其未知的几何变换。第二,对于过分复杂的变换,即使变换已知,人为地设计不变特征和算法也是难以实现和不可行的。
技术实现思路
本专利技术的目的是为了提高对可变形目标的检测效果而提供一种可变形活体小目标的深度学习智能识别方法。本专利技术的目的是这样实现的,一种可变形活体小目标的深度学习智能识别方法,具体包括以下步骤:步骤1.可变形卷积模块替换基础卷积单元:对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;步骤2.可变形ROI池化模块替换ROI池化层:对普通ROI即RegionofInterest池化在每一个方格的位置添加一个二维甚至高维偏移,以改善卷积神经网络可变形能力,得到可变形卷积网络,提高卷积神经网络对可变形目标的检测和识别能力;步骤3.针对小目标的检测和识别,用一种基于逆卷积和多层特征融合的结构对FasterR-CNN模型进行改进,使小目标预选框获得的信息量更丰富;步骤4.在FasterR-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归,对锚点机制改进,在锚点中增加一组小尺度预选框,使RPN可生成更多的小目标预选框,提高对小目标的检测和识别效果。本专利技术还包括这样一些结构特征:1.所述可变形卷积网络中包含可变形卷积模块、可变形ROI池化模块和可变形位置敏感的ROI池化模块;卷积神经网络中的卷积和特征图都是三维的,可变形卷积是在二维空间域操作的,在不同的通道维度之间,可变形卷积操作都是相同的。2.所述步骤1是对可变形卷积的二维操作描述,具体包括对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;偏移量通过对同一个输入特征图进行卷积操作得到,卷积操作的卷积核和之前卷积层保持同样的分辨率和膨胀值;输出的偏移域与输入的特征图有相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应卷积每个取样位置的二维的偏移,在训练中,生成输出特征图的卷积核和生成偏移域的卷积核同时进行学习,为学习得到偏移域,梯度是通过下面两公式的双线性操作反向运算得到:式中,p表示任意的取样点位置,在可变形ROI池化模块中梯度相对偏移量Δpij的计算公式中,p=p0+pn+Δpn,q表示输入特征图In中的所有整型空间遍历点,G(.,.)表示双线性插值核,g(a,b)=max(0,1-|a-b);在可变形卷积公式中,梯度相对于偏移量Δpn的计算公式为:式中,可通过公式G(q,p)=g(qx,px)·g(qy,py)求导得出,注意到Δpn是一个二维量,为了简化,我们使用来替代和3.所述步骤2对ROI池化层的可变形ROI池化操作是在二维空间域操作的,在不同的通道维度之间,可变形ROI池化操作都是相同的,可变形ROI池化操作具体包括对普通ROI池化在每一个方格的位置添加了一个二维甚至高维偏移,以改善卷积神经网络可变形能力,提高卷积神经网络对可变形目标的检测和识别能力;首先使用ROI池化操作得到池化后的特征图;然后在特征图后面接一个全连接层得到归一化的偏移量;最后这个归一化的偏移量通过与感兴趣区域宽和高的元素乘积;偏移量的规范化对于偏移量学到对感兴趣区域大小的不变性是必不可少的,后接的全连接层的参数将通过反向传播算法得到;在可变形ROI池化模块中,梯度相对偏移量Δpij的值可计算为:4.所述可变形卷积网络可对FasterR-CNN网络改进,改进分为两个阶段,第一阶段是一个全卷积网络对输入图片生成特征图,修改版的VGG16网络为了提取特征,去掉了卷积单元后续的一个最大池化层、两个4096单元全连接层和一个1000单元全连接层;将可变形卷积应用于最后一个卷积单元,即conv5_1,conv5_2和conv5_3这三个卷积层。第二阶段是一个轻型的基于任务的网络基于输入特征图而生成结果;FasterR-CNN网络的分类回归部分,主要是使用RPN网络生成预选框,然后预选框和特征图输入到FastR-CNN网络,首先ROI池化层对边框进行ROI池化得到特征,加两个1024维的全连接层,最后接两个平行的分支,分别是目标回归和分类,得到最终结果。5.步骤3所述用一种基于逆卷积的结构对FasterR-CNN模型进行改进具体包括在卷积神经网络中插入逆池化层;为了应用逆池化层,首先在池化操作的时候记录下最大激活值的位置;然后反池化的时候将激活值返回其池化时的位置,其余位置则全设为零;最后我们还需要对逆卷积的输出特征图进行裁剪,以使逆卷积处理后特征图的分辨率与逆池化输出特征图的分辨率保持一致。6.步骤3所述用多层特征融合的结构对FasterR-CNN模型进行改进具体包括首先针对特征信息不足的情况对特征进行融合处理,然后再对多个感兴趣区域进行ROI池化,这样就只需要一次特征融合和一次归一化,节省了重复计算的时间;其次针对感兴趣区域较小的情况,将对最后一层特征做逆卷积处理,对第三层特征最大池化处理,最后再将三个特征图进行融合。与现有技术相比,本专利技术的有益效果是:本专利技术设计了一种可变形活体小目标的深度学习智能识别方法,该专利技术针对可变形活体小目标的特点,将可变形卷积模块和可变形ROI池化模块与FasterR-CNN进行合理的结合,其中可变形卷积模块用来替换基础卷积单元,可变形ROI池化模块用来替换ROI池化层,可变形卷积和可变形ROI池化模块的引入,能使检测模型的采样能随着检测目标形状的变化而变化,从而提高了对可变形目标的检测效果。使用逆卷积和多层特征融合对FasterR-CNN模型进行改进,逆卷积和多层特征融合使得小目标预选框获得的信息量更丰富,对锚点机制的改进是使得RPN可以生成更多的小目标预选框。同时基于逆卷积和多层特征融合的方法对小目标的检测既有高层本文档来自技高网...

【技术保护点】
1.一种可变形活体小目标的深度学习智能识别方法,其特征在于,具体包括以下步骤:/n步骤1.可变形卷积模块替换基础卷积单元:对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;/n步骤2.可变形ROI池化模块替换ROI池化层:对普通ROI即Region of Interest池化在每一个方格的位置添加一个二维甚至高维偏移,以改善卷积神经网络可变形能力,得到可变形卷积网络,提高卷积神经网络对可变形目标的检测和识别能力;/n步骤3.针对小目标的检测和识别,用一种基于逆卷积和多层特征融合的结构对FasterR-CNN模型进行改进,使小目标预选框获得的信息量更丰富;/n步骤4.在Faster R-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归,对锚点机制改进,在锚点中增加一组小尺度预选框,使RPN可生成更多的小目标预选框,提高对小目标的检测和识别效果。/n

【技术特征摘要】
1.一种可变形活体小目标的深度学习智能识别方法,其特征在于,具体包括以下步骤:
步骤1.可变形卷积模块替换基础卷积单元:对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;
步骤2.可变形ROI池化模块替换ROI池化层:对普通ROI即RegionofInterest池化在每一个方格的位置添加一个二维甚至高维偏移,以改善卷积神经网络可变形能力,得到可变形卷积网络,提高卷积神经网络对可变形目标的检测和识别能力;
步骤3.针对小目标的检测和识别,用一种基于逆卷积和多层特征融合的结构对FasterR-CNN模型进行改进,使小目标预选框获得的信息量更丰富;
步骤4.在FasterR-CNN网络中,RPN网络被用来生成预选框,然后算法对这些预选框进行分类和回归,对锚点机制改进,在锚点中增加一组小尺度预选框,使RPN可生成更多的小目标预选框,提高对小目标的检测和识别效果。


2.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述可变形卷积网络中包含可变形卷积模块、可变形ROI池化模块和可变形位置敏感的ROI池化模块;卷积神经网络中的卷积和特征图都是三维的,可变形卷积是在二维空间域操作的,在不同的通道维度之间,可变形卷积操作都是相同的。


3.根据权利要求1所述一种可变形活体小目标的深度学习智能识别方法,其特征在于:所述步骤1是对可变形卷积的二维操作描述,具体包括对标准卷积的空间取样点加入二维甚至高维偏移,使卷积的取样点发生形状变化;偏移量通过对同一个输入特征图进行卷积操作得到,卷积操作的卷积核和之前卷积层保持同样的分辨率和膨胀值;输出的偏移域与输入的特征图有相同的空间分辨率,偏移域的通道数是输入特征图通道数的两倍,这对应卷积每个取样位置的二维的偏移,在训练中,生成输出特征图的卷积核和生成偏移域的卷积核同时进行学习,为学习得到偏移域,梯度是通过下面两公式的双线性操作反向运算得到:



G(q,p)=g(qx,px)·g(qy,py)
式中,p表示任意的取样点位置,在可变形ROI池化模块中梯度相对偏移量Δpij的计算公式中,p=p0+pn+Δpn,q表示输入特征图In中的所有整型空间遍历点,G(.,.)表示双线性插值核,g(a,b)=max(0,1-|a-b|);
在可变形卷积公式中,梯度相对于偏移量Δpn的计算公式为:



式中,可通过公式G(q,p)=g(qx,px)·g(qy,py)求导得出,注意到Δpn是一个二维量,为了简化,我们使用来替代和


4.根据权利要求1所述一种可变形活体小...

【专利技术属性】
技术研发人员:黄海靳佰达万兆亮周浩石晓婷吴晗梅洋
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1