当前位置: 首页 > 专利查询>吉林大学专利>正文

基于嵌入平衡的可变形卷积混合任务级联语义分割方法技术

技术编号:24332338 阅读:81 留言:0更新日期:2020-05-29 20:16
本发明专利技术设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割,包含:将裁剪后的图像输入到已预训练的神经网络中;通过特征金字塔网络将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取,得到特征图;将特征图划分为相同大小的部分,将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。本发明专利技术提高语义分割定位的精准度及分割的精确度。

Hybrid task level semantic segmentation of deformable convolution based on embedding balance

【技术实现步骤摘要】
基于嵌入平衡的可变形卷积混合任务级联语义分割方法
本专利技术设计了一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,用于实现图像目标识别和语义的分割。
技术介绍
传统语义分割中将语义分割任务定义为将图像分为几个不相交的部分,且这些部分有着各自的语义,即分割出的部分仅包含一类目标或物体。传统语义分割中,基于用户交互的语义分割方法有大量的研究工作。该类方法往往通过用户选定一个区域,再通过其它区域与选定区域的颜色相似性、纹理相似性以及边缘特征来作为这些区域的连接权重,最后使用条件随机场(ConditionalRandomFields,CRF)或者图割(Graph-Cut)的方式来对图像进行分割,这类方法中的很多思想依旧被沿用,且很多制图软件中仍在使用。但这类方法存在一定弊端:对于图像中存在多个目标时,需要人为参与,自适应性较低。另外一类方法为非参数方法,这类方法通常通过检索的方式去将需要分割的图像或图像中的一部分与数据集中的图像进行匹配,再将数据集中的标签迁移到目标图像的分割图像中,最后经过一系列后处理如马尔科夫随机场(MarkovRandomField,MRF)得到最终的分割图像。这类方法虽不需人工参与,但匹配的结果优劣与数据集的多样性相关,也与匹配的方式有很大的关系。在目标检测方法如可变形部件模型(DeformablePartModel,DPM)的出现后,很多方法开始尝试先使用低层特征如颜色和纹理来获得图像中的联通区域,再使用检测的方法来对图像中的目标进行检测,最后结合图像中每个像素位置的检测结果以及图像的联通区域来获得语义分割的结果。随着诸如智能手机以及平板电脑等智能终端的普及,以及对应的低功耗芯片的运算能力的增强,对于效果好且占用资源少的计算机视觉技术的需求将越来越大。
技术实现思路
本专利技术的目的为了提高语义分割定位的精准度及分割的精确度,提出了基于深度学习的图像计算机视觉处理方法。本专利技术采用如下技术方案:一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,所述方法包含:将裁剪后的图像输入到已预训练的神经网络中;通过特征金字塔网络的采用3×3卷积核和池化操作,对输入的图像进行降维处理;对低级特征映射进行上采样,将高级特征映射下采样,并将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。进一步地,对所述区域候选网络进行训练过程中,采用平衡的L1损失函数,调整多个任务各自L1损失函数的权重,所述多个任务包括目标检测、与候选框生成。进一步地,训练过程中需导入样本,根据重叠度平衡采样,通过间隔采样将可变形感兴趣区域均匀地分成K个区间,并将N个困难样本平均分配到上述每个区间,然后从中均匀地选取样本区间。进一步地,将特征图输入到区域候选网络用于候选框定位分类,包括:为特征图中的每个像素点设定9个候选可变形感兴趣区域,利用分类器将这些可变形感兴趣区域区分为前景和背景,同时利用回归器初步调整这些可变形感兴趣区域的位置,进行非极大值抑制,根据分类的得分对这些可变形感兴趣区域进行排序,选择其中的前N个可变形感兴趣区域,得到候选边框。进一步地,将区域候选网络生成的可变形感兴趣区域映射到特征金字塔网络提取的特征图上,获得与特征图对应的7×7特征映射,进行可变形感兴趣区域对齐。进一步地,采用循环语义分割网络对每个对齐后的可变形感兴趣区域经过全卷积神经网络,预测生成像素级的掩模;经过全卷积神经网络得到目标分割图像后,若目标分割交并比不理想,需要将结果重新输入全卷积神经网络,进行训练,直到得到需要的交并比结果。进一步地,对循环语义分割网络进行训练,采用平衡的L1损失函数,调整任务的L1损失函数的权重,所述任务包括语义分割。进一步地,所有过程中的卷积前对图像周围补一圈0的填充操作。进一步地,所有过程中的卷积后衔接一个修正的线性单元(RectifiedLinearUnit,ReLU)。本专利技术的有效增益为:本专利技术提出了一种嵌入平衡的可变形卷积混合任务级联语义分割方法,较之于传统此类方法具有显著的进步性。本专利技术通过结合解码端和解码端的特征图,充分地利用了网络的上下文信息,在一定程度上提高了最终的准确率,通过嵌入平衡的可变形卷积混合任务级联框架,一种用于实例分割的新级联架构,将MaskRCNN和CascadeRCNN级联起来,通过每个阶段的结合级联和多任务来改善信息流,并利用空间背景来进一步提高准确性。通过在每个阶段目标识别、边界框回归和掩模预测都以多任务方式组合。在提取特征的主干网络,采用嵌入可变形卷积和池化的特征金字塔网络进行特征提取。此外,本方法集成了IoU平衡采样、平衡特征金字塔和平衡L1损失函数,分别用于减少样本、特征和目标水平的不平衡,从整体平衡设计中受益。此框架显著地提升了分割的准确性。本专利技术基于CascadeRCNN模型的一系列卷积操作和最大池化操作来提取特征,并且将卷积后特征图的通道数加倍、最大池化后特征图的长和宽减半。为提高对图像特征的敏感度,引入了两个新的模块来增强CNN的转换建模能力,即可变形卷积和可变形感兴趣区域。可变形卷积和可变形感兴趣区域能够增加模块中的空间采样位置以及额外空间信息偏移,并学习目标任务的空间信息偏移,而无需额外的监督。新模块可以取代现有卷积神经网络中的普通模块,并且可以通过标准的反向传播进行端到端的训练,从而产生可变形的卷积网络。因此,在可变形特征图像上,应用规则卷积可以更有效地反映复杂结构。本专利技术方法充分利用目标检测(边界框回归)和语义分割(掩模预测)之间的信息关联性。在每个阶段,通过并行的边界框回归和掩模预测,来获取它们之间的相互关系,从而进一步改善RCNN中的信息流。在目标分割过程中,去除空间背景,剩余的前景部分即是图片中的目标物体。在CNN中采用完全卷积分支获取空间背景,借助此手段,有助于区分复杂背景中难以分辩的前景部分,进一步提高目标分割的准确性。附图说明图1为基于卷积神经网络的视频语义分割方法详细结构图;图2为平衡特征金字塔原理图;图3为基于卷积神经网络的视频语义分割方法框图;图4为基于卷积神经网络的视频语义分割方法原理图;图5为MaskRCNN和Cascade级联原理图;图6为可变形卷积原理图(DeformableConvolutionalNetworks,DCN);...

【技术保护点】
1.一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,其特征在于,所述方法包含:/n将裁剪后的图像输入到已预训练的神经网络中;/n通过特征金字塔网络的采用3×3卷积核和池化操作,对输入的图像进行降维处理;对低级特征映射进行上采样,将高级特征映射下采样,并将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;/n在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;/n将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。/n

【技术特征摘要】
1.一种基于嵌入平衡的可变形卷积混合任务级联语义分割方法,其特征在于,所述方法包含:
将裁剪后的图像输入到已预训练的神经网络中;
通过特征金字塔网络的采用3×3卷积核和池化操作,对输入的图像进行降维处理;对低级特征映射进行上采样,将高级特征映射下采样,并将两个采样映射到相同的尺度空间;对来自不同层级之间提取的语义特征进行信息融合;采用卷积层预测像素级分割结果;
在特征金字塔网络的卷积和池化部分采用可变形卷积神经网络,对输入图像进行特征提取;所述可变形卷积神经网络起始端的卷积层为可变形卷积层,感兴趣区域的池化层为可变形感兴趣区域池化,得到特征图;将特征图划分为相同大小的部分,其数量即为输出的维度;
将经过特征金字塔网络后得到的特征图输入到区域候选网络用于训练该网络,区域候选网络包含目标检测分类器和候选框定位分类器两部分,目标检测分类器输出目标识别结果和预测准确率,候选框定位分类器能够给出候选区域精准定位,输出多个候选区域的候选边框。


2.按照权利要求1所述的方法,其特征在于,对所述区域候选网络进行训练过程中,采用平衡的L1损失函数,调整多个任务各自L1损失函数的权重,所述多个任务包括目标检测、与候选框生成。


3.按照权利要求2所述的方法,其特征在于,训练过程中需导入样本,根据重叠度平衡采样,通过间隔采样将可变形感兴趣区域均匀地分成K个区间,并将N个困难样本平均分配到上述每个区间,然后从中均匀...

【专利技术属性】
技术研发人员:陈玫玫王健吴金洋曾博义赖子轩
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1