一种基于深度学习的弱监督图像语义分割方法技术

技术编号：41327167 阅读：4 留言：0更新日期：2024-05-13 15:04

本发明专利技术公开了一种基于深度学习的弱监督图像语义分割方法，属于模式识别、图像语义分割领域。本发明专利技术语义分割网络的构建方法包括：(1)对图像进行数据增强预处理，包括颜色抖动、数据缩放、图像随机裁剪三个步骤；(2)构造扩展补丁对；(3)构造三重网络TBN缩小原始图片CAM与扩展补丁对CAM之间差距；(4)使用高低阶特征自注意力聚合模块对原始图片CAM进行增强；(5)增强后的CAM经过IRN网络扩展为伪标签并以此训练得到分割精度更高的语义分割网络；本发明专利技术相比于现有方法能够找到更多前景种子、种子区域覆盖更完全、网络分割精度更高，所提出的自注意力聚合机制，对于其他领域高阶特征的自注意力增强具有很好的借鉴意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的弱监督图像语义分割方法，属于模式识别、图像语义分割领域。

技术介绍

1、图像语义分割是一种对于给定图片，理解图片内容、将图片中的物体和背景进行区分并将前景物体按照类别分割为独立个体的技术。随着人工智能的发展，图像语义分割在安防视频监控、医学图像处理、智能驾驶辅助、卫星云图检测、人机交互等领域越来越重要。例如，在智能驾驶辅助中，汽车中控对车载摄像头输入信号进行分析，利用图像语义分割技术及时对行驶路况中路面、车辆、行人、信号灯等物体进行准确识别，辅助驾驶人员安全行车；在人机交互中，利用图像语义分割技术做到快速准确的人脸、手势等生物信号的识别判断，从而实现家电手势控制、课堂触摸屏互动教学、vr技术人体动作识别等人机智能交互应用。但是，传统基于深度学习的图像语义分割方法需要逐像素分类标注的图片，标注耗时大、成本高，因此弱监督学习具有重要的研究价值。目前图像语义分割中主要使用图像级标签、涂鸦、点、矩形边界框等弱标签，其中图像级标签携带信息少，标注成本低，研究使用图像级标签的弱监督语义分割具有重大实际意义。

2、目前，图像级标签弱监督语义分割主要分为两阶段方法：第一阶段，使用图像级标签训练的分类模型生成密集伪标签；第二阶段，使用密集伪标签训练语义分割模型。密集伪标签的生成质量直接影响分割模型的分割性能。目前主流的图像级标签语义分割方法主要通过类激活图(class activation map，cam)生成密集伪标签，但是原始的cam存在对象区域部分缺失，对象边界不准确等问题，导致从cam获取的伪标

3、2016年zhou等人在cvpr会议上提出了一种用于可视化原始图片中吸引分类网络注意力区域的技术，即cam类激活图(zhou b,khosla a,et al.《learning deep featuresfor discriminative localization》[c]//in proceedings of the ieee conference oncomputer vision and pattern recognition,2016:2921-2929)，通过将分类网络中间卷积层输出特征与全连接层权重点积后叠加得到类激活图，证明在没有定位标签下，训练好的卷积神经网络中间层仍然具有目标定位的特性。由于cam出色的区域定位能力，弱监督语义分割领域的研究人员探究各种cam改进方法生成更高质量的伪标签。2017年，针对cam捕获目标区域能力差的问题，wei等人采用对抗性学习方法擦除当前挖掘的高响应区域，驱动分类网络发现新的目标区域，最终构成一个密集完整的对象区域。(wei y c,feng j s,etal.《object region mining with adversarial erasing:a simple classification tosemantic segmentation approach》[c]//in proceedings of the ieee conference oncomputer vision and pattern recognition,2017:1568-1576)。2020年，wang等人设计像素相关模块(pixel correlation module，pcm)，为每个像素捕获上下文外观信息，并通过习得的关联注意图对原始cam进行细化。(wang y d,zhang j,et al.《self-supervisedequivariant attention mechanism for weakly supervised semantic segmentation》[c]//in proceedings of the ieee/cvf conference on computer vision and patternrecognition(cvpr),2020:12275-12284)随后，2021年，zhang等提出像素区域相关模块用于捕获像素与区域之间的关系，并将其与pcm模块结合进一步提高cam的一致性。(zhang,fei,et al.《object region mining with adversarial erasing:a simpleclassification to semantic segmentation approach》[c]//in proceedings of theieee/cvf international conference on computer vision,2021:7242-7251)。目前，我国对于使用组合区域擦除方式的弱监督图像语义分割的研究仍处于初级阶段。

技术实现思路

1、针对cam与对象种子相关性低、种子区域覆盖目标不完整的问题，本专利技术提出使用扩展补丁对得到与对象种子相关性更高的cam，并设计自注意力聚合模块，使cam能够结合低阶特征获取全局依赖关系，进而设计弱监督语义分割网络，将原始图片以及扩展补丁对作为三重网络的输入来缩小原始图像cam与扩展补丁对cam之间的差距，训练得到分割精度更高的弱监督语义分割网络。本专利技术的目的在于克服图像语义分割人工标注成本高、耗时大以及弱监督方法分割精度低的缺点，设计一种基于深度学习的弱监督图像语义分割方法。

2、本专利技术的技术关键是：图像数据增强预处理、构造图片扩展补丁对、获取原始图片以及扩展补丁对的cam、使用高低阶特征自注意力聚合模块对原始图片cam进行增强、最终将上述增强后的cam经过irn方法细化为伪标签并用于训练语义分割网络。具体实现步骤包括：

3、步骤1：获取图像数据集，并对图像数据进行预处理，将预处理后的图像数据分成批数据用于后续训练；

4、步骤2：为所述批数据中各原始图片构造扩展补丁对，所述扩展补丁对的构造过程包括：

5、步骤21：基于grid patch算法获取所述原始图片的互补补丁对；

6、步骤22：对于所述互补补丁对，在划分的各行补丁中随机选取n行，在选定的n行中，对于第一次出现空缺部分的补丁区域，使用原始图片对应的区域像素进行填补；填补补丁区域后的图片对称为扩展补丁对；

7、所述原始图片对应的区域像素为：噪音扰动后的区域像素；

8、步骤3：构造三重网络tbn用于缩小原始图片cam与扩展补丁对cam之间的差距，包括：

9、步骤31：以resnet38网络为基础，将所述原始图片以及所述扩展补丁对分别作为tbn网络三个分支的输入，将所述resnet38网络中的低阶特征d送入fcm模块进行增强得到d′用于步骤4中的增强计算，使用所述低阶特征d得到原始图片的cam以及扩展补丁对的cam；

10、步骤32：利用正则化约束缩小所述原始图片的cam和扩展补丁对的cam之间的差距；

11、步骤4：在所述三重网络tbn的每个分支上，使用高低阶特征自注意力聚合模块对各分支的c本文档来自技高网...

【技术保护点】

1.一种基于深度学习的弱监督图像语义分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤4包括：

3.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤1的预处理过程包括：颜色抖动、数据缩放、图像随机裁剪。

4.根据权利要求1所述的图像语义分割方法，其特征在于，所述噪音扰动后的区域像素的获取方式为：按照原始图片尺寸，使用正态分布噪音生成同等尺寸的噪音模板，将噪音模板与原始图片相叠加。

5.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤3中采用L1正则化约束用于缩小原始图片CAM与扩展补丁对CAM之间的差距，公式为：

6.根据权利要求2所述的图像语义分割方法，其特征在于，所述低阶特征为所述ResNet38网络第2阶段的输出特征图。

7.根据权利要求2所述的图像语义分割方法，其特征在于，所述步骤31进行自注意力增强的方式为：

8.一种基于深度学习的弱监督图像语义分割装置，其特征在于，包括存储器和处理器；

9.一种计算机可读

...

【技术特征摘要】

1.一种基于深度学习的弱监督图像语义分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤4包括：

3.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤1的预处理过程包括：颜色抖动、数据缩放、图像随机裁剪。

5.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤3中采用l1正则化约束...

【专利技术属性】
技术研发人员：葛洪伟，孙铭辰，江明，李婷，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人