一种基于非模态实例分割的图像非可见区域补全方法技术

技术编号:39590394 阅读:11 留言:0更新日期:2023-12-03 19:42
本发明专利技术提供一种基于非模态实例分割的图像非可见区域补全方法,涉及计算机视觉技术领域

【技术实现步骤摘要】
一种基于非模态实例分割的图像非可见区域补全方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于非模态实例分割的图像非可见区域补全方法


技术介绍

[0002]利用计算机视觉技术进行场景理解,会存在许多物体被遮挡甚至物体之间相互遮挡的情况,在物体局部被遮挡的情景下,人类可以根据先验知识感知被遮挡物体的完整形态,描述被遮挡区域的边界信息,具有从可见的物体形态收集先验信息并推断不可见线索的能力,这种能力被称为非模态
(Amodal)
预测

随着深度学习技术的普及,各领域的图像分类

目标检测

图像分割等视觉技术飞速发展,甚至在预测和识别可见物体的能力已超过人类的视觉系统

但上述技术主要用于图像中可见区域的预测,尚缺乏对图像中非可见区域的预测能力

而补全图像中非可见部分形态,有助于将无序的

碎片化的

不完整的对象组成连贯

完整的场景

[0003]预测图像中非可见区域形状的能力,可以在实际应用场景中解决许多问题

比如在农业领域,开发适用于植物果实采摘的机器视觉系统时,对非可见区域的预测可以使机器人能够在复杂

杂乱的场景中抓取和操纵隐藏在背后的物体

恢复被遮挡物体的完整形态的最常用的方法是非模态实例分割方法,其核心思想是分割出物体可见区域与非可见区域的联合掩膜

[0004]非模态实例分割技术主要分为两种类型:
[0005]一种为结合目标检测的两阶段实例分割方法,例如
Mask R

CNN
是基于
Faster R

CNN
改进的检测器,在边界框的
ROI
里将实例分割出来生成实例掩膜

基于
CNN
的两阶段非模态实例分割方法,将
Faster R

CNN
目标检测器预测输出的被遮挡区域边界框,根据分割热图内每个像素成为
ROI
对象的概率大小,更新边界框,又重新计算热图迭代设计边界框


Mask R

CNN

PANet
中添加判断
ROI
内是否存在遮挡,结合更多特征,适应于分割被遮挡掩膜的任务
。BCNet
将相同
ROI
的重叠对象解耦为不相交的双层图像,结合图卷积模块
(Graph Convolutional Network)
,通过两层物体间的遮挡关系来推断非可见区域掩膜

不同于
CNN
模型,上下文信息感知的复合卷积神经网络集成了符号模型与卷积神经网络的优点,能够对因中重度遮挡而失去上下文信息的实例预测出解释性强的边界框,再使用分割模型输出实例

[0006]另一种方法为直接预测实例的被遮挡区域的掩膜,而不借助目标检测预测出的边界框

可以使用图形学的数学曲线三次贝赛尔曲线并完成进行被遮挡区域的形态补全
。ORCNN
算法在
Mask R

CNN
上设计了两个分割分支对可见掩膜和不可见掩膜同时展开预测,计算两者之间的差值,从而输出被遮挡区域掩膜的预测
。SLN
为图像中的所有实例提供语义感知距离图,并在
ROI

Align
层中产生了不可见对象的边界框提议,以获取实例级和全局级的特征联系

[0007]以上方法都是基于有监督学习模式的,都需要大量的像素级实例掩膜标签参与模
型训练,而适用于遮挡区域的标签注释成本非常高

因此,研究人员尝试降低对人工标签的依赖,例如
PCNet
用自监督方式训练分割网络获得被遮挡区域掩膜的补全能力,只需要给出可见区域的掩膜作为输入,在可见掩膜上设置遮挡器,可以恢复之前的可见掩膜,并在补全过程中依赖图像中实例的遮挡顺序优化分割结果
。ASBUNet
使用遮挡边界代替
PCNet
中遮挡器的掩膜,抛弃了遮挡顺序的介入

变分自动编码器采用概率估计模糊的预测被遮挡区域掩膜,生成多样的非模态掩膜,进行提案决议从而不需要真值标注的掩膜标签
。CSDNet
通过真实图像生成伪非模态掩膜,通过将图像分为许多实例层,对图层的遮挡建模,估测图层的遮挡顺序,它将在图像的每一层上检测到的完全可见的物体实际上是下一层的遮挡物


技术实现思路

[0008]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于非模态实例分割的图像非可见区域补全方法,基于弱监督深度学习

非模态预测等像素预测

图像实例分割技术实现图像非可见区域的形态补全

[0009]为解决上述技术问题,本专利技术所采取的技术方案是:一种基于非模态实例分割的图像非可见区域补全方法,建立基于
Swin Transformer
的弱监督学习的非模态实例分割模型,在改进的
Swin Transformer Unet
分割网络上训练出非可见区域补全网络,从而无需人工注释被遮挡区域的掩膜;同时引入
ASBUNet
中的遮挡边界估计,重新设计在遮挡区域和可见区域的预测权重,引入对抗式生成学习的思想,将预测的非可见区域掩膜送入鉴别器中,添加对抗生成的鉴别器损失函数,改良鉴别器输出的掩膜形状

具体包括以下步骤:
[0010]步骤1:获取
RGB
图像数据集,并进行图像预处理;
[0011]获取
RGB
图像数据;根据获取的图像,采用计算余弦相似度的方式去除重复度大于设定阈值的图片,计算图片拉普拉斯变换的方差值来去除模糊程度大于设定阈值的图片,然后筛选出含有杂乱背景和拍摄角度不佳的图片从而删除;
[0012]步骤2:对图像数据集中的图像进行标注,构建训练集和验证集;
[0013]采用
Labelme
工具注释图像语义标签,结合场景结构,对图像中可见和不可见部分均进行语义标注;针对未被遮挡的对象,采用长度掩膜标注方式;而针对被遮挡的对象,则采用分层级标注方式,第一层标注可见部分的区域,第二层标注出不可见部分的区域,第三层标注可见区域与非可见区域的联合区域,得到非模态真值标签;
[0014]按照9:1比例构建训练集和验证集,经过水平翻转,平移和随机裁剪,将训练集增强到
2430


[0015]步骤3:构建基于
Sw本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:建立基于
Swin Transformer
的弱监督学习的非模态实例分割模型,在改进的
Swin Transformer Unet
分割网络上训练出非可见区域补全网络,从而无需人工注释被遮挡区域的掩膜;同时引入
ASBUNet
中的遮挡边界估计,重新设计在遮挡区域和可见区域的预测权重,引入对抗式生成学习的思想,将预测的非可见区域掩膜送入鉴别器中,添加对抗生成的鉴别器损失函数,改良鉴别器输出的掩膜形状
。2.
根据权利要求1所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:包括以下步骤:步骤1:获取
RGB
图像数据集,并进行图像预处理;步骤2:对图像数据集中的图像进行标注,构建训练集和验证集;步骤3:构建基于
Swin Transformer
的弱监督学习的非模态实例分割模型;所述非模态实例分割模型包括4×4卷积核

线性层

编码器

解码器和鉴别器;步骤4:通过三个阶段训练非模态实例分割模型,确定最优模型参数;步骤5:测试非模态实例分割模型补全能力和遮挡顺序预测能力
。3.
根据权利要求1所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:所述步骤1的具体方法为:获取
RGB
图像数据;根据获取的图像,采用计算余弦相似度的方式去除重复度大于设定阈值的图片,计算图片拉普拉斯变换的方差值来去除模糊程度大于设定阈值的图片,然后筛选删除含有杂乱背景和拍摄角度不佳的图片
。4.
根据权利要求2所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:所述步骤2的具体方法为:采用
Labelme
工具注释图像语义标签,结合场景结构,对图像中可见和不可见部分均进行语义标注;针对未被遮挡的对象,采用长度掩膜标注方式;而针对被遮挡的对象,则采用分层级标注方式,第一层标注可见部分的区域,第二层标注出不可见部分的区域,第三层标注可见区域与非可见区域的联合区域,得到非模态真值标签;按照9:1比例构建训练集和验证集,经过水平翻转,平移和随机裁剪,将训练集增强
。5.
根据权利要求2所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:步骤3所述非模态实例分割模型使用图像的遮挡边界和可见部分的掩膜作为模型的输入;首先使用4×4卷积核对图像行卷积操作,得到一个包含
96
个通道的张量;然后,在模型中应用线性层进行维度转换;经过线性层后,图像就变成了一系列被分割的特征,这些特征将被进一步输入编码器;所述编码器和解码器均采用了基于改进的
Swin Transformer Unet
对称架构的
Swin Transformer Block
;改进的
Swin Transformer Unet
作为整个非模态实例分割模型的分割网络主干,编码器通过四个采样层收集浅层特征;然后,这些浅层特征通过跳转连接与解码器收集的深层特征融合;解码器中加入对可见区域掩膜和非可见区域掩膜预测的联合权重,用于对模型损失函数进行调整;鉴别器中引入对抗式生成学习思想,对解码器预测出来的不可见区域掩膜判断并改善掩膜形态
。6.
根据权利要求5所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:所述非模态实例分割模型采用边界估计的方法将遮挡物与被遮挡物的接触边界以掩膜的形式输入到模型中,模型会输出被遮挡部分的另一边的具有不确定性的边界图;在
两部分边界中的内容会得到像素填充,以得到合理的形状
。7.
根据权利要求6所述的一种基于非模态实例分割的图像非可见区域补全方法,其特征在于:所述非模态实例分割模型采用部分补全的算法实现非模态掩膜补全的弱监督学习过程;基于让模型自主学习恢复不可见掩膜的思想,在训练阶段,对图像进行处理,随机采样出遮挡实例和被遮挡实例,并且只使用它们的可见掩膜进行模型训练,具体为:随机选择两张存在遮挡关系的图像,将含有实例
A
的图像...

【专利技术属性】
技术研发人员:邓寒冰杨景苗腾周云成吴琼
申请(专利权)人:沈阳农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1