一种基于注意力重定位的弱监督定位方法和装置制造方法及图纸

技术编号：35540916 阅读：15 留言：0更新日期：2022-11-09 15:09

本发明专利技术公开了一种基于注意力重定位的弱监督定位方法和装置，将图像切分成图像块并线性投影映射成局部表征，利用网络中第一层至倒数第二层的transformer层的自注意力机制构建类别关联向量；对类别关联向量进行排序和积分图操作，构建重定位二值矩阵；构建掩码transformer层，局部表征输入掩码transformer层中获得分类权重向量；基于分类权重向量对局部表征实现加权和操作，将类别表征和加权和结果一并送入最后一层transformer层；训练过程中，对最后一层transformer层的输出类别表征和图像类别标签构建交叉熵损失函数，进行训练。测试过程中融合类别关联向量和分类权重向量，获得目标检测框信息，实现目标定位。相较于现有技术，本发明专利技术充分发挥transformer长程依赖能力，目标定位能力更优。目标定位能力更优。目标定位能力更优。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力重定位的弱监督定位方法和装置

[0001]本专利技术涉及图像目标检测
，特别涉及一种基于注意力重定位的弱监督定位方法和装置。

技术介绍

[0002]弱监督目标定位是指利用图像级别的标签（如图像类别）对网络模型进行分类训练，实现模型目标定位功能的一类方法。虽然目前最优的目标定位方法依旧是采用全监督训练方法，但是全监督方法的训练数据需要大量的物体目标框标注信息，密集标注图像中所有目标位置信息势必大大增加人力和时间成本。而弱监督定位方法仅仅只需要标注图像整体类别的训练数据，人力和时间成本上的优势导致近年来弱监督定位方法获得了广泛的关注。
[0003]弱监督定位方法大多是基于类激活热力图（class activation map）方法展开。类激活热力图仅强调了图像目标中最具有判别性的区域，难以包含目标全貌，由此引出了需要改进方法，如对抗性擦除方法（adversarial erasing）、发散激活（divergent activation）、多任务关联训练等等，然而这类方法虽然引导网络关注判别性次优的区域，但是大多只是缓解类激活热力图仅检测目标局部的问题，因为卷积神经网络特征局部关联难以捕捉全局的固有特点，类激活热力图方法的缺陷依旧存在。近年来随着transformer网络结构在计算机视觉领域的广泛应用，如何利用transformer结构中的长程依赖能力实现更好的弱监督定位，也有了初步研究，如TS
‑
CAM(《TS
‑
CAM: Token Semantic Co...

【技术保护点】

【技术特征摘要】
1.一种基于注意力重定位的弱监督定位方法，其特征在于，包括以下步骤：S1、构建图像分类数据集；所述图像分类数据集中包括训练集和测试集；所述训练集由图像和分类标签组成；S2、调整图像分类数据集中的图像的宽和高，将图像不交叠地切分成若干个图像块；将图像块进行线性投影映射成局部表征；构建类别表征，将局部表征和类别表征共同送入Deit网络；所述Deit网络中共有L层transformer层；S3、通过Deit网络中第一层至第L
‑
1层transformer层逐层利用自注意力机制构建类别表征与局部表征之间的关联信息，生成类别关联向量；S4、对所有类别关联向量进行累加融合，并对融合结果进行从大到小排序，基于排序结果构建积分图；S5、基于积分图构建重定位二值矩阵，对第L
‑
1层transformer层输出的局部表征是否需要重定位进行判断；S6、基于重定位二值矩阵，构建掩码transformer层；S7、将L
‑
1层transformer层输出的局部表征送入掩码transformer层中，再进行线性投影映射和指数归一化操作，生成分类权重向量；S8、对于训练集的图像，利用分类权重向量，对第L
‑
1层transformer层输出的局部表征进行加权和操作，将加权和结果与第L
‑
1层transformer层输出的分类表征一同送入第L层transformer层中；S9、对第L层transformer层输出的分类表征进行线性投影映射，生成图像分类结果，基于图像分类结果和图像分类标签构建交叉熵损失，训练Deit网络；S10、对于测试集的图像，融合S3中的类别关联向量和S7中的分...

【专利技术属性】
技术研发人员：苏慧，卢修生，叶越，王瑾，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人