当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于多维度关系建模的视觉Transformer自监督学习方法及系统技术方案

技术编号:35814166 阅读:39 留言:0更新日期:2022-12-03 13:37
本发明专利技术属于计算机视觉技术领域,提供了一种基于多维度关系建模的视觉Transformer自监督学习方法及系统,该方法利用空间维度和通道维度上的自关系建模,使用不同的图像变换处理图像得到图像的不同视图;图像的不同视图分别由教师网络和学生网络处理,得到特征图;学生网络提取的特征图进一步通过卷积层处理;通过点积计算特征图在空间维度与通道维度的自关系矩阵,计算教师网络与学生网络提取的关系矩阵的差异作为损失函数,并利用其关于网络参数的导数更新网络参数,相较于现有的自监督学习方法只考虑视觉模式的特征,该方法同时考虑了视觉模式在空间和通道维度的相关性,可以显著提升图像识别、语义分割、目标检测、实例检测等任务的准确性。任务的准确性。任务的准确性。

【技术实现步骤摘要】
一种基于多维度关系建模的视觉Transformer自监督学习方法及系统


[0001]本专利技术属于计算机视觉
,尤其涉及一种基于多维度关系建模的视觉Transformer自监督学习方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]自监督学习逐渐成为计算机视觉领域的研究热点之一,尤其是关于Transformer的自监督模型已经被证明可以提取高质量的图像特征,同时可以不受标注成本的限制。如何提高模型表达视觉模式特征的能力是自监督学习的关键。
[0004]在现实场景中,不同的视觉模式之间存在关系,即相似的视觉模式是强相关的而不同的视觉模式应是弱相关的。对于Transformer网络来说,其提取的图像特征包含多个维度,如空间维度和通道维度。在空间维度上,每一个像素有其所属的类别,属于同一类物体的像素之间是强相关的;在通道维度上,不同的通道表示不同的视觉模型,不同通道之间表示的模式也存在着一定的关系。正确捕捉视觉模式间关系的能力,是使神经网络具有强大特征提取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,包括如下步骤:对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;将通道维度上和空间维度上的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。2.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,所述将通道维度上和空间维度上的自关系矩阵的差异,通过损失函数的梯度更新学生网络和教师网络的参数包括:基于通道维度上和空间维度上的自关系矩阵,分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差异得到对应的损失函数;将损失函数作为梯度利用反向传播更新学生网络的参数;按照学生网络的参数动量更新得到教师网络的参数。3.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,每张图像对应的不同视图通过采用教师网络和学生网络进行特征提取得到对应视图的特征图表示为:z1=S(x1)z2=T(x2)其中,S表示学生网络,T表示教师网络,x1和x2表示不同的视图。4.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,在获取待训练图像样本数据后,对数据进行预处理,分别将每张图像分别采用不同的图像变换方法进行随机变换处理,得到每张图像对应的不同视图。5.如权利要求3所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,分别采用教师网络和学生网络进行特征提取得到对应视图的特征图,其中,学生网络提取的特征图采用卷积层、归一化层和激活层进一步处理。6.如权利要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于...

【专利技术属性】
技术研发人员:程明明李钟毓高尚华
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1