一种ViT模型改进方法、系统、设备及存储介质技术方案

技术编号:43883187 阅读:44 留言:0更新日期:2024-12-31 19:07
本发明专利技术提供了一种ViT模型改进方法、系统、设备及存储介质,属于计算机视觉技术领域。所述方法包括:首先将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示。随后利用带空间约束的K‑means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为K类,提取每个聚类中心的特征作为新的特征表示。最后,将聚类后的特征序列输入到ViT中进行自注意力计算和前馈网络处理,生成最终的图像特征表示。本发明专利技术通过聚合语义相似patch,减少输入序列长度,降低了计算复杂度,减少了冗余信息,并增强了局部语义理解能力,适用于图像分类、目标检测等视觉任务。

【技术实现步骤摘要】

本专利技术属于人工智能和计算机视觉,更具体的说是涉及一种vit模型改进方法、系统、设备及存储介质。


技术介绍

1、近年来,深度学习技术在计算机视觉领域取得了显著的进展,尤其是卷积神经网络(cnn)在图像分类、目标检测、语义分割等任务中表现优异。然而,cnn的局限性在于其固定的局部感受野,难以有效捕捉图像中的长距离依赖关系和全局上下文信息。为了解决这一问题,视觉transformer(vision transformer, vit)模型被提出,并利用transformer的自注意力机制显著提升了对全局信息的建模能力。

2、vit模型通过将输入图像分割为一系列固定大小的patch(通常为16×16或32×32的像素块),然后将这些patch通过线性映射处理为向量,并作为输入序列送入transformer网络,transformer通过自注意力机制计算所有patch之间的全局依赖关系,从而实现对图像的全局理解。

3、尽管vit模型在许多视觉任务上取得了成功,但仍然存在以下几个明显的问题:

4、(1)序列长度过长:随着图像分辨率本文档来自技高网...

【技术保护点】

1.一种ViT模型改进方法,其特征在于,包括:

2.根据权利要求1所述的ViT模型改进方法,其特征在于,所述将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示,包括:

3.根据权利要求2所述的ViT模型改进方法,其特征在于,所述线性映射操作表示为:

4.根据权利要求3所述的ViT模型改进方法,其特征在于,所述利用带空间约束的K-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为K个聚类,提取每个聚类中心的特征生成聚类后的特征序列,包括:

5.根据权利要求4所述...

【技术特征摘要】

1.一种vit模型改进方法,其特征在于,包括:

2.根据权利要求1所述的vit模型改进方法,其特征在于,所述将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示,包括:

3.根据权利要求2所述的vit模型改进方法,其特征在于,所述线性映射操作表示为:

4.根据权利要求3所述的vit模型改进方法,其特征在于,所述利用带空间约束的k-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为k个聚类,提取每个聚类中心的特征生成聚类后的特征序列,包括:

5.根据权利要求4所述的vit模型改进方法,其特征在于,所述利用带空间约束的k-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为k个聚类,提取每个聚类...

【专利技术属性】
技术研发人员:武寒波段强马晓鹏魏子重
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1