【技术实现步骤摘要】
本专利技术属于人工智能和计算机视觉,更具体的说是涉及一种vit模型改进方法、系统、设备及存储介质。
技术介绍
1、近年来,深度学习技术在计算机视觉领域取得了显著的进展,尤其是卷积神经网络(cnn)在图像分类、目标检测、语义分割等任务中表现优异。然而,cnn的局限性在于其固定的局部感受野,难以有效捕捉图像中的长距离依赖关系和全局上下文信息。为了解决这一问题,视觉transformer(vision transformer, vit)模型被提出,并利用transformer的自注意力机制显著提升了对全局信息的建模能力。
2、vit模型通过将输入图像分割为一系列固定大小的patch(通常为16×16或32×32的像素块),然后将这些patch通过线性映射处理为向量,并作为输入序列送入transformer网络,transformer通过自注意力机制计算所有patch之间的全局依赖关系,从而实现对图像的全局理解。
3、尽管vit模型在许多视觉任务上取得了成功,但仍然存在以下几个明显的问题:
4、(1)序列长度
...【技术保护点】
1.一种ViT模型改进方法,其特征在于,包括:
2.根据权利要求1所述的ViT模型改进方法,其特征在于,所述将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示,包括:
3.根据权利要求2所述的ViT模型改进方法,其特征在于,所述线性映射操作表示为:
4.根据权利要求3所述的ViT模型改进方法,其特征在于,所述利用带空间约束的K-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为K个聚类,提取每个聚类中心的特征生成聚类后的特征序列,包括:
5
...【技术特征摘要】
1.一种vit模型改进方法,其特征在于,包括:
2.根据权利要求1所述的vit模型改进方法,其特征在于,所述将输入图像划分为多个不重叠的patch,并对每个patch进行嵌入处理,生成初始特征序列表示,包括:
3.根据权利要求2所述的vit模型改进方法,其特征在于,所述线性映射操作表示为:
4.根据权利要求3所述的vit模型改进方法,其特征在于,所述利用带空间约束的k-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为k个聚类,提取每个聚类中心的特征生成聚类后的特征序列,包括:
5.根据权利要求4所述的vit模型改进方法,其特征在于,所述利用带空间约束的k-means聚类算法对相邻patch的特征进行聚类,将具有相似语义特征的相邻patch合并为k个聚类,提取每个聚类...
【专利技术属性】
技术研发人员:武寒波,段强,马晓鹏,魏子重,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。