一种图像特征提取的方法、装置及电子设备制造方法及图纸

技术编号:42865646 阅读:29 留言:0更新日期:2024-09-27 17:28
本说明书实施例公开了一种图像特征提取的方法、装置及电子设备。所述方法包括:对输入图像进行切块处理后,将切块处理得到多个图像块进行编码处理,得到每个图像块对应的初始向量;将初始向量输入多个串行的用于进行特征提取的模块,在串行的模块中的目标模块对输入目标模块的特征向量进行特征提取后,得到目标模块输出的中间向量;基于目标模块对应的各个中间向量的重要程度信息,对目标模块对应的中间向量进行聚合处理,得到输入下一个模块的特征向量;在对多个串行的模块中的最后一个模块输出的中间向量进行聚合处理后,将聚合处理得到的特征向量作为输入图像对应的目标特征,以根据目标特征执行针对输入图像的目标任务。

【技术实现步骤摘要】

本文件属于数据处理的,具体涉及一种图像特征提取的方法、装置及电子设备


技术介绍

1、视觉变换器(vision transformer,vit)是一种基于transformer架构的深度学习模型,用于图像识别等计算机视觉任务。在vit模型中,不涉及用户隐私数据的图像被切分成若干的图像块,将这些图像块组成一维序列,并在一维序列中构建多头自我注意,以执行训练和预测等视觉任务。

2、vit模型进行计算需要的时间和资源消耗,会随着输入的序列长度的增加而呈平方增长,这给基于vit模型的各种视觉任务的性能提升带来了挑战。为此,需要提供一种更优的图像特征提取方案,以改进vit模型的性能和效率。


技术实现思路

1、本说明书实施例提供一种图像特征提取的方法、装置及电子设备,以提供一种用于vit模型的图像特征提取方案。

2、第一方面,本说明书实施例提供了一种图像特征提取的方法,该方法包括:对输入图像进行切块处理后,将切块处理得到多个图像块进行编码处理,得到每个所述图像块对应的初始向量;将所述初始向量输入多本文档来自技高网...

【技术保护点】

1.一种图像特征提取的方法,包括:

2.根据权利要求1所述的方法,所述模块为基于注意力机制的模块,在对所述目标模块对应的中间向量进行聚合处理前,所述方法还包括:

3.根据权利要求1所述的方法,所述基于所述目标模块对应的各个中间向量的重要程度信息,对所述目标模块对应的中间向量进行聚合处理,得到输入下一个模块的特征向量,包括:

4.根据权利要求3所述的方法,所述将所述非目标向量合并到所述目标向量中,并删除所述非目标向量,得到输入所述下一个模块的特征向量,包括:

5.根据权利要求4所述的方法,所述获取所述目标模块对应的语义相似度网络,包括:...

【技术特征摘要】

1.一种图像特征提取的方法,包括:

2.根据权利要求1所述的方法,所述模块为基于注意力机制的模块,在对所述目标模块对应的中间向量进行聚合处理前,所述方法还包括:

3.根据权利要求1所述的方法,所述基于所述目标模块对应的各个中间向量的重要程度信息,对所述目标模块对应的中间向量进行聚合处理,得到输入下一个模块的特征向量,包括:

4.根据权利要求3所述的方法,所述将所述非目标向量合并到所述目标向量中,并删除所述非目标向量,得到输入所述下一个模块的特征向量,包括:

5.根据权利要求4所述的方法,所述获取所述目标...

【专利技术属性】
技术研发人员:李若愚唐董琦
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1