【技术实现步骤摘要】
本文件属于数据处理的,具体涉及一种图像特征提取的方法、装置及电子设备。
技术介绍
1、视觉变换器(vision transformer,vit)是一种基于transformer架构的深度学习模型,用于图像识别等计算机视觉任务。在vit模型中,不涉及用户隐私数据的图像被切分成若干的图像块,将这些图像块组成一维序列,并在一维序列中构建多头自我注意,以执行训练和预测等视觉任务。
2、vit模型进行计算需要的时间和资源消耗,会随着输入的序列长度的增加而呈平方增长,这给基于vit模型的各种视觉任务的性能提升带来了挑战。为此,需要提供一种更优的图像特征提取方案,以改进vit模型的性能和效率。
技术实现思路
1、本说明书实施例提供一种图像特征提取的方法、装置及电子设备,以提供一种用于vit模型的图像特征提取方案。
2、第一方面,本说明书实施例提供了一种图像特征提取的方法,该方法包括:对输入图像进行切块处理后,将切块处理得到多个图像块进行编码处理,得到每个所述图像块对应的初始向量;
...【技术保护点】
1.一种图像特征提取的方法,包括:
2.根据权利要求1所述的方法,所述模块为基于注意力机制的模块,在对所述目标模块对应的中间向量进行聚合处理前,所述方法还包括:
3.根据权利要求1所述的方法,所述基于所述目标模块对应的各个中间向量的重要程度信息,对所述目标模块对应的中间向量进行聚合处理,得到输入下一个模块的特征向量,包括:
4.根据权利要求3所述的方法,所述将所述非目标向量合并到所述目标向量中,并删除所述非目标向量,得到输入所述下一个模块的特征向量,包括:
5.根据权利要求4所述的方法,所述获取所述目标模块对应的语义相似
...【技术特征摘要】
1.一种图像特征提取的方法,包括:
2.根据权利要求1所述的方法,所述模块为基于注意力机制的模块,在对所述目标模块对应的中间向量进行聚合处理前,所述方法还包括:
3.根据权利要求1所述的方法,所述基于所述目标模块对应的各个中间向量的重要程度信息,对所述目标模块对应的中间向量进行聚合处理,得到输入下一个模块的特征向量,包括:
4.根据权利要求3所述的方法,所述将所述非目标向量合并到所述目标向量中,并删除所述非目标向量,得到输入所述下一个模块的特征向量,包括:
5.根据权利要求4所述的方法,所述获取所述目标...
【专利技术属性】
技术研发人员:李若愚,唐董琦,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。