System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态图像特征匹配方法、装置、设备及存储介质制造方法及图纸_技高网

多模态图像特征匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:41367444 阅读:17 留言:0更新日期:2024-05-20 10:14
本发明专利技术涉及图像处理技术领域,且公开了多模态图像特征匹配的方法、装置、设备及存储介质生成多种模态的助手;对输入的图像进行数据增强,根据提取的图像特征,选取对应的多模态图像助手协助通用的前馈神经网络进行同种模态图像的特征匹配;根据输入的图像情况,选取对应的跨模态的图像助手协助通用的前馈神经网络进行下一阶段的不同模态图像的特征匹配。该多模态图像特征匹配的方法、装置、设备及存储介质通过在海量的多模态图像数据上预训练,并在特定的任务上进行微调。在不需要进行大规模训练的情况下,既可以实现同种模态图像的特征匹配,也能够进行跨模态图像的特征匹配,提升了匹配的精度。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体为多模态图像特征匹配方法、装置、设备及存储介质


技术介绍

1、特征匹配作为计算机视觉的一项基本任务,用于建立不同图像中局部特征之间的对应关系,促进各种下游应用的发展,如图像融合、图像拼接和3d重建等。随着计算机视觉应用的普及,对各种多模态图像进行精确特征匹配的需求显著增长。研究人员在处理特定模态图像的任务时,需要针对对应模态图像训练合适的特征匹配方法。这个过程通常涉及使用大量的相关训练数据,导致大量的资源消耗。因此,开发一个统一的预训练综合模型来进行多模态图像的特征匹配变得越来越迫切。

2、预训练-微调方法的概念最初出现在自然语言处理领域。鉴于其卓越的性能,该方法迅速扩展到计算机视觉领域。这些预训练-微调方法可以减少所需的计算资源和时间,并能实现更有效的结果。然而,在多模态图像特征匹配领域,一直缺乏一个全面有效的预训练-微调的大模型


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了多模态图像特征匹配方法、装置、设备及存储介质,具备解决了目前多模态图像的特征匹配需要耗费大量训练资源的问题,并提升了匹配的精度的优点,解决了上述技术问题。

3、(二)技术方案

4、为实现上述目的,本专利技术提供如下技术方案:一种多模态图像特征匹配的方法,包括以下步骤:

5、s1、输入多模态图像数据,并对输入的多模态图像数据上进行的预训练,得到训练后的前馈神经网络,并生成多模态图像助手,所述多模态图像助手包括同模态图像助手和跨模态图像助手;

6、s2、对输入的多模态图像数据进行数据增强,并提取多模态图像的特征;

7、s3、使用多模态图像辅助transformer,通过多模态图像助手协助通用前馈神经网络进行同模态图像的特征匹配;

8、s4、通过多模态图像助手协助通用前馈神经网络进行不同模态图像的特征匹配。

9、作为本专利技术的优选技术方案,所述步骤s1中的预训练的具体步骤如下:

10、s1.1、采用纯光学图像的数据集对通用前馈神经网络进行预训练,得到训练后的前馈神经网络;

11、s1.2、使用多模态图像数据集对各种模态的图像进行预训练,获得各种模态图像的助手网络;

12、s1.3、跨模态的图像数据集预训练跨模态的助手网络;

13、s1.4、结合上述训练过程得到多模态图像助手。

14、作为本专利技术的优选技术方案,所述步骤s2中包括以下步骤:

15、s2.1、对输入图像进行数据增强;

16、s2.2、对输入图像给定一个图像对imagea和imageb;

17、s2.3、对图像对生成像素匹配标签gt_matrix。

18、作为本专利技术的优选技术方案,上述步骤s2.1的数据增强过程包括对输入图像进行镜像、翻转和旋转。

19、作为本专利技术的优选技术方案,所述步骤s3中通过多模态图像辅助transformer跨模态共享的多头自注意力和交叉注意力机制对齐一对图像的内容,具体表达式如下:

20、v'l=msca(ln(gl-1+al-1))+gl-1+al-1

21、其中,gl-1表示前一层通用前馈网络的输出向量,al-1表示前一层辅助前馈网络的输出向量,v'l表示每一层的输入向量,ln(*)表示归一化,msca(*)表示交叉注意力,其中每一层的输出向量vl的表达式如下:

22、vl=mia_ffn(ln(v′l))+v′l

23、其中,vl表示每一层的输出向量,mia_ffn(*)表示多模态图像助手和通用前馈网络的整合运算。

24、作为本专利技术的优选技术方案,所述步骤s4中对不同模态图像的特征匹配包括以下两个阶段:

25、s4.1、两个多模态图像助手辅助通用前馈神经网络提取特征;

26、s4.2、跨模态图像助手辅助通用前馈神经网络执行特征匹配。

27、作为本专利技术的优选技术方案,所述步骤s4.1和步骤s4.2执行过程中通用前馈神经网络的参数保持冻结。

28、本专利技术还提供一种多模态图像特征匹配的装置,使用了上述的多模态图像特征匹配的方法,包括匹配模块、提取模块、迭代模块和匹配模块;

29、匹配模块,用于输入多模态图像数据,并对输入的多模态图像数据进行的预训练,得到训练后的前馈神经网络,并生成多模态图像助手;

30、提取模块,用于对输入的多模态图像数据进行数据增强,并提取多模态图像的特征;

31、迭代模块,用于使用多模态图像辅助transformer,多模态图像助手协助通用前馈神经网络进行同模态图像的特征匹配;

32、匹配模块,用于通过多模态图像助手协助通用前馈神经网络进行不同模态图像的特征匹配。

33、本专利技术还提供一种多模态图像特征匹配的设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像特征匹配程序,所述图像特征匹配程序被所述处理器执行时实现如上述的多模态图像特征匹配的方法。

34、本专利技术还提供一种多模态图像特征匹配的存储介质,存储介质上存储有图像特征匹配程序,所述图像特征匹配程序被处理器执行时实现如上所述的多模态图像特征匹配的方法。

35、与现有技术相比,本专利技术提供了多模态图像特征匹配方法、装置、设备及存储介质,具备以下有益效果:

36、本专利技术通过分阶段预训练方法在海量多模态图像数据对上进行三个阶段的预训练,生成多种模态的助手;对输入的图像进行数据增强,通过多头自注意力和交叉注意力提取多模态图像的特征;根据提取的图像特征,选取对应的多模态图像助手协助通用的前馈神经网络进行同种模态图像的特征匹配;根据输入的图像情况,选取对应的跨模态的图像助手协助通用的前馈神经网络进行下一阶段的不同模态图像的特征匹配。本专利技术通过在海量的多模态图像数据上预训练,并在特定的任务上进行微调。在不需要进行大规模训练的情况下,既可以实现同种模态图像的特征匹配,也能够进行跨模态图像的特征匹配,获得了基于预训练微调的多模态图像特征匹配的大模型,解决了目前多模态图像的特征匹配需要耗费大量训练资源的问题,并提升了匹配的精度。

本文档来自技高网...

【技术保护点】

1.一种多模态图像特征匹配的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤S1中的预训练的具体步骤如下:

3.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤S2中包括以下步骤:

4.根据权利要求3所述的多模态图像特征匹配的方法,其特征在于:所述步骤S2.1的数据增强过程包括对输入图像进行镜像、翻转和旋转。

5.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤S3中通过多模态图像辅助Transformer跨模态共享的多头自注意力和交叉注意力机制对齐一对图像的内容,具体表达式如下:

6.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤S4中对不同模态图像的特征匹配包括以下两个阶段:

7.根据权利要求6所述的多模态图像特征匹配的方法,其特征在于:所述步骤S4.1和步骤S4.2执行过程中通用前馈神经网络的参数保持冻结。

8.一种多模态图像特征匹配的装置,使用了权利要求1-7所述的多模态图像特征匹配的方法,其特征在于:包括匹配模块、提取模块、迭代模块和匹配模块;

9.一种多模态图像特征匹配的设备,其特征在于:包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像特征匹配程序,所述图像特征匹配程序被所述处理器执行时实现如权利要求1至7中任一项所述的多模态图像特征匹配的方法。

10.一种多模态图像特征匹配的存储介质,其特征在于:所述存储介质上存储有图像特征匹配程序,所述图像特征匹配程序被处理器执行时实现如权利要求1至7中任一项所述的多模态图像特征匹配的方法。

...

【技术特征摘要】

1.一种多模态图像特征匹配的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤s1中的预训练的具体步骤如下:

3.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤s2中包括以下步骤:

4.根据权利要求3所述的多模态图像特征匹配的方法,其特征在于:所述步骤s2.1的数据增强过程包括对输入图像进行镜像、翻转和旋转。

5.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤s3中通过多模态图像辅助transformer跨模态共享的多头自注意力和交叉注意力机制对齐一对图像的内容,具体表达式如下:

6.根据权利要求1所述的多模态图像特征匹配的方法,其特征在于:所述步骤s4中对不同模态图像的特征匹配包括以下两...

【专利技术属性】
技术研发人员:廖赟赵培杰邸一得周豪朱开军
申请(专利权)人:云南览易网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1