一种Transformer多模态数据特征融合方法技术

技术编号:38256327 阅读:8 留言:0更新日期:2023-07-27 10:19
本发明专利技术公开了一种Transformer多模态数据特征融合方法,方法包括:通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征;通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息;根据浅层多模态特征和协作抽象信息,通过高层多阶段特征传递模块进行第三次交叉融合,得到最终全局特征融合结果。本发明专利技术更可靠更灵活,可广泛应用于计算机技术领域。机技术领域。机技术领域。

【技术实现步骤摘要】
一种Transformer多模态数据特征融合方法


[0001]本专利技术涉及计算机
,尤其是一种Transformer多模态数据特征融合方法。

技术介绍

[0002]随着传感器技术的发展,多模态数据融合在场景理解和目标识别中发挥着重要作用,融合感知已然成为学科的重要发展方向,被广泛应用于道路分类和医学图像处理等众多领域。经典的机器学习数据融合方法使用手工制作的特征进行融合分类,其往往根据特定的领域知识所设计,限制了在不同数据集的移植性。相比之下,基于深度学习的技术可以在没有先验知识的情况下提取从浅纹理到深抽象特征的判别特征,可移植性优于传统模型。目前,基于深度学习的技术已经取得了很大的进展,并已成为多模态数据融合分类的重要技术手段。
[0003]基于深度学习的多模式数据融合分类有两种,即多分支特征叠加融合策略和上下文感知特征交叉融合策略。前者使用非重叠网络分支独立学习多模态异构特征。相比之下,上下文感知特征交叉结构通过每个模态使用上下文感知交叉和信息引导同时学习多模态特征,在多模式特征表达方面具有更重要的能力。然而现有网络忽略了早期特征提取阶段局部特征融合过程中上下文融合策略的必要性,即缺乏全局上下文感知特征传输。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种灵活度高且精度高的Transformer多模态数据特征融合方法。
[0005]本专利技术实施例的一方面提供了一种Transformer多模态数据特征融合方法,包括:
[0006]通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征;
[0007]通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息;
[0008]根据所述浅层多模态特征和所述协作抽象信息,通过高层多阶段特征传递模块进行第三次交叉融合,得到最终全局特征融合结果。
[0009]可选地,所述通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征,包括:
[0010]使用光谱注意力模块确定单个图像通道维度的全局相关性;
[0011]根据单个图像通道维度的全局相关性,引入动态区域感知策略生成LiDAR的引导掩膜;
[0012]根据所述引导掩膜作为引导信息,对图像特征的空间区分能力进行增强处理。
[0013]可选地,所述使用光谱注意力模块确定单个图像通道维度的全局相关性,包括:
[0014]对输入HSI图像特征X
HSI
施加d维的注意力向量得到光谱增强特征;
[0015]根据所述光谱增强特征,确定每个训练样本的HSI数据和LiDAR数据。
[0016]可选地,所述根据单个图像通道维度的全局相关性,引入动态区域感知策略生成LiDAR的引导掩膜,包括:
[0017]使用带有ReLu激活函数的卷积层对LiDAR数据提取特征;
[0018]基于数据依赖机制从输入特征学习LiDAR的引导掩膜。
[0019]可选地,所述根据所述引导掩膜作为引导信息,对图像特征的空间区分能力进行增强处理,包括:
[0020]计算HSI图像的增强特征;
[0021]将HSI通道分为多个组,每组共享一个Class Token标记,通过沿通道域的局部光谱嵌入细化通道属性表示,完成LiDAR特征增强。
[0022]可选地,所述通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息,包括:
[0023]将MHT编码器应用于HSI数据,并将MLT编码器应用于LiDAR数据,得到光谱特征和空间特征;
[0024]根据自适应CLS标记混合器机制,将不同组的HSI数据的CLS标记分别与LiDAR数据自适应融合,得到协作抽象信息。
[0025]可选地,所述将MHT编码器应用于HSI数据,并将MLT编码器应用于LiDAR数据,得到光谱特征和空间特征,包括:
[0026]对于MHT编码器,将各组的图像特征通过线性投影沿通道离散为序列,得到编码器输入特征;
[0027]对于MLT编码器,将空间特征变换为2D特征矩阵后,再进行两次线性投影,与MHT编码器输入格式统一;
[0028]将MHT编码器和MLT编码器分别对输入张量进行特征提取,得到光谱特征和空间特征。
[0029]可选地,所述根据自适应CLS标记混合器机制,将不同组的HSI数据的CLS标记分别与LiDAR数据自适应融合,得到协作抽象信息,包括:
[0030]将可学习的CLS标记附加于编码器的第一个位置,计算得到HSI数据的特征和LiDAR数据的特征;
[0031]通过自适应CLS标记混合器协调多模态数据中的抽象信息,进行第二次特征上下文融合;
[0032]根据所述第二次特征上下文融合的结果,得到CLS标记和传输的特征张量;
[0033]将各组的HSI数据的特征和LiDAR数据的特征连接起来,得到协作抽象信息。
[0034]可选地,所述根据所述浅层多模态特征和所述协作抽象信息,通过高层多阶段特征传递模块进行第三次交叉融合,得到最终全局特征融合结果,包括:
[0035]计算高级纹理特征、次高级可解释特征和最高级语义特征;
[0036]根据所述高级纹理特征、次高级可解释特征和最高级语义特征,计算最终融合特征;
[0037]将所述最终融合特征输入到分类模块得到类别标签,经过全局平均池化和完全连接层后转换为一维向量;
[0038]使用softmax函数将所述一维向量转化为概率分布,得到预测向量,基于所述预测
向量的最大概率进行分类;
[0039]采用边际损失函数度量所述预测向量和对应的真值向量的一致性,并根据所述一致性的度量结果更新迭代过程。
[0040]本专利技术实施例的另一方面还提供了一种Transformer结构的Transformer多模态数据特征融合装置,包括:
[0041]第一模块,用于通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征;
[0042]第二模块,用于通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息;
[0043]第三模块,用于根据所述浅层多模态特征和所述协作抽象信息,通过高层多阶段特征传递模块进行第三次交叉融合,得到最终全局特征融合结果。
[0044]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Transformer多模态数据特征融合方法,其特征在于,包括:通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征;通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息;根据所述浅层多模态特征和所述协作抽象信息,通过高层多阶段特征传递模块进行第三次交叉融合,得到最终全局特征融合结果。2.根据权利要求1所述的一种Transformer多模态数据特征融合方法,其特征在于,所述通过浅层空谱特征解译模块进行第一次上下文优化,根据从LiDAR数据获得的局部空间掩膜作为引导信息,从光谱信息到空间信息提取浅层多模态特征,包括:使用光谱注意力模块确定单个图像通道维度的全局相关性;根据单个图像通道维度的全局相关性,引入动态区域感知策略生成LiDAR的引导掩膜;根据所述引导掩膜作为引导信息,对图像特征的空间区分能力进行增强处理。3.根据权利要求2所述的一种Transformer多模态数据特征融合方法,其特征在于,所述使用光谱注意力模块确定单个图像通道维度的全局相关性,包括:对输入HSI图像特征X
HSI
施加d维的注意力向量得到光谱增强特征;根据所述光谱增强特征,确定每个训练样本的HSI数据和LiDAR数据。4.根据权利要求2所述的一种Transformer多模态数据特征融合方法,其特征在于,所述根据单个图像通道维度的全局相关性,引入动态区域感知策略生成LiDAR的引导掩膜,包括:使用带有ReLu激活函数的卷积层对LiDAR数据提取特征;基于数据依赖机制从输入特征学习LiDAR的引导掩膜。5.根据权利要求2所述的一种Transformer多模态数据特征融合方法,其特征在于,所述根据所述引导掩膜作为引导信息,对图像特征的空间区分能力进行增强处理,包括:计算HSI图像的增强特征;将HSI通道分为多个组,每组共享一个Class Token标记,通过沿通道域的局部光谱嵌入细化通道属性表示,完成LiDAR特征增强。6.根据权利要求1所述的一种Transformer多模态数据特征融合方法,其特征在于,所述通过中层自适应特征融合模块进行第二次上下文特征融合,使用自适应交叉Transformer融合多个数据源的CLS标记,得到协作抽象信息,包括:将MHT编码器应用于HSI数据,并将MLT编码器应用于LiDAR数据,得到光谱特征和空间特征;根据自适应CLS标记混合器机制,将不同组的HSI数据的CLS标记分别与L...

【专利技术属性】
技术研发人员:谭晓军王锦萍张乐天陈楠杰黄佳健王薛强
申请(专利权)人:广州文远知行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1