一种基于多维注意力机制的多模态图像融合与处理方法技术

技术编号：41863163 阅读：100 留言：0更新日期：2024-06-27 18:35

本发明专利技术涉及一种基于多维注意力机制的多模态图像融合与处理方法。多模态图像融合与处理方法，包括：获取目标对象待处理的多模态图像序列；通过预先训练好的模态感知注意力模块预测多模态图像序列的关键区域以及不同模态图像的重要程度，得到预测结果，其中，关键区域是指解析多模态图像序列时所依据的视觉区域；基于预测结果对多模态图像序列进行加权处理，得到增强图像序列；对增强图像序列进行多模态特征提取和融合，得到特征信息，特征信息用于基于多模态图像序列实现的下游任务。本发明专利技术提供的方法，能够全面考虑多模态图像在空间和通道等多个维度上的信息，同时显式地整合人类的先验知识，实现了可解释的多模态图像处理流程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其涉及一种基于多维注意力机制的多模态图像融合与处理方法。

技术介绍

1、近年来，随着智能设备、社交媒体和网络平台等信息技术的迅猛发展，全球数据的产生量已经显著增长。在此背景下，计算机视觉和人工智能领域也迎来了飞速的发展，图像处理技术因此在人们的日常生活中扮演着越来越重要的角色。当今时代的图像处理和计算机视觉任务类型繁多，这些任务不仅种类丰富，而且依赖于大量的数据资源。因此，研究人员开始探索如何结合来自不同来源的图像数据，比如利用不同波长电磁波采集的近红外图像以及医学诊断中所需的t1/t2加权磁共振成像（nuclear magnetic resonance，mri）等。这些不同的图像类型提供了关于同一对象或场景的互补信息。通过有效地融合这些多模态图像，可以获得比单一图像更为全面和精确的信息，这对于自动驾驶、无人机技术、监控技术、农业监测以及医学诊断等众多领域具有重要的意义。

2、近年来，随着计算机视觉领域的迅速发展，人们的研究焦点关注于基于深度神经网络的多模态图像处理技术，并在不同视觉任务进行探索和应...

【技术保护点】

1.一种基于多维注意力机制的多模态图像融合与处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述模态感知注意力模块包括空间显著性预测器和通道显著性预测器，所述通过预先训练好的模态感知注意力模块预测所述多模态图像序列的关键区域以及不同模态图像的重要程度，得到预测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述空间显著性预测器呈U型结构，所述空间显著性预测器包括多个下采样块、过渡块和多个上采样块，每个下采样块存在对称的上采样块，

4.根据权利要求2所述的方法，其特征在于，所述通道显著性预测器包括多个残差块和多层连接层，所...

【技术特征摘要】

1.一种基于多维注意力机制的多模态图像融合与处理方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述空间显著性预测器呈u型结构，所述空间显著性预测器包括多个下采样块、过渡块和多个上采样块，每个下采样块存在对称的上采样块，

4.根据权利要求2所述的方法，其特征在于，所述通道显著性预测器包括多个残差块和多层连接层，所述多个残差块包括第一残差块和第二残差块，所述基于所述通道显著性预测器，预测所述多模态图像序列中不同模态图像的通道重要性顺序，生成用于表征所述每个模态图像通道重要性的通道显著值，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述预测结果对所述多模态图像序列进行加权处理，得到增强图像序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括多个浅层特征提取模块、多个单模态自注意力模块和跨模态自注意力模块，每个浅层特征提取模块存在对应的单模...

【专利技术属性】
技术研发人员：蒋铼，付义冰，徐迈，陶晓明，段一平，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人