基于多源遥感影像的视觉大模型构建方法、装置、设备及介质制造方法及图纸

技术编号：46323938 阅读：6 留言：0更新日期：2025-09-09 19:05

本申请涉及一种基于多源遥感影像的视觉大模型构建方法、装置、设备及介质，方法包括：针对光学遥感影像、SAR遥感影像与红外遥感影像像特征差异大、模型跨源泛化性弱的问题，研究基于多源遥感影像的视觉大模型，通过融合多模态数据互补特征，建立跨源目标统一表征空间，解决单一模型对不同影像源特征适应性不足的瓶颈，重点挖掘多源影像中目标纹理、几何与辐射特性的关联性，设计多层级特征交互与自适应融合机制，增强模型对跨源目标的语义一致性理解，最终构建具备强泛化能力的视觉大模型，为星上轻量化小模型提供高精度监督信号，确保跨源遥感影像目标检测性能的稳定性。本申请能够降低对目标域标注数据的依赖，使模型保持良好的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉领域，尤其涉及一种基于多源遥感影像的视觉大模型构建方法、相应的装置、电子设备及计算机可读存储介质。

技术介绍

1、当前遥感影像解译领域主要采用针对单一传感器数据的专用模型，例如光学影像的卷积神经网络、sar影像的极化分解算法、红外影像的温度特征分类器等。现有技术通常针对特定传感器类型(如光学、sar或红外)独立设计模型架构，通过大量标注数据训练单一场景下的目标识别或地物分类模型。部分改进技术尝试通过迁移学习或数据增强提升模型的跨源适应能力，但核心方法仍以单一传感器数据为输入，未突破多源数据协同建模的局限性。现有技术体系下，不同传感器模型之间参数不共享、特征表达不兼容，导致跨源影像解译时需重新训练或微调模型。

2、现有技术的工作流程分为数据预处理、特征提取与分类识别三个阶段。对于光学影像，采用基于rgb通道的卷积神经网络提取空间光谱特征；sar影像处理依赖相干斑噪声抑制模块与极化散射特征提取器，通过后向散射强度建模目标特性；红外影像则通过温度阈值分割与热辐射特征分析实现目标检测。在模型结构上，现有技术通常采...

【技术保护点】

1.一种基于多源遥感影像的视觉大模型构建方法，其特征在于，包括：

2.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特征在于，获取包含各个目标对象的雷达遥感影像以及其相对应的红外遥感影像、光学遥感影像的步骤,包括：

3.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特征在于，基于Swin Transformer模型采用局部窗口自注意力机制根据所述光学遥感影像的随机遮蔽影像相对应的编码数据，捕捉所述光学遥感影像中的各个目标对象相对应的局部细节特征的步骤，包括：

4.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特...

【技术特征摘要】

1.一种基于多源遥感影像的视觉大模型构建方法，其特征在于，包括：

3.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特征在于，基于swin transformer模型采用局部窗口自注意力机制根据所述光学遥感影像的随机遮蔽影像相对应的编码数据，捕捉所述光学遥感影像中的各个目标对象相对应的局部细节特征的步骤，包括：

4.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特征在于，采用门控交叉注意力机制将所述各个目标对象相对应的局部细节特征与所述目标对象相对应的全局语义信息进行特征融合，以确定所述各个目标对象相对应的多源融合特征的步骤，包括：

5.根据权利要求1所述的基于多源遥感影像的视觉大模型构建方法，其特征在于，将预训练好的编码器添加具体的任务头进行微调...

【专利技术属性】
技术研发人员：庞艳华，周郭许，李晶，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人