一种实现遥感图像细粒度视觉感知的多模态大语言模型制造技术

技术编号:43477687 阅读:20 留言:0更新日期:2024-11-29 16:52
本发明专利技术提供一种实现遥感图像细粒度视觉感知的多模态大语言模型,包括:共享视觉编码模块,含两个功能互补视觉编码器,分别接收进行下采样后不同分辨率图像进行编码,并按照通道维度连接得到集成的多尺度视觉特征图。同时,将视觉提示分别输入至两个功能互补的视觉编码器,得到编码后的视觉提示;模态对齐映射层,用于将多尺度特征图以及编码后的视觉提示转换到语言语义空间,得到映射后的视觉以及视觉提示;文本分词器模块,用于将文本指令转换为向量嵌入;大语言模型解码器,用于接收映射图像token、视觉提示token以及文本指令嵌入,生成模型响应序列。本发明专利技术为细粒度的多模态大语言模型在遥感领域的研究和应用提供了简单可行的办法。

【技术实现步骤摘要】

本专利技术属于遥感与计算机视觉交叉领域,具体涉及一种实现遥感图像细粒度视觉感知的多模态大语言模型


技术介绍

1、对遥感图像做细粒度的解译和更复杂的视觉推理对在实际应用中做出合理并明知的决策至关重要。目前,自然图像领域的视觉提示模型最近取得了进展,用户可以通过各种视觉提示(如方框、点和自由形状)与人工智能(ai)工具进行交互从而实现对图像更深层次的理解。然而,由于自然影像与遥感影像在成像条件、目标视角、地域广度等方面存在显著差异,现有的自然领域视觉提示模型在遥感场景下面临挑战,无法直接迁移应用到遥感领域。

2、尽管已有多模态大语言模型工作,如earthgpt和geochat,旨在探索多模态大语言模型在遥感中的应用并统一多视觉任务,但仍然存在不足。例如现有的遥感领域多模态大模型的主要侧重于解释图像粒度遥感数据解译,缺乏更细粒度的视觉感知,并且仅支持与语言指令的交互,缺乏对视觉指令的支持,限制了多模态大模型在现实世界中的灵活性应用,影响对遥感数据做更复杂的推理。显然,细粒度的多模态大语言模型在遥感领域的研究和应用仍处于起步阶段且缺少简单可行的办法。本文档来自技高网...

【技术保护点】

1.一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,包括:

2.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,通过以下步骤完成模型训练:

3.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,大语言模型解码器注意层的自注意力头由查询Q、键K和值V三个部分组成,第l层自注意力头的实现公式为:

4.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,将可学习的低秩适配矩阵插入至第二训练模型中的大语言模型解码器的Transformer层,包括:...

【技术特征摘要】

1.一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,包括:

2.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,通过以下步骤完成模型训练:

3.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,大语言模型解码器注意层的自注意力头由查询q、键k和值v三个部分组成,第l层自注意力头的实现公式为:

4.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,将可学习的低秩适配矩阵插入至第二训练模型中的大语言模型解码器的transformer层,包括:

5.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,两个视觉编码器分别为dinov2-vitl/14和clip-convnext,其中,dinov2-vitl/14在visiontran...

【专利技术属性】
技术研发人员:张伟毛雪瑞
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1