【技术实现步骤摘要】
本专利技术属于遥感与计算机视觉交叉领域,具体涉及一种实现遥感图像细粒度视觉感知的多模态大语言模型。
技术介绍
1、对遥感图像做细粒度的解译和更复杂的视觉推理对在实际应用中做出合理并明知的决策至关重要。目前,自然图像领域的视觉提示模型最近取得了进展,用户可以通过各种视觉提示(如方框、点和自由形状)与人工智能(ai)工具进行交互从而实现对图像更深层次的理解。然而,由于自然影像与遥感影像在成像条件、目标视角、地域广度等方面存在显著差异,现有的自然领域视觉提示模型在遥感场景下面临挑战,无法直接迁移应用到遥感领域。
2、尽管已有多模态大语言模型工作,如earthgpt和geochat,旨在探索多模态大语言模型在遥感中的应用并统一多视觉任务,但仍然存在不足。例如现有的遥感领域多模态大模型的主要侧重于解释图像粒度遥感数据解译,缺乏更细粒度的视觉感知,并且仅支持与语言指令的交互,缺乏对视觉指令的支持,限制了多模态大模型在现实世界中的灵活性应用,影响对遥感数据做更复杂的推理。显然,细粒度的多模态大语言模型在遥感领域的研究和应用仍处于起步阶段且
...【技术保护点】
1.一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,包括:
2.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,通过以下步骤完成模型训练:
3.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,大语言模型解码器注意层的自注意力头由查询Q、键K和值V三个部分组成,第l层自注意力头的实现公式为:
4.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,将可学习的低秩适配矩阵插入至第二训练模型中的大语言模型解码器的Transfor
...【技术特征摘要】
1.一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,包括:
2.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,通过以下步骤完成模型训练:
3.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,大语言模型解码器注意层的自注意力头由查询q、键k和值v三个部分组成,第l层自注意力头的实现公式为:
4.根据权利要求2所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,将可学习的低秩适配矩阵插入至第二训练模型中的大语言模型解码器的transformer层,包括:
5.根据权利要求1所述的一种实现遥感图像细粒度视觉感知的多模态大语言模型,其特征在于,两个视觉编码器分别为dinov2-vitl/14和clip-convnext,其中,dinov2-vitl/14在visiontran...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。