System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的遥感解译智能体系统技术方案_技高网
当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于大语言模型的遥感解译智能体系统技术方案

技术编号:43441331 阅读:11 留言:0更新日期:2024-11-27 12:47
本发明专利技术公开了一种基于大语言模型的遥感解译智能体系统,该系统通过集成多种遥感专有模型,如高光谱分类、变化检测、目标检测和场景分类等,将其解耦为图像编码模块和任务相关的解码模块,并通过接口封装实现灵活组合,以便大语言模型能够针对不同的遥感解译任务进行处理。引入了结构化输出机制,系统还引入了检索增强生成技术(RAG),建立了外部向量数据库,存储了标注好的决策流程示例和用户评价良好的决策流程。本发明专利技术不仅提出了一个适用于各类遥感解译场景下的通用智能体,还丰富了遥感解译任务的方法与应用,能够自适应地根据用户输入多模态数据解决用户需求,具有广泛的应用前景和实用价值,为遥感领域的研究和实践带来重要的技术支持。

【技术实现步骤摘要】

本专利技术涉及遥感智能解译领域,具体涉及开发一种基于大语言模型的遥感解译智能体系统


技术介绍

1、遥感技术在地球观测、环境监测、农业管理、城市规划等多个领域具有广泛应用。遥感数据通常包括多光谱、超光谱、雷达等多种数据形式,这些数据通过卫星、无人机等平台获取,能够提供地表的详细信息。然而,随着遥感技术的快速发展和数据获取手段的多样化,遥感数据的数量和复杂度不断增加,对于不同的数据类型以及不同的解译任务类型,往往需要各种独立且冗余的方法来针对性应对各种应用场景。因此,开发一种集成遥感解译方法的智能体系统,以高效、准确地解译各种数据类型和统一处理多种应用场景,具有重要的实践价值。

2、现有的遥感数据解译方法主要依赖于专家经验和基于规则的算法,这些方法在应对简单、单一类型的数据时具有一定的优势,但面对多源、多模态数据时,容易出现效率低下和解译精度不高的问题。此外,传统方法往往是针对特定应用场景或单一任务进行优化的,每当引入新的数据源或新的应用需求时,通常需要重新构建模型并进行大量的训练和调优工作。尽管深度学习技术在遥感解译领域取得了显著成果,遥感大模型已得到广泛研究和整体性能的提高,具备处理多模态数据和解决各类下游任务的能力,但这些大遥感模型直接应用于各类型下游任务的性能甚至不如一些专有模型高效,往往需要单独的微调才能满足任务的需求。这不仅增加了开发和维护成本,也限制了遥感技术的灵活性和广泛应用。因此,构建一种能够统一应用于各类应用场景,并且可以高效、准确地解译和融合各种数据类型的智能体系统变得尤为必要。

3、基于上述现实需求,要求构建一个能够结合具体任务需求,自适应地搭配对应专有模型处理遥感图像的智能体系统。此外,该系统还需能够依据输入情况,动态处理用户输入的不同模态数据,以更好地完成用户的需求。近些年来,随着算力的不断提高,深度学习模型的网络参数量也随之不断增加,大模型的涌现能力在大语言模型上体现得淋漓尽致,例如,chatgpt已经能够非常合理地回答用户输入的问题。因此,大语言模型的卓越分析能力为智能体的实现提供了可能,能够很好地作为智能体中负责决策的“大脑”。在“大脑”做出决策后,智能体系统可以根据大语言模型的结构化输出进行解析,并准确调用各种专有模型来对用户指定的遥感图像进行解译,完成用户指定的需求。借助大模型,搭建能够适用于各种任务场景、统一解决各类遥感解译任务需求的智能体系统是本专利技术所追求的核心创新点。由于智能体能够合理解耦任务流程,因此系统可以轻松融合多模态数据,并且能够随着遥感解译专有模型的迭代,随时更新并提高系统对各种场景的解译能力。


技术实现思路

1、为了有效应对各种遥感解译的应用场景以及多模态遥感数据联合处理成本高等问题,本专利技术提出了一种基于大语言模型的遥感解译智能体系统,以解决
技术介绍
中指出的问题。

2、为实现上述目的,本专利技术的技术方案实现步骤是:

3、步骤1,收集和解耦现有的各种模态类型的各种遥感专有模型,包括但不限于高光谱分类、高光谱变化检测、高分辨率遥感图像目标检测和场景分类等任务场景。通过将网络解耦成图像编码模块和与任务严重相关的解码模块并进行接口封装,进而让大语言模型能够合理地组合不同的模块以实现各种遥感解译的应用场景。

4、步骤2,搭建大语言模型的结构化输出,使大语言模型的输出可被系统所解析,

5、具体prompt模板细节如下:

6、system message:

7、a)你是一个遥感解译领域的专家,你必须始终独立地对于给定任务需求做出决策,无需寻求用户的帮助,发挥你作为大语言模型的优势。追求简单而高效的策略。

8、b)限制条件说明:

9、i.仅可以使用下面列出的动作;

10、ii.pre-action、mid-action、post-action三种不同的动作池中的动作只能作为其对应的动作组成部分,不允许动作身份的变化;

11、iii.动作流程列表中每一步的动作都必须由pre-action、mid-action、post-action三种动作组成部分组成,当无需进行其中某一组成部分时应将该部分的动作置为“none”;

12、iv.动作流程列表的最后一步的动作必须由三个“finish”组成以告诉系统任务结束;

13、v.待处理图像以```input-image-{序号}```在结构化输出中进行代指;

14、vi.你只能主动的行动,在计划动作时就需要考虑到这一点;

15、vii.你无法与物理对象进行交互,如果对于完成任务或目标是绝对必要的,则必须要求用户为你完成,在给出提醒的同时直接输出终止动作,避免浪费时间和精力。

16、c)动作说明:

17、i.pre-action动作池:(以编码各种模态遥感数据的编码器为主,在动作描述中可以指明编码器解耦前所解决的遥感解译问题类型,以更好地帮助大语言模型进行决策)

18、1.{<动作1的名字(要求与接口名对应)>:<动作1的描述>,

19、‘args’:[{‘name’:<动作1的参数1>,‘description’:<参数的描述>,‘type’:<参数类型>},

20、{‘name’:<动作1的参数2>,‘description’:<参数的描述>,‘type’:<参数类型>},

21、……

22、]

23、}

24、2.……

25、3.{‘none’:‘当前步骤无需这一动作组成部分’,‘args’:‘none’}

26、4.{‘finish’:‘结束动作流程标识,输出结果的同时请求用户对结果进行评价’,

27、‘args’:[{‘name’:‘answer’,‘description’:‘最后的输出’}]

28、ii.mid-action动作池:(以编码后特征处理操作模块为主,包含先验特征增强、网络检索等这种复杂动作,也要包括特征差分,归一化这种简单的数据操作动作,具体的形式同pre-action动作池)

29、iii.post-action动作池:(以任务相关的解码器为主)

30、d)资源说明:

31、i.pre-action包含着各种模态的遥感图像编码器;

32、ii.mid-action包含着各种特征操作的方法;

33、iii.post-action包含这完成目标或其中的子目标的各种解码器;

34、iv.你是一个大语言模型,接受了大量决策流程训练,利用这些知识来尽可能避免不必要流程的决策出现。

35、e)决策输出格式说明:

36、i.你应该只以json格式响应,响应格式如下:

37、{

...

【技术保护点】

1.一种基于大语言模型的遥感解译智能体系统,其特征在于,包括如下步骤:

2.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤1中,收集和解耦现有的各种模态类型的各种遥感专有模型,包括但不限于高光谱分类、高光谱变化检测、高分辨率遥感图像目标检测和场景分类等任务场景,通过将网络解耦成图像编码模块和与任务严重相关的解码模块并进行接口封装,进而让大语言模型能够合理地组合不同的模块以实现各种遥感解译的应用场景,做好智能体系统的准备工作。

3.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤2中,搭建大语言模型的结构化输出,使大语言模型的输出可被系统所解析。

4.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤3中,针对一些经典的具有代表性的遥感解译任务场景,收集并标注一定量的任务需求和决策流程对,并转化为步骤2中所对应的结构化输出形式,进而构成能供大语言模型训练的输入输出对。

5.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤4中,采用LoRA微调技术为大语言模型的权重附加一个可学习的低秩增量矩阵。

6.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤4中,通过在步骤3标注的训练样本上微调这一额外引入的少量参数而保留原始的预训练权重,进而在保留大语言模型丰富的先验通用知识的前提下,将遥感领域的特有知识注入到大语言模型中,以提高大语言模型在遥感解译上的性能。

7.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤4是实现时,具体包括如下步骤:

8.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,在步骤5中,为了让智能体系统具有不断完善和学习的能力,该系统引入了检索增强生成技术(Retrieval-Augmented Generation,RAG)。

9.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,在步骤5中,通过搭建外部向量数据库,并在其中存入我们已经标注好的决策流程示例以及在实践的过程中被用户给予好评的决策流程,以至于在下一次用户需求到来时能够依据向量数据库的检索结果作为大语言模型的上下文参考,进而帮助大语言模型做出更贴合用户需求且更具高效性的决策。

10.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤5中,智能体系统在执行检索增强生成技术(RAG)的过程中,首先需要对用户的输入进行解析,提取出关键的需求信息和上下文语境,接着,系统会在外部向量数据库中进行检索,寻找与当前用户需求最为匹配的决策流程示例和用户好评的决策流程,具体包括如下步骤:

...

【技术特征摘要】

1.一种基于大语言模型的遥感解译智能体系统,其特征在于,包括如下步骤:

2.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤1中,收集和解耦现有的各种模态类型的各种遥感专有模型,包括但不限于高光谱分类、高光谱变化检测、高分辨率遥感图像目标检测和场景分类等任务场景,通过将网络解耦成图像编码模块和与任务严重相关的解码模块并进行接口封装,进而让大语言模型能够合理地组合不同的模块以实现各种遥感解译的应用场景,做好智能体系统的准备工作。

3.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤2中,搭建大语言模型的结构化输出,使大语言模型的输出可被系统所解析。

4.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤3中,针对一些经典的具有代表性的遥感解译任务场景,收集并标注一定量的任务需求和决策流程对,并转化为步骤2中所对应的结构化输出形式,进而构成能供大语言模型训练的输入输出对。

5.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤4中,采用lora微调技术为大语言模型的权重附加一个可学习的低秩增量矩阵。

6.如权利要求1所述一种基于大语言模型的遥感解译智能体系统,其特征在于,所述步骤4中,通过在步骤3标注的训练样本上微调这一额外引入...

【专利技术属性】
技术研发人员:饶昱涛张俊杰李冠壹周鑫余鸿文曾丹
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1