System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种端到端地理行业大语言模型构建及使用方法技术_技高网

一种端到端地理行业大语言模型构建及使用方法技术

技术编号:40601280 阅读:6 留言:0更新日期:2024-03-12 22:05
本发明专利技术公开了一种端到端地理行业大语言模型构建及使用方法,包括步骤:S0、LLM微调训练获得GeoLLM;S1、用户请求文本输入到GeoLLM;S2、GeoLLM依据,输出最优中间回复,中间回复包括文本任务类型和AI理解结果;S3、依据文本任务类型和AI理解结果生成文本回复和/或调用领域工具执行结果;S4、依据文本回复和/或领域工具执行结果,生成助理回复150。本发明专利技术通过统一格式的大模型输入输出,输入端去掉对prompt设计的依赖,输出端进行格式统一化。将LLM的预期文本回复和地理行业LLM需具备的领域知识和领域工具调用等信息转化成特定格式的文本描述形式,减少领域知识库选择和领域工具任务编排的工作,减少整体应用框架的复杂度。

【技术实现步骤摘要】

本专利技术涉及地理行业大语言模型构建,尤其涉及一种端到端地理行业大语言模型构建及使用方法


技术介绍

1、在基于大语言模型的人机交互对话场景,通常是通用大语言模型在某个具体领域(例如医学、金融、电商等)落地应用的场景,由于通用大语言模型的参数限制以及领域数据隐私限制,通用llm不能掌握足够多特定领域知识,现有地理领域大语言模型落地应用系统主要通过领域任务提示(prompt)管理配合llm扩展插件的技术框架来实现。

2、现有方法用领域知识继续微调llm的训练方法能够给通用llm增加领域知识的有效方式,但也有一定局限,知识微调往往只涉及了领域内的文本类知识,虽然能加深llm对领域文本知识的理解,但还没有涉及对地理领域插件工具的调用理解。

3、现有方法用指定prompt改善领域执行效果,该方式虽然开发成本低,但对提示库的数量和质量要求很高,而且不同用户输入往往需要选择合适的prompt, prompt选取又引入了单独的工作量。prompt选取通常使用相似检索模型,检索储备输入库,匹配到相似输入以后,将对应的prompt拼接到当前用户输入后,一并输入llm,从而实现基于prompt的领域应用引导。因此该过程对数据资源依赖较大,对储备输入库的内容丰富程度和匹配准确率都有很高的要求。

4、现有方法通过llm技术框架扩展领域接口执行能力,类似langchain这样的llm应用框架具备agent插件扩展功能,支持配置领域执行接口的功能和参数说明,对需要调用其它工具的用户请求,以agent插件 prompt的方式引导llm生成合理的调用方案,从而扩展llm的能力边界。但该方法由于缺乏对领域工具和知识的深度微调,因而模型对领域工具的理解不够深入,同样对prompt的依赖较大,模型对领域内各种工具和知识库的理解程度也会限制最终系统应用的准确率。

5、因此现有技术方案缺乏统一格式的输入输出,尤其是输入端prompt选择依赖给领域llm应用增加了新的工作。

6、现有技术方案缺乏对非纯文本形式领域知识的微调训练,这两部分对于主动对话判别和后续知识关联具有关键作用,现有系统通常只在生成阶段使用统一的编码器,编码后的隐式向量在知识关联阶段的可解释性和关联精度都不如显式知识挖掘的效果显著。

7、上述缺点影响现有领域大模型交互的准确率和用户体验。

8、为了解决现有技术方案在大模型在地理行业落地应用的不足,本申请提出了一种新的端到端地理行业大语言模型训练技术,通过对大语言模型输入输出的统一结构化设计,将地理行业知识和地理领域接口工具集合融合到大模型训练过程,实现端到端地理行业大语言模型训练。

9、文献号为cn116842126a的专利文献公开一种利用llm实现知识库精准输出的方法、介质及系统,该方法、介质及系统更好地发挥llm的语言理解与生成能力,实现对大规模知识库的精准检索和表达,但其方法对prompt的依赖较大,对提示库的数量和质量要求很高,prompt选取引入了单独的工作量,因此该过程对数据资源依赖较大,对储备输入库的内容丰富程度和匹配准确率都有很高的要求。

10、文献号为cn116776895a的专利文献公开一种面向api推荐的知识引导大型语言模型查询澄清方法,该专利技术与基于知识图谱或基于语言模型的方法不同,将kg与llm结合起来引导llm,提高了准确性、效率和流畅性;但其同时存在对prompt的依赖较大,对提示库的数量和质量要求很高,工作量大的问题。


技术实现思路

1、本专利技术的目的在于提供一种端到端地理行业大语言模型构建及使用方法,解决多类型地理任务输出端无法统一,框架的复杂度高,不易对领域知识库和领域工具调用的问题。

2、本专利技术的目的可以通过以下技术方案实现:一种端到端地理行业大语言模型构建及使用方法,包括以下步骤:

3、s0、对llm大语言模型进行微调训练,获得地理行业大语言模型geollm;

4、s1、将用户请求文本输入到地理行业大语言模型geollm;

5、s2、地理行业大语言模型geollm依据用户请求文本,输出最优中间回复,所述中间回复包括文本任务类型和ai理解结果;

6、s3、依据文本任务类型和ai理解结果生成文本回复和/或调用领域工具执行结果;

7、s4、依据文本回复和/或领域工具执行结果,生成助理回复。

8、进一步地:所述文本任务类型包括信息抽取类、生成问答类和任务执行类。

9、进一步地:所述ai理解结果包括领域知识提取、领域数据库、领域接口、agent插件和搜索引擎判定。

10、进一步地:所述llm大语言模型采用baichuan-7b或chatglm-6b语言模型。

11、进一步地:所述对llm大语言模型采用lora进行微调训练。

12、进一步地:所述llm大语言模型进行微调训练的步骤为:

13、s11、获取输入输出样本集;

14、s12、利用输入输出样本集对llm大语言模型进行训练;

15、s13、根据训练时loss计算值对llm大语言模型参数p0使用梯度下降进行优化;

16、s14、采用lora通过新增低秩参数微调llm大语言模型参数p0,得到参数为p的地理行业大语言模型geollm。

17、进一步地:所述lora通过新增低秩参数微调llm大语言模型公式为:

18、;

19、其中,为微调模型隐向量,为预训练权重,为增量权重,为低秩矩阵,r为低秩矩阵纬度,d为权重矩阵维度,k为共用矩阵维度;, 使用随机高斯初始化,使用零初始化;

20、根据微调模型隐向量对参数为p0的llm大语言模型调整后获得参数p的地理行业大语言模型geollm。

21、进一步地:所述s2中最优中间回复获取的方法为:

22、所述地理行业大语言模型geollm采用beam search方法获取最优中间回复,公式为:

23、;

24、;

25、其中,为用户请求文本,n为中间回复总字数,,为第t个文字生成成分,为已生成成分,为最优中间回复。

26、本专利技术的有益效果:

27、1、本专利技术通过统一格式的geollm模型输入输出,把地理行业geollm的应用需求分为信息抽取类、生成问答类、任务执行类三类,使用统一训练样本设计后,输入端去掉对prompt设计的依赖,输出端进行格式统一化。将geollm的预期文本回复和地理行业llm需具备的领域知识、领域工具调用等信息转化成特定格式的文本描述形式,不同类型的用户输入-输出均使用统一的“用户:,助理回复:”格式,从而去除了地理行业geollm对动态prompt的依赖,将领域知识和接口领域工具调用信息统一转化成文本描述进行训练,可以减少领域知识库选择和领域工具任务编排的工作,减少整体应用框架的复杂度。

...

【技术保护点】

1.一种端到端地理行业大语言模型构建及使用方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述文本任务类型包括信息抽取类、生成问答类和任务执行类。

3.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述AI理解结果包括领域知识提取、领域数据库、领域接口、Agent插件和搜索引擎判定。

4.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述LLM大语言模型采用baichuan-7B或chatglm-6B语言模型。

5.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述对LLM大语言模型采用LoRA进行微调训练。

6.根据权利要求5所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述LLM大语言模型进行微调训练的步骤为:

7.根据权利要求5所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述LoRA通过新增低秩参数微调LLM大语言模型公式为:

8.根据权利要求5所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述S2中最优中间回复获取的方法为:

...

【技术特征摘要】

1.一种端到端地理行业大语言模型构建及使用方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述文本任务类型包括信息抽取类、生成问答类和任务执行类。

3.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述ai理解结果包括领域知识提取、领域数据库、领域接口、agent插件和搜索引擎判定。

4.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法,其特征在于:所述llm大语言模型采用baichuan-7b或chatglm-6b语...

【专利技术属性】
技术研发人员:仲清吴恩平苏丽萍熊兆李小飞
申请(专利权)人:中科星图数字地球合肥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1