大语言模型混合推理的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40604973 阅读：3 留言：0更新日期：2024-03-12 22:10

本发明专利技术涉及一种大语言模型混合推理的方法、装置、电子设备及存储介质。大语言模型混合推理方法包括步骤：S1、用户初始开启大模型问答；S2、本地大模型的回答满足用户的需求时，UA继续与Local‑LLM开展问答；S3、当Local‑LLM在第x次给出回答时，如果用户不满意回答结果，则UA暂停与Local‑LLMde问答；S4、UA将历史会话记录提炼生成PT‑S会话提示模版；S5、UA将PT‑S模版作为第x次的提问内容发送给Remote‑LLM，Remote‑LLM根据PT‑S上下文内容，Remote‑LLM生成极高概率达到用户满意的高质量回答，返回给用户。依据本发明专利技术的大语言模型混合推理的方法将本地和远程大语言模型进行有机结合，取长补短，既能有效地降低大模型部署成本，又能在关键问题上获得高质量的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ai和大语言模型，具体而言，涉及一种结合本地和远程的大语言模型混合推理的方法、装置、电子设备及存储介质。

技术介绍

1、目前，国内外绝大多数的大语言模型方面的工作主要集中在覆盖各专业领域的模型训练、多模态大模型、大模型对齐微调技术、模型量化等技术，主要还是聚焦于大模型自身内在能力的提升。但基于已有大模型技术现状的落地实施，特别是经济有效地部署推理服务方面的创新，基本上还是空白。

2、一方面，以openai、华为、百度为代表的商用大模型在技术越来越进步的同时，应用成本仍然居高不下，对于企业大规模全面直接入应用商用大模型当前仍然不是现实的选择。

3、另一方面，随着以llama2、chatgpt等为代表的开源大模型的推出，企业可以免费在本地部署这些开源大模型，从而可以节省使用成本，但这些开源免费的大模型在回答常规通用的问题之外，对于相对专业的以及较难的问题回答质量参差不齐，很难在关键的应用上堪当大任。

4、将llm(large language model，大语言模型，简称大模型)应用于混合推理，业界比较流行的做法，是加载本地文档的大模型推理技术。将一个大模型对接向量数据库，将一些大模型不能回答的一些专用文档加载到向量数据库，用户在提交大模型问题时，先搜索向量数据库，有答案了直接返回，没有答案再提交给大模型。但是这个技术方案加载本地专业文档只能解决文档包含内容的回答，不能获取不限定范围高难度问题的答案。

5、因此，亟需研发一种大语言模型的混合推理方法，能够将本地和远程大语言

技术实现思路

1、本专利技术要解决的技术问题是如何将本地和远程大语言模型进行有机结合，取长补短，既能有效地降低大模型部署成本，又能在关键问题上获得高质量的结果。

2、为解决上述技术问题，根据本专利技术的一个方面，提供一种大语言模型混合推理的方法，方法基于ua(user agent，用户代理)实现，ua是用户使用llm(large languagemodel，大语言模型)推理服务的前端，ua一面直接与用户交互，另一面与llm交互，ua的形式包括客户端app或者浏览器，ua通过标准api接口能够和llm通信，使用llm提供的推理服务，该方法包括如下步骤：s1、用户初始开启大模型问答，通过ua对local-llm本地部署的大模型提问；s2、本地大模型的回答满足用户的需求和体验时，ua继续与local-llm开展问答；s3、当local-llm在第x次给出回答时，如果用户不满意回答结果，则ua暂停与local-llmde问答；s4、ua将历史会话记录提炼生成pt-s(prompt template-session基于会话生成的提示模版)会话提示模版；s5、ua将pt-s模版作为第x次的提问内容发送给remote-llm，remote-llm根据pt-s上下文内容，remote-llm生成极高概率达到用户满意的高质量回答，返回给用户；s6、ua得到了来自remote-llm的满意回答，继续向local-llm提交下一次提问，即第x+1次的提问，则ua进入步骤s2执行，如此过程，周而复始，直至用户主动终止当前会话过程。

3、根据本专利技术的实施例，步骤s4中，ua生成pt-s会话提示模版时，可提取之前第1次至第x-1次问答记录的文本和当前第x次的提问，从而生成pt-s会话提示模版。

4、根据本专利技术的实施例，步骤s3中，用户不满意回答结果时，ua界面上可设置开关，用于暂停向local-llm提问，ua自动进入步骤s4。

5、根据本专利技术的实施例，该方法实现local-llm和remote-llm的混合推理，其中，local-llm可用于承担通用容易问题的推理工作，remote-llm可用于承担专业艰难问题的推理过程。

6、根据本专利技术的实施例，remote-llm可为华为盘古商业万亿参数规模的大模型帐号，按调用次数计费。

7、根据本专利技术的实施例，remote-llm可为专业的稀缺性大模型。

8、根据本专利技术的实施例，remote-llm可为医疗大模型。

9、根据本专利技术的第二个方面，提供一种大语言模型混合推理的装置，装置基于ua实现，ua是用户使用llm推理服务的前端，ua一面直接与用户交互，另一面与llm交互，ua的形式包括客户端app或者浏览器，ua通过标准api接口能够和llm通信，使用llm提供的推理服务，该装置包括：接收用于提问模块，为用户进行大模型提问的入口，用于用户初始开启大模型问答；本地问答模块，用于通过ua对local-llm本地部署的大模型提问，其中，本地大模型的回答满足用户的需求和体验时，ua继续与local-llm开展问答，其中，local-llm用于承担通用容易问题的推理工作；控制模块，当local-llm在第x次给出回答时，如果用户不满意回答结果，控制模块控制ua暂停与local-llmde问答；会话提示模版生成模块，用于将历史会话记录提炼生成pt-s会话提示模版；远程问答模块，用于通过ua将pt-s模版作为第x次的提问内容发送给remote-llm，remote-llm根据pt-s上下文内容，remote-llm生成极高概率达到用户满意的高质量回答，返回给用户，其中，remote-llm用于承担专业艰难问题的推理过程；其中，ua得到了来自remote-llm的满意回答，继续向local-llm提交下一次提问时，即第x+1次的提问，首先由ua的本地问答模块执行；如果用户不满意回答结果，控制模块控制ua暂停，会话提示模版生成模块生成pt-s会话提示模版，远程问答模块根据将pt-s模版作为第x次的提问内容生成答案，返回给用户，直至用户主动终止当前会话过程；其中，会话提示模版生成模块生成pt-s会话提示模版时，提取之前第1次至第x-1次问答记录的文本和当前第x次的提问，从而生成pt-s会话提示模版；其中，控制模块上设置开关，用于暂停向local-llm提问，ua自动进入会话提示模版生成模块生成会话提示模版。

10、根据本专利技术的第三个方面，提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的大语言模型混合推理程序，大语言模型混合推理程序被处理器执行时实现上述的大语言模型混合推理方法的步骤。

11、根据本专利技术的第四个方面，提供一种计算机存储介质，其中，计算机存储介质上存储有大语言模型混合推理程序，大语言模型混合推理程序被处理器执行时实现上述的大语言模型混合推理方法的步骤。

12、与现有技术相比，本专利技术的实施例所提供的技术方案至少可实现如下有益效果：

13、根据本专利技术的大语言模型混合推理的方法，能够结合本地和远程的大语言模型，将单个会话中的多轮次问答，根据简单/高难、通用/专业等角度，通过ua自动分担到本地开源大模型，和远端商用大模型，可同时获得高质量本文档来自技高网...

【技术保护点】

1.一种大语言模型混合推理的方法，所述方法基于UA实现，所述UA是用户使用LLM推理服务的前端，所述UA一面直接与用户交互，另一面与LLM交互，UA的形式包括客户端App或者浏览器，所述UA通过标准API接口能够和LLM通信，使用LLM提供的推理服务，

2.如权利要求1所述的大语言模型混合推理的方法，其中，步骤S4中，UA生成PT-S会话提示模版时，提取之前第1次至第x-1次问答记录的文本和当前第x次的提问，从而生成PT-S会话提示模版。

3.如权利要求1所述的大语言模型混合推理的方法，其中，步骤S3中，用户不满意回答结果时，UA界面上设置开关，用于暂停向Local-LLM提问，UA自动进入步骤S4。

4.如权利要求1所述的大语言模型混合推理的方法，其中，所述方法实现Local-LLM和Remote-LLM的混合推理，其中，所述Local-LLM用于承担通用容易问题的推理工作，所述Remote-LLM用于承担专业艰难问题的推理过程。

5.如权利要求1所述的大语言模型混合推理的方法，其中，所述Remote-LLM为华为盘古商业万亿参数

6.如权利要求1所述的大语言模型混合推理的方法，其中，所述Remote-LLM为专业的稀缺性大模型。

7.如权利要求6所述的大语言模型混合推理的方法，其中，所述Remote-LLM为医疗大模型。

8.一种大语言模型混合推理的装置，所述装置基于UA实现，所述UA是用户使用LLM推理服务的前端，所述UA一面直接与用户交互，另一面与LLM交互，UA的形式包括客户端App或者浏览器，所述UA通过标准API接口能够和LLM通信，使用LLM提供的推理服务，所述装置包括：

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大语言模型混合推理程序，所述大语言模型混合推理程序被所述处理器执行时实现如权利要求1至7中任一项所述的大语言模型混合推理方法的步骤。

10.一种计算机存储介质，其中，所述计算机存储介质上存储有大语言模型混合推理程序，所述大语言模型混合推理程序被处理器执行时实现如权利要求1至7中任一项所述的大语言模型混合推理方法的步骤。

...

【技术特征摘要】

1.一种大语言模型混合推理的方法，所述方法基于ua实现，所述ua是用户使用llm推理服务的前端，所述ua一面直接与用户交互，另一面与llm交互，ua的形式包括客户端app或者浏览器，所述ua通过标准api接口能够和llm通信，使用llm提供的推理服务，

2.如权利要求1所述的大语言模型混合推理的方法，其中，步骤s4中，ua生成pt-s会话提示模版时，提取之前第1次至第x-1次问答记录的文本和当前第x次的提问，从而生成pt-s会话提示模版。

3.如权利要求1所述的大语言模型混合推理的方法，其中，步骤s3中，用户不满意回答结果时，ua界面上设置开关，用于暂停向local-llm提问，ua自动进入步骤s4。

4.如权利要求1所述的大语言模型混合推理的方法，其中，所述方法实现local-llm和remote-llm的混合推理，其中，所述local-llm用于承担通用容易问题的推理工作，所述remote-llm用于承担专业艰难问题的推理过程。

5.如权利要求1所述的大语言模型混合推理的方法，其中，所述remote-llm为华为...

【专利技术属性】
技术研发人员：马钰璐，
申请(专利权)人：号百信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人