多模型融合方法、电子设备及存储介质技术

技术编号：41295089 阅读：2 留言：0更新日期：2024-05-13 14:44

本发明专利技术实施例涉及深度学习领域，公开了一种多模型融合方法、电子设备及存储介质，其中方法包括：构建多个对话模型，各所述对话模型均由模型结构、模型参数都相同的通用模型，以及模型结构相同、模型参数不同的个性化模型组成；保存所述通用模型，所述个性化模型的模型结构和各所述个性化模型的模型参数；根据对话请求，选择一个所述个性化模型的模型参数注入到所述个性化模型的模型结构中形成与所述对话请求匹配的个性化模型；将所述通用模型与所述匹配的个性化模型组合，形成与所述对话请求匹配的所述对话模型，以对所述对话请求进行处理。本发明专利技术方案既能在保证大模型原有能力不下降的同时具有多种特定任务处理能力，又能极大的节省部署资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习领域，特别涉及一种多模型融合方法、电子设备及存储介质。

技术介绍

1、随着信息社会的发展，大模型逐渐展现出强大的自然语言理解和推理能力，在智能对话系统中，基于大模型来处理各种自然语言处理(natural language processing，nlp)任务已成为主流。但大模型更多的是擅长通用领域的问答以及一些生成创作类任务，处理一些特定任务的效果还达不到商用要求。为了较好的处理特定任务，在对话系统同时部署多个全参数微调后的大模型以处理多种特定任务。但是，同时部署多个大模型需要的显卡资源非常庞大，训练时间长且成本高。所以如何将多个大模型融合成一个，减少的部署的显卡资源，成为了当前需要解决的问题。

2、现有技术为了解决上述问题，一般直接通过微调向通用对话大模型注入多种任务能力，使得注入多种任务能力后的通用对话大模型能够同时具备处理多种任务的能力。但是，这种方法存在两点不足：一是注入多种任务能力会对大模型原有的能力造成破坏，即大模型的通用对话能力会下降；二是多种任务能力之间会相互影响，即注入多种任务能力的大模型处理特定任务的能力，相较于只注入一种任务能力的通用对话大模型的所能达到的处理效果会下降。

技术实现思路

1、本专利技术实施方式的目的在于提供一种多模型融合方法、电子设备及存储介质，能够融合对话领域中多个大模型，既能在保证大模型原有能力不下降的同时具有多种特定任务处理能力，又能极大的节省部署资源。

2、为解决上述技术问题，本专利技术的实施

3、构建多个对话模型，各所述对话模型均由模型结构、模型参数都相同的通用模型，以及模型结构相同、模型参数不同的个性化模型组成；

4、保存所述通用模型，所述个性化模型的模型结构和各所述个性化模型的模型参数；

5、根据对话请求，选择一个所述个性化模型的模型参数注入到所述个性化模型的模型结构中形成与所述对话请求匹配的个性化模型；

6、将所述通用模型与所述匹配的个性化模型组合，形成与所述对话请求匹配的所述对话模型，以对所述对话请求进行处理。

7、本专利技术的实施方式还提供了一种电子设备，包括：

8、至少一个处理器；以及，

9、与所述至少一个处理器通信连接的存储器；其中，

10、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的多模型融合方法。

11、本专利技术的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的多模型融合方法。

12、本专利技术实施方式相对于现有技术而言，通过构建多个对话模型，各对话模型均由模型结构、模型参数都相同的通用模型，以及模型结构相同、模型参数不同的个性化模型组成；构建完成后保存通用模型，个性化模型的模型结构和各个性化模型的模型参数；根据用户的对话请求，选择一个个性化模型的模型参数注入到个性化模型的模型结构中形成与对话请求匹配的个性化模型；将通用模型与匹配的个性化模型组合，形成与对话请求匹配的对话模型，以对对话请求进行处理。由此可见，本申请预先构建并保存了对话模型在处理不同对话请求时，其个性化模型的结构及模型参数。在处理特定任务时，只需在通用模型的基础上将与对话请求匹配的个性化模型的模型参数注入到个性化模型的模型结构中，并将通用模型与该个性化模型组合成对话模型以处理相应的对话请求。即，本申请的方案无需改变原有的通用模型，只需要根据不同的对话请求选择不同的个性化模型并与通用模型组合出不同的对话模型来处理多种特定任务，能够保证大模型(通用模型)原有的能力不下降，且相较于大模型，个性化模型所需部署资源很少，能极大的节省部署资源。

本文档来自技高网...

【技术保护点】

1.一种多模型融合方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建多个对话模型包括：

3.根据权利要求2所述的方法，其特征在于，所述采用LoRA低秩适应方法对大规模预训练语言模型进行多种微调包括：

4.根据权利要求3所述的方法，其特征在于，每种所述对话任务用于处理与其匹配的所述对话请求。

5.根据权利要求4所述的方法，其特征在于，所述LoRA微调参数至少包括：语义匹配LoRA微调参数、意图识别LoRA微调参数和多轮补全LoRA微调参数。

6.根据权利要求5所述的方法，其特征在于，当所述对话请求为请求执行语义匹配任务时，所述选择一个所述个性化模型的模型参数注入到所述个性化模型的模型结构中形成与所述对话请求匹配的个性化模型，包括：

7.根据权利要求5所述的方法，其特征在于，当所述对话请求为请求执行意图识别任务时，所述选择一个所述个性化模型的模型参数注入到所述个性化模型的模型结构中形成与所述对话请求匹配的个性化模型，包括：

8.根据权利要求5所述的方法，其特征在于，当所述对话

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的多模型融合方法。

...

【技术特征摘要】

1.一种多模型融合方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建多个对话模型包括：

3.根据权利要求2所述的方法，其特征在于，所述采用lora低秩适应方法对大规模预训练语言模型进行多种微调包括：

4.根据权利要求3所述的方法，其特征在于，每种所述对话任务用于处理与其匹配的所述对话请求。

5.根据权利要求4所述的方法，其特征在于，所述lora微调参数至少包括：语义匹配lora微调参数、意图识别lora微调参数和多轮补全lora微调参数。

6.根据权利要求5所述的方法，其特征在于，当所述对话请求为请求执行语义匹配任务时，所述选择一个所述个性化模型的模型参数注入到所述个性化模型的模...

【专利技术属性】
技术研发人员：李东根，
申请(专利权)人：达闼机器人股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人