多任务模型融合方法、装置、存储介质、程序产品制造方法及图纸

技术编号:45878328 阅读:15 留言:0更新日期:2025-07-22 21:13
本发明专利技术提出一种多任务模型融合方法、装置、介质、程序产品,该方法包含:获取不同任务场景的若干专家模型;将每一专家模型的参数及每一专家模型对应的稀疏化版本作为初始粒子群;将每一任务分别根据相应的预设评价指标计算融合模型的性能评分,并将所有任务的性能评分的均值作为粒子群优化的目标函数;采用粒子群优化算法对初始粒子群进行迭代更新,基于目标函数计算每个粒子的历史最优解和全局最优解,动态调整粒子速度和参数;将迭代完成后的全局最优粒子参数作为融合后的模型参数,生成融合模型并部署于目标终端。该方法提升了模型融合的效率与多任务的处理能力,减少了计算机存储空间的占用。

【技术实现步骤摘要】

本专利技术涉及计算机科学与,尤其涉及一种多任务模型融合方法、装置、存储介质、程序产品


技术介绍

1、当前大语言模型被广泛应用于各类场景中,如智能客服、机器翻译、自动化文档生成等,然而这些应用场景往往需要对预训练模型使用特定的数据集进行微调后才能部署到特定的应用场景中。目前基于大语言模型的多功能智能助手构建方法主要是基于微调,在多个任务的数据集上进行联合微调来得到多任务模型。但传统联合微调构建构建多功能智能助手方法还面临显著的计算机性能瓶颈。传统联合微调方法需同时在多个任务数据集上执行密集计算,这不仅要求数十gb级别的显存容量以支撑大规模参数更新,还需消耗数千gpu小时的高算力资源。更关键的是,该过程产生多份独立存储的专家模型副本,单个参数模型即需占用大量的存储空间,当部署多任务系统时,存储介质i/o速度成为响应延迟的主要来源频繁的模型切换操作易引发存储带宽争用,导致实际推理时延大幅增加。


技术实现思路

1、针对现有技术的不足,本专利技术提出一种多任务模型融合方法、装置、存储介质、程序产品,该方法提升了模型融本文档来自技高网...

【技术保护点】

1.一种多任务模型融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,所述粒子速度更新公式为:

4.根据权利要求1所述的方法,其特征在于,

5.根据权利要求1-4任一项所述的方法,其特征在于,将多任务划分为文本任务与图像任务,分别获取所述文本任务与所述图像任务对应的专家模型,所述专家模型至少包含视觉专家模型与文本专家模型,所述视觉专家模型用于处理用户输入的图像数据;所述文本专家模型用于处理用户输入的文本数据。

6.根据权利要求5所述的方法,其特征在于,将所述...

【技术特征摘要】

1.一种多任务模型融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,所述粒子速度更新公式为:

4.根据权利要求1所述的方法,其特征在于,

5.根据权利要求1-4任一项所述的方法,其特征在于,将多任务划分为文本任务与图像任务,分别获取所述文本任务与所述图像任务对应的专家模型,所述专家模型至少包含视觉专家模型与文本专家模型,所述视觉专家模型用于处理用户输入的图像数据;所述文本专家模型用于处理用户输入的文本数据。

6.根据权利要求5所述的方法,其特征在于,将所述文本任务与图像任务分别分解为若干子文本任务与子图像任务,依据每一子文本任务、子图像任务确定相应的专家模型。

【专利技术属性】
技术研发人员:冯洋张珂豪
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1