【技术实现步骤摘要】
本专利技术涉及计算机科学与,尤其涉及一种多任务模型融合方法、装置、存储介质、程序产品。
技术介绍
1、当前大语言模型被广泛应用于各类场景中,如智能客服、机器翻译、自动化文档生成等,然而这些应用场景往往需要对预训练模型使用特定的数据集进行微调后才能部署到特定的应用场景中。目前基于大语言模型的多功能智能助手构建方法主要是基于微调,在多个任务的数据集上进行联合微调来得到多任务模型。但传统联合微调构建构建多功能智能助手方法还面临显著的计算机性能瓶颈。传统联合微调方法需同时在多个任务数据集上执行密集计算,这不仅要求数十gb级别的显存容量以支撑大规模参数更新,还需消耗数千gpu小时的高算力资源。更关键的是,该过程产生多份独立存储的专家模型副本,单个参数模型即需占用大量的存储空间,当部署多任务系统时,存储介质i/o速度成为响应延迟的主要来源频繁的模型切换操作易引发存储带宽争用,导致实际推理时延大幅增加。
技术实现思路
1、针对现有技术的不足,本专利技术提出一种多任务模型融合方法、装置、存储介质、程序产品
...【技术保护点】
1.一种多任务模型融合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,所述粒子速度更新公式为:
4.根据权利要求1所述的方法,其特征在于,
5.根据权利要求1-4任一项所述的方法,其特征在于,将多任务划分为文本任务与图像任务,分别获取所述文本任务与所述图像任务对应的专家模型,所述专家模型至少包含视觉专家模型与文本专家模型,所述视觉专家模型用于处理用户输入的图像数据;所述文本专家模型用于处理用户输入的文本数据。
6.根据权利要求5所述的方法
...【技术特征摘要】
1.一种多任务模型融合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,所述粒子速度更新公式为:
4.根据权利要求1所述的方法,其特征在于,
5.根据权利要求1-4任一项所述的方法,其特征在于,将多任务划分为文本任务与图像任务,分别获取所述文本任务与所述图像任务对应的专家模型,所述专家模型至少包含视觉专家模型与文本专家模型,所述视觉专家模型用于处理用户输入的图像数据;所述文本专家模型用于处理用户输入的文本数据。
6.根据权利要求5所述的方法,其特征在于,将所述文本任务与图像任务分别分解为若干子文本任务与子图像任务,依据每一子文本任务、子图像任务确定相应的专家模型。
【专利技术属性】
技术研发人员:冯洋,张珂豪,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。