当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种跨域数据异构的大模型在线剪枝方法及相关设备技术

技术编号:35819694 阅读:17 留言:0更新日期:2022-12-03 13:44
本发明专利技术公开了一种跨域数据异构的大模型在线剪枝方法及相关设备,方法包括:获取目标预训练模型和目标数据集;根据目标数据集对目标预训练模型进行预剪枝,得到预剪枝模型;将预剪枝模型的参数发送至云服务器进行处理,得到目标融合参数,将目标融合参数加载至预剪枝模型,得到目标融合模型,将目标预训练模型更新为目标融合模型;重新执行根据目标数据集对目标预训练模型进行预剪枝的步骤,直至完成预设数量的轮数后,将目标融合模型作为目标预剪枝模型;对目标预剪枝模型进行结构剪枝处理,得到目标剪枝模型;根据目标剪枝模型得到目标发布模型。本发明专利技术能够在跨域网络环境下,对模型进行在线剪枝,减少模型参数,降低大模型部署对硬件的要求。署对硬件的要求。署对硬件的要求。

【技术实现步骤摘要】
一种跨域数据异构的大模型在线剪枝方法及相关设备


[0001]本专利技术涉及模型预训练
,特别涉及一种跨域数据异构的大模型在线剪枝方法及相关设备。

技术介绍

[0002]基于transformer的语言、图像、多模态预训练大模型在大量测评任务上取得了巨大的成功,证明了基于多头注意模块transformer架构的优越性。然而这些模型通常具有上亿,上百亿的参数规模,实际环境部署对硬件需求极大。
[0003]因此,现有技术还有待改进和提高。

技术实现思路

[0004]针对现有技术的上述缺陷,本专利技术提供一种跨域数据异构的大模型在线剪枝方法及相关设备,旨在解决现有技术中预训练大模型的模型参数量大,对硬件要求高的问题。
[0005]为了解决上述技术问题,本专利技术所采用的技术方案如下:
[0006]本专利技术的第一方面,提供一种跨域数据异构的大模型在线剪枝方法,所述方法包括:
[0007]获取目标预训练模型和目标数据集;
[0008]根据所述目标数据集对所述目标预训练模型进行预剪枝,得到预剪枝本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨域数据异构的大模型在线剪枝方法,其特征在于,所述跨域数据异构的大模型在线剪枝方法包括:获取目标预训练模型和目标数据集;根据所述目标数据集对所述目标预训练模型进行预剪枝,得到预剪枝模型;将所述预剪枝模型的参数发送至云服务器进行处理,得到目标融合参数,将所述目标融合参数加载至所述预剪枝模型,得到目标融合模型,将所述目标预训练模型更新为所述目标融合模型;重新执行根据所述目标数据集对所述目标预训练模型进行预剪枝的步骤,直至完成预设数量的轮数后,将所述目标融合模型作为目标预剪枝模型;对所述目标预剪枝模型进行结构剪枝处理,得到目标剪枝模型;根据所述目标剪枝模型得到目标发布模型。2.根据权利要求1所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述目标预训练模型为transformer模型。3.根据权利要求1所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述获取目标预训练模型和目标数据集之前,还包括:获取原始数据集,对所述原始数据进行预处理,得到所述目标数据集;所述目标数据集模板与预设模板一致。4.根据权利要求1所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述根据所述目标数据集对所述目标预训练模型进行预剪枝,包括:获取所述目标预训练模型中的多头注意力模块;根据所述多头注意力模块中的每一头设置对应的门控网络;将所述目标数据集中各个训练数据对应的所述多头注意力模块的输出结果与所述门控网络进行点积,得到目标注意力输出;根据门控稀疏化函数和所述目标注意力输出获取预剪枝训练损失,并根据优化目标更新所述目标预训练模型。5.根据权利要求4所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述门控稀疏化函数为:其中,所述目标预训练模型中的所述多头注意力模块的层数为l,G
i
为第i层所述多层注意力模块对应的门控网络,i∈[0,l)。6.根据权利要求4所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述预剪枝训练损失为:其中,θ为原始transformer模型参数,为门控网络部分的参数,为所述目标预训练模型的交叉熵损失函数,为门控稀疏度损失函数,λ为超参数。7.根据权利要求1所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述目标融合参数是所述云服务器对不同计算中心的所述预剪枝模型的参数中的非门控网络部分
模型参数计算加权平均,对不同计算中心的所述预剪枝模型参数中的门控网络部分进行极值挑选的融合策略得到的。8.根据权利要求4所述的跨域数据异构的大模型在线剪枝方法,其特征在于,所述对所述目标预剪枝模型进行结构剪枝处理包括:对...

【专利技术属性】
技术研发人员:易泽轩张叶红张艳王进颜达森陶恒韬王晖曾炜余跃
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1