基于张量并行的大模型低秩自适应微调方法、设备及介质技术

技术编号:41265982 阅读:18 留言:0更新日期:2024-05-11 09:22
基于张量并行的大模型低秩自适应微调方法,包括:从待训练的大模型中确定待调整层,引入低秩参数矩阵;对低秩参数矩阵进行切分,根据切分后的低秩参数子矩阵和初始权重矩阵进行张量并行前向计算,并采用对应的分布式算子,对计算结果进行整合;固定初始权重矩阵,通过反向传播更新低秩参数矩阵直至收敛,得到训练完成的大模型。本发明专利技术将张量并行与LoRA微调结合,可以在微调极少量参数的同时,将同一个大模型的权重放置在不同的显卡上,以解除显卡大小对模型规模的限制,在减少计算量的同时,降低了内存占用空间,提高了大模型微调的灵活性。

【技术实现步骤摘要】

本专利技术属于计算机领域,尤其涉及基于张量并行的大模型低秩自适应微调方法、设备及介质


技术介绍

1、随着chatgpt等人工智能聊天机器人的兴起,百亿级甚至更大参数规模的预训练语言模型逐渐成为学术界研究和工业界落地的热点。

2、在大规模预训练语言模型的训练过程中,首先,受限于标注数据量的庞大和显卡的有限容量,很难对模型的所有参数都进行重新训练,即,全量微调的训练方法不再具有广泛适用性,其次,很多小参数量的微调方法存在一定的性能问题,如adapter增加了模型层数,引入了额外的推理延迟,prefix-tuning较难训练,效果不如全量微调。

3、在这种情况下,基于“模型在任务适配过程中权重的改变量是低秩的”这一原理,通过大规模语言模型低秩自适应(low-rank adaptation of large language models,lora)微调方法可对大模型进行微调。如图1所示,lora针对预训练模型初始权重矩阵w0,可用低秩分解表示权重的改变量δw,即w0+δw=w0+ba,其中,a、b这两个结构的参数分别初始化为高斯分布和0本文档来自技高网...

【技术保护点】

1.一种基于张量并行的大模型低秩自适应微调方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述低秩参数矩阵进行切分,根据切分后的低秩参数子矩阵和初始权重矩阵进行张量并行前向计算,具体包括:

3.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为列并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为行并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;

...

【技术特征摘要】

1.一种基于张量并行的大模型低秩自适应微调方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述低秩参数矩阵进行切分,根据切分后的低秩参数子矩阵和初始权重矩阵进行张量并行前向计算,具体包括:

3.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为列并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为行并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;

6.根据权利要求1...

【专利技术属性】
技术研发人员:杨梦诗刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1