【技术实现步骤摘要】
本专利技术属于计算机领域,尤其涉及基于张量并行的大模型低秩自适应微调方法、设备及介质。
技术介绍
1、随着chatgpt等人工智能聊天机器人的兴起,百亿级甚至更大参数规模的预训练语言模型逐渐成为学术界研究和工业界落地的热点。
2、在大规模预训练语言模型的训练过程中,首先,受限于标注数据量的庞大和显卡的有限容量,很难对模型的所有参数都进行重新训练,即,全量微调的训练方法不再具有广泛适用性,其次,很多小参数量的微调方法存在一定的性能问题,如adapter增加了模型层数,引入了额外的推理延迟,prefix-tuning较难训练,效果不如全量微调。
3、在这种情况下,基于“模型在任务适配过程中权重的改变量是低秩的”这一原理,通过大规模语言模型低秩自适应(low-rank adaptation of large language models,lora)微调方法可对大模型进行微调。如图1所示,lora针对预训练模型初始权重矩阵w0,可用低秩分解表示权重的改变量δw,即w0+δw=w0+ba,其中,a、b这两个结构的参数分别
...【技术保护点】
1.一种基于张量并行的大模型低秩自适应微调方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述低秩参数矩阵进行切分,根据切分后的低秩参数子矩阵和初始权重矩阵进行张量并行前向计算,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为列并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为行并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参
...
【技术特征摘要】
1.一种基于张量并行的大模型低秩自适应微调方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述低秩参数矩阵进行切分,根据切分后的低秩参数子矩阵和初始权重矩阵进行张量并行前向计算,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为列并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述预设的张量并行模式为行并行,所述低秩参数矩阵包括第一低秩参数矩阵和第二低秩参数矩阵;
6.根据权利要求1...
【专利技术属性】
技术研发人员:杨梦诗,刘升平,梁家恩,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。