一种广义逼近的自适应LoRA低秩方法技术

技术编号:45156543 阅读:31 留言:0更新日期:2025-05-06 18:11
本发明专利技术提出了一种广义逼近的自适应LoRA低秩方法,特征在于包括直接对transformer注意力层的多个参数变化量矩阵进行广义低秩逼近求解,交替迭代计算求解获得参数变化量矩阵的左右投影变换矩阵,根据优化目标的收敛条件以双边降维的迭代方法对矩阵进行降秩,最终求得每个参数变化量矩阵的低秩结构。本发明专利技术基于大语言模型领域专业训练过程中所用到的LoRA高效微调的理念逻辑,采用矩阵的广义低秩逼近方法求解参数变化量的低秩结构,相较于传统的LoRA高效微调来说能自动计算不同矩阵的低秩结构,并且相较于基于SVD分解的AdaLoRA方法能不依靠在大语言模型训练的损失函数里添加复杂的惩罚项来实现不同矩阵的低秩结构计算。该方法具有更好的灵活性、计算量小、鲁棒性强的优点。

【技术实现步骤摘要】

本专利技术属于大语言模型领域专业知识训练领域,特别涉及一种广义逼近的自适应lora低秩方法。


技术介绍

1、目前在大语言模型应用方面,各个垂直领域为了更好地训练大语言模型的专业化能力,都在做各种微调训练的研究。由于模型的参数量上百亿,若要针对不同的下游任务从0开始重新训练所有参数已经不现实,而以lora(low-rankadaptation)为代表的部分参数高效微调方法则很好地解决了这些问题。lora的核心思想是认为语言模型针对特定任务微调之后,权重矩阵通常具有很低的本征秩,所以参数更新量即使投影到较小的子空间中,也不会影响学习的有效性。针对具体的下游任务,lora方法固定预训练模型参数不变,在transformer架构的权重矩阵旁路添加低秩矩阵的乘积作为可训练参数,用以模拟参数的变化量,最后大语言模型进行推理应用的时候将原始权重和旁路权重进行合并,从而以较小的算力成本训练大语言模型专业化能力。

2、但是在领域训练大语言模型上所用的lora方法给所有的低秩矩阵指定的是唯一的秩,从而忽略了不同模块不同层级的参数对微调特定下游任务的重要性差异,并且本文档来自技高网...

【技术保护点】

1.一种广义逼近的自适应LoRA低秩方法,其特征在于包括以下步骤:

【技术特征摘要】

1.一种广义逼近的自适应lora低...

【专利技术属性】
技术研发人员:吴蕊清程志强王亮张帆范雅惠孙娜刘磊
申请(专利权)人:中国人民解放军九一七七六部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1