System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 神经网络模型的低秩适应制造技术_技高网

神经网络模型的低秩适应制造技术

技术编号:40559057 阅读:15 留言:0更新日期:2024-03-05 19:20
一种计算机实现的方法,针对多个神经网络层中的每个神经网络层,获得基于神经网络模型的基础模型权重矩阵。首先向对应的基础模型权重矩阵添加低秩分解矩阵,以形成第一域模型。该低秩分解矩阵被视为可训练参数。利用第一域特定训练数据训练该第一域模型而不修改基础模型权重矩阵。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、大型的、预训练的基于神经网络的语言通用模型已改变了自然语言处理(naturallanguage processing,nlp)系统的功能和使用方式。大模型已证明,随着模型大小的增加,任务性能持续提高。然而,针对特定任务或域完全微调通用模型需要存储与原始的通用模型中一样多的微调的模型中的参数。随着预训练的模型越来越大,这对于存储不同的任务特定模型以及在生产设置中在它们之间切换提出挑战。

2、当微调的模型作为针对不同任务的服务被部署时,切换该针对不同任务的微调的模型带来极高的成本。在任务之间共享昂贵的处理资源并在该任务特定模型之间切换每次都需要向vram加载非常大的检查点。这样的切换可以是缓慢且资源密集的操作。换言之,当处理巨大的预训练的模型时,传统的微调无法改变大小。

3、之前,提议了针对新任务只调整一些参数或学习外部模块。在实践中,它们要么引入推理延迟,要么减少该模型的可用序列长度。这些先前的尝试也经常无法匹配微调的基线结果,从而在效率和模型质量之间的权衡。


技术实现思路

1、一种计算机实现的方法,针对多个神经网络层中的每个神经网络层,获得基于神经网络模型的基础模型权重矩阵。首先向对应的基础模型权重矩阵添加低秩分解矩阵,以形成第一域模型。该低秩分解矩阵被视为可训练参数。利用第一域特定训练数据训练该第一域模型而不修改基础模型权重矩阵。

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,还包括使用经训练的所述第一域模型对第一域输入执行推理,所述第一域模型包括所述基础模型权重矩阵和对应的第一低秩分解矩阵。

3.根据权利要求2所述的方法,其中执行推理包括并行地使用所述基础模型权重矩阵和对应的第一低秩分解矩阵。

4.根据权利要求1所述的方法,其中所述第一低秩分解矩阵包括被堆叠有大小为r×d的第二矩阵的大小为d×r的第一矩阵,其中r远小于d,并且其中d是输入的所述长度。

5.根据权利要求4所述的方法,其中所述基础模型权重矩阵具有d×d的维度。

6.根据权利要求1-5中任一项所述的方法,还包括:

7.根据权利要求6所述的方法,还包括使用所述基础模型权重矩阵和对应的第二低秩分解矩阵对第二域输入执行推理。

8.根据权利要求7所述的方法,其中执行推理包括结合所述基础模型权重矩阵和对应的第二低秩分解矩阵以执行推理。

9.根据权利要求1所述的方法,还包括:

10.根据权利要求9所述的方法,还包括使用所述基础模型权重矩阵和对应的第二低秩分解矩阵对第二域输入执行推理。

11.一种机器可读存储设备,所述机器可读存储设备具有用于由机器的处理器执行以使所述处理器执行用以执行根据权利要求1-10中任一项所述的方法的操作的指令。

12.一种设备,包括:

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,还包括使用经训练的所述第一域模型对第一域输入执行推理,所述第一域模型包括所述基础模型权重矩阵和对应的第一低秩分解矩阵。

3.根据权利要求2所述的方法,其中执行推理包括并行地使用所述基础模型权重矩阵和对应的第一低秩分解矩阵。

4.根据权利要求1所述的方法,其中所述第一低秩分解矩阵包括被堆叠有大小为r×d的第二矩阵的大小为d×r的第一矩阵,其中r远小于d,并且其中d是输入的所述长度。

5.根据权利要求4所述的方法,其中所述基础模型权重矩阵具有d×d的维度。

6.根据权利要求1-5中任一项所述的方法,...

【专利技术属性】
技术研发人员:陈伟柱胡景峰谌叶龙王社安刘雅宾
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1