模型参数的更新方法、装置、测试方法、设备和存储介质制造方法及图纸

技术编号：38360485 阅读：8 留言：0更新日期：2023-08-05 17:30

本申请涉及一种模型参数的更新方法、装置、测试方法、设备和存储介质。方法包括：获取训练数据和预训练过的多媒体数据的识别模型；其中，识别模型包括第一模型参数；处理识别模型，将第一模型参数重参数化为张量，得到第二模型参数；其中，第二模型参数包括参数增量；根据训练数据和识别模型，对参数增量进行训练，得到参数增量的调整值；加载调整值至第二模型参数中，得到更新后的模型参数。采用本方法能够仅对识别模型中的部分参数进行更新，使得预训练的识别模型在执行下游任务时，只需要为每个下游任务储存更新了的模型参数，而占主体的模型参数则在所有下游任务间共享，从而极大地减少了储存开销，具有广泛的现实意义和应用价值。值。值。

全部详细技术资料下载

【技术实现步骤摘要】
模型参数的更新方法、装置、测试方法、设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种模型参数的更新方法、装置、测试方法、设备和存储介质。

技术介绍

[0002]目前，计算机视觉和自然语言处理领域的一个通用的范式是，在大规模预训练模型上，使用下游任务的标注数据进行微调，使得微调后的模型能够在该下游任务上取得优异的表现。这种范式可应用于多个领域的下游任务，包括图像分类、目标检测、语义分割、自然语言理解、自然语言生成等。由于这种范式更新了预训练模型中的所有参数，这要求使用者为每一个下游任务储存一份与预训练模型大小相同的下游任务特定的微调模型。
[0003]近年来，常用预训练模型的尺寸不断增大，上述范式在多任务场景中储存多个下游任务特定的微调模型的需求将导致储存开销显著增长。例如，对于含有1750亿参数的OPT模型，在上述范式下将为每个下游任务产生超过300GB的储存开销。这一缺陷严重限制了大模型在多任务场景下的应用。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种模型参数的更新方法、装置、测试方法、设备和存储介质，用于解决现有技术中常用预训练模型的尺寸不断增大导致储存开销显著增长，严重限制了大模型在多任务场景下的应用的问题。
[0005]第一方面，本申请提供了一种模型参数的更新方法。所述方法包括：
[0006]获取训练数据和预训练过的多媒体数据的识别模型；其中，所述识别模型包括第一模型参数；
[0007]处理所述识别模型，将所述第一模...

【技术保护点】

【技术特征摘要】
1.一种模型参数的更新方法，其特征在于，所述方法包括：获取训练数据和预训练过的多媒体数据的识别模型；其中，所述识别模型包括第一模型参数；处理所述识别模型，将所述第一模型参数重参数化为张量，得到第二模型参数；其中，所述第二模型参数包括参数增量；根据所述训练数据和所述识别模型，对所述参数增量进行训练，得到所述参数增量的调整值；加载所述调整值至所述第二模型参数中，得到更新后的模型参数。2.根据权利要求1所述的方法，其特征在于，所述处理所述识别模型，将所述第一模型参数重参数化为张量，得到第二模型参数，包括：将所述识别模型中的权重矩阵分成尺寸相同的多个子矩阵；将各所述子矩阵堆叠构成预设维度的张量，得到所述第一模型参数的张量表示；将所述第一模型参数的张量表示记为第二模型参数。3.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据和所述识别模型，对所述参数增量进行训练，得到所述参数增量的调整值，包括：分解所述参数增量，得到多个因子；根据所述训练数据和所述识别模型，对各所述因子进行训练，得到所述参数增量的调整值。4.根据权利要求3所述的方法，其特征在于，所述根据所述训练数据和所述识别模型，对各所述因子进行训练，得到所述参数增量的调整值，包括：采用各所述因子重构所述参数增量，将重构后的所述参数增量加载至所述第二模型参数上，得到中间识别模型；将所述训练数据输入所述中间识别模型中，在损失函数的约束下对所述中间识别模型进行训练，训练过程中，更新各所述因子，直至达到预设的收敛条件，将达到预设的收敛条件时的各所述因子的数值，作为所述参数增量的调整值。5.根据权利要求4所述的方法，其特征在于，所述识别模型包括多个子模块，各所述子模块包括子模型参数；所述在损失函数的约束下对所述中间识别模...

【专利技术属性】
技术研发人员：节世博，邓志鸿，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人