当前位置: 首页 > 专利查询>北京大学专利>正文

模型参数的更新方法、装置、测试方法、设备和存储介质制造方法及图纸

技术编号:38360485 阅读:8 留言:0更新日期:2023-08-05 17:30
本申请涉及一种模型参数的更新方法、装置、测试方法、设备和存储介质。方法包括:获取训练数据和预训练过的多媒体数据的识别模型;其中,识别模型包括第一模型参数;处理识别模型,将第一模型参数重参数化为张量,得到第二模型参数;其中,第二模型参数包括参数增量;根据训练数据和识别模型,对参数增量进行训练,得到参数增量的调整值;加载调整值至第二模型参数中,得到更新后的模型参数。采用本方法能够仅对识别模型中的部分参数进行更新,使得预训练的识别模型在执行下游任务时,只需要为每个下游任务储存更新了的模型参数,而占主体的模型参数则在所有下游任务间共享,从而极大地减少了储存开销,具有广泛的现实意义和应用价值。值。值。

【技术实现步骤摘要】
模型参数的更新方法、装置、测试方法、设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种模型参数的更新方法、装置、测试方法、设备和存储介质。

技术介绍

[0002]目前,计算机视觉和自然语言处理领域的一个通用的范式是,在大规模预训练模型上,使用下游任务的标注数据进行微调,使得微调后的模型能够在该下游任务上取得优异的表现。这种范式可应用于多个领域的下游任务,包括图像分类、目标检测、语义分割、自然语言理解、自然语言生成等。由于这种范式更新了预训练模型中的所有参数,这要求使用者为每一个下游任务储存一份与预训练模型大小相同的下游任务特定的微调模型。
[0003]近年来,常用预训练模型的尺寸不断增大,上述范式在多任务场景中储存多个下游任务特定的微调模型的需求将导致储存开销显著增长。例如,对于含有1750亿参数的OPT模型,在上述范式下将为每个下游任务产生超过300GB的储存开销。这一缺陷严重限制了大模型在多任务场景下的应用。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种模型参数的更新方法、装置、测试方法、设备和存储介质,用于解决现有技术中常用预训练模型的尺寸不断增大导致储存开销显著增长,严重限制了大模型在多任务场景下的应用的问题。
[0005]第一方面,本申请提供了一种模型参数的更新方法。所述方法包括:
[0006]获取训练数据和预训练过的多媒体数据的识别模型;其中,所述识别模型包括第一模型参数;
[0007]处理所述识别模型,将所述第一模型参数重参数化为张量,得到第二模型参数;其中,所述第二模型参数包括参数增量;
[0008]根据所述训练数据和所述识别模型,对所述参数增量进行训练,得到所述参数增量的调整值;
[0009]加载所述调整值至所述第二模型参数中,得到更新后的模型参数。
[0010]在其中一个实施例中,所述处理所述识别模型,将所述第一模型参数重参数化为张量,得到第二模型参数,包括:
[0011]将所述识别模型中的权重矩阵分成尺寸相同的多个子矩阵;
[0012]将各所述子矩阵堆叠构成预设维度的张量,得到所述第一模型参数的张量表示;
[0013]将所述第一模型参数的张量表示记为第二模型参数。
[0014]在其中一个实施例中,所述根据所述训练数据和所述识别模型,对所述参数增量进行训练,得到所述参数增量的调整值,包括:
[0015]分解所述参数增量,得到多个因子;
[0016]根据所述训练数据和所述识别模型,对各所述因子进行训练,得到所述参数增量
的调整值。
[0017]在其中一个实施例中,所述根据所述训练数据和所述识别模型,对各所述因子进行训练,得到所述参数增量的调整值,包括:
[0018]采用各所述因子重构所述参数增量,将重构后的所述参数增量加载至所述第二模型参数上,得到中间识别模型;
[0019]将所述训练数据输入所述中间识别模型中,在损失函数的约束下对所述中间识别模型进行训练,训练过程中,更新各所述因子,直至达到预设的收敛条件,
[0020]将达到预设的收敛条件时的各所述因子的数值,作为所述参数增量的调整值。
[0021]在其中一个实施例中,所述识别模型包括多个子模块,各所述子模块包括子模型参数;
[0022]所述在损失函数的约束下对所述中间识别模型进行训练,训练过程中,更新各所述因子,直至达到预设的收敛条件,将达到预设的收敛条件时的各所述因子的数值,作为所述参数增量的调整值,包括:
[0023]在损失函数的约束下对所述中间识别模型进行训练的过程中,更新各所述因子和各所述子模型参数,直至达到预设的收敛条件;
[0024]将达到预设的收敛条件时的各所述因子和各所述子模型参数的数值,作为所述参数增量的调整值。
[0025]第二方面,本申请提供了一种测试方法。所述方法包括:
[0026]采用第一方面中任一项所述的模型参数的更新方法,得到更新后的模型参数;
[0027]采用更新了模型参数的识别模型,对待识别的多媒体数据进行测试,得到测试结果。
[0028]第三方面,本申请还提供了一种模型参数的更新装置。所述装置包括:
[0029]获取模块,用于获取训练数据和预训练过的多媒体数据的识别模型;其中,所述识别模型包括第一模型参数;
[0030]处理模块,用于处理所述识别模型,将所述第一模型参数重参数化为张量,得到第二模型参数;
[0031]训练模块,用于根据所述训练数据和所述识别模型,对所述参数增量进行训练,得到所述参数增量的调整值;
[0032]加载模块,用于加载所述调整值至所述第二模型参数中,得到更新后的模型参数。
[0033]第四方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法步骤,和第二方面中的方法步骤。
[0034]第五方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法步骤,和第二方面中的方法步骤。
[0035]第六方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的方法步骤,和第二方面中的方法步骤。
[0036]上述模型参数的更新方法、装置、测试方法、设备和存储介质,至少具有以下优点:
[0037]本申请获取训练数据和预训练过的识别模型,将识别模型中的第一模型参数重参数化为张量,得到第二模型参数;其中,第二模型参数包括参数增量;根据训练数据和识别模型,对参数增量进行训练,得到参数增量的调整值;加载调整值至第二模型参数中,得到更新后的模型参数。本申请仅对识别模型中的部分参数进行更新,使得预训练的识别模型在执行下游任务时,只需要为每个下游任务储存更新了的模型参数,而占主体的模型参数则在所有下游任务间共享,从而极大地减少了储存开销,具有广泛的现实意义和应用价值。
附图说明
[0038]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0039]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为一个实施例中模型参数的更新方法的应用环境图;
[0041]图2为一个实施例中模型参数的更新方法的流程示意图;
[0042]图3为一个实施例中得到第二模型参数的步骤的流程示意图;
[0043]图4为一个实施例中得到参数增量的调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型参数的更新方法,其特征在于,所述方法包括:获取训练数据和预训练过的多媒体数据的识别模型;其中,所述识别模型包括第一模型参数;处理所述识别模型,将所述第一模型参数重参数化为张量,得到第二模型参数;其中,所述第二模型参数包括参数增量;根据所述训练数据和所述识别模型,对所述参数增量进行训练,得到所述参数增量的调整值;加载所述调整值至所述第二模型参数中,得到更新后的模型参数。2.根据权利要求1所述的方法,其特征在于,所述处理所述识别模型,将所述第一模型参数重参数化为张量,得到第二模型参数,包括:将所述识别模型中的权重矩阵分成尺寸相同的多个子矩阵;将各所述子矩阵堆叠构成预设维度的张量,得到所述第一模型参数的张量表示;将所述第一模型参数的张量表示记为第二模型参数。3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述识别模型,对所述参数增量进行训练,得到所述参数增量的调整值,包括:分解所述参数增量,得到多个因子;根据所述训练数据和所述识别模型,对各所述因子进行训练,得到所述参数增量的调整值。4.根据权利要求3所述的方法,其特征在于,所述根据所述训练数据和所述识别模型,对各所述因子进行训练,得到所述参数增量的调整值,包括:采用各所述因子重构所述参数增量,将重构后的所述参数增量加载至所述第二模型参数上,得到中间识别模型;将所述训练数据输入所述中间识别模型中,在损失函数的约束下对所述中间识别模型进行训练,训练过程中,更新各所述因子,直至达到预设的收敛条件,将达到预设的收敛条件时的各所述因子的数值,作为所述参数增量的调整值。5.根据权利要求4所述的方法,其特征在于,所述识别模型包括多个子模块,各所述子模块包括子模型参数;所述在损失函数的约束下对所述中间识别模...

【专利技术属性】
技术研发人员:节世博邓志鸿
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1