当前位置: 首页 > 专利查询>中山大学专利>正文

基于重参数化的预训练神经网络的无参数自动自适应方法技术

技术编号:34342216 阅读:38 留言:0更新日期:2022-07-31 04:07
本发明专利技术提供一种基于重参数化的预训练神经网络的无参数自动自适应方法,该方法基于重参数化方法,使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡,并且可以等价地转换为单个权重层,而无需在推理阶段引入额外的模型参数;分析表明,该方法可以模拟神经网络层中每个滤波器以不同的学习率微调。因此,该方法实现了预训练模型的自动自适应,而无需额外的搜索成本。无需额外的搜索成本。无需额外的搜索成本。

A parameterless automatic adaptive method based on heavily parameterized pre training neural network

【技术实现步骤摘要】
基于重参数化的预训练神经网络的无参数自动自适应方法


[0001]本专利技术涉及计算机视觉领域,更具体地,涉及一种基于重参数化的预训练神经网络的无参数自动自适应方法。

技术介绍

[0002]视觉预训练的最新进展证明了将预训练模型迁移到目标任务的重要性和优势,不同的迁移学习方法适用于不同的网络和目标任务,对某个层应该进行微调还是冻结、微调的程度需要根据实际情况进行繁琐的重复试验和人工调整。本专利技术提出了一种无需额外搜索成本的用于卷积神经网络的无参数自动模型自适应方法。
[0003]迁移学习:深度学习高度依赖于数据驱动,为了让模型学习某个特定任务,除了需要采集大量任务相关的数据,更困难的是需要昂贵的标注成本,模型的性能依赖于训练数据的标注量。为了降低数据采集、标注的成本和提高训练效率,迁移学习先在大规模数据集上对模型进行预训练,再在目标任务数据集上继续优化预训练好的模型的网络权重,将源域的源任务上的相关知识迁移到目标域的目标任务上,源域可以是单个或多个,并且一般能复用于不同的目标任务。1986年,Hinton在训练神经网络中引入迁移学习。自2012年ImageNet等大规模数据集被用于大量计算机视觉任务以来,迁移学习技术引起广大研究者的兴趣,在ImageNet上预训练模型是各种任务实现先进性能的关键。
[0004]通过模型自适应进行迁移学习:模型自适应方法修改预训练模型,以在目标任务上获得更高的性能。流行的模型自适应方法有:(1)线性探测方法,直接在冻结特征上学习特定任务的头部,完全不改变预训练网络权重,虽然训练时速度快且显存占用少,完全保留了预训练得到的表征能力,但预训练的表征不一定对目标任务有正面的帮助,可能会导致较差的性能;(2)微调方法,是最常用的迁移学习方法,在许多计算机视觉任务和自然语言处理任务上实现了先进性能,包括图像识别、目标检测、语义分割、文本分类和问答,微调可以将预训练的表征调整到适合目标任务的分布,从而更好地发挥预训练知识的作用,但容易损害预训练得到的对目标任务有效的表征能力,比如在目标任务数据集样本量较少但模型参数量较大时容易导致过拟合;(3)适配器调优方法,在预训练的网络上添加一些轻量级模块以适应模型,而不改变其原始参数,代价是在训练和推理阶段都会增加模型大小。
[0005]自动化迁移学习:有一些关于自动化迁移学习的初步尝试,如训练时为每个样本激活不同部分的网络、为每个输入样本在每层乃至每个滤波器选择冻结权重或微调权重之间动态路由、使用神经结构搜索或剪枝调节网络、自动调整逐层学习率等。这些方法要么引入策略网络,要么增加模型大小,要么引入重复的训练循环,增加了训练成本或推理成本,使整个过程变得复杂。
[0006]重参数化:重参数化是一种将一个网络结构的参数经过特定转换作为另一个不同的网络结构的参数,使得两个网络结构的函数等价的方法。最近,训练阶段引入多个可合并分支、推理阶段运用重参数化合并分支使网络结构不变的方法被广泛用于增强卷积神经网络的性能。重参数化也用于神经结构搜索,如使用重参数化将多个候选操作合并成一个操
作以提高搜索效率、对多个卷积核作加权和产生一个新核以实施条件参数化卷积等。
[0007]现有技术中公开了一种面向边缘计算的重参数神经网络架构搜索方法的专利,该专利通过设计线性算子与多支路块结构;然后,通过堆叠多支路块结构构建超级网络;然后,通过基于梯度的一阶段搜索算法训练超级网络;然后,删除超级网络中多余的支路构建最佳子网络;然后,多分支的最佳子网络转化成单支路网络;最后,使用单支路网络完成任务推理;该专利用于搜索可进行重参数的神经网络结构,在保证推理精度的同时,确保了推理的实时性以及模型运算的高效率。然而,该专利对于如何实现预训练模型的自动自适应,而无需额外的搜索成本的技术方案却鲜有涉及。

技术实现思路

[0008]本专利技术提供一种基于重参数化的预训练神经网络的无参数自动自适应方法,该方法实现了预训练模型的自动自适应,而无需额外的搜索成本。
[0009]为了达到上述技术效果,本专利技术的技术方案如下:
[0010]一种基于重参数化的预训练神经网络的无参数自动自适应方法,包括以下步骤:
[0011]S1:将网络的每个卷积

批规范化层扩展为两个分支的加权和,一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支;
[0012]S2:在目标任务上进行重参数化自适应调优,联合优化网络参数和分支缩放因子,为每个滤波器模拟任意学习率下的微调;
[0013]S3:在推理阶段利用重参数化将两个分支等价地转换为单个权重层。
[0014]进一步地,所述步骤S1中,将网络的每个卷积

批规范化层扩展为两个分支的加权和,一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支,是将图像识别神经网络的每个卷积

批规范化层扩展为两个卷积

批规范化分支的加权和,两个分支都用相同的预训练网络参数初始化,其中一个分支冻结,另一个分支不冻结。
[0015]进一步地,所述步骤S2中,在目标任务上进行重参数化自适应调优,联合优化网络参数和分支缩放因子,为每个滤波器模拟任意学习率下的微调,是将步骤S1中的网络在目标任务上进行端到端训练,无需引入额外的训练迭代或搜索阶段,就能模拟每个滤波器都具有自适应学习率的模型微调。
[0016]进一步地,所述步骤S3中,在推理阶段利用重参数化将两个分支等价地转换为单个权重层,而无需引入额外的模型参数和计算成本,是将步骤S2中训练完成的网络的每两个卷积

批规范化分支利用重参数化合并为单个权重层,使得推理阶段不增加模型参数和计算成本,即实现无参数的模型自适应。
[0017]进一步地,所述步骤S1中,用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型,给定一个目标为的目标任务,模型自适应通过执行特定的迁移策略ζ产生目标模型ψ


[0018][0019]在计算机视觉领域,卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构,其中网络参数ω继承自预训练的ω0,这些策略大体分为两类:微调策略和线性探测策略,这些策略的本质区别在于每个网络参数的学习率,不失一般性,设η
m
为参考学习率,η∈R
|i|
表示所有|i|滤波器的学习率乘数η
(i)
∈R其中,i表示滤波器索引,|i|表示
滤波器总数,给定超参数η,这些模型自适应策略的目标是:
[0020][0021]在这个框架中,微调策略相当于为所有参数设置一个全局η,而线性探测策略相当于为所有预训练的参数设置η=0;
[0022]冻结滤波器和微调滤波器之间的软平衡代表它们之间的中间状态,即以较小的学习率进行滤波器调优,而每个参数的最佳学习率受数据分布、模型结构因素的影响,旨在自动化学习目标任务的合理迁移策略ζ,自动化模型自适应的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,包括以下步骤:S1:将网络的每个卷积

批规范化层扩展为两个分支的加权和,一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支;S2:在目标任务上进行重参数化自适应调优,联合优化网络参数和分支缩放因子,为每个滤波器模拟任意学习率下的微调;S3:在推理阶段利用重参数化将两个分支等价地转换为单个权重层。2.根据权利要求1所述的基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,所述步骤S1中,将网络的每个卷积

批规范化层扩展为两个分支的加权和,一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支,是将图像识别神经网络的每个卷积

批规范化层扩展为两个卷积

批规范化分支的加权和,两个分支都用相同的预训练网络参数初始化,其中一个分支冻结,另一个分支不冻结。3.根据权利要求2所述的基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,所述步骤S2中,在目标任务上进行重参数化自适应调优,联合优化网络参数和分支缩放因子,为每个滤波器模拟任意学习率下的微调,是将步骤S1中的网络在目标任务上进行端到端训练,无需引入额外的训练迭代或搜索阶段,就能模拟每个滤波器都具有自适应学习率的模型微调。4.根据权利要求3所述的基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,所述步骤S3中,在推理阶段利用重参数化将两个分支等价地转换为单个权重层,而无需引入额外的模型参数和计算成本,是将步骤S2中训练完成的网络的每两个卷积

批规范化分支利用重参数化合并为单个权重层,使得推理阶段不增加模型参数和计算成本,即实现无参数的模型自适应。5.根据权利要求4所述的基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,所述步骤S1中,用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型,给定一个目标为的目标任务,模型自适应通过执行特定的迁移策略ζ产生目标模型ψ

:在计算机视觉领域,卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构,其中网络参数ω继承自预训练的ω0,这些策略大体分为两类:微调策略和线性探测策略,这些策略的本质区别在于每个网络参数的学习率,不失一般性,设η
m
为参考学习率,η∈R
|i|
表示所有|i|滤波器的学习率乘数η
(i)
∈R其中,i表示滤波器索引,|i|表示滤波器总数,给定超参数η,这些模型自适应策略的目标是:在这个框架中,微调策略相当于为所有参数设置一个全局η,而线性探测策略相当于为所有预训练的参数设置η=0;冻结滤波器和微调滤波器之间的软平衡代表它们之间的中间状态,即以较小的学习率进行滤波器调优,而每个参数的最佳学习率受数据分布、模型结构因素的影响,旨在自动化学习目标任务的合理迁移策略ζ,自动化模型自适应的目标表示为:
为了使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡,将网络的每个卷积

批规范化层扩展为两个分支,一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支,这两个分支都用相同的预训练网络参数初始化;两个分支的每个滤波器显式引入了缩放因子δ,其中d表示一个网络层中的滤波器序号,重参数化自适应定义为:其中ω0和表示预训练的网络参数和微调分支的参数,diag(
·
)表示将向量转换成对角矩阵。6.根据权利要求5所述的基于重参数化的预训练神经网络的无参数自动自适应方法,其特征在于,所述...

【专利技术属性】
技术研发人员:梁小丹张吉褀
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1