基于重参数化的预训练神经网络的无参数自动自适应方法技术

技术编号：34342216 阅读：38 留言：0更新日期：2022-07-31 04:07

本发明专利技术提供一种基于重参数化的预训练神经网络的无参数自动自适应方法，该方法基于重参数化方法，使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡，并且可以等价地转换为单个权重层，而无需在推理阶段引入额外的模型参数；分析表明，该方法可以模拟神经网络层中每个滤波器以不同的学习率微调。因此，该方法实现了预训练模型的自动自适应，而无需额外的搜索成本。无需额外的搜索成本。无需额外的搜索成本。

A parameterless automatic adaptive method based on heavily parameterized pre training neural network

全部详细技术资料下载

【技术实现步骤摘要】
基于重参数化的预训练神经网络的无参数自动自适应方法

[0001]本专利技术涉及计算机视觉领域，更具体地，涉及一种基于重参数化的预训练神经网络的无参数自动自适应方法。

技术介绍

[0002]视觉预训练的最新进展证明了将预训练模型迁移到目标任务的重要性和优势，不同的迁移学习方法适用于不同的网络和目标任务，对某个层应该进行微调还是冻结、微调的程度需要根据实际情况进行繁琐的重复试验和人工调整。本专利技术提出了一种无需额外搜索成本的用于卷积神经网络的无参数自动模型自适应方法。
[0003]迁移学习：深度学习高度依赖于数据驱动，为了让模型学习某个特定任务，除了需要采集大量任务相关的数据，更困难的是需要昂贵的标注成本，模型的性能依赖于训练数据的标注量。为了降低数据采集、标注的成本和提高训练效率，迁移学习先在大规模数据集上对模型进行预训练，再在目标任务数据集上继续优化预训练好的模型的网络权重，将源域的源任务上的相关知识迁移到目标域的目标任务上，源域可以是单个或多个，并且一般能复用于不同的目标任务。1986年，Hinton在训练神经网络中引入迁移学习。自2012年ImageNet等大规模数据集被用于大量计算机视觉任务以来，迁移学习技术引起广大研究者的兴趣，在ImageNet上预训练模型是各种任务实现先进性能的关键。
[0004]通过模型自适应进行迁移学习：模型自适应方法修改预训练模型，以在目标任务上获得更高的性能。流行的模型自适应方法有：(1)线性探测方法，直接在冻结特征上学习特定任务的头部，完全不改变预训练网络权重，...

【技术保护点】

【技术特征摘要】
1.一种基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，包括以下步骤：S1：将网络的每个卷积
‑
批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支；S2：在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调；S3：在推理阶段利用重参数化将两个分支等价地转换为单个权重层。2.根据权利要求1所述的基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，所述步骤S1中，将网络的每个卷积
‑
批规范化层扩展为两个分支的加权和，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支，是将图像识别神经网络的每个卷积
‑
批规范化层扩展为两个卷积
‑
批规范化分支的加权和，两个分支都用相同的预训练网络参数初始化，其中一个分支冻结，另一个分支不冻结。3.根据权利要求2所述的基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，所述步骤S2中，在目标任务上进行重参数化自适应调优，联合优化网络参数和分支缩放因子，为每个滤波器模拟任意学习率下的微调，是将步骤S1中的网络在目标任务上进行端到端训练，无需引入额外的训练迭代或搜索阶段，就能模拟每个滤波器都具有自适应学习率的模型微调。4.根据权利要求3所述的基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，所述步骤S3中，在推理阶段利用重参数化将两个分支等价地转换为单个权重层，而无需引入额外的模型参数和计算成本，是将步骤S2中训练完成的网络的每两个卷积
‑
批规范化分支利用重参数化合并为单个权重层，使得推理阶段不增加模型参数和计算成本，即实现无参数的模型自适应。5.根据权利要求4所述的基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，所述步骤S1中，用ψ表示一个配备了一个随机初始化的特定任务头部的预训练模型，给定一个目标为的目标任务，模型自适应通过执行特定的迁移策略ζ产生目标模型ψ
★
：在计算机视觉领域，卷积网络的迁移学习策略在目标任务上使用与预训练模型相同的网络结构，其中网络参数ω继承自预训练的ω0，这些策略大体分为两类：微调策略和线性探测策略，这些策略的本质区别在于每个网络参数的学习率，不失一般性，设η
m
为参考学习率，η∈R
|i|
表示所有|i|滤波器的学习率乘数η
(i)
∈R其中，i表示滤波器索引，|i|表示滤波器总数，给定超参数η，这些模型自适应策略的目标是：在这个框架中，微调策略相当于为所有参数设置一个全局η，而线性探测策略相当于为所有预训练的参数设置η＝0；冻结滤波器和微调滤波器之间的软平衡代表它们之间的中间状态，即以较小的学习率进行滤波器调优，而每个参数的最佳学习率受数据分布、模型结构因素的影响，旨在自动化学习目标任务的合理迁移策略ζ，自动化模型自适应的目标表示为：
为了使滤波器在冻结的预训练的权重和完全微调的权重之间实现软平衡，将网络的每个卷积
‑
批规范化层扩展为两个分支，一个参数来自预训练模型的冻结分支和一个用于适配目标任务的可训练分支，这两个分支都用相同的预训练网络参数初始化；两个分支的每个滤波器显式引入了缩放因子δ，其中d表示一个网络层中的滤波器序号，重参数化自适应定义为：其中ω0和表示预训练的网络参数和微调分支的参数，diag(
·
)表示将向量转换成对角矩阵。6.根据权利要求5所述的基于重参数化的预训练神经网络的无参数自动自适应方法，其特征在于，所述...

【专利技术属性】
技术研发人员：梁小丹，张吉褀，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人