当前位置: 首页 > 专利查询>北京大学专利>正文

基于幻影梯度的图像分类隐式模型加速训练方法技术

技术编号:30233040 阅读:29 留言:0更新日期:2021-09-29 10:09
本发明专利技术公布了一种基于幻影梯度的图像分类隐式模型加速训练方法,通过定义用于图像分类和特征提取的隐式模型,定义图像分类隐式模型参数的幻影梯度,基于损失函数计算幻影梯度,并基于幻影梯度对图像分类隐式模型进行加速训练,得到训练好的图像分类隐式模型;基于图像分类隐式模型的输出,模型的分类器即可输出预测的图像标签。本发明专利技术方法可用于高效训练图像分类与特征提取的深度平衡模型等隐式模型,能够提高模型参数利用率,降低训练图像分类模型的内存开销,可实现训练更大规模的图像分类模型。分类模型。分类模型。

【技术实现步骤摘要】
基于幻影梯度的图像分类隐式模型加速训练方法


[0001]本专利技术属于模式识别、机器学习、人工智能
,涉及用于图像处理的隐式模型训练方法,具体涉及一种用于图像分类和特征提取的基于幻影梯度的隐式模型加速训练方法。

技术介绍

[0002]传统的神经网络通常是通过明确地将多个线性和非线性算子以前馈的方式堆叠起来构建的。最近,隐式定义的模型已经吸引了越来越多的关注,并能够在计算机视觉和自然语言处理任务上达到或超过显式模型达到最先进的水平。
[0003]目前已有的这些隐式模型方法将中间隐藏状态的演变视为某种形式的动态系统,如方程求根或微分方程(ODE)来表示无限的潜伏状态。因此,隐性模型的前向计算被表述为解决这些潜在的动力学问题,并通过黑盒ODE求解器或寻根数值算法来解决。然而,对于反向传播来说,直接通过前向计算的轨迹进行微分可能会引起沉重的内存开销。为此,研究人员开发了基于隐式微分的方法,比如为深度平衡模型(DEQ)的反向传播求解一个基于雅克比矩阵的线性方程。这最终使得反向传播轨迹与前向传递的轨迹无关,仅需要存储模型和模型前向推理的终止状态,不需要任何模型推理的中间状态,从而允许以常数级复杂度的内存消耗来训练这些隐式模型。
[0004]为了估计隐式微分所承诺的准确梯度,这些隐式模型仍然必须依靠黑箱求解器(ODE 求解器或方程求根算法),其迭代性质通常使梯度计算在实践中非常昂贵。对于大规模的深度平衡模型(DEQ)来说,黑箱求解器往往需要超过30步算法迭代来计算准确的隐式微分,从而使得其训练开销相对于显式模型而言变得相当高昂,这限制了隐式模型的研究和应用。
[0005]因此,已有的常规图像分类方法,模型参数利用率较低,训练图像分类模型的内存开销高,很难训练大规模的图像分类模型;而基于隐式模型的图像分类方法提供了更高效的参数利用率,极大地降低了训练图像分类模型的内存开销,从而使得训练更大规模的的图像分类模型成为可能。并且,基于隐式模型建立的图像分类模型,提供了更好的可解释性,对于较为敏感的医学影像分类等诸多领域存在潜在研究与应用价值。

技术实现思路

[0006]为了克服上述现有技术的不足,本专利技术提出了一种基于幻影梯度的图像分类隐式模型加速训练方法,给出了一种新的隐式模型的梯度估计方法,称为幻影梯度(phantomgradient),用于高效训练图像分类与特征提取的深度平衡模型(DEQ)等隐式模型,能够提高模型参数利用率,降低训练图像分类模型的内存开销,可实现训练更大规模的图像分类模型。
[0007]为方便起见,本专利技术定义如下术语名称及参数:
[0008][0009][0010]本专利技术采用的技术方案是:
[0011]一种基于幻影梯度的图像分类隐式模型加速训练方法,包括如下步骤:
[0012]S1.定义用于图像分类和特征提取的隐式模型;
[0013]本专利技术将如下形式定义的隐式模型用于图像分类和特征提取,其中,隐式模型可采用已有的深度平衡模型(DEQ):
[0014][0015]其中,为代表定义隐式模型的显式网络,在本专利中为多尺度深度平衡模型(MDEQ); h
*
为隐式模型的输出,z是模型参数θ和隐式模型输入u的并,即u作为隐式模型输入图片x在输入变换层M下的投影,即u=M(x)。基于隐式模型的输出h
*
,后续分类器输出预测的图像标签y。
[0016]在训练过程中,基于给定的损失函数L可以计算幻影梯度。
[0017]s2.定义图像分类隐式模型参数的幻影梯度,并基于幻影梯度对图像分类隐式模型进行加速训练,得到训练好的图像分类隐式模型;
[0018]本专利技术采用的关于参数的幻影梯度表示为如下形式:
[0019][0020]幻影梯度针对雅克比矩阵的代替矩阵A满足如下式3的条件,σ
max
和σ
min
分别是的最大最小特征值,I为单位矩阵,为损失函数关于深度平衡模型输出变量的梯度:
[0021][0022]此时幻影梯度可以满足与真实梯度的夹角小于90度,从而提供优化的理论保证:
[0023][0024]本专利技术提供三种幻影梯度的实现实例,分别记为基于展开迭代的幻影梯度,Neumann 级数的幻影梯度,Broyden求解器的幻影梯度。三种幻影梯度的实例均满足式3以及式4 的要求,具体如下:
[0025]A.基于展开迭代的幻影梯度的图像分类隐式模型加速训练方法:
[0026]A1.给定输入图片x,执行训练阶段的标准数据增强,如随机裁剪,随机左右反转等;
[0027]A2.使用隐式模型的前向求解器求解近似的平衡点h
*
,此阶段不使用自动微分引擎存储中间变量;
[0028]以近似的平衡点h
*
为起点h0,使用如下公式计算k次迭代后的h
k
作为最终输出的平衡点该阶段使用自动微分引擎存储中间变量;
[0029][0030]A3.基于隐式模型的输出进行图像分类,并使用自动微分引擎(如采用Pytorch等自动求导工具)计算损失函数L关于模型参数的梯度,此时自动微分引擎计算的幻影梯度中的A满足下式;
[0031][0032]其中,为基于展开迭代的幻影梯度针对雅克比矩阵的代替矩阵;
[0033]A4.基于幻影梯度,使用随机梯度下降算法对隐式模型的参数执行优化算法迭代。
[0034]B.基于Neumann级数的幻影梯度
[0035]B1.给定输入图片x,执行训练阶段的标准数据增强,如随机裁剪,随机左右反转
等;
[0036]B2.使用隐式模型的前向求解器求解近似的平衡点h
*
,并基于h
*
预测图像的标签y;
[0037]B3.计算预测标签y下损失函数L关于平衡点h
*
的梯度;
[0038]B4.计算损失函数L关于参数的幻影梯度;
[0039]具体实施时,该步骤以矩阵

向量乘积的形式计算A与的乘积,使用下式定义的 Neumann级数计算幻影梯度中的A;
[0040][0041]其中,为基于Neumann级数的幻影梯度针对雅克比矩阵的代替矩阵;B满足下式:
[0042][0043]B5.基于幻影梯度,使用随机梯度下降算法对隐式模型的参数执行优化算法迭代。
[0044]C.基于Broyden求解器的幻影梯度
[0045]C1.给定输入图片x,执行训练阶段的标准数据增强,如随机裁剪,随机左右反转等;
[0046]C2.使用隐式模型的前向求解器求解近似的平衡点h
*
,并基于h
*
预测图像的标签y;
[0047]C3.计算预测标签y下损失函数L关于平衡点h
*
的梯度;
[0048]C4.使用Broyden求解器求解下述方程中的g(基于Broyden求解器的幻影梯度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于幻影梯度的图像分类隐式模型加速训练方法,包括如下步骤:S1.定义用于图像分类和特征提取的隐式模型;基于图像分类隐式模型的输出h
*
,模型的分类器即可输出预测的图像标签y;图像分类隐式模型采用深度平衡模型DEQ,表示为式1:其中,代表定义图像分类隐式模型的显式网络;h
*
为图像分类隐式模型的输出;z是图像分类隐式模型参数θ和图像分类隐式模型输入u的并,即z
T
=[θ
T
,u
T
],u为图像分类隐式模型的输入图片x在输入变换层M下的投影,即u=M(x);S2.定义图像分类隐式模型参数θ的幻影梯度,基于损失函数L计算幻影梯度,并基于幻影梯度对图像分类隐式模型进行加速训练,得到训练好的图像分类隐式模型;关于图像分类隐式模型参数的幻影梯度表示为如下形式:其中,为损失函数关于深度平衡模型输出变量的梯度;A为幻影梯度针对雅克比矩阵的代替矩阵;A满足式3的条件:其中,σ
max
和σ
min
分别是的最大最小特征值;I为单位矩阵;为损失函数关于深度平衡模型输出变量的梯度;所述幻影梯度可以满足与真实梯度的夹角小于90度,优化为式4:所述幻影梯度的实例均满足式3和式4;所述幻影梯度包括:基于展开迭代的幻影梯度,Neumann级数的幻影梯度,Broyden求解器的幻影梯度;具体如下:A.基于展开迭代的幻影梯度的图像分类隐式模型加速训练包括如下过程:A1.给定输入图片x,进行训练阶段的标准数据增强;A2.使用隐式模型的前向求解器求解近似的平衡点h
*
,且无需使用自动微分引擎存储中间变量;以近似的平衡点h
*
为起点h0,使用式5计算得到k次迭代后的结果h
k
,作为最终输出的平
衡点过程中需要使用自动微分引擎存储中间变量;其中,λ为基于展开迭代和Neumann级数的幻影梯度的超参数;k为幻影梯度中的算法迭代步数;t为用于计数的序号变量;A3.基于隐式模型的输出进行图像分类,并使用自动微分引擎计算损失函数L关于模型参数的梯度,此时自动微分引擎计算的幻影梯度中的A满足下式;其中,为基于展开迭代的幻影梯度针对雅克比矩阵的代替矩阵;A4.基于幻影梯度,使用随机梯度下降算法对隐式模型的参数执行优化算法迭代;B.基于Neumann级数的幻影梯度的图像分类隐式模型加速训练,包括如下过程:B1.给定输入图片x,进行训练阶段的标准数据增强;B2.使用隐式模型...

【专利技术属性】
技术研发人员:林宙辰耿正阳张鑫禹白绍杰
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1