基于自注意力机制和最小二乘的条件对抗领域自适应方法技术

技术编号:33205994 阅读:20 留言:0更新日期:2022-04-24 00:52
本发明专利技术属于迁移学习技术领域,具体的说是基于自注意力机制和最小二乘的条件对抗领域自适应方法,该方法包括如下;通过自注意力机制的特征提取网络和最小二乘的条件形成对抗领域自适应损失函数;并提出使用最小二乘损失函数代替条件对抗领域自适应方法中的交叉熵损失函数,解决算法模型出现模式崩塌、梯度消失以及训练过程不稳定等问题;基于自注意力机制和最小二乘的条件对抗领域自适应方法具有训练过程稳定,数据集分类任务精度高和收敛速度快等优点。度快等优点。度快等优点。

【技术实现步骤摘要】
基于自注意力机制和最小二乘的条件对抗领域自适应方法


[0001]本专利技术涉及迁移学习
,具体是基于自注意力机制和最小二乘的条件对抗领域自适应方法。

技术介绍

[0002]深度学习是人工智能研究领域中的重要研究方向之一,它通过模拟人的大脑,将每一层网络都看作为人脑的一组神经元,通过多层网络不断叠加从而使得机器能够完成和人脑一样的任务;虽然深度学习在各个领域内都有着很好的应用效果,但也存在着一定局限性;其对训练集和测试集要求方面必须满足相同的数据分布特性,同时满足数据具备标签的条件;然而在现实世界中,随着大数据时代的来临,数据虽然爆炸式增长,但并不是出现的数据都拥有其对应的标签,而且对每一个数据集中的数据都分别进行标注又是个极其耗费金钱和时间的工作,为了解决以上问题,人们提出了迁移学习。
[0003]条件对抗领域自适应相关算法依然存在以下问题:条件对抗领域自适应算法中的由于仅使用卷积网络提取特征导致无法捕捉远距离像素信息关系,进而使得算法的分类任务精度下降和使用交叉熵损失函数的使用所导致的模型训练不稳定、梯度消失、模式崩塌的问题;因此,针对上述问题提出基于自注意力机制和最小二乘的条件对抗领域自适应方法。

技术实现思路

[0004]为了弥补现有技术的不足,解决条件对抗领域自适应算法中的由于仅使用卷积网络提取特征导致无法捕捉远距离像素信息关系,进而使得算法的分类任务精度下降和使用交叉熵损失函数的使用所导致的模型训练不稳定、梯度消失、模式崩塌的问题,本专利技术提出基于自注意力机制和最小二乘的条件对抗领域自适应方法。
[0005]本专利技术解决其技术问题所采用的技术方案是:本专利技术所述的基于自注意力机制和最小二乘的条件对抗领域自适应方法,该方法包括如下;通过自注意力机制的特征提取网络和最小二乘的条件形成对抗领域自适应损失函数。
[0006]优选的,所述自注意力机制引入到特征提取网络中,根据非局部神经网络的思想,定义自注意力机制层表示形式如式(1)所示:
[0007][0008]式中,x表示Resnet

50网络层的输入图像特征矩阵;x
i
表示特征矩阵中的第i个元素;x
j
表示特征矩阵中的第j个元素;N表示所有特征矩阵元素数量之和;
[0009]通过式(1)看出γ
i,j
与x
i
、x
j
都有着直接关系,所以任何一对特征矩阵中的元素输入到自注意力机制层均会直接影响到该层的输出;γ
i,j
表示特征矩阵中元素x
i
和x
j
之间的关联性指标;由于自注意力模块是非局部嵌入高斯模型的一种特殊形式,则式(1)中f(x
i
,
x
j
)表示为:
[0010][0011]其中θ(x
i
)和φ(x
j
)具体表达方式如式(3)和(4)所示:
[0012]θ(x
i
)=W
θ
*x
i
ꢀꢀꢀ
(3)
[0013][0014]式中,W
θ
、均表示卷积操作,其中卷积核为1x1且信道尺寸为输入信道的1/8;θ(x
i
)、均表示卷积网络组成的特征空间,其作用是减少每个卷积核的通道数量和参数,进而降低算法运算复杂度;
[0015]因此,根据式(2)—(4),将式(1)改写为:
[0016][0017]由于γ
i,j
为特征矩阵中元素x
i
和x
j
之间的关联性指标,再根据式(5),则自注意力机制层的输出表达式为:
[0018][0019]式中,h(x
j
)表示输入图片在j位置处的特征值,其具体表达方式如式(7)所示:
[0020]h(x
j
)=W
h
x
j
ꢀꢀꢀ
(7)
[0021]此外式(3)、(4)和(7)卷积操作中的W
θ
、W
h
都有着相同的卷积核大小和信道尺寸;
[0022]最后将自注意力机制层的输出o和输入特征x组成线性网络,得到输出特征:
[0023]y
i
=W
o
o
i
+x
i
ꢀꢀꢀ
(8)
[0024]式中,W
o
表示卷积操作,卷积核为1
×
1,其信道尺寸为W
h
、W
θ
、的8倍,目的是为了能够还原原始图片信道数目。
[0025]优选的,所述最小二乘的损失函数网络结构主要由三部分组成,每部分的具体表达形式如式(9)

(11)所示:
[0026][0027][0028][0029]式中,a、b分别表示源域标签和目标域标签;H()表示标准熵;ω(x)表示熵感知权重,表达形式为ω(x)=1+e

x
;c表示先验参数,用于设定域判别器D认为提取特征来自源域的值;表示源域数据;表示源域数据的标签;G()表示类别分类器;表示特征提取器;
D()表示域判别器;表示利用特征提取器获取的源域数据特征;表示利用特征提取器获取的目标域特征;表示利用源域分类器获取的预测标签;表示利用类别分类器G()预测的目标域类别;ε(G)、γ(D)和分别表示用来衡量类别分类器、域判别器和特征提取器优劣程度的损失函数;
[0030]根据式(9)—(11),应用到条件对抗领域自适应方法中的最小二乘损失函数表示为:
[0031][0032][0033]式中λ的含义表示分类损失和迁移损失之间的权衡参数;工作时,进一步,为了证明本方法的可行性,接下来将从理论层面证明最小二乘损失函数能够避免出现梯度消失现象的原因。在条件对抗领域自适应方法中使用交叉熵损失函数,当出现梯度消失时,该损失函数无法收敛,导致模型训练失败,而交叉熵损失函数的收敛问题归根到底就是JS散度收敛问题,根据JS散度相关理论可知:
[0034][0035]当源域分布和目标域分布相似时,JS散度趋近于0,但由于JS散度自身的不稳定性,模型训练过程中JS散度很难趋于0,会提前梯度消失,进而使网络框架模型无法进一步优化参数;此时将使用最小二乘损失函数来解决上述问题。
[0036]首先,对改进算法的域判别器D通过求导得到最优判别器D
*
,其具体表达形式为:
[0037][0038]其次,将式(15)再带入到式(11)中,经推导可得:
[0039][0040]最后,将a、b、c分别设定为

1、1、0,经化简式(16)可得:
[0041][0042]根据式(17),计算最小二乘损失函数的收敛等同于使和的皮尔森散度χ2(Pearsonχ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自注意力机制和最小二乘的条件对抗领域自适应方法,其特征在于:该方法包括如下;通过自注意力机制的特征提取网络和最小二乘的条件形成对抗领域自适应损失函数。2.根据权利要求1所述的基于自注意力机制和最小二乘的条件对抗领域自适应方法,其特征在于:所述自注意力机制引入到特征提取网络中,根据非局部神经网络的思想,定义自注意力机制层表示形式如式(1)所示:式中,x表示Resnet

50网络层的输入图像特征矩阵;x
i
表示特征矩阵中的第i个元素;x
j
表示特征矩阵中的第j个元素;N表示所有特征矩阵元素数量之和;通过式(1)看出γ
i,j
与x
i
、x
j
都有着直接关系,所以任何一对特征矩阵中的元素输入到自注意力机制层均会直接影响到该层的输出;γ
i,j
表示特征矩阵中元素x
i
和x
j
之间的关联性指标;由于自注意力模块是非局部嵌入高斯模型的一种特殊形式,则式(1)中f(x
i
,x
j
)表示为:其中θ(x
i
)和φ(x
j
)具体表达方式如式(3)和(4)所示:θ(x
i
)=W
θ
*x
i
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)式中,W
θ
、均表示卷积操作,其中卷积核为1x1且信道尺寸为输入信道的1/8;θ(x
i
)、均表示卷积网络组成的特征空间,其作用是减少每个卷积核的通道数量和参数,进而降低算法运算复杂度;因此,根据式(2)—(4),将式(1)改写为:由于γ
i,j
为特征矩阵中元素x
i
和x
j
之间的关联性指标,再根据式(5),则自注意力机制层的输出表达式为:式中,h(x
j

【专利技术属性】
技术研发人员:赵立权贾雁飞钟铁
申请(专利权)人:东北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1