用于少样本故障诊断的具有自适应学习率的元学习方法技术

技术编号:33291285 阅读:16 留言:0更新日期:2022-05-01 00:10
本发明专利技术提供一种用于少样本故障诊断的具有自适应学习率的元学习方法,其包括以下步骤:确定相关超参数;对模型参数随机初始化;进行元训练包括:外循环迭代次数中嵌套内循环,在内循环迭代中,采样形成子任务,根据内循环中子任务的参数更新次数Γ计算得到参数计算样本的交叉熵损失,内循环结束后计算特征间多核最大均值差异并更新模型参数;进行精调循环包括:计算自适应的精调学习率,计算精调损失函数,最后得到用于目标任务故障诊断的模型并结束。本发明专利技术提出了用于元训练和精调的两种自适应学习率,并改进了元训练和精调的损失函数,解决了少样本学习中的过拟合和欠拟合问题,并且使模型具有更强的泛化能力。并且使模型具有更强的泛化能力。并且使模型具有更强的泛化能力。

【技术实现步骤摘要】
用于少样本故障诊断的具有自适应学习率的元学习方法


[0001]本专利技术涉及人工智能领域,尤其涉及一种用于少样本故障诊断的具有自适应学习率的元学习方法。

技术介绍

[0002]机器设备的故障诊断对机器设备的安全运行和高效工作起着重要作用。随着深度学习技术的迅速发展,近年来基于深度学习的故障诊断方法得到了长足的发展。这些方法能够方便、快捷地实现准确的故障诊断,而不用依赖专家经验和耗时的人工特征提取操作。但是这些方法的成功依赖于大量的训练数据。否则,这些方法的效果将显著降低。然而,在实际情况中,收集足够的数据来训练故障诊断模型通常是昂贵甚至不切实际的。其中一个主要原因是,一旦机器设备出现故障,将被立即关闭以确保安全,这就导致仅能收集到少量故障数据。此外,与实验室中的机器设备不同,不能人为地在真实运行的机器设备中引入故障以获取故障数据。
[0003]为了应对用于训练故障诊断模型的数据不足的问题,当前主流方法包括三类:基于数据增强的方法、基于迁移学习的方法和少样本学习方法。基于数据增强的方法可以基于原始数据集生成新的数据从而增加数据量和多样性。然而,这类方法很难确保生成的数据的正确性和质量,特别是当真实原始数据极其有限时。因此,生成的样本无法提供足够有效的辅助信息。获取有效辅助信息的另一个方法是从其他不同但相关的任务(即辅助任务)中学习先验知识。为此,基于迁移学习的方法从相关但分布不同的辅助任务中学习知识,并迁移到目标任务中从而完成分类。然而,这类方法主要侧重于使模型能够适应于一个特定的目标任务。这类方法仍有进一步提高模型的泛化能力的空间,尤其是在数据量很有限的情况下。
[0004]比适应一个特定的目标任务更进一步,少样本学习方法从多个辅助任务中学习相关知识,以提高模型的泛化能力,从而能够适应于多个少样本目标任务,这就是元学习方法的思想。在故障诊断领域,机器设备经常在不同的工况下工作。虽然在每个工况下收集足够数量的数据是昂贵且不切实际的,但可以使用在不同工况下收集的数据来构成多个辅助任务。因此,将元学习方法应用于少样本故障诊断是合理且可行的。在基于度量的元学习方法中,由于辅助任务的分布之间存在的差异和数据的不足,很难提取到具有普遍性和区分度的特征,而且距离度量函数的选择也不便捷。与基于度量的元学习方法不同,模型无关元学习(MAML,Model

agnostic meta

learning)作为元学习方法的另一个类别,旨在通过元训练使模型具有更强的泛化能力,从而可以在使用来自目标任务的少量数据进行精调后,在目标任务上实现准确的分类。但是,如果目标任务的数据不足(尤其是每个类别只有一个样本可用时),则无法获得验证集。因此,在元训练和精调过程中,模型很容易过拟合或欠拟合。虽然可以通过退火元训练的学习率以缓解过拟合,但它只能单调地降低学习率,而不能动态调整学习率,这限制了它的有效性。因此学习率应根据模型性能进行动态调整,以解决过拟合和欠拟合问题。

技术实现思路

[0005]为了克服现有技术的缺陷,本专利技术提供一种用于少样本故障诊断的具有自适应学习率的元学习方法(MLALR,Meta

Learning with Adaptive Learning Rate),所述方法分为元训练和精调两个阶段,基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率,并且改进了元训练和精调的损失函数,具体包括以下步骤:
[0006]S1,确定辅助任务目标任务外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E;
[0007]S2,将模型参数随机初始化为θ0,设定第一循环变量j=1;设定第二循环变量e=1;
[0008]S3,设定第三循环变量μ=1;
[0009]S4,从辅助任务T
μ
中随机采样和和形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数
[0010]S5,根据计算中样本的交叉熵损失
[0011]S6,μ=μ+1,判断μ是否大于P,是则执行步骤S7,否则返回步骤S4;
[0012]S7,计算特征间多核最大均值差异用来衡量模型的泛化能力;
[0013]S8,更新模型参数,将模型参数由θ
j
‑1更新为θ
j
,具体包括以下步骤:
[0014]S8.1计算自适应外循环学习率β
j
,公式如下:
[0015][0016]其中,a1,b1,g1,a2,b2和g2是超参数,δ
j
是模型泛化能力的变化率;超参数a1,b1,g1,a2,b2和g2根据传统MAML的预实验确定;
[0017]模型泛化能力的变化率δ
j
计算公式如下:
[0018][0019]其中,δ
j
是模型泛化能力的变化率,i为正整数,是模型的特征间多核最大均值差异;是模型的特征间多核最大均值差异;
[0020]S8.2,计算用于外循环优化的损失函数其计算公式如下:
[0021][0022]其中,N是健康状态的数量,c为正整数,表示第c种健康状态;
[0023]S8.3,将模型参数由θ
j
‑1更新为θ
j

[0024][0025]其中,θ
j
和θ
j
‑1分别为第j次和第j

1次外循环的模型参数,β
j
为自适应外循环学习率,表示对θ
j
‑1的梯度;
[0026]S9,j=j+1,判断j是否大于J;是则执行步骤S10;否则返回步骤S3继续进行外循环;
[0027]S10,计算指标LD
e
‑1来衡量模型的性能,
[0028]S11,计算自适应的精调学习率η
e

[0029]首先将η
e
初始化为学习率的最大值,然后根据ΔLD
e
来调整η
e
,ΔLD
e
是LD
e
的相对变化率,自适应的精调学习率η
e
计算如下:
[0030][0031]其中,l是一个超参数,其取值根据在学习率为固定值的预实验中ΔLD
e
的取值情况来决定,使η
e
在常用值范围内变化,ΔLD
e
是LD
e
的相对变化率,用于调整精调的学习率,计算公式如下:
[0032][0033]S12,计算精调损失函数
[0034][0035]其中,θ

是全连接层的权重参数,ω是正则化项的权重,其取值根据在损失函数中没有正则化项的预实验中∑
θ



|的取值决定,其中损失函数为:
[0036][0037]其中,表示经过e
...

【技术保护点】

【技术特征摘要】
1.一种用于少样本故障诊断的具有自适应学习率的元学习方法,其特征在于:所述方法分为元训练和精调两个阶段,基于MAML框架对用于元训练和精调的两种学习率采用自适应学习率,并且改进了元训练和精调的损失函数,具体包括以下步骤:S1,确定辅助任务目标任务外循环迭代次数J、内循环迭代次数P、内循环中子任务的参数更新次数Γ、以及精调的更新次数E;S2,将模型参数随机初始化为θ0,设定第一循环变量j=1;设定第二循环变量e=1;S3,设定第三循环变量μ=1;S4,从辅助任务T
μ
中随机采样和和和形成一个子任务,对此子任务计算得到经过Γ次参数更新后的参数S5,根据计算中样本的交叉熵损失S6,μ=μ+1,判断μ是否大于P,是则执行步骤S7,否则返回步骤S4;S7,计算特征间多核最大均值差异用来衡量模型的泛化能力;S8,更新模型参数,将模型参数由θ
j
‑1更新为θ
j
,具体包括以下步骤:S8.1计算自适应外循环学习率β
j
,公式如下:其中,a1,b1,g1,a2,b2和g2是超参数,δ
j
是模型泛化能力的变化率;超参数a1,b1,g1,a2,b2和g2根据传统MAML的预实验确定;模型泛化能力的变化率δ
j
计算公式如下:其中,δ
j
是模型泛化能力的变化率,i为正整数,是模型的特征间多核最大均值差异;是模型的特征间多核最大均值差异;S8.2,计算用于外循环优化的损失函数其计算公式如下:其中,N是健康状态的数量,c为正整数,表示第c种健康状态;S8.3,将模型参数由θ
j
‑1更新为θ
j
:其中,θ
j
和θ
j
‑1分别为第j次和第j

1次外循环的模型参数,β
j
为自适应外循环学习率,表示对θ
j
‑1的梯度;S9,j=j+1,判断j是否大于J;是则执行步骤S10;否则返回步骤S3继续进行外循环;S10,计算指标LD
e
‑1来衡量模型的性能,
S11,计算自适应的精调学习率η
e
;首先将η
e
初始化为学习率的最大值,然后根据ΔLD
e
来调整η
e
,ΔLD
e
是LD
e
的相对变化率,自适应的精调学习率η
e
计算如下:其中,l是一个超参数,其取值根据在学习率为固定值的预实验中ΔLD
e
的取值情况来决定,使η
e
在常用值范围内变化,ΔLD
e
是LD
e
的相对变化率,用于调整精调的学习率,计算公式如下:S12,计算精调损失函数S12,计算精调损失函数其中,θ

是全连接层的权重参数,山是正则化项的权重,其取值根据在损失函数中没有正则化项的预实验中∑
θ



|的取值决定,其中损失函数为:其中,表示经过e

1次精调的模型参数,T
tg
表示目标任务,x
i
是T
tg
中第i个样本的输入数据,y
i
是相应的标签;表示x
i
输入模型后获得的输出;S13,用现有Adam算法更新到包括:计算对的梯度,然后计算梯度的一阶矩估计和二阶矩估计,并根据矩估计计算适应性学习步长,减去梯度和适应性学习步长以及η
e
的乘积,从而得到S14,e=e+1,判断e是否大于E,是则得到用于目标任务故障诊断的模型并结束,否则返回步骤S10;在总共E次精调更新后,便获得用于目...

【专利技术属性】
技术研发人员:林焱辉常亮
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1