基于生成对抗网络和集成学习的列车轴温异常识别方法技术

技术编号:37845736 阅读:33 留言:0更新日期:2023-06-14 22:30
本发明专利技术公开了一种基于生成对抗网络和集成学习的列车轴温异常识别方法,该方法为:采集城轨列车实际运行中的运行数据,预处理后得到一个类别不平衡的二分类数据集,划分为训练集与测试集;利用训练集中的异常数据样本训练生成对抗网络的构造器与判别器,并使用贝叶斯优化算法实现网络的自动调参;利用训练好的生成对抗网络模型合成异常样本,与原始训练集共同构建一个类别平衡的训练集;使用交叉委员会过滤技术对噪声样本进行过滤筛选;利用AdaBoost方法构建轴温异常识别分类器,利用训练集训练该集成学习模型,将测试集输入得到检验结果。本发明专利技术解决了城轨列车轴温异常样本缺失和数据不平衡问题,提高了轴温异常识别的准确度和正确率。确度和正确率。确度和正确率。

【技术实现步骤摘要】
基于生成对抗网络和集成学习的列车轴温异常识别方法


[0001]本专利技术涉及数据挖掘和城轨列车轴温异常检测
,具体涉及一种基于生成对抗网络和集成学习的列车轴温异常识别方法。

技术介绍

[0002]为了保障列车的安全可靠运行,对车辆系统的关键部件及运行状态(例如,轴温、受电弓磨耗、羊角状态等)进行在线监控是目前城轨列车系统运行安全保障的重点。利用红外辐射测温,动态测量铁路列车运行状态下的轴承温度,防止列车轴温过高造成燃轴切轴事故,是保证铁路行车安全的重要手段之一。
[0003]轴承是城轨列车上的一个关键部件,与列车能否安全运行密切相关。轴温是监测列车轴承健康与否的一项重要指标,目前针对轴温异常检测的方法主要是通过制定相应的逻辑规则与温度阈值来实现轴承状态辨识,但这种轴温异常检测方法具有很大的缺陷,他没有考虑到轴温变化的趋势,没有对历史数据进行系统的分析,也没有考虑速度以及环境温度等因素的影响,无法做到对轴温进行早期的异常检测并发出预警,这意味着一旦发生此类温度报警就意味着列车轴承出现了重大损伤,可能会导致重大事故发生。
[0004]近年来利用城轨列车运行时的数据对轴承温度进行异常检测的方法变得十分丰富,但由于城轨列车在实际运行中很少出现事故,所以轴温异常检测领域十分缺少异常样本,导致很多轴温异常检测方法的数据集是极度不平衡的,使得异常识别的正确率和准确度偏低。所以寻找一种能够有效学习异常样本信息且能够有效提高异常识别准确度和正确率的轴温异常检测方法,变得十分重要。对城轨轴温在线检测系统获取的数据分析可知,轴承温度异常情况可分为:微热、强热和激热。将城轨列车正常运行的数据与这三种异常类数据组合形成的数据集,即是一个不平衡的二分类数据集,所以城轨列车轴温异常检测可以抽象为对一个不平衡的二分类数据集进行分类的任务。
[0005]针对不平衡数据的分类问题,研究人员已经提出许多的解决方法,生成少数类样本被认为是解决类不平衡的有效方法。其中,随机过采样(ROS)、合成少数类过采样技术(SMOTE)以及基于类边界的合成少数过采样技术(Borderline SMOTE)被人为是最好的传统意义上的过采样算法。但是,在处理类别极度不平衡问题时,这类传统过采样算法的性能会明显下降。

技术实现思路

[0006]本专利技术的目的在于提供一种基于生成对抗网络和集成学习的列车轴温异常识别方法,结合列车的多元特征并使用生成对抗网络克服在轴温异常检测领域异常样本十分稀缺的问题,同时采用集成学习中AdaBoost算法,进行轴温异常识别的分类训练,提高在类不平衡场景下城轨轴温异常识别的综合性能。
[0007]实现本专利技术目的的技术解决方案为:一种基于生成对抗网络和集成学习的列车轴温异常识别方法,包括以下步骤:
[0008]步骤1,对采集到的城轨列车实际运行中的数据进行预处理,得到轴温正常与异常的样本,构成一个类别不平衡的二分类数据集,并将划分为训练集与测试集;
[0009]步骤2,构建生成对抗网络模型即CWGAN

GP模型,CWGAN

GP模型为条件Wasserstein生成对抗网络,采用Wasserstein距离来度量实际样本分布与生成样本分布之间的差异,生成器和判别器的输入信息中增加数据类别,并且采用梯度惩罚来代替权值修剪策略,使得生成数据更加多样化;
[0010]步骤3、利用训练集中的轴温异常样本训练CWGAN

GP模型的构造器与判别器,并使用贝叶斯优化算法实现网络的自动调参;
[0011]步骤4,使用上述训练好的CWGAN

GP模型生成异常样本加入到训练集中,得到类别平衡的训练集;
[0012]步骤5,使用交叉委员会过滤技术CVCF,对采样过程中产生的噪声样本进行过滤筛选;
[0013]步骤6,采用集成学习中AdaBoost算法构建轴温异常识别分类器,得到集成学习模型,利用经数据筛选后的训练集对集成学习模型进行训练,训练完成后,在测试集上检验分类效果,得到各个评价指标。
[0014]进一步地,在步骤1中,对采集到的城轨列车实际运行中的数据进行预处理,具体包括:
[0015]提取列车运行的多元数据信息,包括列车车号、列车车型、行驶方向、主控端、环境温度、列车速度、轴箱位置、轴箱温升、轴温温度峰值、轴箱温度平均值;
[0016]计算该轴箱与列车同列轴箱平均温度的比值,计为同列比;计算该轴箱与列车全部轴箱平均温度的比值,计为同辆比;提取该列车该轴箱最近五次的温度值,计为五次查询值;同列比、同辆比、五次查询值共同构成轴温多元信息数据集;
[0017]将实际数据中的正常样本标记为正类,所有异常类样本标记为负类,并对其中的分类特征进行One

Hot编码,对数据特征进行标准化处理,对缺失和重复的数据进行删除。
[0018]进一步地,在步骤2中,CWGAN

GP模型的优化函数为:
[0019][0020]其中,Loss
WGAN

GP
表示模型的优化函数,z表示噪声,y表示标签信息,E代表期望值,p
r
和p
z
代表真实数据分布和噪声数据分布,λ是惩罚系数,是惩罚项,是真实数据x与合成数据之间的逐点插值,是这些线性插值的采样分布,是判别器的输出相对于插值的梯度;
[0021]采用三层全连接层构建CWGAN

GP模型的生成网络和判别网络,去除BN层与dropout层,使用Adam作为优化算法,其中初始学习率α=0.0001,控制一阶变量β1=0.5,控制二阶变量β2=0.9;随机噪声从高斯分布中取样,初始长度为100,惩罚系数λ=10。
[0022]进一步地,在步骤3中,利用训练集中的轴温异常样本训练CWGAN

GP模型的构造器与判别器,训练过程中采用贝叶斯优化算法来实现网络的自动调参,在给定目标函数的情况下,以贝叶斯定理为基础,通过不断添加样本点来估计目标函数的后验分布,然后再根据分布选择下一个采样的超参数组合,反复迭代直至估计的目标函数后验分布逼近真实分布。
[0023]进一步地,在步骤3中,设定batch size为每轮训练批次大小,n为迭代次数,CWGAN

GP模型的训练过程具体如下:
[0024](3.1)加载数据集,筛选异常样本;
[0025](3.2)定义生成器与判别器,各有3个全连接层;生成器最终输出与数据集具有相同维度的数据作为模拟样本;判别器输出维度为1的数值表示判别结果;
[0026](3.3)从噪声数据分布p
z
(z)抽取噪声样本z,从真实数据分布P
r
(x)中抽取真实样本x,选取随机数ε∈[0,1];
[0027](3.4)通过生成器得到合成样本:
[0028](3.5)根据惩罚系数在真实数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络和集成学习的列车轴温异常识别方法,其特征在于,包括以下步骤:步骤1,对采集到的城轨列车实际运行中的数据进行预处理,得到轴温正常与异常的样本,构成一个类别不平衡的二分类数据集,并将划分为训练集与测试集;步骤2,构建生成对抗网络模型即CWGAN

GP模型,CWGAN

GP模型为条件Wasserstein生成对抗网络,采用Wasserstein距离来度量实际样本分布与生成样本分布之间的差异,生成器和判别器的输入信息中增加数据类别,并且采用梯度惩罚来代替权值修剪策略,使得生成数据更加多样化;步骤3、利用训练集中的轴温异常样本训练CWGAN

GP模型的构造器与判别器,并使用贝叶斯优化算法实现网络的自动调参;步骤4,使用上述训练好的CWGAN

GP模型生成异常样本加入到训练集中,得到类别平衡的训练集;步骤5,使用交叉委员会过滤技术CVCF,对采样过程中产生的噪声样本进行过滤筛选;步骤6,采用集成学习中AdaBoost算法构建轴温异常识别分类器,得到集成学习模型,利用经数据筛选后的训练集对集成学习模型进行训练,训练完成后,在测试集上检验分类效果,得到各个评价指标。2.如权利要求1所述的基于生成对抗网络和集成学习的列车轴温异常识别方法,其特征在于,在步骤1中,对采集到的城轨列车实际运行中的数据进行预处理,具体包括:提取列车运行的多元数据信息,包括列车车号、列车车型、行驶方向、主控端、环境温度、列车速度、轴箱位置、轴箱温升、轴温温度峰值、轴箱温度平均值;计算该轴箱与列车同列轴箱平均温度的比值,计为同列比;计算该轴箱与列车全部轴箱平均温度的比值,计为同辆比;提取该列车该轴箱最近五次的温度值,计为五次查询值;同列比、同辆比、五次查询值共同构成轴温多元信息数据集;将实际数据中的正常样本标记为正类,所有异常类样本标记为负类,并对其中的分类特征进行One

Hot编码,对数据特征进行标准化处理,对缺失和重复的数据进行删除。3.如权利要求1所述的基于生成对抗网络和集成学习的列车轴温异常识别方法,其特征在于,在步骤2中,CWGAN

GP模型的优化函数为:其中,Loss
WGAN

GP
表示模型的优化函数,z表示噪声,y表示标签信息,E代表期望值,p
r
和p
z
代表真实数据分布和噪声数据分布,λ是惩罚系数,是惩罚项,是真实数据x与合成数据之间的逐点插值,是这些线性插值的采样分布,是判别器的输出相对于插值的梯度;采用三层全连接层构建CWGAN

GP模型的生成网络和判别网络,去除BN层与dropout层,使用Adam作为优化算法,其中初始学习率α=0.0001,控制一阶变量β1=0.5,控制二阶变量β2=0.9;随机噪声从高斯分布中取样,初始长度为100,惩罚系数λ=10。4.如权利要求3所述的基于生成对抗网络和集成...

【专利技术属性】
技术研发人员:郑帅张哲张子名张艺珲周健叶鑫邢宗义
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1