基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法技术

技术编号:29044619 阅读:31 留言:0更新日期:2021-06-26 05:57
本发明专利技术公开了基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,通过核概率密度估计估计故障样本的概率密度分布函数,对难以学习的决策边界样本,对边界样本生成率进行加权,使难学习样本获得更多的生成样本,提高新样本集的多样性。在最近邻求解过程中用核距离代替欧式距离,以满足高维、非线性的工业对象应用要求。最后使用接受拒绝采样判断新生成样本是否符合原始结块故障样本的分布,符合则接受,反之则拒绝,以保证新生成样本的合理性。该方法在一定程度上解决了原始上采样方法缺乏理论可行性,不能度量生成样本的质量,易发生“数据侵入”的问题,同时还能提高样本集的多样性。实例应用证明了该方法的有效性。性。性。

【技术实现步骤摘要】
基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法


[0001]本专利技术属于工业设备故障监测
,涉及一种数据上采样方法,具体是指一种基于核概率密度估计的加权上采样方法用于不平衡数据集的故障监测。

技术介绍

[0002]流化床是一类在流程工业中广泛应用的反应装置,在气相法聚乙烯生产工艺中,流化床是其中的核心反应器,该工艺具有反应稳定,易于控制等优点。但是由于反应过程中反应热不能及时移出、静电等问题,导致结块、结片故障,影响反应的顺利进行,严重者导致停车甚至安全事故。因此,流化床结块故障检测技术十分重要。但是由于生产工艺成熟,生产平稳,因此故障数据的获取较为困难,同时在此过程中可获得正常工况下的海量样本,从而形成不平衡样本集,由此在故障检测过程中需要解决不平衡数据集对故障检测算法准确性的负面影响。利用声波传感器检测流化床反应器外壁的振动信号并进行分析已经被证明是一种可行的结块故障监测预警方法,这种方法无需反应的内在机理模型,因此属于数据驱动方法。在数据驱动方法中,关键在于基于训练数据建立故障检测模型,对训练数据集的样本数量和多样性有较高要求。而工业现场绝大多数情况下处于平稳生产过程中,难以获得故障样本,因此故障样本稀缺,与正常工况下大量采集的正常样本相比形成了不平衡样本集。另外在故障工况下所采集的故障样本还需要进行人工标注,也影响了样本集的构成。数据驱动方法对原始数据集的质量有较高要求,数据集的平衡性和多样性问题决定着检测算法的准确性和泛化性能。当数据集为不平衡数据集时,检测结果的将向多数类样本倾斜,即倾向于判断未知样本为多数类样本,以获得较高的综合分类准确率。当数据集分布较为集中,多样性不足时,监测算法的泛化能力不足。
[0003]在结块故障监测、预警过程中若对于故障数据分类错误,即发生漏报,则容易产生较为严重的后果,危害他人安全、造成极大的财产损失。然而数据不平衡时,分类器更易偏向于多数类,即属于多数类的正常样本更容易预测,而对属于少数类的故障样本预测表现较差。因此,当样本集不平衡时,所得到的检测算法将更容易将未知样本预报成为正常样本,从而造成漏报问题。
[0004]如果数据集极为不平衡,即使分类器正确地对多数样本进行分类,而对所有少数样本进行了错误分类,综合下来分类器的准确率仍然很高,在这种情况下,准确率不能反映对于少数类样本的预测性能,因此需要对不平衡样本集进行处理。
[0005]目前对于不平衡数据的处理方法主要包含算法层面以及数据层面。
[0006]数据层面采用数据采样方法,改变样本的数量,使数据达到平衡。采样方法主要包含上采样方法、下采样方法以及混合采样方法。
[0007]上采样方法通过生成少数类样本使少数类和多数类达到平衡,在样本不平衡度很
高时,往往采用上采样方法。中国专利202010763063.8提供了一种基于少数类过采样方法的异质不平衡数据故障检测方法,其包括获取机电设备健康状态相关的所监测的不平衡数据集,以等概率从少数类故障数据集随机选择一个样本;基于异质数值差异指标或平均数值型变量距离在少数类故障数据集中找到k个近邻样本;从k个近邻样本中选择一个最近邻样本,人工生成样本的数值型变量和标称型变量取值;基于对机电设备进行故障检测,生成的少数类样本在标称型变量的取值不超出其原本的值域范围,且将标称型变量转化为数值型变量,可大大增加分类模型的选择的可能性。
[0008]随机上采样是最简单也是最常使用的方法。该方法随机从少数类中反复地抽取样本,将抽取到的样本放入原样本空间中组成新的样本空间。这样的抽样方法是很快速的,但是会使得少数类中存在大量相似的数据,在分类器的训练中容易使得模型产生过拟合的问题,不但不会提高检测准确性还会导致准确性的降低。
[0009]SMOTE方法是基于随机过采样的一种改进方法,其采用线性插值的思想,通过求少数类样本周围的最近邻,并与其最近邻通过线性插值生成新样本,SMOTE得到了学术界广泛认可,但也存在一些问题,包括生成样本过于笼统以及差异过大,导致在此基础上训练得到的检测算法可靠性存疑。
[0010]BorderlineSMOTE方法基于SMOTE方法进行改进,将样本分为安全、危险与噪声,该方法只对边缘样本进行上采样,所得的新样本位于分类边缘面,将提高样本生成效率,但是易产生侵入问题,即新样本侵入多数类样本的分布空间,从而造成分类准确率的降低。
[0011]ADASYN也是基于SMOTE方法的改进,针对不同样本学习的难易程度,对样本进行加权,利用加权分布来强化决策边界,难以学习的样本生成较多样本,易于学习的样本生成较少样本。但是该算法没有解决SMOTE算法中生成样本可靠性难以评价的问题。
[0012]现有的上采样方法在对不平衡数据进行处理方面取得了很大的成功,但是原始上采样方法始终存在着缺乏可解释性的问题,即无法度量生成样本的质量。生成样本质量无法度量将降低上采样方法在工业应用中的可靠性,使基于上采样的分类算法难以在工业设备故障检测问题中得到广泛应用。
[0013]除此以外,在现有的上采样方法中,对于k近邻的求解往往采用欧式距离。欧式距离适用于线性分类问题,而实际应用中多为非线性分类问题,基于非线性计算得到的核距离对非线性、高维分类问题更具优势。特别是在流化床结块故障检测问题中,基于核距离的近邻求解方法优于传统欧式距离。

技术实现思路

[0014]针对流化床结块故障监测过程中训练样本集不平衡问题,本方法提出了一种基于核概率密度估计(PDFOS)的加权上采样方法用于生成平衡数据集,从而实现流化床结块故障监测。该方法的目的是保证新生成样本与原始少数类样本所组成的新样本集与原始样本集具有同样的概率密度分布函数(PDF),从而解决前述弊端,提高结块故障检测方法在工业应用中的可靠性。另外,在求解少数类样本最近邻时,本方法利用核距离代替欧式距离,其目的在于解决结块故障检测问题中的高维、非线性分类问题,并与支持向量机分类算法一起,提高故障检测的准确性。
[0015]本专利技术提出了一种基于概率密度估计的加权上采样方法,用于工业设备故障监
测,特别是流化床结块故障监测问题。具体方案如下:
[0016]步骤S1:利用声波传感器采集流化床外壁振动信号并进行人工标注、提取特征。由于生产过程极其平稳,因此只能获得少量故障工况样本,大部分数据均为平稳工况下所采集的样本。因此,在后续故障诊断建模过程中,我们只能依靠由少量故障样本和海量正常工况样本所组成的不平衡样本集。对少量故障样本和海量正常工况样本进行人工标注,获得训练样本集。考虑到人工标注费时费力,因此最终可获得的标注数据集中正常样本的数量可在几百至几千个,故障样本的数量受限于采集过程中设备发生故障的次数,对本算法而言需保证故障样本至少有十几个。经过该步骤形成的训练样本集中包括两个集合,其一为多数类样本集即经过标注的正常样本集,其二为少数类样本集即故障样本集。
[0017]步骤S2:针对结块故障样本极其稀少的情况,计算需要通过上采样方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,该方法包括如下步骤:步骤S1:利用声波传感器采集流化床外壁振动信号,进行人工标注并提取特征;故障样本数量取决于采样期间发生结块故障的次数,本方法至少需要故障样本十几个;由于故障样本数量远远少于正常样本,因此形成不平衡样本集;步骤S2:针对上述步骤中产生的样本集不平衡问题,计算获得平衡样本集即故障样本与正常样本数量大致相当时,通过上采样方法生成的故障样本数量;步骤S3:估计故障样本的概率密度分布函数,并以此为参考生成新的故障样本;步骤S4:评估生成新的故障样本的合理性,利用接受拒绝采样判断其是否符合原始结块故障样本的概率密度分布,若满足则保留,若不满足则剔除;最终获得符合原故障样本概率密度分布的新故障样本;将新故障样本加入原始故障类样本中,此时故障样本的数量与正常样本数量相当,训练集不平衡问题得到解决,新的平衡样本集用于结块故障建模;步骤S5:进行结块故障离线建模,在新的平衡样本集基础上,利用支持向量机算法得到最终的结块故障监测模型,用于在线监测结块故障;步骤S6:进行结块故障在线监测预警;通过振动监测装置实时获取振动信号进行特征提取,送入步骤S5所得到的故障监测模型中实时监测流化床装置运行状态,出现结块信号则报警,实现在线监测。2.根据权利要求1所述的基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,其特征在于:步骤2包含如下流程,步骤S2

1:计算结块故障样本和正常样本的比例,定义为不平衡度;计故障样本个数为N
+
,人工标注的正常工况样本为N

,其中N
+
<<N

;则不平衡度为:D=N
+
/N

ꢀꢀꢀꢀ
(1)步骤S2

2:计算需要生成的故障样本数量为:G=(N


N
+
)
×
β
ꢀꢀꢀꢀ
(2)其中β∈[0,1],当β=1时,上采样后的数据集为完全平衡数据集,β=0时则不进行上采样;在实际应用...

【专利技术属性】
技术研发人员:吴海燕王子扬
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1