一种基于数据驱动的工业生产过程故障诊断方法技术

技术编号:20919126 阅读:20 留言:0更新日期:2019-04-20 10:14
本发明专利技术公开了一种基于数据驱动的工业生产过程故障诊断方法,包括:计算平均偏差和方差,对工业生产过程中的多维数据进行特征提取,得到特征数据,构建原始输入样本集;利用原始输入样本集,使用训练好的随机森林模型,对待诊断工业生产过程进行故障诊断,得到诊断结果;根据诊断结果是否有故障,以及故障类型,对待诊断工业生产过程故障产生的原因进行分析和解决。本发明专利技术采用粒子群算法,同时优化随机森林模型的2个关键参数,为随机森林参数的优化提供了一种可行、高效的方法,并提高了利用随机森林算法进行工业生产过程故障诊断的准确性。

A Data-driven Fault Diagnosis Method for Industrial Production Process

The invention discloses a data-driven fault diagnosis method for industrial production process, which includes: calculating average deviation and variance, extracting feature data from multi-dimensional data in industrial production process, obtaining feature data and constructing original input sample set; using original input sample set, using trained random forest model, diagnosing industrial production process for fault diagnosis. According to whether the diagnosis results are faulty or not and the type of faults, the causes of faults in industrial production process are analyzed and solved. The invention adopts particle swarm optimization algorithm and optimizes two key parameters of Stochastic Forest model, which provides a feasible and efficient method for optimizing Stochastic Forest parameters, and improves the accuracy of fault diagnosis in industrial production process by using stochastic forest algorithm.

【技术实现步骤摘要】
一种基于数据驱动的工业生产过程故障诊断方法
本专利技术属于工业生产过程诊断领域,更具体地,涉及一种基于数据驱动的工业生产过程故障诊断方法。
技术介绍
工业生产过程系统越来越复杂,各个流程工序相互关联、相互影响,一旦其中任何一个过程出现故障,会导致系统功能失效,影响正常生产,造成企业重大经济损失,严重时还会造成人员安全事故,给国家和人民带来损失。因此,从安全生产和企业经济效益的角度来说,通过对工业生产过程数据的分析进行故障诊断是十分必要的。现有的故障诊断方法可以分为基于机理模型的方法、基于知识的方法、基于信号处理的方法和基于人工智能的方法。基于机理模型的方法具有良好诊断效果的前提是建立精确的模型,随着生产制造系统的集成化与复杂化,构建这些系统的精确机理模型是很困难的,基于机理模型的方法在实际应用中很难起到良好的诊断效果。基于知识的方法是将故障诊断相关的专家经验知识进行处理,模拟人的决策方式,实现复杂系统的智能化诊断。这种方法构建的模型大部分不具有自我学习能力,不能满足需求。基于信号处理的方法是对信号进行处理和特征提取来进行故障诊断,但是没有固定的特征提取方案,不同类型数据的特征提取方式不近相同。近年来,基于人工智能的方法逐渐兴起,提高了诊断效率和识别率。但在使用人工智能方法对工业生产过程数据进行故障诊断时,人工智能算法的模型和模型参数往往需要优化,如果优化效果不好,则会降低故障诊断的准确率,诊断结果与实际偏差较大。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于数据驱动的工业生产过程故障诊断方法,由此解决现有的故障诊断方法诊断结果偏差大,以及诊断算法的参数优化效率低的技术问题。为实现上述目的,本专利技术提供了一种基于数据驱动的工业生产过程故障诊断方法,包括:(1)计算工业生产过程中的多维数据的平均偏差和方差,以对工业生产过程中的多维数据进行特征提取,得到特征数据,由所述特征数据构建原始输入样本集;(2)利用原始输入样本集,使用训练好的随机森林模型,对待诊断工业生产过程进行故障诊断,得到诊断结果;(3)根据诊断结果是否有故障,以及故障类型,对待诊断工业生产过程故障产生的原因进行分析和解决。优选地,步骤(1)包括:选取工业生产过程中的变量Ak从t时刻开始的连续h个值,计算这h个值与该变量Ak的偏差,然后将这些偏差的平均值作为特征值et,k,另外再计算这h个值与该变量Ak的方差,并将这些方差的平均值作为另一个特征值由此,对于工业生产过程中的r个变量,能够构造出包含2*r个特征值的特征向量:将所述特征向量经归一化处理后,得到特征数据,构建原始输入样本集S。优选地,所述步骤(2)的训练好的随机森林RF模型,训练过程包括:(2.1)计算经过标记的工业生产过程中的多维数据的平均偏差和方差,以对工业生产过程中的多维数据进行特征提取,得到特征数据,由所述特征数据构建原始输入样本集;(2.2)采用粒子群算法优化所述随机森林模型的参数,将利用所述原始输入样本集得到的分类正确率最高的随机森林模型参数作为所述随机森林模型的最优参数组合,得到训练好的随机森林模型,以通过训练好的RF模型对待诊断工业生产过程进行故障诊断,其中,所述随机森林模型中的参数包括决策树棵数n和特征子集大小κ。优选地,标记的工业生产过程中的多维数据是指已知生产过程状态是正常状态的数据还是故障状态的数据,以及是属于哪一种故障状态。优选地,步骤(2.2)包括:(2.2.1)初始化参数,随机为粒子种群中的每个粒子指定初始位置和速度参数,预设最大迭代次数、粒子位置的限定范围、粒子速度的限定范围及粒子种群规模,其中,以空间向量(n,κ)作为所述粒子种群中的粒子,空间向量(n,κ)是由RF的2个关键参数:决策树棵树n和特征集大小κ组成,粒子i的位置为(xi,n,xi,κ),xi,n代表随机森林决策树棵树,xi,κ代表随机森林特征子集大小,粒子i的速度为(vi,n,vi,κ);(2.2.2)利用Bootstrap抽样方法,对步骤(2.1)所述原始输入样本集进行m次有放回的抽取操作,得到与原始输入样本集具有相同样本数m的训练输入样本集,重复xi,n次Bootstrap抽取操作,得到xi,n个训练输入样本集,用得到的xi,n个训练输入样本集依次训练xi,n个决策树,并在决策树节点分裂时,随机从特征集M中选择大小为xi,κ的特征子集,根据计算的xi,κ种分裂情况下的信息增益、信息增益率或者Gini指标,选择最佳分裂特征对应的随机森林结构,得到当前粒子(xi,n,xi,κ)对应的临时随机森林模型,其中,特征集M表示原始输入样本集中的样本属性的集合,属性是指2*r个平均偏差和方差所代表的含义;(2.2.3)利用原始输入样本集,使用当前粒子(xi,n,xi,κ)对应的临时随机森林模型,进行工业生产过程故障分类,与经过标记的工业生产过程中的多维数据对应的故障类别对比,计算粒子对于经过标记的数据样本的分类正确率,以分类正确率作为当前粒子的适应度值;(2.2.4)更新各粒子的速度和位置,若粒子位置及速度超出了各自的限定范围,则取边界值,限制粒子速度和位置,对于更新后的每个粒子,若该粒子当前位置对应的适应度高于其历史最佳位置对应的适应度,则将当前位置作为该粒子的最佳位置;(2.2.5)更新种群位置,将每个粒子的当前最佳位置对应的适应度与种群历史最佳位置对应的适应度进行比较,若某个粒子当前最佳位置对应的适应度值更高,则将该粒子当前最佳位置作为种群最佳位置;(2.2.6)若迭代次数小于预设最大迭代次数,且种群的最佳适应度值小于预设阈值,则返回步骤(2.2.2)继续迭代,否则结束迭代,将得到的种群最佳位置作为随机森林模型的决策树棵树和特征子集大小的最优组合。进一步地,步骤(3):工业生产过程状态包括生产过程运行正常状态和生产过程处于异常故障状态,如果生产过程处于异常故障状态,根据诊断结果的异常故障类型,进行异常故障产生的原因分析,进行有针对性地解决。当某类异常故障发生次数较多时,及时反映给工业生产部门,杜绝或减少这类异常故障的发生,提高工业生产的稳定性和产品生产的质量,减少生产经营损失。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术可以实现基于数据驱动的工业生产过程数据的故障诊断,采用粒子群优化(ParticleSwarmOptimization,PSO)算法优化随机森林(RandomForest,RF)模型关键参数,利用随机森林模型,根据工业生产过程数据,进行工业生产过程故障诊断,提高了诊断准确率。(2)影响随机森林算法性能的关键参数有决策树棵树n和特征子集大小κ,这两个参数具体的影响随着数据的不同而有差异,为了让随机森林算法进行故障诊断时对不同的数据能自动调节参数,本专利技术采用了基于粒子群优化随机森林模型参数的方法,达到了在不同数据情况下,随机森林模型能自动匹配出最佳的训练参数的目的,提高了随机森林诊断算法的适应性。(3)本专利技术使用粒子群算法对随机森林模型的2个关键参数:决策树棵树n和特征集大小κ进行优化,同时得到最优的2个关键参数,而不是逐个参数进行优化,提高了优化效率。附图说明图1是本专利技术实施例提供的一种基于数据驱动的工业生产本文档来自技高网...

【技术保护点】
1.一种基于数据驱动的工业生产过程故障诊断方法,其特征在于,包括:(1)计算工业生产过程中的多维数据的平均偏差和方差,以对工业生产过程中的多维数据进行特征提取,得到特征数据,由所述特征数据构建原始输入样本集;(2)利用原始输入样本集,使用训练好的随机森林模型,对待诊断工业生产过程进行故障诊断,得到诊断结果;(3)根据诊断结果是否有故障,以及故障类型,对待诊断工业生产过程故障产生的原因进行分析和解决。

【技术特征摘要】
1.一种基于数据驱动的工业生产过程故障诊断方法,其特征在于,包括:(1)计算工业生产过程中的多维数据的平均偏差和方差,以对工业生产过程中的多维数据进行特征提取,得到特征数据,由所述特征数据构建原始输入样本集;(2)利用原始输入样本集,使用训练好的随机森林模型,对待诊断工业生产过程进行故障诊断,得到诊断结果;(3)根据诊断结果是否有故障,以及故障类型,对待诊断工业生产过程故障产生的原因进行分析和解决。2.根据权利要求1所述的方法,其特征在于,步骤(1)包括:选取工业生产过程中的变量Ak从t时刻开始的连续h个值,计算这h个值与该变量Ak的偏差,然后将这些偏差的平均值作为特征值et,k,另外再计算这h个值与该变量Ak的方差,并将这些方差的平均值作为另一个特征值由此,对于工业生产过程中的r个变量,能够构造出包含2*r个特征值的特征向量:将所述特征向量经归一化处理后,得到特征数据,构建原始输入样本集S。3.根据权利要求1所述的方法,其特征在于,所述步骤(2)的训练好的随机森林RF模型,训练过程包括:(2.1)计算经过标记的工业生产过程中的多维数据的平均偏差和方差,以对工业生产过程中的多维数据进行特征提取,得到特征数据,由所述特征数据构建原始输入样本集;(2.2)采用粒子群算法优化所述随机森林模型的参数,将利用所述原始输入样本集得到的分类正确率最高的随机森林模型参数作为所述随机森林模型的最优参数组合,得到训练好的随机森林模型,以通过训练好的RF模型对待诊断工业生产过程进行故障诊断,其中,所述随机森林模型中的参数包括决策树棵数n和特征子集大小κ。4.根据权利要求3所述的方法,其特征在于,标记的工业生产过程中的多维数据是指已知生产过程状态是正常状态的数据还是故障状态的数据,以及是属于哪一种故障状态。5.根据权利要求3所述的方法,其特征在于,步骤(2.2)包括:(2.2.1)初始化参数,随机为粒子种群中的每个粒子指定初始位置和速度参数,预设最大迭代次数、粒子位置的限定范围、粒子速度的限定范围及粒子种群规模,其中,以空间向量...

【专利技术属性】
技术研发人员:彭刚成栋梁武登泽
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1