当前位置: 首页 > 专利查询>上海大学专利>正文

基于Spark的火电大数据挖掘方法技术

技术编号:21453919 阅读:27 留言:0更新日期:2019-06-26 04:46
本发明专利技术是一种基于Spark的火电大数据挖掘方法,设计适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,结合Spark计算框架对火电大数据进行数据挖掘。根据机组实际运行特点,对火电大数据进行稳态工况判定提取稳态运行数据,然后使用基于外部约束的工况划分以及基于挖掘目标的数据压缩,使用基于Spark的K‑means算法对火电大数据进行离散化,使用基于Spark的FP‑growth算法对火电大数据进行关联规则分析,挖掘出各工况的强关联规则,得到符合优化目标的参数所达到过的最优值存入历史知识库,辅助运行人员或控制系统做出相关决策,依据目标属性的不同可以提高机组运行的经济性,稳定性和环保性,使机组保持优良运行工况。

【技术实现步骤摘要】
基于Spark的火电大数据挖掘方法
本专利技术属于火电大数据挖掘
,是一种基于Spark的火电大数据挖掘方法,该方法适用于火电,风电等相关领域。
技术介绍
火电机组的数据基础良好,上世纪就可由计算机集散控制系统采集用于火电机组控制与设备状态监控的传感器数据。随着信息化的发展,火电机组的数据能够从机组DCS、PLC、SIS、SCADA、DEH以及其他实时系统收集。大量现场数据可以被分散控制系统(DCS)和数据采集系统(DAS)实时地采集并存储到数据库中,其中300MW机组DCS的输入输出数据有4000-5000点,600MW的机组有12000点左右,不但运行参数的数据维度和采集频率非常高,而且其相关子系统和特定部件还有独立于机组DCS的数据采集系统,因此火电厂所存储的生产运行数据呈几何级数增长。这些运行数据都具有大容量、多样性、处理速度快和价值高等大数据的明显特征,根据关于大数据的定义,电厂所采集的运行数据可以被认为是大数据。这些海量的电厂运行数据中隐含着许多对运行优化有应用价值的信息,从其中提取改善火电厂运行的信息或模式,并以此确定最佳的火电厂运行参数调整范围,为运行人员提供机组在不同工况下的最优运行方式与参数控制。数据挖掘能从电厂海量历史数据中挖掘出机组在不同工况下实际运行达到过的最优值。这些最优值相较于机组理论上的最优值,在机组实际运行中更容易达到,更具有实际意义。很多学者都尝试使用关联规则来寻找机组运行参数之间的联系,从而挖掘出参数最优值。李建强等提出了语言值关联规则挖掘算法将模糊C-均值(FCM)算法应用于数据离散化;牛成林在模糊量化关联规则的基础上提出了改进的增量式模糊数值型关联规则挖掘算法;可是这些数据挖掘算法在处理火电大数据时,由于算法构建的频繁模式树过大,存在火电数据存储与计算的瓶颈。由于传统数据挖掘难以满足处理电厂大数据的性能需求,使用Hadoop、Spark等大数据技术对火电大数据进行大数据挖掘已经成为研究热点。目前火电数据挖掘技术已经在许多方面取得一定进展,但依然存在以下几方面问题:1.燃煤电站不仅在时间上不断存储积累火电机组的运行数据,还在空间上扩展采集设备的数据,从而获得时间与空间两个维度上不同尺度的大容量数据,火电机组数据存储于多个数据库,难以进行有效地利用和数据挖掘。这就造成了火电大数据的多源问题;2.火电厂不同设备的参数以不同类型、不同编码与命名规则的文件形式存储,彼此之间难以互相辨识及共享参数信息,并且各个机组子系统存在不同类型的文本、图像等信息,致使其不能互为校验和参考,无法达到提高整个火电机组运行参数准确性与一致性的目的,由此造成了火电大数据的异构问题;3.火电厂信息化程度高,数据采样点多,采样频率高。燃烧系统、汽水系统、电气系统都采集并储存海量数据,火电大数据规模大。火电机组运行过程通常由大量相互关联的变量来体现,变量之间往往存在复杂的相关性,火电大数据纬度高。从而造成数据挖掘算法存在数据存储瓶颈以及计算瓶颈。
技术实现思路
为解决现有技术中存在的上述问题,本专利技术提供了一种基于Spark的火电大数据挖掘方法。本专利技术在基于Hadoop的Spark计算平台上,利用Hadoop集群对火电大数据进行分布式存储,并结合Spark计算框架对火电大数据进行数据挖掘。本专利技术利用稳态工况判定、基于外部约束的工况划分以及基于Spark的K-means聚类算法对火电大数据进行数据预处理。此外,本专利技术利用基于目标制导的数据压缩以及基于Spark的FP-growth挖掘算法对火电大数据进行知识挖掘。首先对本专利技术中出现的技术名词作以下说明:稳态运行数据:是指发电厂生产过程中机组在特定工况下运行稳定性达到一定的限制条件时,由这些稳定的数据代表该机组在特定工况下的稳态运行数据。特征属性:发电厂生成过程中所有涉及的测点名称及相应的二次计算得到的参数名称。连续型属性:属性值为连续值的数据。例如:发电功率为200.5MW,即发电功率为连续型属性。离散化:是指将连续型属性转换成离散值。例如:发电功率为200.5MW,离散化后为发电功率为“较高”。运行工况:是指其由一组状态参数表示,包含环境因素、燃料特性和负荷等不可控参数及相应的机组运行参数。置信度:是指在已知规则知识特征属性的条件下属于某一目标类的统计比例,在本专利技术中表示一条规则知识的可信程度。分布式:研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行并行处理,最后把这些计算结果综合起来得到最终的结果。关系数据库:是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据。火电厂的智能设备存储数据多数使用关系数据库。关联规则:就是在运行数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构的规则。RDD:RDD(ResilientDistributedDatasets)就是弹性分布式数据集,是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作而创建,然而这些限制使得实现容错的开销很低。Hadoop:是一个由Apache基金会所开发的分布式系统基础架构。Spark:是专为大规模数据处理而设计的快速通用的基于内存计算的计算引擎。本专利技术具体采用如下技术方案:一种基于Spark的火电大数据挖掘方法,包括如下步骤:步骤1:首先对火电厂历史大数据进行参数数据的清洗,包括检查数据一致性,利用邻近数据处理无效值和缺失值;步骤2:根据协调控制系统投入自动,且重要辅机正常运行的时间节点,利用机组负荷以及主蒸汽压力两个参数在一段时间内的方差与给定机组稳态运行阈值进行比较,将小于该阈值的数据加入机组稳态运行数据集,其他数据直接剔除;步骤3:负荷和煤质作为外部约束条件,采用基于Spark的K-means算法对稳定工况数据进行工况划分。使用基于Spark的K-means算法对历史大数据中的负荷和煤质系数进行聚类划分,其聚类结果形式为“煤质=某值属于煤质优”、“负荷=某值属于负荷某区间”,实现对负荷、煤质的区间划分,将不同的负荷区间以及煤质区间组合成若干的具有不同外部条件的工况区间,实现对稳态数据的工况划分,并采用基于Spark的K-means算法对各参数分别进行聚类划分,实现数据离散化;步骤4:定义火电机组性能指标参数,明确挖掘目标,包括稳定性、经济性、环保性3类指标,通过线性组合确定属性相应的权重值,确定优化目标;步骤5:明确与优化目标有关的参数,对优化目标不相干的参数进行剔除,实现对数据空间的压缩;步骤6:对各工况数据进行基于Spark的FP-growth挖掘算法,得到各工况下强关联规则,从而得到各工况下基于优化目标的最优运行参数,并存入历史知识库。在所述步骤1中,所述无效值和缺失值的修正采用热卡填充法,热卡填充法在完整数据集中找到一个与改缺失数据样本最相似的数据样本,然后用这个相似数据样本的值来进行填充。在步骤2中所述特定时间段为15min。在步骤3中所述基于Spark的K-means算法将传统K-means算法与Spark分布式内存计算框架相结合处理火电本文档来自技高网
...

【技术保护点】
1.一种基于Spark的火电大数据挖掘方法,其特征在于,设计了适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,并结合Spark计算框架对火电大数据进行数据挖掘,从而找出机组各稳态工况下的最佳运行参数目标值,包括如下步骤:步骤1:首先对火电厂历史大数据进行参数数据的清洗,包括检查数据一致性,利用热卡填充法处理无效值和缺失值;步骤2:根据协调控制系统投入自动,且重要辅机正常运行的时间节点,利用机组负荷以及主蒸汽压力两个参数在一段时间内的方差与给定机组稳态运行阈值进行比较,将小于该阈值的数据加入机组稳态运行数据集,其他数据直接剔除;步骤3:负荷和煤质作为外部约束条件,采用基于Spark的K‑means算法对稳定工况数据进行工况划分。使用基于Spark的K‑means算法对历史大数据中的负荷和煤质系数进行聚类划分,其聚类结果形式为“煤质=某值属于煤质优”、“负荷=某值属于负荷某区间”,实现对负荷、煤质的区间划分,将不同的负荷区间以及煤质区间组合成若干的具有不同外部条件的工况区间,实现对稳态数据的工况划分,并采用基于Spark的K‑means算法对各参数分别进行聚类划分,实现数据离散化;步骤4:定义火电机组性能指标参数,明确挖掘目标,包括稳定性、经济性、环保性3类指标,通过线性组合确定属性相应的权重值,确定优化目标;步骤5:明确与优化目标有关的参数,对优化目标不相干的参数进行剔除,实现对数据空间的压缩;步骤6:对各工况数据进行基于Spark的FP‑growth挖掘算法,得到各工况下强关联规则,从而得到各工况下基于优化目标的最优运行参数,并存入历史知识库。...

【技术特征摘要】
1.一种基于Spark的火电大数据挖掘方法,其特征在于,设计了适用于火电多源异构大数据存储与计算的基于Hadoop的Spark计算平台,利用Hadoop集群对火电大数据进行分布式存储,并结合Spark计算框架对火电大数据进行数据挖掘,从而找出机组各稳态工况下的最佳运行参数目标值,包括如下步骤:步骤1:首先对火电厂历史大数据进行参数数据的清洗,包括检查数据一致性,利用热卡填充法处理无效值和缺失值;步骤2:根据协调控制系统投入自动,且重要辅机正常运行的时间节点,利用机组负荷以及主蒸汽压力两个参数在一段时间内的方差与给定机组稳态运行阈值进行比较,将小于该阈值的数据加入机组稳态运行数据集,其他数据直接剔除;步骤3:负荷和煤质作为外部约束条件,采用基于Spark的K-means算法对稳定工况数据进行工况划分。使用基于Spark的K-means算法对历史大数据中的负荷和煤质系数进行聚类划分,其聚类结果形式为“煤质=某值属于煤质优”、“负荷=某值属于负荷某区间”,实现对负荷、煤质的区间划分,将不同的负荷区间以及煤质区间组合成若干的具有不同外部条件的工况区间,实现对稳态数据的工况划分,并采用基于Spark的K-means算法对各参数分别进行聚类划分,实现数据离散化;步骤4:定义火电机组性能指标参数,明确挖掘目标,包括稳定性、经济性、环保性3类指标,通过线性组合确定属性相应的权重值,确定优化目标;步骤5:明确与优化目标有关的参数,对优化目标不相干的参数进行剔除,实现对数据空间的压缩;步骤6:对各工况数据进行基于Spa...

【专利技术属性】
技术研发人员:贾立宋鸣程
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1