一种火电厂时序数据处理方法、装置、设备及介质制造方法及图纸

技术编号:25550643 阅读:100 留言:0更新日期:2020-09-08 18:49
本申请公开了一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质,其中,该方法包括:获取火电厂设备中的传感器采集到的时序数据;将时序数据以分布式存储方式存储在分布式文件系统中,并在分布式文件系统中形成数据集;将数据集读取到spark计算框架中,并利用spark sql对数据集进行计算,得到计算后数据集;将计算后数据集存储到Hive数据库中。本申请公开的上述技术方案,由于分布式文件系统、spark sql和Hive数据库均是以分布式部署方式来对时序数据进行处理,因此,则可以将对时序数据的处理分布到不同的服务器中,从而便于提高对火电厂时序数据的处理能力。

【技术实现步骤摘要】
一种火电厂时序数据处理方法、装置、设备及介质
本申请涉及火电历史数据处理
,更具体地说,涉及一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质。
技术介绍
火电厂中包含众多设备,这些设备上均设置有用于每隔一定时间(例如:0.5s)采集对应设备的运行数据的传感器,即可以通过传感器得到设备的运行数据,且这些运行数据多为时间序列数据(简称时序数据),通过对过往的时序数据(即历史时序数据)进行分析和处理,可以获知火电厂在何种运行参数下具有比较好的运行性能,即可以对火电厂后续的运行起到指导作用,以使得火电厂能够以更好的状态进行运行。目前,多是将传感器采集到的时序数据存储在单台服务器上,并利用该单台服务器对所存储的时序数据进行计算和计算后的存储,但是,由于火电厂设备以及传感器均比较多,且火电厂一般均处在运行状态,因此,其对应的时序数据的数据量就越来越大(以GB、TB为单位),此时,单台服务器就难以支撑巨大的存储与计算量,也即目前采用单台服务器进行火电厂时序数据处理的方式存在处理能力有限的问题。综上所述,如何提高对火电厂时序数据的处理能力,是目前本领域技术人员亟待解决的技术问题。
技术实现思路
有鉴于此,本申请的目的是提供一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质,用于提高对火电厂时序数据的处理能力。为了实现上述目的,本申请提供如下技术方案:一种火电厂时序数据处理方法,包括:获取火电厂设备中的传感器采集到的时序数据;将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集;将所述数据集读取到spark计算框架中,并利用sparksql对所述数据集进行计算,得到计算后数据集;将所述计算后数据集存储到Hive数据库中。优选的,在获取火电厂设备中的传感器采集到的时序数据之后,还包括:将所述时序数据存储在时序数据库中;相应地,将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集,包括:每隔预设时间间隔从所述时序数据库中读取所述时序数据,将读取到的所述时序数据以分布式存储方式存储在所述分布式文件系统中,并将第一次读取到的所述时序数据在所述分布式文件系统中形成数据集,且将除第一次之外读取到的所述时序数据追加到对应的数据集中。优选的,在将所述数据集读取到spark计算框架中之后,还包括:将所述数据集以DataFrame形式存储在所述spark计算框架中。优选的,在利用sparksql对所述数据集进行计算之前,包括:利用sparksql对所述数据集进行预处理。优选的,利用sparksql对所述数据集进行预处理,包括:对所述数据集中每类运行参数对应的运行数据均利用3σ准则做数据剔除,以剔除离群的运行数据;将每类所述运行参数对应的运行数据与其对应的设定最大值和设定最小值进行比较,并剔除大于所述设定最大值的运行数据和小于所述设定最小值的运行数据;对于每类所述运行参数,剔除在第一设定时间长度内保持不变的运行数据;对于每类所述运行参数,剔除在第二设定时间长度内不稳定的运行数据,以得到预处理后数据集。优选的,利用sparksql对所述数据集进行计算,得到计算后数据集,包括:对于所述预处理后数据集中的每类所述运行参数,利用sparksql根据对应的运行数据的最大值和最小值划分参数区间;利用sparksql将不同类别的所述运行参数对应的所述参数区间进行聚合,以得到多个工况;利用sparksql及多目标模糊优化算法计算每个所述工况对应的最优运行数据组合,以得到所述计算后数据集。优选的,将所述时序数据以分布式存储方式存储在分布式文件系统中,包括:将所述时序数据以分布式存储方式存储在HDFS中。一种火电厂时序数据处理装置,包括:获取模块,用于获取火电厂设备中的传感器采集到的时序数据;第一存储模块,用于将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集;计算模块,用于将所述数据集读取到spark计算框架中,并利用sparksql对所述数据集进行计算,得到计算后数据集;第二存储模块,用于将所述计算后数据集存储到Hive数据库中。一种火电厂时序数据处理设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一项所述的火电厂时序数据处理方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的火电厂时序数据处理方法的步骤。本申请提供了一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质,其中,该方法包括:获取火电厂设备中的传感器采集到的时序数据;将时序数据以分布式存储方式存储在分布式文件系统中,并在分布式文件系统中形成数据集;将数据集读取到spark计算框架中,并利用sparksql对数据集进行计算,得到计算后数据集;将计算后数据集存储到Hive数据库中。本申请公开的上述技术方案,将火电厂设备中的传感器采集到的时序数据以分布式存储方式存储在分布式文件系统中,并将其形成的数据集读取到spark计算框架中,由sparksql对数据集进行计算,且将计算后数据集存储在Hive数据库中,由于分布式文件系统、sparksql和Hive数据库均是以分布式部署方式来对时序数据进行处理,即可在多台服务器上以集群方式部署存储和计算,因此,则可以将对时序数据的处理分布到不同的服务器中,从而便于提高对火电厂时序数据的处理能力。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种火电厂时序数据处理方法的流程图;图2为本申请实施例提供的一种火电厂时序数据处理装置的结构示意图;图3为本申请实施例提供的一种火电厂时序数据处理设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参见图1,其示出了本申请实施例提供的一种火电厂时序数据处理方法的流程图,本申请实施例提供的一种火电厂时序数据处理方法,可以包括:S11:获取火电厂设备中的传感器采集到的时序数据。获取火电厂设备中不同传感器采集到的时序数据,其中,传感器可以设置在火电厂生产本文档来自技高网...

【技术保护点】
1.一种火电厂时序数据处理方法,其特征在于,包括:/n获取火电厂设备中的传感器采集到的时序数据;/n将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集;/n将所述数据集读取到spark计算框架中,并利用spark sql对所述数据集进行计算,得到计算后数据集;/n将所述计算后数据集存储到Hive数据库中。/n

【技术特征摘要】
1.一种火电厂时序数据处理方法,其特征在于,包括:
获取火电厂设备中的传感器采集到的时序数据;
将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集;
将所述数据集读取到spark计算框架中,并利用sparksql对所述数据集进行计算,得到计算后数据集;
将所述计算后数据集存储到Hive数据库中。


2.根据权利要求1所述的火电厂时序数据处理方法,其特征在于,在获取火电厂设备中的传感器采集到的时序数据之后,还包括:
将所述时序数据存储在时序数据库中;
相应地,将所述时序数据以分布式存储方式存储在分布式文件系统中,并在所述分布式文件系统中形成数据集,包括:
每隔预设时间间隔从所述时序数据库中读取所述时序数据,将读取到的所述时序数据以分布式存储方式存储在所述分布式文件系统中,并将第一次读取到的所述时序数据在所述分布式文件系统中形成数据集,且将除第一次之外读取到的所述时序数据追加到对应的数据集中。


3.根据权利要求1所述的火电厂时序数据处理方法,其特征在于,在将所述数据集读取到spark计算框架中之后,还包括:
将所述数据集以DataFrame形式存储在所述spark计算框架中。


4.根据权利要求3所述的火电厂时序数据处理方法,其特征在于,在利用sparksql对所述数据集进行计算之前,包括:
利用sparksql对所述数据集进行预处理。


5.根据权利要求4所述的火电厂时序数据处理方法,其特征在于,利用sparksql对所述数据集进行预处理,包括:
对所述数据集中每类运行参数对应的运行数据均利用3σ准则做数据剔除,以剔除离群的运行数据;
将每类所述运行参数对应的运行数据与其对应的设定最大值和设定最小值进行比较,并剔除大于所述设定最大值的运行数据和小于所述设定最小值的运行数据;
对...

【专利技术属性】
技术研发人员:袁雪峰马成龙李晓静张含智陈世和陈木斌陈建华卫平宝聂怀志姜利辉
申请(专利权)人:华润电力技术研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1