一种火电厂时序数据处理方法、装置、设备及介质制造方法及图纸

技术编号：25550643 阅读：111 留言：0更新日期：2020-09-08 18:49

本申请公开了一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质，其中，该方法包括：获取火电厂设备中的传感器采集到的时序数据；将时序数据以分布式存储方式存储在分布式文件系统中，并在分布式文件系统中形成数据集；将数据集读取到spark计算框架中，并利用spark sql对数据集进行计算，得到计算后数据集；将计算后数据集存储到Hive数据库中。本申请公开的上述技术方案，由于分布式文件系统、spark sql和Hive数据库均是以分布式部署方式来对时序数据进行处理，因此，则可以将对时序数据的处理分布到不同的服务器中，从而便于提高对火电厂时序数据的处理能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种火电厂时序数据处理方法、装置、设备及介质
本申请涉及火电历史数据处理
，更具体地说，涉及一种火电厂时序数据处理方法、装置、设备及计算机可读存储介质。
技术介绍
火电厂中包含众多设备，这些设备上均设置有用于每隔一定时间(例如：0.5s)采集对应设备的运行数据的传感器，即可以通过传感器得到设备的运行数据，且这些运行数据多为时间序列数据(简称时序数据)，通过对过往的时序数据(即历史时序数据)进行分析和处理，可以获知火电厂在何种运行参数下具有比较好的运行性能，即可以对火电厂后续的运行起到指导作用，以使得火电厂能够以更好的状态进行运行。目前，多是将传感器采集到的时序数据存储在单台服务器上，并利用该单台服务器对所存储的时序数据进行计算和计算后的存储，但是，由于火电厂设备以及传感器均比较多，且火电厂一般均处在运行状态，因此，其对应的时序数据的数据量就越来越大(以GB、TB为单位)，此时，单台服务器就难以支撑巨大的存储与计算量，也即目前采用单台服务器进行火电厂时序数据处理的方式存在处理能力有限的问题。综上所述，如何...

【技术保护点】
1.一种火电厂时序数据处理方法，其特征在于，包括：/n获取火电厂设备中的传感器采集到的时序数据；/n将所述时序数据以分布式存储方式存储在分布式文件系统中，并在所述分布式文件系统中形成数据集；/n将所述数据集读取到spark计算框架中，并利用spark sql对所述数据集进行计算，得到计算后数据集；/n将所述计算后数据集存储到Hive数据库中。/n

【技术特征摘要】
1.一种火电厂时序数据处理方法，其特征在于，包括：
获取火电厂设备中的传感器采集到的时序数据；
将所述时序数据以分布式存储方式存储在分布式文件系统中，并在所述分布式文件系统中形成数据集；
将所述数据集读取到spark计算框架中，并利用sparksql对所述数据集进行计算，得到计算后数据集；
将所述计算后数据集存储到Hive数据库中。

2.根据权利要求1所述的火电厂时序数据处理方法，其特征在于，在获取火电厂设备中的传感器采集到的时序数据之后，还包括：
将所述时序数据存储在时序数据库中；
相应地，将所述时序数据以分布式存储方式存储在分布式文件系统中，并在所述分布式文件系统中形成数据集，包括：
每隔预设时间间隔从所述时序数据库中读取所述时序数据，将读取到的所述时序数据以分布式存储方式存储在所述分布式文件系统中，并将第一次读取到的所述时序数据在所述分布式文件系统中形成数据集，且将除第一次之外读取到的所述时序数据追加到对应的数据集中。

3.根据权利要求1所述的火电厂时序数据处理方法，其特征在于，在将所述数据集读取到spark计算框架中之后，还包括：
将所述数据集以DataFrame形式存储在所述spark计算框架中。

4.根据权利要求3所述的火电厂时序数据处理方法，其特征在于，在利用sparksql对所述数据集进行计算之前，包括：
利用sparksql对所述数据集进行预处理。

5.根据权利要求4所述的火电厂时序数据处理方法，其特征在于，利用sparksql对所述数据集进行预处理，包括：
对所述数据集中每类运行参数对应的运行数据均利用3σ准则做数据剔除，以剔除离群的运行数据；
将每类所述运行参数对应的运行数据与其对应的设定最大值和设定最小值进行比较，并剔除大于所述设定最大值的运行数据和小于所述设定最小值的运行数据；
对...

【专利技术属性】
技术研发人员：袁雪峰，马成龙，李晓静，张含智，陈世和，陈木斌，陈建华，卫平宝，聂怀志，姜利辉，
申请(专利权)人：华润电力技术研究院有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人