一种基于分布式计算的能源数据自动化处理方法技术

技术编号：24409707 阅读：26 留言：0更新日期：2020-06-06 08:38

一种基于分布式计算的能源数据自动化处理方法，包括数据采集系统、数据处理系统和数据存储系统；所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据；所述数据处理系统采用Spark分布式计算引擎，对所述各原始数据首先进行清洗，且将清洗后的原始数据作为历史用电数据，然后根据历史用电数据生成物理采集点和虚拟采集点的小时、天、月和年维度统计结果集且保存到数据存储系统中。本发明专利技术可自动提取用户能源特征数据，找出用户的价值需求，达到用户特征数字化，形成各维度统计数据，从而为不同类别的用户提供“定制化套餐”的用能服务，实现综合用能服务的智能化。

An automatic processing method of energy data based on Distributed Computing

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式计算的能源数据自动化处理方法
本专利技术属于大数据处理领域，特别涉及一种基于分布式计算的能源数据自动化处理方法。
技术介绍
随着信息化的发展，国家电网正在大力推进能源互联网的发展，加速大数据、人工智能在综合能源方面的应用。目前国家电网大部分信息化系统采用传统的关系型数据库，数据处理采用数据库存储过程或编程实现，该种实现方案在早期数据量不大、实时性要求不高的情况下基本可以满足需求，但随着用能数据大量增加，现有方案已经逐渐无法满足业务需求，主要体现在如下方面：1、表数量过多，需要存储的各种信息如企业信息、用户信息、采集点信息、用电数据等等都单独成表，还有涉及各表关系的关联信息表，随着电力业务的发展，会新增各种新业务，针对各种业务的数据还需要增加独立的表结构进行存储，表数量过多，难于管理和维护；2、表关系混乱，当针对各种业务的表大量增加时，表之间的关联关系变得错综复杂，各种关联信息表难以重用，后期难以维护，同时严重影响数据的读取性能；3、数据量达到TB级别时，关系型数据库单表无法存储；关系型数据库单表在数据量低于一定水平的情况下，读写性能在毫秒级别，完全满足需求，但高于一定水平之后，读写性能会严重下降，查询数据耗时会达到分钟级别，对于前端数据展示来说无法接受。4、采用存储过程或编程的方式实现数据处理在数据量小的情况下能够满足需求，但随着数据量增大，该种方式已经无法在可接受时间范围内完成数据处理，甚至可能会由于数据量过大计算机资源不足直接导致处理程序崩溃。5、前端...

【技术保护点】
1.一种基于分布式计算的能源数据自动化处理方法，其特征在于：包括数据采集系统、数据处理系统和数据存储系统；/n所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据；/n所述数据处理系统采用Spark分布式计算引擎，对所述各原始数据首先进行清洗，且将清洗后的原始数据作为历史用电数据，然后以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计，包括以下操作:①基于历史用电数据，以小时和物理采集点为维度，生成物理采集点小时维度统计结果集；②基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；③基于物理采集点小时维度统计结果集，以天为维度，生成物理采集点天维度统计结果集；④基于物理采集点天维度结果集，以月为维度，生成物理采集点月维度统计结果集；⑤基于物理采集点月维度结果集，以年为维度，生成物理采集点年维度统计结果集；⑥基于历史用电数据，按设备属性或区域属性划分物理采集点并以...

【技术特征摘要】
1.一种基于分布式计算的能源数据自动化处理方法，其特征在于：包括数据采集系统、数据处理系统和数据存储系统；
所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据；
所述数据处理系统采用Spark分布式计算引擎，对所述各原始数据首先进行清洗，且将清洗后的原始数据作为历史用电数据，然后以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计，包括以下操作:①基于历史用电数据，以小时和物理采集点为维度，生成物理采集点小时维度统计结果集；②基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；③基于物理采集点小时维度统计结果集，以天为维度，生成物理采集点天维度统计结果集；④基于物理采集点天维度结果集，以月为维度，生成物理采集点月维度统计结果集；⑤基于物理采集点月维度结果集，以年为维度，生成物理采集点年维度统计结果集；⑥基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，以小时和虚拟采集点为维度，生成虚拟采集点小时维度统计结果集；⑦基于虚拟采集点小时维度结果集，以天为维度，生成虚拟采集点天维度统计结果集；⑧基于虚拟采集点天维度结果集，以月为维度，生成虚拟采集点月维度统计结果集；⑨基于虚拟采集点月维度结果集，以年为维度，生成虚拟采集点年维度统计结果集；
所述数据存储系统将数据处理系统生成的各维度结果集均进行保存，提供实时查询。

2.根据权利要求1所述的一种基于分布式计算的能源数据自动化处理方法，其特征在于：上述数据采集系统支持从MySQL、Oracle、MongoDB及PostgreSQL读取数据，根据配置文件中配置的数据库连接信息，从相应的数据源中拉取原始数据。

3.根据权利要求1所述的一种基于分布式计算的能源数据自动化处理方法，其特征在于：上述数据处理系统对所述各原始数据进行清洗的具体方法是：
①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理：空值及非正常值数据取近三天数据的平均值；对包含非法字符及格式错误的数据进行过滤处理；
②计算各个采集时间段内的增量数据，采集点每隔一定时间间隔采集一次用电数据，有的数据为该时间间隔内的增量数据，有的数据则为历史累计数据，针对累计数据需要计算出该间隔内的增量数据；
③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据；
④以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计：
a.基于历史用电数据，以小时和物理采集点为维度，计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点小时维度统计结果集；
b,基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；
c,基于物理采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小...

【专利技术属性】
技术研发人员：张立，杨少春，刘万龙，刘德强，朱传晶，张海涛，李鹏程，
申请(专利权)人：天津市普迅电力信息技术有限公司，国网信息通信产业集团有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人