一种基于Spark计算引擎的配电网大数据分区处理方法技术

技术编号:17486140 阅读:58 留言:0更新日期:2018-03-17 10:29
本发明专利技术公开了一种基于Spark计算引擎的配电网大数据分区处理方法,按照供电单元格对海量负荷数据进行统计分析,从中提取出对配电网规划管理有实用价值的电力指标,包括以下步骤:步骤1:搭建配电网大数据处理平台,以用电信息采集系统、PMS为数据源进行城市负荷分析;步骤2:将数据源中的数据导入Spark成为弹性分布式数据集RDD,对RDD中的城市负荷数据进行预处理;步骤3:按照城市负荷数据中配电变压器坐标对配电变压器进行单元格区分;步骤4:根据步骤2和步骤3计算城市负荷指标。

Partition processing method for computing engine based on Spark data distribution system

The invention discloses a method for calculating partition processing engine based on Spark data distribution system, according to the supply of the load cell mass data for statistical analysis, to extract the power index have practical value for the management of the distribution network planning, which comprises the following steps: 1: build a distribution network data processing platform, the electricity information collection system, PMS as the data source for city load analysis; step 2: import data in the Spark data source into flexible distributed data sets of RDD, RDD in the city load data preprocessing; step 3: according to the distribution transformer load data of city coordinate according to the distribution transformer cell division; step 4: according to the steps 2 and 3 steps of calculating city load index.

【技术实现步骤摘要】
一种基于Spark计算引擎的配电网大数据分区处理方法
本专利技术涉及采用计算机技术对于配电网大数据进行处理、计算的计算方法,旨在从海量的配网数据中提取出对于配电网规划、管理有实用价值的电力指标,属于大数据价值挖掘领域,特别涉及一种基于Spark计算引擎的配电网大数据分区处理方法。
技术介绍
随着国家电网公司建设坚强电网战略目标的提出,智能用电终端和采集终端数量日益扩大,使得各种类型的电力自动化数据出现几何级的增长,呈现出“体量大”、“类型多”、“密度低”和“增速快”的典型大数据特征。在配电网的管理与规划过程中,电力负荷统计指标、电压分析统计指标等一系列数据可以为配电网发策部门提供电力系统规划、设计、调度提供决策的依据。国内已有传统电力系统信息平台的建设大多采用价格昂贵的大型服务器,存储采用磁盘阵列,数据库采用关系数据库系统,业务应用采用紧密耦合的套装软件,导致系统扩展性较差、成本较高,难以适应智能电网对状态监测数据可靠性和实时性的更高要求。2006年Hadoop分布式计算平台发布,2009年,伯克利大学提出和发展了Spark计算平台,在Hadoop分布式计算的基础上,引入了内存计算,本文档来自技高网...
一种基于Spark计算引擎的配电网大数据分区处理方法

【技术保护点】
一种基于Spark计算引擎的配电网大数据分区处理方法,其特征在于,包括以下步骤:步骤1:搭建配电网大数据处理平台,以用电信息采集系统、PMS为数据源进行城市负荷分析;步骤2:将数据源中的数据导入Spark成为弹性分布式数据集RDD,对RDD中的城市负荷数据进行预处理;步骤3:按照城市负荷数据中配电变压器坐标对配电变压器进行单元格区分;步骤4:根据步骤2和步骤3计算城市负荷指标。

【技术特征摘要】
1.一种基于Spark计算引擎的配电网大数据分区处理方法,其特征在于,包括以下步骤:步骤1:搭建配电网大数据处理平台,以用电信息采集系统、PMS为数据源进行城市负荷分析;步骤2:将数据源中的数据导入Spark成为弹性分布式数据集RDD,对RDD中的城市负荷数据进行预处理;步骤3:按照城市负荷数据中配电变压器坐标对配电变压器进行单元格区分;步骤4:根据步骤2和步骤3计算城市负荷指标。2.根据权利要求1所述的一种基于Spark计算引擎的配电网大数据分区处理方法,其特征在于,所述步骤1中所述配电网大数据处理平台,采用LinuxUbuntu作为操作系统,基于Hadoop和Spark框架,分为数据存储层,数据管理层和数据计算层;所述数据存储层,采用Hadoop框架提供的分布式文件存储系统实现数据集的离散化存储和查询;所述数据管理层,采用Hadoop的Hive组件,对负荷数据进行数据建表,包括配电变压器ID、日期、配电变压器负荷数据、配电变压器经度、配电变压器纬度;将分布式文件系统上的非结构化数据集,转换为结构化的表;以ApacheHadoop为开发工具,对计算任务进行调度,完成HQL语句与集群上的MapReduce作业的转换;所述数据计算层采用ApacheSpark用于大数据的实时处理,对数据表以RDD的形式进行并行化操作。3.根据权利要求1所述的一种基于Spark计算引擎的配电网大数据分区处理方法,其特征在于,所述步骤2包括以下步骤:步骤21:针对配电变压器负荷数据中的空数据采用拉格朗日插值定理补全,以空数据相邻的数据构造时间的一次函数,将空数据对应的时间点带入方程,求解出的值作为空数据的近似值;步骤22:以配电变压器ID和日期为关键值,对配电变压器负荷数据进行去重;步骤23:剔除配电变压器负荷数据中的异常数据。4.根据权利要求3所述的一种基于Spark计算引擎的配电网大数据分区处理方法,其特征在于,获取所述步骤23所述异常数据,包括以下步骤:步骤231:从数据源中导出配电变压器负荷数据l1,l2,…,ln,根据公式计算其平均值L,根据公式Vi=li-L计算残差Vi;步骤232:根据公式计算单次测量的标准差σ;步骤233:对负荷数据的每个元素进行判断,如果|Vi|>3σ,则该元素为异常数据。5.根据权利要求1所述的一种基于Spark计算引擎的配电网大数据分区处理...

【专利技术属性】
技术研发人员:钱江宋艳杨成钢蒋玮赵汉鹰林旭义徐璟傅颖吴新华程翔陈少波
申请(专利权)人:国网浙江省电力公司丽水供电公司国家电网公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1