基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统技术方案

技术编号：14905352 阅读：125 留言：0更新日期：2017-03-29 20:04

本发明专利技术为一种基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统，大数据技术的支持下，集成多种成熟开源产品，形成一种具备数据源、数据整合、数据存储、数据计算、数据分析、实施电负荷特性分析以及电力负荷预测分析。本发明专利技术有效提升了海量数据处理的高效性，解决了传统统计分析假设判断的局限性。能够科学、精准的预测出末来电力的用电需求，有利于电网的削峰填谷及平稳运行，为公司电网规划、设备检修、电能调配等提供决策支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电力信息大数据信息挖掘与分析领域，特别是一种基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统。
技术介绍
现有的电力负荷预测方法都是基于传统的统计分析来进行数据规范和数据展现的，传统的统计分析是指运用统计方法及与分析对象有关的知识，从定量与定性的结合上进行的研究活动。统计分析可以分为5个步骤：描述要分析的数据的性质；研究基础群体的数据关系；创建一个模型，总结数据与基础群体的联系；证明(或否定)该模型的有效性；采用该模型来预测将来的趋势。在运用传统的统计分析方法进行分析应用时，需对数据分布和变量间的关系做假设，确定用什么概率函数来描述变量间的关系，以及如何检验参数的统计显著性，以验证假设是否成立，而无法实现自动寻找变量间隐藏的关系或规律，并且，传统的统计分析在处理实时、海量、模糊、杂乱的数据时效率低下，不能很好的支撑电力负荷预测的相关应用，所以，基于大数据技术的分布式并行计算和分析挖掘能力可以实现对海量数据快速准确的进行分析。
技术实现思路
本专利的目的在于：针对传统统计分析方法在分析应用之前需对数据分布和变量间的关系做假设的问题，基于大数据的数据挖掘技术可以不需要对数据分布做任何假设，数据挖掘中的算法会自动寻找变量间隐藏的关系或规律。针对传统统计分析方法处理实时、海量数据效率低下的问题，基于大数据的分布式消息队列、流计算、内存计算和分布式并行计算技术可以高效率、简洁、实时的实现...

【技术保护点】
一种基于大数据技术的电力负荷预测方法，其特征在于：它包括以下步骤：步骤a、数据源建立，建立用电负荷、用户档案、电网设备台账、变电站信息、区域/行业/用电类别信息以及外部的天气信息、节假日信息；步骤b、数据整合：融合kafka实时数据分布式消息队列、sqoop离线数据抽取技术，对异构数据的快速接入，构建分布式数据整合功能，具备定时/实时数据的采集处理能力，实现从数据源到平台存储的配置开发、过程监控；步骤c、数据存储：对关系型数据存储、非关系型数据存储、分布式文件存储进行数据存储，同时提供统一存储访问接口，提高数据存储低成本的横向扩展能力，提高在高并发条件下的快速数据访问响应能力、满足海量数据实时与准实时存储需求；步骤d、数据计算：包括流计算、批量计算、查询计算并支撑SQL查询，满足不同时效性计算需求；批量计算支持大批量数据离线分析；流计算支持实时处理，如用电数据实时处理、预警；同时提供类似SQL的查询分析技术，将查询语句转译为并行的分布式计算任务；步骤e、数据分析：集成R语言和Mahout，形成分布式数据挖掘算法库，提供挖掘建模设计工具，构建统一的分析建模能力和运行引擎；同时，通过提升改...

【技术特征摘要】
1.一种基于大数据技术的电力负荷预测方法，其特征在于：它包括以下步骤：
步骤a、数据源建立，建立用电负荷、用户档案、电网设备台账、变电站信息、区域/行业/
用电类别信息以及外部的天气信息、节假日信息；
步骤b、数据整合：融合kafka实时数据分布式消息队列、sqoop离线数据抽取技术，对异
构数据的快速接入，构建分布式数据整合功能，具备定时/实时数据的采集处理能力，实现
从数据源到平台存储的配置开发、过程监控；
步骤c、数据存储：对关系型数据存储、非关系型数据存储、分布式文件存储进行数据存
储，同时提供统一存储访问接口，提高数据存储低成本的横向扩展能力，提高在高并发条件
下的快速数据访问响应能力、满足海量数据实时与准实时存储需求；
步骤d、数据计算：包括流计算、批量计算、查询计算并支撑SQL查询，满足不同时效性计
算需求；批量计算支持大批量数据离线分析；流计算支持实时处理，如用电数据实时处理、
预警；同时提供类似SQL的查询分析技术，将查询语句转译为并行的分布式计算任务；
步骤e、数据分析：集成R语言和Mahout，形成分布式数据挖掘算法库，提供挖掘建模设
计工具，构建统一的分析建模能力和运行引擎；同时，通过提升改造分析决策平台，完善分
析建模、模型运行、模型发布能力，增加对大数据分布式计算的支持，满足实时、离线应用的
分析挖掘需求，为公司分析决策应用构建提供基础平台支撑；
步骤f、场景展现：实施电负荷特性分析以及电力负荷预测分析。
2.根据权利要求1所述的基于大数据技术的电力负荷预测方法，其特征在于：
步骤b的具体步骤如下：
1)通过sqoop定期将业务系统数据抽取到hive，数据包括用户信息表、客户联系信息
表、供电单位表、营销编码表、日测量点功率曲线表、变电站信息表、变电站坐标信息表、关
联表、变电站资源编码映射表、日气象数据表、月气象数据表；
2)大数据平台解析程序定期将CIS数据源区域负荷信息及变电站负荷信息原始数据进
行解析，并写入hive区域负荷信息解析表、变电站负荷信息解析表写入hive；
3)大数据平台定期数据计算，并将其中的区域信息表、行业信息表、用电类别信息表、
变电站信息表、用户信息表、区域用户数量信息表、行业用户数量信息表、用电类别用户数
量信息表、用户负荷信息表、行业负荷信息表、用电类别负荷信息表、负荷聚类模型宽表、负
荷预测模型宽表、负荷多因素影响分析预测模型宽表写入PostgreSQL；
4)智能分析决策平台每月读取负荷聚类模型宽表、负荷预测模型宽表、负荷多因素影
响分析预测模型宽表，挖掘生成负荷聚类模型输出表、负荷聚类模型输出结果描述表、负荷
预测模型输出表、负荷多因素影响分析预测模型输出表，并写入PostgreSQL；
5)前端展现定时读取postgreSQ中的计算结果进行展示。
3.根据权利要求1所述的基于大数据技术的电力负荷预测方法，其特征在于：
步骤e：数据分析中，包括分布式负荷特性分析，于负荷数据量非常大，采用基于Mahout
的分布式Conopy算法及K-Means算法实现对负荷数据的并行处理，识别客户用电模式，分布
式聚类算法可通过自动设定聚类类别个数或手动设定聚类类别个数两种方式实现对负荷
信息的聚类，解决传统聚类算法无法处理大数据量的局限性，Mahout是Hadoop家族中与众
不同的一个成员，是基于Hadoop的机器学习和数据挖掘的一个分布式框架，Mahout用
MapReduce实现了部分数据挖掘算法，解决了并行挖掘的问题，K-Means作为一种经典的聚
类算法，依赖于不断寻找簇中心直至其达至稳定实现对象的划分，K-Means的一个不足之处
是必须预先指定簇数K，在许多实际应用中要设定一个合理的K值不是一件容易的事，借助
Canopy算法可以完成簇数K及初始簇中心的估计。
4.根据权利要求3所述的基于大数据技术的电力负荷预测方法，其特征在于：Canopy算
法实现步骤如下：
1)输入历史一年中全省负荷值最大的当天用户整点负荷数据，针对负荷数据进行预处
理，并进行数据归一化处理；
2)执行并行聚类算法，确定是否自动确定聚类簇数，如果选择手动确定簇数，则直接输
入聚类簇数，如果选择自动确定聚类簇数，则采用并行Conopy算法计算簇数值和初始簇中心；
执行并行K-Means算法，输出聚类结果，进行聚类结果评估；
K-Means算法实现步骤如下：
1)第一步是为待聚类的点寻找K个聚类中心，
指定聚类数目K；
在所有个案中随机选取K个类初始中心，(Ok,Tk),k＝1,2,...；
2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去，
根据距离最近原则进行分类，计算每个样本数据点到K个类初始中心点的欧式距离，并按照
距K个类中心点距离最近的原则分派所有样本，形成K类；
样本点到类初始中心点的欧式距离公式为：EUCLID((Oi,Ti),(Ok,Tk))=(Oi-Ok)2+(Ti-Tk)2,]]>(Oi,Ti)为样本点；
判断样本点到哪类初始中心点的距离最小，并将此样本归入此类；
3)第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中
心，反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类次数达到要求为止，依
次计算各类中K个变量的均值，以均值点作为K个类的中心点；
重新确定类中心点(ck,tk)n为各类中样本点的个数；设置终止
聚类的条件：迭代次数n：当目前的迭代次数等于指定的迭代次数时，终止聚类；类中心点偏
移程度(S)：新确定的类中心点距上个类中心的最大偏移量小于指定的量时停止聚类，当迭
代次数和类中心偏移成都中任一条件满足则结束聚类，不满足上述两个条件，则反复执行
K-Means算法步骤(2)、(3)。
5.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员：黄文思，王继业，曾楠，许元斌，陈宏，邹保平，郝悍勇，罗义旺，李金湖，李云，余仰淇，林燊，刘燕秋，骆伟艺，罗文甜，张欢，吴少平，陈智鹏，刘彩，柯华强，
申请(专利权)人：国家电网公司，国网信通亿力科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人