【技术实现步骤摘要】
一种基于大数据分布式框架的信息分析方法
[0001]本专利技术涉及用电信息分析
,具体为一种基于大数据分布式框架的信息分析方法。
技术介绍
[0002]随着智能电网的发展,用户用电量会受到各种复杂的因素所影响,家庭环境、节假日、心情、工作、天气情况、地区和电价等各方面的特征都会影响用户用电量,由于诸多不确定因素都会改变用户的用电信息,且也没有固定的指定来评价用户的用电行为分析。所以,目前用户用电量无法做到准确的预测值,只能使其确定与某一个阈值范围内,尽量减少误差的可能,正因为用电信息复杂度高难以分析,所以分析方法的好坏和属性的选择会直接决定用户信息结果的准确性。
[0003]过去传统的用户分析方法因为收集数据的局限性,只能利用简单少量的相关数据对短时间内的用户电量进行分析与预测,方法主要如下:平均增长率法,分产业产值单消耗法等,这些方法由于仅依靠少量的数据,缺少关键信息属性,导致在精度和准确度无法达到满意的效果,目前传统的算法已经无法满足如今复杂且繁多的用户用电数据。因此,设计基于对用户用电行为规律的聚合分析和短期负荷预测的一种基于大数据分布式框架的信息分析方法是很有必要的。
技术实现思路
[0004]本专利技术的目的在于提供一种基于大数据分布式框架的信息分析方法,以解决上述
技术介绍
中提出的问题。
[0005]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于大数据分布式框架的信息分析方法,包括以下步骤:
[0006]步骤A1:进行大数据平台的搭建,建立Hadoo ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据分布式框架的信息分析方法,其特征在于:所述方法包括以下步骤:步骤A1:进行大数据平台的搭建,建立Hadoop、Spark大数据集群;步骤A2:利用K
‑
means聚类算法对用户用电行为聚类分析;步骤A3:通过观察不同参数下K
‑
means算法的结果,调整相关参数,重新进行聚合训练达到最佳效果,进行多次迭代;步骤A4:将并行化下的K
‑
means算法提交至搭建好的Spark平台框架,获得最终聚类结果下用户的用电行为规律;步骤A5:利用并行化DeepFM算法对用户用电行为进行负荷预测;步骤A6:通过调参选择特征,调整层数来优化算法,分别用不同的算法模型对数据进行预测分析,比较其中的速度与准确度选出最佳的模型。2.根据权利要求1所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A1进一步包括以下步骤:步骤A11:搭建以大数据为基础的智能用电信息系统,通过数据采集层、数据计算层、数据管理层和应用层进行分布式集群分析;步骤A12:结合机器学习,利用Hadoop搭建智能用电信息大数据管理平台,在平台上采用分布式文件系统、Hive建立大数据存储,所述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,所述hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载;步骤A13:在平台上搭建MapReduce并行化计算框架和Spark内存并行化计算框架作为大数据计算分析系统,对用户的用电信息数据进行分析。3.根据权利要求2所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A11中搭建的智能用电信息系统包括数据采集层、数据计算层、数据管理层和应用层,所述数据采集层与数据计算层电连接,所述数据管理层与应用层电连接;所述数据采集层用于通过智能电表和各采集单元主站程序进行用电信息的数据采集;所述数据计算层用于对采集的数据进行并行化计算和预测;所述数据管理层用于对分布式计算的信息文件和数据仓库进行管理监控;所述应用层用于对计算出的数据进行决策分析和负荷预测。4.根据权利要求3所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A11中搭建的智能用电信息系统的运行方法包括以下步骤:步骤S1:针对用户用电的实时数据和离线数据进行采集和验证;步骤S2:将采集到的数据收集起来经过简单的ETL操作,存储到指定的数据库或系统中的分布式文件中;步骤S3:利用收集获取的数据进行分析,变成后续可直接使用的数据。5.根据权利要求1所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A2进一步包括以下步骤:步骤A21:用户用电行为规律聚类方法是将每个用户用电信息相似度较高的聚类到一块,聚类分类是作为超参数进行手动设置;步骤A22:对预处理过的用户用电信息数据源进行初始值K的设置,将K设置为3类,随机选取3个聚...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。