当前位置: 首页 > 专利查询>章涌专利>正文

一种基于大数据分布式框架的信息分析方法技术

技术编号:34643148 阅读:19 留言:0更新日期:2022-08-24 15:19
本发明专利技术公开了一种基于大数据分布式框架的信息分析方法,包括以下步骤:步骤A1:进行大数据平台的搭建,建立Hadoop、Spark大数据集群;步骤A2:利用K

【技术实现步骤摘要】
一种基于大数据分布式框架的信息分析方法


[0001]本专利技术涉及用电信息分析
,具体为一种基于大数据分布式框架的信息分析方法。

技术介绍

[0002]随着智能电网的发展,用户用电量会受到各种复杂的因素所影响,家庭环境、节假日、心情、工作、天气情况、地区和电价等各方面的特征都会影响用户用电量,由于诸多不确定因素都会改变用户的用电信息,且也没有固定的指定来评价用户的用电行为分析。所以,目前用户用电量无法做到准确的预测值,只能使其确定与某一个阈值范围内,尽量减少误差的可能,正因为用电信息复杂度高难以分析,所以分析方法的好坏和属性的选择会直接决定用户信息结果的准确性。
[0003]过去传统的用户分析方法因为收集数据的局限性,只能利用简单少量的相关数据对短时间内的用户电量进行分析与预测,方法主要如下:平均增长率法,分产业产值单消耗法等,这些方法由于仅依靠少量的数据,缺少关键信息属性,导致在精度和准确度无法达到满意的效果,目前传统的算法已经无法满足如今复杂且繁多的用户用电数据。因此,设计基于对用户用电行为规律的聚合分析和短期负荷预测的一种基于大数据分布式框架的信息分析方法是很有必要的。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据分布式框架的信息分析方法,以解决上述
技术介绍
中提出的问题。
[0005]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于大数据分布式框架的信息分析方法,包括以下步骤:
[0006]步骤A1:进行大数据平台的搭建,建立Hadoop、Spark大数据集群;
[0007]步骤A2:利用K

means聚类算法对用户用电行为聚类分析;
[0008]步骤A3:通过观察不同参数下K

means算法的结果,调整相关参数,重新进行聚合训练达到最佳效果,进行多次迭代;
[0009]步骤A4:将并行化下的K

means算法提交至搭建好的Spark平台框架,获得最终聚类结果下用户的用电行为规律;
[0010]步骤A5:利用并行化DeepFM算法对用户用电行为进行负荷预测;
[0011]步骤A6:通过调参选择特征,调整层数来优化算法,分别用不同的算法模型对数据进行预测分析,比较其中的速度与准确度选出最佳的模型。
[0012]根据上述技术方案,所述步骤A1进一步包括以下步骤:
[0013]步骤A11:搭建以大数据为基础的智能用电信息系统,通过数据采集层、数据计算层、数据管理层和应用层进行分布式集群分析;
[0014]步骤A12:结合机器学习,利用Hadoop搭建智能用电信息大数据管理平台,在平台
上采用分布式文件系统、Hive建立大数据存储,所述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,所述hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载;
[0015]步骤A13:在平台上搭建MapReduce并行化计算框架和Spark内存并行化计算框架作为大数据计算分析系统,对用户的用电信息数据进行分析。
[0016]根据上述技术方案,所述步骤A11中搭建的智能用电信息系统包括数据采集层、数据计算层、数据管理层和应用层,所述数据采集层与数据计算层电连接,所述数据管理层与应用层电连接;
[0017]所述数据采集层用于通过智能电表和各采集单元主站程序进行用电信息的数据采集;所述数据计算层用于对采集的数据进行并行化计算和预测;所述数据管理层用于对分布式计算的信息文件和数据仓库进行管理监控;所述应用层用于对计算出的数据进行决策分析和负荷预测。
[0018]根据上述技术方案,所述步骤A11中搭建的智能用电信息系统的运行方法包括以下步骤:
[0019]步骤S1:针对用户用电的实时数据和离线数据进行采集和验证;
[0020]步骤S2:将采集到的数据收集起来经过简单的ETL操作,存储到指定的数据库或系统中的分布式文件中;
[0021]步骤S3:利用收集获取的数据进行分析,变成后续可直接使用的数据。
[0022]根据上述技术方案,所述步骤A2进一步包括以下步骤:
[0023]步骤A21:用户用电行为规律聚类方法是将每个用户用电信息相似度较高的聚类到一块,聚类分类是作为超参数进行手动设置;
[0024]步骤A22:对预处理过的用户用电信息数据源进行初始值K的设置,将K设置为3类,随机选取3个聚合点;
[0025]步骤A23:以3个聚合点为聚类中心计算距离,再选择下一个新的聚类点作为新的聚类中心,选取数据点距离聚类中心较远的点进行迭代。
[0026]根据上述技术方案,所述步骤A3中,由于数据量过大,加上聚类算法有许多超参数需调节,系统需要遍历多次才能选出最优结果,这样会耗费大量时间,采用机器学习库下的分布式并行化K

means算法,提高算法的计算效率。
[0027]根据上述技术方案,所述步骤A4进一步包括以下步骤:
[0028]步骤A41:将并行化下的K

means算法提交至搭建好的Spark平台框架下对智能用电信息数据进行聚类分析;
[0029]步骤A42:从设定时间周期内获取消耗的用电量作为K

means的输入数据,同时将数据集传输至Hadoop平台下的分布式文件系统当中,完成算法的聚类;
[0030]步骤A43:通过调整聚类中心点个数K来观察聚类后的最终效果,选取不同聚类中心点K,分别将聚类结果重新返回至训练集中的数据进行对比观察。
[0031]根据上述技术方案,所述步骤A5进一步包括以下步骤:
[0032]步骤A51:在用户用电信息聚类的基础上,除了记录对用户用电行为有强相关的特征外,还记录可能影响用电量的特征;
[0033]步骤A52:将这些因素放入特征维度形成用户画像,对用户画像进行降维、增维处
理,利用不同的算法对用户的用电量进行分类;
[0034]步骤A53:利用并行化DeepFM算法对用户用电量进行负荷预测。
[0035]根据上述技术方案,所述步骤A53进一步包括以下步骤:
[0036]步骤A531:DeepFM负荷预测首先对用户用电数据进行划分,随机将数据70%作为训练数据,30%作为测试数据;
[0037]步骤A532:分别对用户用电数据进行特征提取和数据过滤,导入设计好的DeepFM模型,将数据划分成功高阶特征和低阶特征;
[0038]步骤A533:高阶特征导入Deep模型,同时低阶特征导入FM模型,待两边都训练完后,将训练结果合并同时导入全连接层,通过组合输出,即可获取不同类别的负荷预测结果。
[0039]根据上述技术方案,所述步骤A531

步骤A533中,用户用电行为分析采用DeepFM算法进行处理,将记录的用户用电本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据分布式框架的信息分析方法,其特征在于:所述方法包括以下步骤:步骤A1:进行大数据平台的搭建,建立Hadoop、Spark大数据集群;步骤A2:利用K

means聚类算法对用户用电行为聚类分析;步骤A3:通过观察不同参数下K

means算法的结果,调整相关参数,重新进行聚合训练达到最佳效果,进行多次迭代;步骤A4:将并行化下的K

means算法提交至搭建好的Spark平台框架,获得最终聚类结果下用户的用电行为规律;步骤A5:利用并行化DeepFM算法对用户用电行为进行负荷预测;步骤A6:通过调参选择特征,调整层数来优化算法,分别用不同的算法模型对数据进行预测分析,比较其中的速度与准确度选出最佳的模型。2.根据权利要求1所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A1进一步包括以下步骤:步骤A11:搭建以大数据为基础的智能用电信息系统,通过数据采集层、数据计算层、数据管理层和应用层进行分布式集群分析;步骤A12:结合机器学习,利用Hadoop搭建智能用电信息大数据管理平台,在平台上采用分布式文件系统、Hive建立大数据存储,所述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,所述hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载;步骤A13:在平台上搭建MapReduce并行化计算框架和Spark内存并行化计算框架作为大数据计算分析系统,对用户的用电信息数据进行分析。3.根据权利要求2所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A11中搭建的智能用电信息系统包括数据采集层、数据计算层、数据管理层和应用层,所述数据采集层与数据计算层电连接,所述数据管理层与应用层电连接;所述数据采集层用于通过智能电表和各采集单元主站程序进行用电信息的数据采集;所述数据计算层用于对采集的数据进行并行化计算和预测;所述数据管理层用于对分布式计算的信息文件和数据仓库进行管理监控;所述应用层用于对计算出的数据进行决策分析和负荷预测。4.根据权利要求3所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A11中搭建的智能用电信息系统的运行方法包括以下步骤:步骤S1:针对用户用电的实时数据和离线数据进行采集和验证;步骤S2:将采集到的数据收集起来经过简单的ETL操作,存储到指定的数据库或系统中的分布式文件中;步骤S3:利用收集获取的数据进行分析,变成后续可直接使用的数据。5.根据权利要求1所述的一种基于大数据分布式框架的信息分析方法,其特征在于:所述步骤A2进一步包括以下步骤:步骤A21:用户用电行为规律聚类方法是将每个用户用电信息相似度较高的聚类到一块,聚类分类是作为超参数进行手动设置;步骤A22:对预处理过的用户用电信息数据源进行初始值K的设置,将K设置为3类,随机选取3个聚...

【专利技术属性】
技术研发人员:章涌
申请(专利权)人:章涌
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1