基于Spark框架和凝聚层次聚类算法的户变关系识别方法技术

技术编号:26259312 阅读:67 留言:0更新日期:2020-11-06 17:53
本申请公开了一种基于Spark框架和凝聚层次聚类算法的户变关系识别方法,其中,方法包括:采集台区变压器及台区用户的时序电压数据;利用Spark SQL对时序电压数据进行预处理,以得到处理后的数据;采用主成分分析法对处理后的数据进行降维,并提取电压时序数据特征;基于凝聚层次聚类算法对电压时序数据特征进行聚类分析确定电力用户分类,得到户变关系识别结果。该方法,通过引入Spark分布式运算平台,通过调用Spark MLlib机器学习库,实现主成分分析法降维与凝聚层次聚类算法聚类,实现对于户变关系识别的计算,解决了数据量增大后户变关系识别计算效率低的问题。

【技术实现步骤摘要】
基于Spark框架和凝聚层次聚类算法的户变关系识别方法
本申请涉及电力系统分析
,特别涉及一种基于Spark框架和凝聚层次聚类算法的户变关系识别方法。
技术介绍
在电网系统中,配电网台区的用户信息混乱、丢失或不准确,严重制约了智能电网的建设进程:电力公司在接线改动或均衡分配负荷线路改造后,信息更新不及时导致用户信息与实际不符。为了便于管理,电力公司对低压配电网用户实行分台区管理,而台户关系识别是实现电网营销精益化、降耗电力减损的基础,亦是窃电检测的前提。申请内容本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一目的在于提出一种基于Spark框架和凝聚层次聚类算法的户变关系识别方法,通过引入Spark分布式运算平台,通过调用SparkMLlib机器学习库,实现主成分分析法降维与凝聚层次聚类算法聚类,实现对于户变关系识别的计算,解决了数据量增大后户变关系识别计算效率低的问题。本申请的第二个目的在于提出一种基于Spark框架和凝聚层次聚类算法的户变关系识别装置。本申请的第三个目的在本文档来自技高网...

【技术保护点】
1.一种基于Spark框架和凝聚层次聚类算法的户变关系识别方法,其特征在于,包括以下步骤:/n采集台区变压器及台区用户的时序电压数据;/n利用Spark SQL对所述时序电压数据进行预处理,以得到处理后的数据;/n采用主成分分析法对所述处理后的数据进行降维,并提取电压时序数据特征;以及/n基于凝聚层次聚类算法对所述电压时序数据特征进行聚类分析确定电力用户分类,得到户变关系识别结果。/n

【技术特征摘要】
1.一种基于Spark框架和凝聚层次聚类算法的户变关系识别方法,其特征在于,包括以下步骤:
采集台区变压器及台区用户的时序电压数据;
利用SparkSQL对所述时序电压数据进行预处理,以得到处理后的数据;
采用主成分分析法对所述处理后的数据进行降维,并提取电压时序数据特征;以及
基于凝聚层次聚类算法对所述电压时序数据特征进行聚类分析确定电力用户分类,得到户变关系识别结果。


2.根据权利要求1所述的方法,其特征在于,所述采集台区变压器及台区用户的时序电压数据,包括:
从预设的外部系统数据库中通过Sqoop全量拉取所述台区变压器及台区用户的时序电压数据。


3.根据权利要求1或2所述的方法,其特征在于,还包括:
将所述台区变压器及台区用户的时序电压数据存储到HDFS中,并关联Hive表。


4.根据权利要求1所述的方法,其特征在于,所述利用SparkSQL对所述时序电压数据进行预处理,包括:
计算所述时序电压数据的缺失值,并对所述时序电压数据进行缺失值填充处理;
提取所述时序电压数据的特征向量,并进行归一化处理,以得到所述处理后的数据。


5.一种基于Spark框架和凝聚层次聚类算法的户变关系识别装置,其特征在于,包括:
采集模块,用于采集台区变压器及台区用户的时序电压数据;
处理模块,用于利用SparkSQL对所述时序电压数据进行预处理,以得到处理后...

【专利技术属性】
技术研发人员:黄旭李刚宋树宏胡伟刘越郭秋婷
申请(专利权)人:国网辽宁省电力有限公司沈阳供电公司清华大学国家电网有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1