一种基于数据划分的电力负荷曲线层次聚类方法技术

技术编号:19216051 阅读:406 留言:0更新日期:2018-10-20 06:50
本发明专利技术提供了一种基于数据划分的电力负荷曲线层次聚类方法,涉及电网领域,本发明专利技术基于聚类有效性评价函数DBI,针对电力负荷曲线数据,运用基于数据划分的层次聚类算法对其聚类,同时运用设置阈值的方式进一步减少聚类时间;本发明专利技术由于采用了将整体数据划分为若干子集再分别聚类的方法,将电力负荷曲线的聚类时间大幅度缩短,且多次实验表明,当以DBI指数评价聚类质量,基于数据划分的层次聚类算法总体上较传统层次聚类算法的聚类质量提高了约3%。

【技术实现步骤摘要】
一种基于数据划分的电力负荷曲线层次聚类方法
本专利技术涉及电网领域,尤其是一种电力负荷曲线的聚类方法。
技术介绍
随着需求侧响应概念的提出,用户侧资源逐渐受到学术界和工业界的重视。用户侧负荷资源能否参与能源互联网供需调节,对整个电力系统的安全稳定运行有重要意义。电网中用户的细分,对制定精准的激励政策,以使用户侧资源参与到电网的供需调节中显得至关重要。负荷曲线作为电力用户最重要的特征,通过用户负荷曲线聚类分析,提取用户用电的负荷模式,对于深刻把握用户用电规律、评估用户需求响应潜力、指导电价制定和制定需求响应激励机制等具有重要意义。由于需求侧响应概念在近几年才被提出,电力用户用电数据也在近几年逐渐丰富起来,因此,通过电力负荷曲线聚类,挖掘用户用电模式,成为很多学者研究的热点问题。研究伊始,关于负荷曲线聚类的研究都集中在用基本的聚类算法对其聚类,但随着数据规模的不断增大,仅仅用简单的聚类算法会导致聚类时间太长,聚类质量不高,而使得负荷曲线聚类问题成为难求解的问题;在近两年,有学者将两种基本聚类算法结合,来提高聚类质量,降低聚类时间,并且大多数将两种聚类算法相结合的研究都是将k-means算法与另一种算法相结合,但由于k-means算法初始聚类中心的随机性,导致聚类结果是不可重复、不稳定的,同时,两种聚类算法的结合也会增加时间成本;也有学者将降维技术应用到聚类算法中,但不管是利用那种降维技术都会减少原始数据中的部分信息,从而导致聚类的不准确性。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于数据划分的电力负荷曲线层次聚类方法。本专利技术基于聚类有效性评价函数DBI,针对更大规模的电力负荷曲线数据,运用基于数据划分的层次聚类算法对其聚类,同时运用设置阈值的方式进一步减少聚类时间;由于本专利技术运用的基本聚类算法是层次聚类算法,因此在对负荷曲线进行聚类之前,需进行数据的预处理,特别是离群值的处理。本专利技术解决其技术问题所采用的技术方案的详细步骤如下:步骤1:进行数据预处理假定每条负荷曲线有n个记录,先对原始负荷曲线做如下剔除处理:剔除存在负值记录的负荷曲线,剔除存在空值记录的负荷曲线,剔除n个记录中全部为0值的负荷曲线,经过三种剔除之后,剩余m条负荷曲线,计算每条负荷曲线到其他m-1条曲线的距离,计算公式如下:其中,Dx表示第x条负荷曲线与其他m-1条曲线的距离之和,fxj和fij分别表示第x条曲线和第i条曲线的第j个负荷记录,x,i=1,2,...,m,j=1,2,...,n,以所有m个距离值为输入数据,利用箱线图方法识别离群值;在箱线图中,用处于箱子上边缘和下边缘的曲线分别代替上边缘以上和下边缘以下的曲线,即获得离群值;步骤2:数据划分将m个负荷曲线集合划分为y种子集规模不同的集合群,按照子集的规模由小到大排序,依次为S1,S2,…Sl,…Sy;步骤3:对Sl中每个子集用Havg层次聚类算法聚类,其中,l=1,…,y;将每个子集分别聚为2-8类,选择戴维森堡丁指数(Davies-BouldinIndex,DBI)最小的聚类结果作为该子集的聚类结果;步骤4:求每个子集聚类中心的并集,并对该并集运用Havg算法进行聚类;步骤5:运用聚类效果评价函数DBI对步骤4的聚类效果进行评价,当DBI的值达到阈值α时,进入步骤6;若未达到该阈值,则重复步骤3,同时步骤3中的l加1,直至DBI的值达到阈值;当l=y,则将步骤2所得到的所有划分中DBI值最小的聚类结果作为步骤5的最终聚类结果,同时进入步骤6;取DBI指数的最低值为γ,阈值α的取值范围为2γ>α>γ;步骤6:合并步骤5得到的聚类结果中聚类中心距离小于阈值β的簇,以各聚类中心之间的距离作为箱线图的绘制数据绘制箱线图,β为箱线图的下边缘处的值,聚类中心的计算方式如下所示:式(2)中,Cw为第w个簇的聚类中心,V表示该簇所包含的曲线数量,Xi为第w个簇中的第i条负荷曲线;至此,得到了与步骤5不同的新的聚类结果;步骤7:将步骤5和步骤6得到的聚类结果的DBI值进行比较,DBI值小的聚类结果作为最终的聚类结果。步骤6中所述合并为在聚类结果中,簇L和簇H的聚类中心距离如小于阈值β,将簇L和簇H中的负荷曲线合并为一个新簇G,并更新聚类结果,即保留新簇G,删除簇L和簇H。本专利技术的有益效果在于由于采用了将整体数据划分为若干子集再分别聚类的方法,将电力负荷曲线的聚类时间大幅度缩短,以900条数据为例,基于数据划分的层次聚类算法较传统层次聚类算法聚类时间降低了约79%;且多次实验表明,当以DBI指数评价聚类质量,基于数据划分的层次聚类算法总体上较传统层次聚类算法的聚类质量提高了约3%。附图说明图1是本专利技术基于数据划分的电力负荷曲线层次聚类算法流程图。图2是本专利技术不同算法基于a、b两组数据的DBI指标和聚类数的关系示意图。图3是本专利技术实施例中10523条工业电力用户负荷曲线聚类结果。具体实施方式下面结合附图和实施例对本专利技术进一步说明。随着电力负荷数据量和数据维度的增加,传统的聚类方法在聚类时间和聚类质量的均衡上已不能满足电力负荷曲线聚类的要求,因此,本专利技术旨在在不减少原始信息量的条件下,进一步降低聚类时间,同时满足聚类质量的要求。如图1所示,本专利技术的详细步骤如下:步骤1:进行数据预处理假定每条负荷曲线有n个记录,对原始负荷曲线做如下剔除处理:剔除存在负值记录的负荷曲线;剔除存在空值记录的负荷曲线;剔除n个记录中全部为0值的负荷曲线,经过三种剔除之后,剩余m条负荷曲线,计算每条负荷曲线到其他m-1条曲线的距离,计算公式如下:其中,Dx表示第x条负荷曲线与其他m-1条曲线的距离之和,fxj和fij分别表示第x条曲线和第i条曲线的第j个负荷记录,x,i=1,2,...,m,j=1,2,...,n,以所有m个距离值为输入数据,利用箱线图方法识别离群值;在箱线图中,用处于箱子上边缘和下边缘的曲线分别代替上边缘以上和下边缘以下的曲线,即获得离群值;在数据预处理时,不能进行归一化处理,否则不同负荷水平,相同负荷曲线形状的负荷曲线之间的差异将不再明显;步骤2:数据划分将m个负荷曲线集合划分为y种子集规模不同的集合群,基于时间因素的考虑,每个子集的数据量控制在200-500条,将所有数据划分为y种子集,按照子集的规模由小到大排序,依次为S1,S2,…Sl,…Sy;该步骤的主要目的便是降低聚类时间,不管是划分子集,控制子集大小还是将子集按顺序排列,都是为了缩短聚类时间;步骤3:对Sl中每个子集用Havg层次聚类算法聚类,其中,l=1,…,y;将每个子集分别聚为2-8类,选择戴维森堡丁指数(Davies-BouldinIndex,DBI)最小的聚类结果作为该子集的聚类结果;步骤4:求每个子集聚类中心的并集,并对该并集运用Havg算法进行聚类;步骤5:运用聚类效果评价函数DBI对步骤4的聚类效果进行评价,当DBI的值达到阈值α时,进入步骤6;若未达到该阈值,则重复步骤3,同时步骤3中的l加1;当l=y,则将步骤2所得到的所有划分中DBI值最小的聚类结果作为步骤5的最终聚类结果,同时进入步骤6;取DBI指数的最低值为γ,阈值α的取值范围为2γ>α>γ;本文档来自技高网...

【技术保护点】
1.一种基于数据划分的电力负荷曲线层次聚类的方法,其特征在于包括下述步骤:步骤1:进行数据预处理假定每条负荷曲线有n个记录,先对原始负荷曲线做如下剔除处理:剔除存在负值记录的负荷曲线,剔除存在空值记录的负荷曲线,剔除n个记录中全部为0值的负荷曲线,经过三种剔除之后,剩余m条负荷曲线,计算每条负荷曲线到其他m‑1条曲线的距离,计算公式如下:

【技术特征摘要】
1.一种基于数据划分的电力负荷曲线层次聚类的方法,其特征在于包括下述步骤:步骤1:进行数据预处理假定每条负荷曲线有n个记录,先对原始负荷曲线做如下剔除处理:剔除存在负值记录的负荷曲线,剔除存在空值记录的负荷曲线,剔除n个记录中全部为0值的负荷曲线,经过三种剔除之后,剩余m条负荷曲线,计算每条负荷曲线到其他m-1条曲线的距离,计算公式如下:其中,Dx表示第x条负荷曲线与其他m-1条曲线的距离之和,fxj和fij分别表示第x条曲线和第i条曲线的第j个负荷记录,x,i=1,2,...,m,j=1,2,...,n,以所有m个距离值为输入数据,利用箱线图方法识别离群值;在箱线图中,用处于箱子上边缘和下边缘的曲线分别代替上边缘以上和下边缘以下的曲线,即获得离群值;步骤2:数据划分将m个负荷曲线集合划分为y种子集规模不同的集合群,按照子集的规模由小到大排序,依次为S1,S2,…Sl,…Sy;步骤3:对Sl中每个子集用Havg层次聚类算法聚类,其中,l=1,…,y;将每个子集分别聚为2-8类,选择戴维森堡丁指数(Davies-BouldinIndex,DBI)最小的聚类结果作为该子集的聚类结果;步骤4:求每个子集聚类中心的并集,并对该并集...

【专利技术属性】
技术研发人员:魏娜赵嵩正王莉芳田世明潘明明于建成姚程吴磊
申请(专利权)人:西北工业大学中国电力科学研究院有限公司国网天津市电力公司电力科学研究院
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1