一种基于用户行为的用电数据特征提取方法及系统技术方案

技术编号:31159906 阅读:13 留言:0更新日期:2021-12-04 10:24
本发明专利技术涉及一种基于用户行为的用电数据特征提取方法及系统,所述方法包括以下步骤:S1:获取用户用电数据;S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;S3:根据选择的特征进行一次聚类,获取一次聚类结果;S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。与现有技术相比,本发明专利技术提高聚类结果的可靠性和准确性,实现用户用电数据特征的有效提取,可以准确发现用电高峰。可以准确发现用电高峰。可以准确发现用电高峰。

【技术实现步骤摘要】
一种基于用户行为的用电数据特征提取方法及系统


[0001]本专利技术涉及电力大数据领域,尤其是涉及一种基于用户行为的用电数据特征提取方法及系统。

技术介绍

[0002]随着智能电网、物联网和云计算等技术的迅猛发展,电力部门成为大数据的重要生产部门,其发、输、配、售各个环节都产生大量高频数据,为提升电力供应的安全稳定性、提高可再生能源的接入比例、强化需求侧管理等需求提供了新的技术手段。
[0003]了解不同用户的用电行为,发现在不同应用场景中有特殊价值的用户群,进而为配用电方面的管理和决策提供依据。但是用户的社会属性、行为偏好等的多样性导致了用户用电行为的复杂性,这使得精确的用户用电的管理和需求响应非常困难。以往的研究主要基于行为科学与社会实验方法、利用各类离散选择模型对居民用电行为的偏好特征进行研究,在用电行为的动因研究方面往往基于消费者行为理论,利用各种时间序列和面板数据模型。这种分析中所使用的数据量偏小、数据指标偏宏观和片面,数据获取的难度很大,这使得分析结果往往只能给出区域性的、长期的用户行为偏好,无法对每个用户进行分类分析,给出微观尺度高频结果,更无法给出短期甚至实时的用户反馈。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于用户行为的用电数据特征提取方法及系统。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种基于用户行为的用电数据特征提取方法,包括以下步骤:
[0007]S1:获取用户用电数据;
[0008]S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
[0009]S3:根据选择的特征进行一次聚类,获取一次聚类结果;
[0010]S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
[0011]优选地,所述的基于BIC的特征选择中的BIC模型的表达式为:
[0012]BIC=2*lnN*p

2*lnφ
[0013]其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
[0014]优选地,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
[0015]优选地,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
[0016]优选地,所述的一次聚类采用K

means算法进行聚类,其相似性度量使用欧氏距
离。
[0017]优选地,所述的二次聚类采用凝聚层次聚类算法进行聚类。
[0018]一种基于用户行为的用电数据特征提取系统,包括以下模块:
[0019]数据获取模块,用于获取用户用电数据;
[0020]特征选择模块,用于对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
[0021]一次聚类模块,用于根据选择的特征进行一次聚类,获取一次聚类结果;
[0022]二次聚类模块,用于对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
[0023]优选地,所述的基于BIC的特征选择中的BIC模型的表达式为:
[0024]BIC=2*lnN*p

2*lnφ
[0025]其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
[0026]优选地,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
[0027]优选地,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
[0028]与现有技术相比,本专利技术基于BIC特征提取的聚类算法,应用于高维用电负荷数据,可以准确发现用电高峰。在时序聚类方面,提出了基于加权皮尔逊距离的曲线聚类方法,弥补了特征聚类无法分辨相同用电量不同模式的缺点,提高了聚类的细粒度,成功识别出各种特殊节假日用电模式这种细粒度用电模式。结合两种方法,进行多步骤的聚类分析,对每个步骤的聚类结果进行人工标记,研究半监督学习的用户聚类分析方法,提高聚类结果的可靠性和准确性。和传统聚类模型进行对比,本专利技术可以将聚类结果和季节、日期类型进行关联。另外,本专利技术基于用户不同时段的用户行为,利用K

means算法、凝聚层次聚类算法进行两次聚类,提高聚类结果的可靠性和准确性,实现用户用电数据特征的有效提取。
附图说明
[0029]图1为本专利技术的流程图。
具体实施方式
[0030]下面结合附图和具体实施例对本专利技术进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本专利技术并不意在对其适用物或其用途进行限定,且本专利技术并不限定于以下的实施方式。
[0031]实施例
[0032]一种基于用户行为的用电数据特征提取方法,包括以下步骤:
[0033]S1:获取用户用电数据。
[0034]本实施例中,获取用户一年内的用电数据,用电数据的参数类型包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
[0035]S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排
序,并确认特征选择结果。
[0036]基于BIC的特征选择中的BIC模型的表达式为:
[0037]BIC=2*lnN*p

2*lnφ
[0038]其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
[0039]获取各参数类型的BIC值,BIC值越小,则说明模型的质量越好,该菜蔬类型越重要,
[0040]因此将问题转化为求BIC最小的最优解问题:
[0041][0042]最终,按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。本实施例中,计算得到的重要性排序为:最高温>日最低负荷>日最高负荷>日平均负荷>最低温>天气>日类型>风力。选取前五个参数类型:最高温、日最低负荷、日最高负荷、日平均负荷、最低温作为特征选择结果。
[0043]S3:根据选择的特征进行一次聚类,获取一次聚类结果;
[0044]本实施例中,一次聚类采用K

means算法进行聚类,其相似性度量使用欧氏距离。K

means算法是一种属于划分方法的聚类算法,通常采用欧氏距离作为2个样本相似程度的评价指标,其基本思想是:随机选取数据集中的k个点作为初始聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户行为的用电数据特征提取方法,其特征在于,包括以下步骤:S1:获取用户用电数据;S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;S3:根据选择的特征进行一次聚类,获取一次聚类结果;S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。2.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的基于BIC的特征选择中的BIC模型的表达式为:BIC=2*lnN*p

2*lnφ其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。3.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。4.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。5.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的一次聚类采用K

means算法进行聚类,其相似性度量使用欧氏距离。6....

【专利技术属性】
技术研发人员:朱征田英杰苏运郭乃网吴裔李凡赵莹莹阮静娴金妍斐沈泉江冯楠杨洪山吴元庆
申请(专利权)人:星环信息科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1