一种基于能源大数据的用户画像与分类方法技术

技术编号:38675864 阅读:7 留言:0更新日期:2023-09-02 22:51
发明专利技术公开了一种基于能源大数据的用户画像与分类方法,其特征在于基于用电数据进行电力用户的聚类分析、基于选择性集成学习的用电量预测及用户画像的构建及分类方法,有益效果:本方法充分挖掘电力用户的用电数据信息价值,采用聚类分析及选择性集成学习模型实现用户分类及用户用电量预测,同时结合用户画像的建模方法、多维护刻画以及标签体系实现用户画像及分类,协助电力公司实现电力用户的精准服务。务。务。

【技术实现步骤摘要】
一种基于能源大数据的用户画像与分类方法


[0001]本专利技术属于能源大数据的应用领域,尤其涉及一种基于能源大数据的用户画像与分类方法。

技术介绍

[0002]大数据是重要的战略资源,能源大数据具有量大、分布广、类型多等特点,背后反映的是电网运行方式、电力生产方式及客户消费习惯等信息,深入挖掘这些数据内涵,能够释放大数据蕴含的真正的价值,进一步为生产生活服务。在能源大数据中,用户侧的居民用电量数据,蕴含了大量的内容信息、关系信息及推导信息,充分挖掘和利用这些海量数据对促进生产、提高服务、保障电网安全有重要意义。
[0003]电力用户画像主要是以家庭用户为单位,依靠海量的用户用电数据来进行分析,通过对家庭电力用户的特征信息以及用电行为信息进行挖掘分析,从家庭用户的特征入手,对用户画像进行标签化处理,根据这些标签来构建电力用户画像,进而对电力用户的行为特征进行预测分析,有助于电力公司的智能化管理和精准营销

技术实现思路

[0004]针对能源大数据的应用问题,从电力用户侧数据应用及协助电力公司智能化管理和精准营销的角度出发,本专利技术提出了一种基于能源大数据的用户画像与分类方法,设计基于采集的用户侧的电力数据的用户画像的流程及构建方法。
[0005]一种基于能源大数据的用户画像与分类方法,其特征在于基于用电数据进行电力用户的聚类分析、基于选择性集成学习的用电量预测及用户画像的构建及分类方法,所述方法具体包括如下步骤:
[0006](1)基于用电数据的聚类分析;将采集到的电力用户的数据信息进行聚类分析,首先对数据源中的缺失值和异常值进行处理,剔除那些对聚类结果没有影响的数据,然后采用聚类算法对用户的用电量数据进行聚类,进而分析得到各类用户在用电量之间的差异性,最后再将聚类结果与用户的用电量信息、用电变化量信息以及用电变率量信息进行聚类分析,分析挖掘用户的用电规律,为电力用户的用电量预测提供数据上的支持。
[0007](2)基于选择性集成学习的用电量预测:采用选择性集成学习的思想,在预测时各个基学习器使用神经网络进行基学习器的构造,训练多个基学习器,在集成阶段提出一种双重过滤式迭代优化集成策略,采用迭代优化法和排名法相结合的策略,在排名法的优势下对传统的迭代优化的方法进行优化,提高对电力用户用电量预测的性能。
[0008](3)用户画像构建及分类方法:结合前两个步骤,从用户画像的建模方法、多维护刻画以及标签体系的构建三方面对用户画像的构建进行构建。
[0009]有益效果:本方法充分挖掘电力用户的用电数据信息价值,采用聚类分析及选择性集成学习模型实现用户分类及用户用电量预测,同时结合用户画像的建模方法、多维护刻画以及标签体系实现用户画像及分类,协助电力公司实现电力用户的精准服务。
附图说明
[0010]图1是本专利技术提供的一种基于能源大数据的用户画像与分类方法的构建流程;
[0011]图2是本专利技术提供的聚类分析的流程;
[0012]图3是本专利技术提供的用户画像构建的流程。
具体实施方式
[0013]下面结合附图,对优选实施例做详细说明。应该强调的是下述说明仅仅是示例性的而不是为了限制本专利技术的范围及其应用。
[0014]本专利技术实施例公开了一种基于能源大数据的用户画像与分类方法。该方法包括如下的步骤:
[0015]步骤一:基于采集的用电数据,进行电力用户的聚类分析。其包括的主要流程为:
[0016]1)进行缺失值处理,在聚类过程中,添加和删除大量的数据对聚类结果的影响非大,故采用以下方案对数据进行处理:如果出现用户的每月用电量均为零,该类用户很可能是空闲房,该类数据对聚类的结果意义不大,剔除这些用户数据;如果用户出现某(几个)月份的信息缺失,对该类用户的用电量信息进行均值填充,若缺失值的月份大于4个月,则剔除此用户的数据信息。
[0017]2)异常值剔除,采用箱线图法对数据的异常值进行处理,根据数据计算出整体的中位数、上四分位数以及下四分位数,然后计算四分位数差值,即上四分位数与下四分位数的差,根据上四分位数与下四分位数来绘制箱线图的上下限,在中位数的位置绘制中位数线,在上下四分位数的1.5倍之内的数据定义为异常值,用空心点来表示,记为温和异常值,在上下四分位数的3倍之外的数据定义为极端异常值,用实心点来表示。
[0018]3)用电量数据聚类分析,
[0019]①
采用K

means算法对数据源进行聚类分析,根据平方误差准则确定聚类的中心,公式为:
[0020][0021]式中E是数据源中所有样本的综合平方误差,p表示每月的用电量,m
i
是聚类C
i
的平均值。
[0022]②
计算数据样本到聚类中心的欧氏距离,按其距离进行划分,公式为:
[0023][0024]式中,x
i
代表样本中的第i个变量的值,y
i
代表聚类中心第i个变量值,两者相减后平方进行累加,再开方就可以得到其欧式距离。
[0025]③
按照附图2的顺序重新计算各个聚类中心,并重复前两个步骤,直到各个聚类中心的位置不再发生变化,并输出相应的计算结果。
[0026]步骤二:基于选择性集成学习的电力用户用电量预测:采用选择性集成学习的思想,在预测时各个基学习器使用神经网络进行基学习器的构造,训练多个基学习器,在集成阶段提出一种双重过滤式迭代优化集成策略,采用迭代优化法和排名法相结合的策略,在
排名法的优势下对传统的迭代优化的方法进行优化,提高对电力用户用电量预测的性能。主要流程包括:
[0027]1)基学习器的构造:采用MLP神经网络模型对电力用户的用电量进行预测,将处理后的气象数据与原数据进行融合后,通过神经网络对用电量数据进行预测。
[0028]2)基学习器的选取:采用排名法与迭代优化法相结合的策略进行集成:包括:
[0029]①
在进行迭代优化时,先采用排名法来对基学习器进行选取,按照一定的比例将性能较差的基学习器进行剔除;
[0030]在对所有的基学习器进行选择时,按照排名法进行排序,采用的是Kappa系数法,对各个基学习器进行初步的筛选,其筛选流程如式:
[0031][0032]其中,p0为所有基学习器的预测精度的均值,p
i
为该学习器的预测精度。
[0033]②
判断删除后剩余的基学习器的集成性能,如果删除后的性能优于删除前的性能,将其删除比例扩大;对剩余的基学习器采用迭代优化法进行集成,直到迭代至设定的阈值之内。
[0034]③
直至删除前后的性能差别达到预先设定的阈值,保留剩余的基学习器进行集成。对于迭代后剩余的基学习器,再采用排名法进行选取集成。
[0035]步骤三:用户画像构建及分类方法:结合前两个步骤,从用户画像的建模方法、多维度刻画以及标签体系的构建三方面对用户画像的构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于能源大数据的用户画像与分类方法,其特征在于,基于用电数据进行电力用户的聚类分析、基于选择性集成学习的用电量预测及用户画像的构建及分类方法,所述方法具体包括如下步骤:(1)基于用电数据的聚类分析;将采集到的电力用户的数据信息进行聚类分析,首先对数据源中的缺失值和异常值进行处理,剔除那些对聚类结果没有影响的数据,然后采用聚类算法对用户的用电量数据进行聚类,进而分析得到各类用户在用电量之间的差异性,最后再将聚类结果与用户的用电量信息、用电变化量信息以及用电变率量信息进行聚类分析,分析挖掘用户的用电规律,为电力用户的用电量预测提供数据上的支持;(2)基于选择性集成学习的用电量预测:采用选择性集成学习的思想,在预测时各个基学习器使用神经网络进行基学习器的构造,训练多个基学习器,在集成阶段提出一种双重过滤式迭代优化集成策略,采用迭代优化法和排名法相结合的策略,在排名法的优势下对传统的迭代优化的方法进行优化,提高对电力用户用电量预测的性能;(3)用户画像构建及分类方法:结合前两个步骤,从用户画像的建模方法、多维护刻画以及标签体系的构建三方面对用户画像的构建进行构建。2.根据权利要求1所述的一种基于能源大数据的用户画像与分类方法,其特征在于:步骤一:基于采集的用电数据,进行电力用户的聚类分析;其包括的主要流程为:1)进行缺失值处理,在聚类过程中,添加和删除大量的数据对聚类结果的影响非大,故采用以下方案对数据进行处理:如果出现用户的每月用电量均为零,该类用户很可能是空闲房,该类数据对聚类的结果意义不大,剔除这些用户数据;如果用户出现某(几个)月份的信息缺失,对该类用户的用电量信息进行均值填充,若缺失值的月份大于4个月,则剔除此用户的数据信息;2)异常值剔除,采用箱线图法对数据的异常值进行处理,根据数据计算出整体的中位数、上四分位数以及下四分位数,然后计算四分位数差值,即上四分位数与下四分位数的差,根据上四分位数与下四分位数来绘制箱线图的上下限,在中位数的位置绘制中位数线,在上下四分位数的1.5倍之内的数据定义为异常值,用空心点来表示,记为温和异常值,在上下四分位数的3倍之外的数据定义为极端异常值,用实心点来表示;3)用电量数据聚类分析,

采用K

means算法对数据源进行聚类分析,根据平方误差准则确定聚类的中心,公式为:式中E是数据源中所有样本的综合平方误差,p表示每月的用电量,m
i
是聚类C
i
的平均值;

计算数据样本到聚类中心的欧氏距离,按其距离进行划分,公式为:式中,x
i
代表样本中的第i个变量的值,y
i
代表聚类中心第i个变量值,两者相减后平方
进行累加,再开方就可以得到其欧式距离;

按照附图2的顺序重新计算各个聚类中心,并重复前两个步骤,直到各个聚类中心的位置不再发生变化,并输出相应的计算结果。3.根据权利要求1所述的一种基于能源大数据的用户画像与分类方法,其特征在于:步骤二:基于选择性集成学习的电力用户用电量预测:采用选择性集成学习的思想,在预测时各个基学习器使用神经网络进行基学习器的构造,训练多个基学习器,在集成阶段提出一种双重过滤式迭代优化集成策略,采用迭代优化法和排名法相结合的策略,在排名法的优势下对传统的迭代优化的方法进行优化,提高对电力用户用电量预测的性能;主要流程包括:1)基学习器的构造:采用MLP神经网络模型对电力用户的用电量进行预测,将处理后的气象数据与原数据进行融合后,...

【专利技术属性】
技术研发人员:张文煜李明任巍曦才鸿飞刘海旭徐晓川张改利臧鹏亢涵彬刘景超王婧刘宏勇寇建任杰
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1