电力客户价值分群的一种加权K‑means方法技术

技术编号:14401821 阅读:73 留言:0更新日期:2017-01-11 14:21
本发明专利技术公开了一种针对电力客户价值分群的一种加权K‑means方法。本发明专利技术使用了一种适合于电力客户特征变量数据特点的加权K‑means聚类算法,首先算法确定了以加权的电力客户群内数据的标准差之和为聚类准则函数,权重为该电力客户群内客户个数占总客户个数的比例;然后根据该准则函数在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重,实现密度不均的电力客户对象更精确的价值分群。加权K‑means聚类算法应用在电力客户价值分群上的分群聚类结果表明,本发明专利技术是适合实际运营数据的,并且达到了提高聚类紧凑性的效果。更加优质的分群聚类结果也可以保证决策高效实施,最终为供电企业带来更高的收益。

【技术实现步骤摘要】

本专利技术涉及电力客户价值分群的一种聚类方法,具体涉及电力客户价值分群的一种加权K-means方法。
技术介绍
21世纪是一个信息的时代,信息对于各行各业的影响都起到了一个至关重要的作用。面对目前供电企业每天都在产生和更新的庞大的企业运营管理数据,那么要怎样去利用这些数据,从众多凌乱的数据中挖掘出潜在的客户价值,进而帮助电力企业改进营销决策、降低运营成本、提高企业收益,是每个供电企业都在努力的方向。数据挖掘技术作为一种可以在大量数据中发现潜在的信息的数据处理手段便在此脱颖而出,该技术已经成了处理电力行业信息化的建设过程中所积累的海量历史数据的重要手段,数据挖掘技术的应用也将会为供电企业提供一个更为广阔的发展空间。传统K-means聚类算法是目前客户分群常用的一种数据挖掘技术手段。传统K-means聚类算法简单,收敛速度也很快,因此常常被用于客户的分群。其做法是首先随机生成K个初始聚类中心,然后将剩余的数据样本归入K个聚类中心所属群,重新计算聚类中心,假如中心改变,则重新聚类,直至聚类中心不改变,结束算法。对于电力客户特征变量数据分布密度差异大的特点,如果直接采用传统K-means聚类算法,显然会造成高密度小群瓜分低密度大群的现象。
技术实现思路
本专利技术要解决的技术问题是:提出一种电力客户价值分群的一种加权K-means方法,它适合实际运营数据,并且达到了提高聚类紧凑性的效果,保证决策高效实施。针对电力客户价值分群的一种加权K-means方法,其特征在于:从电力客户特征变量数据分布密度差异大的特点出发,使用加权的K-means聚类算法对电力客户实现有效价值分群,具体包括以下步骤:步骤1:首先算法确定了以加权的电力客户群内数据的标准差之和为聚类准则函数,权重为该电力客户群内客户个数占总客户个数的比例;步骤2:然后根据该准则函数在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重,实现密度不均的电力客户对象更精确的价值分群。以加权的电力客户群内标准差之和为聚类准则函数,是对电力客户分群聚类效果的衡量;首先计算分群结果的各个电力客户群内数据的标准差,并给对应的标准差辅以该群内客户数占总客户数的比例作为权重,权重的作用是增加客户数较多的客户群标准差的贡献度,最后将各个加权的标准差值的总和作为最终电力客户分群效果的衡量准则。根据加权的聚类准则函数,在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重;计算客户对象与客户群中心点之间的相似度时,首先计算客户对象与客户群中心点之间的欧式距离,在此基础上,施以客户群中心原本的群内数据标准差开方的倒数为权重,以此加权欧式距离作为客户对象与客户群中心点之间的相似度的度量,权重的作用是增加密度低大群数据欧氏距离的贡献度,可以降低高密度小群与低密度大群之间边界客户的错分情况,使得零散的客户归于稀疏的客户群。本专利技术具有如下有益效果:本专利技术使用了一种适合于电力客户特征变量数据特点的加权K-means聚类算法,首先算法确定了以加权的电力客户群内数据的标准差之和为聚类准则函数,权重为该电力客户群内客户个数占总客户个数的比例;然后根据该准则函数在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重,实现密度不均的电力客户对象更精确的价值分群。加权K-means聚类算法应用在电力客户价值分群上的分群聚类结果表明,本专利技术是适合实际运营数据的,并且达到了提高聚类紧凑性的效果。更加优质的分群聚类结果也可以保证决策高效实施,最终为供电企业带来更高的收益。附图说明图1为本专利技术的流程图;图2为本专利技术的步骤1数据预处理的流程图;图3为重要客户提升度图;图4为大客户提升度图;图5为重点关注客户提升度图;图6为居民客户提升度图;图7为其他客户提升度图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。电力客户价值分群的加权K-means聚类方法过程,具体步骤如下:步骤1:数据预处理。首先对原始电力客户营销数据进行探索性分析,在此基础上,剔除与分析目标无关的变量或者提取(构造)模型所需变量,针对这些已选择的数据进行处理。通过电力客户营销数据清洗、数据集成和数据变换,将原始电力客户营销数据处理成模型所需要的输入特征数据集。步骤2:对步骤1已经处理好的电力客户特征变量数据集初次聚类分群。首先使用随机的方法选取K个初始聚类中心,使用欧式距离最短原则,将剩余的N-K个电力客户对象归入分属K个聚类中心的群,完成初次聚类的K个电力客户价值群。根据计算均值的方法重新计算K个电力客户价值群的聚类中心,假如中心点发生变化则进行步骤3的迭代,否则终止算法,输出聚类结果。步骤3:如果步骤2没有终止,则使用加权欧氏距离重新分群聚类,此过程为创新的迭代过程。首先根据前一次分群结果计算聚类中心所属电力客户价值群数据的标准差,以该标准差开方的倒数为对应电力客户聚类中心的权重,计算除中心以外电力客户对象分别到K个聚类中心的加权欧式距离,使用加权欧式距离最短的原则,将未分群的电力客户对象归入分属K个聚类中心所在群,完成迭代分群聚类。然后以计算均值的方法重新计算得到新的聚类中心,如果中心发生变化,重复该步骤3的迭代过程,否则终止算法,输出结果。步骤4:模型评价。从模型的紧凑性和提升度来衡量模型的精确度。模型的紧凑性采用电力客户分群结果的标准差来衡量,模型的提升度采用传统K-means聚类与加权K-means聚类结果标准差的减少率来衡量。所述的步骤1:具体说明如下:抽取贵阳某供电企业2个月(2015年8月-2015年9月)电力客户运营数据作为原始数据集。经过数据探索性分析,确定了建模原始数据集,其数量总共有6078801条记录,从该数据集中对进行数据清洗(如删除实收电费记录小于0的数据)、数据变换(如对行业代码重新编码)、变量构造(如月均用电量=总用电量/应缴次数)、变量标准化。最终确定的建模指标变量包括月均用电量、平均电价、按期偿还率、平均缴费时长、信用分值、用电类别代码、行业分类代码、合同容量,指标消除量纲标准化过程采用的是极差标准化:其中,X′代表极差标准化后的电力客户特征变量数据,X代表原始电力客户特征变量数据,Xmax代表电力客户特征变量数据最大值,相反Xmin代表电力客户特征变量数据的最小值。预处理后抽取2516721条记录,作为实验建模数据集。考虑到不同的客户类变量数据值的数量级差异很大,如居民客户与大客户的用电量和电费的差异都是很大的,为了降低这种变量值差异带来的价值分群误差,本实验将电力客户分成5大类,包括重要客户、大客户、重点关注客户、居民客户、其他客户,分别进行客户价值分群聚类。所述的步骤2具体说明如下:对步骤1已经处理好的电力客户特征变量数据集初次聚类分群。首先使用随机的方法选取K个电力客户对象作为初始聚类中心,使用欧式距离最短原则,将剩余的N-K个电力客户对象归入分属K个电力客户聚类中心的群,完成初次聚类的K个电力客户价值群。根据计算均值的方法重新计算K个电力客户价值群的聚类中心(该中心可以是非某个电力客户的数据,属于均值的概念),假如客户价值群的中本文档来自技高网...
电力客户价值分群的一种加权K‑means方法

【技术保护点】
一种针对电力客户价值分群的一种加权K‑means方法,其特征在于:从电力客户特征变量数据分布密度差异大的特点出发,使用加权的K‑means聚类算法对电力客户实现有效价值分群,具体包括以下步骤:步骤1:首先算法确定了以加权的电力客户群内数据的标准差之和为聚类准则函数,权重为该电力客户群内客户个数占总客户个数的比例;步骤2:然后根据该准则函数在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重,实现密度不均的电力客户对象更精确的价值分群。

【技术特征摘要】
1.一种针对电力客户价值分群的一种加权K-means方法,其特征在于:从电力客户特征变量数据分布密度差异大的特点出发,使用加权的K-means聚类算法对电力客户实现有效价值分群,具体包括以下步骤:步骤1:首先算法确定了以加权的电力客户群内数据的标准差之和为聚类准则函数,权重为该电力客户群内客户个数占总客户个数的比例;步骤2:然后根据该准则函数在计算电力客户对象与客户群中心点之间的相似度时,以欧氏距离为前提,施以客户群内数据标准差为参考因素的权重,实现密度不均的电力客户对象更精确的价值分群。2.根据权利要求1所述的基于特征选择改进的LR-Bagging算法,其特征在于:以加权的电力客户群内标准差之和为聚类准则函数,是对电力客户分群聚类效果的衡量;首先计算分群结果的各个电力客户群内数据的标准差,并给对应的标准差...

【专利技术属性】
技术研发人员:吴漾朱州王鹏宇郭仁超王玮罗念华吴忠张克贤方继宇杨箴周玲龙娜王倩冰钱俊凤
申请(专利权)人:贵州电网有限责任公司信息中心
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1