一种电网用电客户的细分方法及系统技术方案

技术编号:23343582 阅读:22 留言:0更新日期:2020-02-15 03:57
本发明专利技术公开了一种电网用电客户的细分方法及系统,通过采集电网用电客户的历史用电数据,对历史用电数据进行标准化处理,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并基于随机森林模型,建立用户细分模型实现对电网用电客户的分类,解决了现有技术对电网用电客户分类结果的准确度不高的技术问题,通过对电网用电客户的历史用电数据进行LDA主题模型计算,能精准提取历史用电数据的语义特征,大大提高了对电网用电客户进行细分的准确性。

A segmentation method and system for power grid customers

【技术实现步骤摘要】
一种电网用电客户的细分方法及系统
本专利技术涉及用户数据深度挖掘分析领域,特别涉及一种电网用电客户的细分方法及系统。
技术介绍
目前在对电网用电客户进行分类时,往往是使用用电客户的历史用电数据训练一定的分类模型,如随机树模型、支持向量机模型等,后续再通过这些分类模型来对电网用电客户进行分类。然而,现有技术基于电网用电客户的历史用电数据训练分类模型时,缺乏深度挖掘历史用电数据的语义特征,从而使得建立的分类模型准确性不高,进一步使得基于该分类模型的电网用电客户分类结果的准确度也不高。
技术实现思路
本专利技术提供的一种电网用电客户的细分方法及系统,解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征,从而使得对电网用电客户分类结果的准确度不高的技术问题。为解决上述技术问题,本专利技术提出的一种电网用电客户的细分方法包括:采集电网用电客户的历史用电数据;对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语;根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度;基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型;根据用户细分模型,对电网用电客户进行分类。进一步地,对历史用电数据进行标准化处理,获得标准化用户数据包括:对历史用电数据进行冗余和数据变换处理,获得预处理数据;对预处理数据进行z-score标准化处理,从而获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。进一步地,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为:根据优化文本内容和优化文本词语计算用户重要性特征的计算公式具体为:其中,Reliabilityi表示第i条标准化用户数据对应的可信度特征,z_moneyi表示第i条标准化用户数据对应的电费数,z_weiyuei表示第i条标准化用户数据对应的违约次数,z_timei表示第i条标准化用户数据对应的抄表周期,verifyi表示第i条标准化用户数据对应的用户状态,Importanti表示第i条标准化用户数据对应的重要性特征,z_dianyuani表示第i条标准化用户数据对应的电源数,z_hetongi表示第i条标准化用户数据对应的合同时长,z_tousui表示第i条标准化用户数据对应的投诉次数。进一步地,根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度的计算公式具体为:D={op_word1,…,op_wordM}pyonghui=(pi,1,…,pi,k)(1≤i≤M)其中,perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合,op_wordi表示第i条标准化用户数据对应的优化文本词语,op_ni表示第i条标准化用户数据对应的优化文本词语的数量,p(zj|op_doci)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_wordi|zj)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为预设的主题数目,p(op_wordi)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghui表示第i条标准化用户数据对应的主题分布概率,且pi,1,…,pi,k分别为z1,…,zk主题的概率。进一步地,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型包括:基于电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,构建用户细分特征向量;将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征,并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数;基于随机森林模型,利用最优参数以及用户细分特征向量,建立用户细分模型。进一步地,历史用电数据包括电网用电客户的个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录中的一个或多个数据。本专利技术提出的一种电网用电客户的细分系统包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述电网用电客户的细分方法的步骤。与现有技术相比,本专利技术的优点在于:本专利技术提供的电网用电客户的细分方法及系统,通过采集电网用电客户的历史用电数据,对历史用电数据进行标准化处理,获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语,根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征,通过LDA主题模型对优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率,并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度,基于随机森林模型,利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率,建立用户细分模型以及根据用户细分模型,对电网用电客户进行分类,解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征,从而使得对电网用电客户分类结果的准确度不高的技术问题,通过对电网用电客户的历史用电数据进行LDA主题模型计算,能精准提取历史用电数据的语义特征,从而精准建立用于对电网用电客户进行细分的用户细分模型,大大提高了对电网用电客户进行细分的准确性,有利于实现用电精准营销。附图说明图1是本专利技术实施例一的电网用电客户的细分方法的流程图;图2是本专利技术实施例二的电网用电客户的细分方法的流程图;图3是本专利技术实施例的电网用电客户的细分系统框图。附图标记:10、存储器;20、处理器。具体实施方式为了便于理解本专利技术,下文将结合说明书附图和较佳的实施例对本专利技术作更全面、细致地描述,但本专利技术的保护范围并不限于以下具体的实施例。以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。实施例一参照图1,本专利技术实施例一提供的电网用电客户的细分方法,包括:步骤S101,采集电网用电客户的历史用电数据;步骤S102,对历史用电数据进行标准化处理,获得标准化用户数据,标准本文档来自技高网...

【技术保护点】
1.一种电网用电客户的细分方法,其特征在于,所述方法包括:/n采集电网用电客户的历史用电数据;/n对所述历史用电数据进行标准化处理,获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语;/n根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;/n通过LDA主题模型对所述优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率,并根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度;/n基于随机森林模型,利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率,建立用户细分模型;/n根据所述用户细分模型,对电网用电客户进行分类。/n

【技术特征摘要】
1.一种电网用电客户的细分方法,其特征在于,所述方法包括:
采集电网用电客户的历史用电数据;
对所述历史用电数据进行标准化处理,获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语;
根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征;
通过LDA主题模型对所述优化文本内容和优化文本词语进行建模计算,从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率,并根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度;
基于随机森林模型,利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率,建立用户细分模型;
根据所述用户细分模型,对电网用电客户进行分类。


2.根据权利要求1所述的电网用电客户的细分方法,其特征在于,对所述历史用电数据进行标准化处理,获得标准化用户数据包括:
对所述历史用电数据进行冗余和数据变换处理,获得预处理数据;
对所述预处理数据进行z-score标准化处理,从而获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语。


3.根据权利要求2所述的电网用电客户的细分方法,其特征在于,根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为:



根据所述优化文本内容和优化文本词语计算所述用户重要性特征的计算公式具体为:



其中,Reliabilityi表示第i条标准化用户数据对应的可信度特征,z_moneyi表示第i条标准化用户数据对应的电费数,z_weiyuei表示第i条标准化用户数据对应的违约次数,z_timei表示第i条标准化用户数据对应的抄表周期,verifyi表示第i条标准化用户数据对应的用户状态,Importanti表示第i条标准化用户数据对应的重要性特征,z_dianyuani表示第i条标准化用户数据对应的电源数,z_hetongi表示第i条标准化用户数据对应的合同时长,z_tousui表示第i条标准化用户数据对应的投诉次数。


4.根据权利要求3所述的电网用电客户的细分方法,其特征在于,根据所述主题分布概率...

【专利技术属性】
技术研发人员:唐海国龚汉阳齐飞朱吉然邓威彭涛张帝张志丹康童
申请(专利权)人:国网湖南省电力有限公司国网湖南省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1