基于随机森林的电动汽车充电站充电流失用户预测方法技术

技术编号:32575023 阅读:18 留言:0更新日期:2022-03-09 17:03
本发明专利技术公开了基于随机森林的电动汽车充电站充电流失用户预测方法,涉及数据处理领域。本发明专利技术包括步骤:获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;基于充电流失用户预测模型算法构建的充电用户流失预测方法,深入全面地对用户充电留存情况经进行分析,实现充电流失用户的精准预测,通过提前预判用户的流失倾向,为充电站的运营策略提供数据支持,并优化自身的运营策略,进行差异化运营,从而提升老用户的留存率,助力电动汽车充电站点的绿色健康发展。电站点的绿色健康发展。电站点的绿色健康发展。

【技术实现步骤摘要】
基于随机森林的电动汽车充电站充电流失用户预测方法


[0001]本专利技术涉及数据处理领域,尤其涉及基于随机森林的电动汽车充电站充电流失用户预测方法。

技术介绍

[0002]随着信息技术的快速发展,电动汽车充电站充电流失用户已经成为电动汽车充电站运营商急需解决的问题。现在的运营商主要通过统计用户的个人信息数据,并由专业人员通过对过去的数据、资料的总结,结合自身经验进行分析和判断,作出用户流失的预警。
[0003]预测电动汽车充电站用户流失,传统的方式主要是通过人工经验进行判别,容易受个人经验影响,精准度和预警效率都比较低。

技术实现思路

[0004]本专利技术要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于随机森林的电动汽车充电站充电流失用户预测方法,以提高精准度和预警效率目的。为此,本专利技术采取以下技术方案。
[0005]基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于步骤:
[0006]1)获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;
[0007]2)数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;充电用户指标宽表内容包括:充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况;数据预处理包括:
[0008]201)缺失值的处理:将缺失值调整为固定值;包括均值、中间值、一个指定的常数,或将缺失值调整为一个服从正态分布的随机值;
[0009]202)异常值的处理:异常值用3个标准差的最大值或最小值替换,将异常值调整为距离最近的正常值;异常值要检验异常值出现的原因,并相应的处理异常值;如果异常值没有业务含义,则直接剔除异常值,或用空值NULL来替代异常值;
[0010]203)按用户进行数据整合:指标数据经过异常值处理、缺失值处理后,确保每个用户只有一个对应的指标值;基于用户id,将各充电指标关联,得到充电用户指标宽表;
[0011]204)相关衍生变量的生成:衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;
[0012]3)将经数据预处理后的数据输入充电流失用户预测模型中,生成已流失充电用户清单及预测流失的充电用户清单,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判;所述充电流失用户预测模型基于随机森林算法进行建模;
[0013]4)当用户群体数据随着时间发生变化时,则需要对充电流失用户预测模型模型进行重建、迭代优化。
[0014]作为优选技术手段:在步骤3)中,采用的充电流失用户预测模型的构建包括以下
步骤:
[0015]A)收集原始数据;
[0016]B)数据预处理:对少数类样本进行分析;并根据少数类样本人工合成新样本添加到数据集中;
[0017]C)对样本用户群进行分类,总的样本用户群体分流失用户和未流失用户,在总的样本用户群体基础上分为训练集和测试集;
[0018]D)通过训练集数据进行训练,结合训练结果进行模型调参,完成模型训练;
[0019]D01)在训练集中抽取K个训练样本;
[0020]D02)等概率抽取属性子集;
[0021]D03)生成技术属性子集指数;
[0022]D04)选择最优属性分支
[0023]D05)得到节点分支;
[0024]D05)判断是否满足结束训练的条件,若是则生成K棵决策树,若否,则返回步骤D02);直至完成基于随机森林的充电流失用户预测模型训练;
[0025]E)使用测试集验证模型结果,避免过拟合或者拟合不足的问题;
[0026]F)对模型整体效果进行评估,若评估结果满足条件,则根据评估结果,调整参数,并返回步骤D)再次优化迭代模型。
[0027]作为优选技术手段:样本均衡处理时采用smote合成少数类过采样技术的算法,使得样本均衡处理后的流失样本和未流失样本数接近或相同。
[0028]作为优选技术手段:在步骤F)中,使用ROC曲线、AUC值以及KS值对模型进行初步评估,同时结合混淆矩阵,对模型的初步效果进行评价;模型效果包括准确率、精度、召回率;
[0029]一、准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比;也就是损失函数是0

1损失时测试数据集上的准确率;
[0030]Accuracy=(TP+TN)/(TP+TN+FP+FN)
[0031]二、精度:预测正类预测正确的样本数,占预测是正类的样本数的比例;
[0032]Precision=TP/(TP+FP)
[0033]三、召回率:预测正类预测正确的样本数,占实际是正类的样本数的比例;
[0034]Recall=TP/(TP+FN)
[0035]其中:
[0036]TP:被判定为正样本,事实上也是正样本;
[0037]TN:被判定为负样本,事实上也是负样本;
[0038]FP:被判定为正样本,但事实上是负样本;
[0039]FN:被判定为负样本,但事实上是正样本。
[0040]作为优选技术手段:当准确率、精度或召回率小于设定值时,则结合业务情况进一步进行参数调整;参数调整利用网格搜索的方式,将指定的参数范围进行穷举搜索;选取比较好的前3个参数组合方式进行分析;参数包括不纯度的衡量指标、随机森林树的数量、限制分枝时考虑的特征个数、树的最大深度、一个节点在分枝后的每个子节点最少包含的样本数量,一个节点必须包含最小样本数。
[0041]作为优选技术手段:当模型一开始的拟合效果不好,在后序的参数调整时,基于比
较好的前3个参数组合方式,不纯度的衡量指标选择使用信息熵;随机森林树的数量中选取数量较少的,限制分枝时考虑的特征个数采用auto;一个节点在分枝后的每个子节点最少包含的样本数量选择样本数量较多,一个节点必须包含最小样本数选择较多。
[0042]作为优选技术手段:在步骤2)中,指标设计模块中变量定义为:
[0043][0044][0045][0046][0047][0048]作为优选技术手段:在步骤3)中,根据观察期数据预测表现期的流失用户,其中观
察期为28日,表现期为未来14日;表现期提取目标变量,即是否流失;观察期用于提取电动汽车充电用户在各个维度上的指标变量;充电流失用户预测模型的目标变量为是否流失,其定义为:是,记为1,即为正样本;否,记为0,即为负样本。
[0049]有益效果:
[0050]一、本技术方案基于用户充电明细数据、用户基础数据、充电站充电桩资产明细数据及充电站点的周边环境数据等数据信息,借助充电流失用户预测模型构建的充电用户流失预测方法,深入全面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于包括以下步骤:1)获取数据,包括充电桩半年内充电交易记录数据和充电桩资产明细数据;2)数据预处理:对存在缺失、异常的数据进行处理,按用户进行数据整合,得到充电用户指标宽表,并基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;充电用户指标宽表内容包括:充电用户观察期内充电活跃情况、充电过程遇到的设备故障情况、享受到的充电优惠情况、用户账户余额状况和投诉情况;数据预处理包括:201)缺失值的处理:将缺失值调整为固定值;包括均值、中间值、一个指定的常数,或将缺失值调整为一个服从正态分布的随机值;202)异常值的处理:异常值用3个标准差的最大值或最小值替换,将异常值调整为距离最近的正常值;异常值要检验异常值出现的原因,并相应的处理异常值;如果异常值没有业务含义,则直接剔除异常值,或用空值NULL来替代异常值;203)按用户进行数据整合:指标数据经过异常值处理、缺失值处理后,确保每个用户只有一个对应的指标值;基于用户id,将各充电指标关联,得到充电用户指标宽表;204)相关衍生变量的生成:衍生变量是服务模型建设的变量,基于指标设计模块的变量定义生成与充电流失用户预测模型相关的各衍生变量;3)将经数据预处理后的数据输入充电流失用户预测模型中,生成已流失充电用户清单及预测流失的充电用户清单,输出充电流失风险高、中、低用户标签,通过用户画像实现风险的准确预判;所述充电流失用户预测模型基于随机森林算法进行建模;4)当用户群体数据随着时间发生变化时,则需要对充电流失用户预测模型模型进行重建、迭代优化。2.根据权利要求1所述的基于随机森林的电动汽车充电站充电流失用户预测方法,其特征在于:在步骤3)中,采用的充电流失用户预测模型的构建包括以下步骤:A)收集原始数据;B)数据预处理:对少数类样本进行分析;并根据少数类样本人工合成新样本添加到数据集中;C)对样本用户群进行分类,总的样本用户群体分为流失用户和未流失用户,在总的样本用户群基础上分为训练集和测试集;D)通过训练集数据进行训练,结合训练结果进行模型调参,完成模型训练;D01)在训练集中抽取K个训练样本;D02)等概率抽取属性子集;D03)生成技术属性子集指数;D04)选择最优属性分支D05)得到节点分支;D05)判断是否满足结束训练的条件,若是则生成K棵决策树,若否,则返回步骤D02);直至完成基于随机森林的充电流失用户预测模型训练;E)使用测试集验证模型结果,避免过拟合或者拟合不足的问题;F)对模型整体效果进行评估,若评估结果满足条件,则根据评估结果,调整参数,并返回步骤D)再次优化迭代模型。
3.根据权利要求2所述...

【专利技术属性】
技术研发人员:俞晓吉林瑞学袁晟刘远董顺良袁方期黄善南郭金金
申请(专利权)人:国网浙江长兴县供电有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1