基于评分卡的国网用电客户欺诈风险预测方法技术

技术编号:35261048 阅读:14 留言:0更新日期:2022-10-19 10:20
本发明专利技术涉及一种基于评分卡的国网用电客户欺诈风险预测方法,本发明专利技术的技术方案要点是,S1、数据获取,梳理用户基础账号信息、用户行为信息、活动参与信息等数据,校验数据的完整性、准确性,建立用电客户特征库;S2、数据清洗;S3、特征工程;S4、采用评分卡算法创建模型并训练验证;S5、根据评分卡的输出结果,对用户的风险等级进行划分,并配置不同的处置策略。并配置不同的处置策略。并配置不同的处置策略。

【技术实现步骤摘要】
基于评分卡的国网用电客户欺诈风险预测方法


[0001]本专利技术属于一种对风险客户的有效拦截,确保活动奖励的有效发放的方法,涉及一种基于评分卡的国网用电客户欺诈风险预测方法。

技术介绍

[0002]随着网上国网APP的逐步推广,线上用电客户数稳步增加,电力业务的线上办理量同步提升。线上客户的运营工作日益凸显其重要性,比如活动运营、权益发放等。目前缺少对欺诈团伙的风控手段,传统的风控规则引擎无法有效识别、拦截欺诈份子,只能采取活动下架等方式处理,运营活动客户体验差。

技术实现思路

[0003]本专利技术解决了现有技术存在缺少对欺诈团伙的风控手段,传统的风控规则引擎无法有效识别、拦截欺诈份子,只能采取活动下架等方式处理,运营活动客户体验差的问题,提供一种基于评分卡的国网用电客户欺诈风险预测方法。
[0004]本专利技术解决其技术问题所采用的技术方案是:一种基于评分卡的国网用电客户欺诈风险预测方法,包括以下步骤,
[0005]S1、数据获取,梳理用户基础账号信息、用户行为信息、活动参与信息,校验数据的完整性、准确性,建立用电客户特征库;
[0006]S2、数据清洗;
[0007]S3、特征工程;
[0008]S4、采用评分卡算法创建模型并训练验证;
[0009]S5、根据评分卡的输出结果,对用户的风险等级进行划分,并配置不同的处置策略;
[0010]所述的步骤S3中,特征工程中包括以下分步骤,
[0011]A1、针对缺失值、异常值,按照缺失比例匹配对应的处理策略;
[0012]A2、采用最优化分箱策略,降低模型过拟合的风险;
[0013]A3、根据分箱结果,分别计算各个变量中不同分箱的WOE、IV值,以供变量筛选、模型训练使用。
[0014]本专利技术以国网浙江公司“网上国网”APP账号信息、活动数据、行为数据等作为基础数据,建立用电客户特征库,基于评分卡算法预测用电客户的欺诈风险,实现对风险客户的有效拦截,确保活动奖励的有效发放。
[0015]作为优选,在所述A1中,对于数值型特征采用中位数、均值、线性填充法进行处理,对于类别特征采用众数进行填充处理,异常值的检测、处理采用极值法或四分位距法进行处理。
[0016]作为优选,在A2中,利用特征划分区间的样本占比以及正负面标签占比,对满足合并条件的相邻区间进行合并,直到满足确定的停止准则。
[0017]作为优选,在所述A2中,执行以下子步骤,
[0018]A21、排序、初始化分箱,将数值型特征进行排序,初始化分箱数为min(100,n*10%),其中n为样本量,
[0019]A22、计算W
i

[0020]构建分箱依据指标:
[0021]y
i
:区间i中负面样本数量
[0022]y
T
:负面样本总数
[0023]n
i
:区间i中正面样本数量
[0024]n
T
:正面样本总数
[0025]A23、区间合并,计算相邻区间的合并收益,
[0026]E
i,i+1
=W
i,i+1

W
i

W
i+1
[0027]分别计算出E
i,i
‑1,E
i,i+1
,选取收益最大的前n个组合进行合并;
[0028]A24、分箱终止,当区间个数满足预期设定时,结束分箱操作,停止条件:满足预期分箱数目或者完成迭代次数。
[0029]作为优选,根据分箱结果,分别计算各个变量中不同分箱的WOE(证据权重)、IV(信息价值)值,以供变量筛选、模型训练使用,其中
[0030]WOE计算公式:
[0031]IV计算公式:
[0032]根据计算结果,剔除IV<0.1的特征,最终进入模型训练。
[0033]作为优选,在步骤S4中,模型训练及验证时采用评分卡算法,样本数据中,70%作为训练集,30%作为验证集。
[0034]本专利技术的实质性效果是:本专利技术以国网浙江公司“网上国网”APP账号信息、活动数据、行为数据等作为基础数据,建立用电客户特征库,基于评分卡算法预测用电客户的欺诈风险,实现对风险客户的有效拦截,确保活动奖励的有效发放。
附图说明
[0035]图1为本专利技术一种整体流程示意图;
[0036]图2为本专利技术中训练集和测试集的模型效果对比图;
[0037]图3为本专利技术中特征分箱方法的流程示意图;
[0038]图4为本专利技术采用改进的最优分箱策略时的一种流程示意图。
具体实施方式
[0039]下面通过具体实施例,对本专利技术的技术方案作进一步的具体说明。
[0040]实施例1:
[0041]一种基于评分卡的国网用电客户欺诈风险预测方法(参见附图1),包括以下步骤,
[0042]S1、数据获取
[0043]梳理用户基础账号信息、用户行为信息、活动参与信息等数据,校验数据的完整性、准确性,建立用电客户特征库。本次建模的数据时间范围说明,采集2020年6月

2021年5月作为观察期以提取样本数据,2021年6月

2021年9月为观察期以提取样本标签。
[0044]S2、数据清洗,数据清洗为现有技术,按照预定格式进行数据选取即可,本实施例中不做赘述。
[0045]S3、特征工程
[0046]A1、缺失值、异常值处理
[0047]本实施例按照不同的缺失比例匹配不同的处理策略,缺失比例高的特征做剔除处理,对于数值型特征采用中位数、均值、线性填充等方法进行处理,对于类别特征采用众数进行填充处理。异常值的检测、处理采用极值法(例如1%、99%分位的盖帽法)、四分位距法等。
[0048]A2、特征分箱
[0049]本实施例采用自定义的最优化分箱策略,分别对类别特征、数值特征进行最优分箱,使得特征对异常数据有很强的鲁棒性,降低了模型过拟合的风险。
[0050]A3、计算WOE、IV值
[0051]根据分箱结果,分别计算各个变量中不同分箱的WOE、IV值,以供变量筛选、模型训练使用。
[0052]WOE计算公式:
[0053]IV计算公式:
[0054]根据计算结果,剔除IV<0.1的特征,最终进入模型训练的指标如表1:
[0055]特征IV值设备登录账号数0.31近7天ip关联账号数0.26近7天活动参与次数0.16近7天红包使用金额0.13近30天户号绑定数量0.19近30天积分划转金额0.22总推荐人数0.11账龄0.18是否实名认证0.19近180天登录天数0.12近30天户号解绑数量0.16近7天使用红包抵扣占比0.25近7天使用积分抵扣占比0.13累计登录设备数0.14近30天交费次数0.1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于评分卡的国网用电客户欺诈风险预测方法,其特征在于,包括以下步骤,S1、数据获取,梳理用户基础账号信息、用户行为信息、活动参与信息,校验数据的完整性、准确性,建立用电客户特征库;S2、数据清洗;S3、特征工程;S4、采用评分卡算法创建模型并训练验证;S5、根据评分卡的输出结果,对用户的风险等级进行划分,并配置不同的处置策略;所述的步骤S3中,特征工程中包括以下分步骤,A1、针对缺失值、异常值,按照缺失比例匹配对应的处理策略;A2、采用最优化分箱策略,降低模型过拟合的风险;A3、根据分箱结果,分别计算各个变量中不同分箱的WOE、IV值,以供变量筛选、模型训练使用。2.根据权利要求1所述的一种基于评分卡的国网用电客户欺诈风险预测方法,其特征在于,在所述A1中,对于数值型特征采用中位数、均值、线性填充法进行处理,对于类别特征采用众数进行填充处理,异常值的检测、处理采用极值法或四分位距法进行处理。3.根据权利要求1所述的一种基于评分卡的国网用电客户欺诈风险预测方法,其特征在于,在A2中,利用特征划分区间的样本占比以及正负面标签占比,对满足合并条件的相邻区间进行合并,直到满足确定的停止准则。4.根据权利要求1或3所述的一种基于评分卡的国网用电客户欺诈风险预测方法,其特征在于,在所述A2中,执行以下子步骤,A21、排序、初始化分箱,将数值型特征进行排序,初始化分箱数为min(100,n*...

【专利技术属性】
技术研发人员:徐家宁楼斐蒋颖吴懿臻张维徐宏伟俞佳莉陈齐瑞陈昱伶张一池罗欣
申请(专利权)人:浙江华云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1