【技术实现步骤摘要】
一种基于Shap值的电信欺诈场景的可解释方法
[0001]本专利技术涉及数据挖掘
,特别涉及一种基于Shap值的电信欺诈场景的可解释方法。
技术介绍
[0002][0003]现有的电信欺诈识别的技术方案大致分为以下几种:专家经验规则、传统评分卡、机器学习模型如LightGBM等。
[0004]方案一为专家经验。专家经验规则主要是基于人工经验建立的简单规则来判断和区分是否欺诈,这类方法主要的问题有以下两个方面,一方面是识别精度问题,由于识别方法仅仅是基于人工经验建立的简单规则,往往采用一刀切的不够精细的处置方式,所以这类方法的精度不高,对欺诈客户的识别效果也不够好;另一方面是可解释和归因匮乏,由于简单的人工经验容易存在误差和人为倾向,所以这类方法较难获知欺诈用户的真正原因,制定的响应的反欺诈措施没有基于性,因此往往效果也不够好。
[0005]方案二为传统评分卡。传统评分卡的发展从20世纪80年代美国征信巨头Fair Isaac推出第一张评分卡FICO开始,评分卡模型(Scorecard Model) 逐步替代专家模型,成为传统金融机构最为依仗的信用评级方法。传统评分卡通常采用逻辑回归算法,对比于前一种专家经验规则,传统评分卡具有可解释性强的特点和优势,更适用于对可解释性有较大需求的场景,但也有相应弱势的地方,分别是:一方面由于模型架构整体采用复杂的特征工程结合简单模型的方式,所以模型的精度比现阶段应用较多的LightGBM等集成树模型差很多;其次由于采用了复杂的特征工程,所以建模往往会花费更长的时 ...
【技术保护点】
【技术特征摘要】
1.一种基于Shap值的电信欺诈场景的可解释方法,其特征在于,包括以下步骤:S1、数据准备:S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;S1.2、标签标注,好坏样本划分;根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);S1.3、特征汇总;在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征;通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征;最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;S2、数据处理:S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为
‑
9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;每个分箱中的WOE值为:1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Bad
i
,Good
i
;2)统计数据中总欺诈用户数,总正常用户数,分别记为:Bad
total
,Good
total
;3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱中的欺诈用户人数/总欺诈用户人数)
‑
ln(该分箱中的正常用户人数/总正常用户人数);S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除;LGB虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时;常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、Null Importance、Boruta等方法;S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;S3、建模训练并进行归因分析:S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0
‑
1,概率值越大代表模型认为该用户为欺诈用户的概率越大;S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效
果最优的一组参数作为模型参数;S3.4、模型结果输出,利用最优模型参数重新训练LGB模型,将样本输入后得到输出概率值,概率值的范围在0
‑
1之间,概率值的大小可以理解为欺诈概率的大小,概率值越大欺诈概率越大;S3.4、融合SHAP值,利用SHAP值对模型的可解释性,可以得到样本级别的特征重要性大小以及重要程度,将特征重要性进行排序后,可以得到影响每个用户被判别为欺诈用户的特征重要性排序,也就能够梳理出最重要的几个核心因素,具体的方式就是将所有对欺诈影响正相关的特征选出来,每个特征值除以选出特征值的总和,得到具体的比例;然后通过设定阈值的方式,比如将累计影响80%以上的特...
【专利技术属性】
技术研发人员:侯金鑫,曹文彬,徐明成,谢杰,
申请(专利权)人:天翼征信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。