一种基于Shap值的电信欺诈场景的可解释方法技术

技术编号:36298326 阅读:20 留言:0更新日期:2023-01-13 10:13
本发明专利技术公开了一种基于Shap值的电信欺诈场景的可解释方法。本发明专利技术可以清楚的得到每个被模型判定为欺诈用户的主要原因,由特征层次的重要性细化到每个用户级别的特征重要性,有效地增强了样本的可解释性;通过设定80%阈值,可以有效地减少选出的特征数量,便于归纳总结;有机地将SHAP值和分箱结合到一起,利用分箱后特征值解释性更强的特点,在SHAP本身具有的可解释性上更近一步,对后续进行欺诈用户分组能够起到指导作用,通过在用户主要欺诈特征中找出具有相似特征的用户进行分组,方便进行分群和总结经验。行分群和总结经验。行分群和总结经验。

【技术实现步骤摘要】
一种基于Shap值的电信欺诈场景的可解释方法


[0001]本专利技术涉及数据挖掘
,特别涉及一种基于Shap值的电信欺诈场景的可解释方法。

技术介绍

[0002][0003]现有的电信欺诈识别的技术方案大致分为以下几种:专家经验规则、传统评分卡、机器学习模型如LightGBM等。
[0004]方案一为专家经验。专家经验规则主要是基于人工经验建立的简单规则来判断和区分是否欺诈,这类方法主要的问题有以下两个方面,一方面是识别精度问题,由于识别方法仅仅是基于人工经验建立的简单规则,往往采用一刀切的不够精细的处置方式,所以这类方法的精度不高,对欺诈客户的识别效果也不够好;另一方面是可解释和归因匮乏,由于简单的人工经验容易存在误差和人为倾向,所以这类方法较难获知欺诈用户的真正原因,制定的响应的反欺诈措施没有基于性,因此往往效果也不够好。
[0005]方案二为传统评分卡。传统评分卡的发展从20世纪80年代美国征信巨头Fair Isaac推出第一张评分卡FICO开始,评分卡模型(Scorecard Model) 逐步替代专家模型,成为传统金融机构最为依仗的信用评级方法。传统评分卡通常采用逻辑回归算法,对比于前一种专家经验规则,传统评分卡具有可解释性强的特点和优势,更适用于对可解释性有较大需求的场景,但也有相应弱势的地方,分别是:一方面由于模型架构整体采用复杂的特征工程结合简单模型的方式,所以模型的精度比现阶段应用较多的LightGBM等集成树模型差很多;其次由于采用了复杂的特征工程,所以建模往往会花费更长的时间。
[0006]方案三为机器学习模型。常用的机器学习模型分为有监督、半监督和无监督,比较具有代表性的应用在反欺诈领域较多的有LightGBM、聚类模型、孤立森林等,这类模型簇的特点就是具有比较可观的识别率,效果往往比前两种方法效果更好,耗时也比传统评分卡耗时少,唯一存在的的问题就是可解释性较弱,集成树模型能够得到整体维度的特征重要权重,但无法得到样本级别的特征权重,无法提供具体到个人对应每一个选出特征的可解释原因,只能够看到具体的特征值和每个特征对于模型的重要程度或者说对于客群整体的影响程度,而无法得知具体哪些特征对判断具体的单个用户是否欺诈起到了多大的影响。

技术实现思路

[0007]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种基于Shap值的电信欺诈场景的可解释方法,创新的提出了利用Shap值可解释性方法加上重要性阈值再加上分箱方法并结合高精度的集成树模型的方案解决电信欺诈场景对可解释的需求。首先利用集成树模型(本专利技术使用LightGBM,后续简称LGB,其他的集成树模型也适用)对欺诈场景进行建模满足了电信欺诈场景对模型高精度的需求,利用TreeSHAP(后续简称Shap)这种基于集成树方法优化的结合树模型对实现了计算和性能优化后的方案实现模型事后的可解释性,由
原有模型的基于客群整体的特征重要性细化为基于单个用户级别的特征重要性,得到基于每个用户在每个特征上导致用户欺诈的占比率,将Shapvalue值进行排序后,根据累计占比前80%(重要性阈值)为标准,选出影响用户被识别为欺诈的主要因素,搭配分箱技术之后进行WOE编码并结合业务经验对分箱结果进行归因,使模型的可解释性进一步增强,最终实现样本层次可解释。
[0008]通俗的理解就是利用Shapvalue值衡量样本对应的每个特征值对结果影响的占比,按照Shapvalue值降序排列,结合重要性阈值得到影响占比较大的若干因素,随后结合分箱后的WOE编码,将影响占比较大的若干因素对应的特征值归类到若干组别中提升可解释性,最终可以得到每个被判别为欺诈的用户的主要因素归类。
[0009]本专利技术提供了如下的技术方案:
[0010]本专利技术提供一种基于Shap值的电信欺诈场景的可解释方法,其特征在于,包括以下步骤:
[0011]S1、数据准备:
[0012]S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;
[0013]S1.2、标签标注,好坏样本划分;根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);
[0014]S1.3、特征汇总;在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征;通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征;最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;
[0015]S2、数据处理:
[0016]S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为

9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;
[0017]S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;
[0018]S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;
[0019]每个分箱中的WOE值为:
[0020][0021]1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Bad
i
,Good
i

[0022]2)统计数据中总欺诈用户数,总正常用户数,分别记为:Bad
total
,Good
total

[0023]3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱
中的欺诈用户人数/总欺诈用户人数)

ln(该分箱中的正常用户人数/总正常用户人数);
[0024]S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除;LGB虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时;常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、NullImportance、Boruta等方法;
[0025]S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;
[0026]S3、建模训练并进行归因分析:
[0027]S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0

1,概率值越大代表模型认为该用户为欺诈用户的概率越大;
[0028]S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效果最优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Shap值的电信欺诈场景的可解释方法,其特征在于,包括以下步骤:S1、数据准备:S1.1、客群筛选,根据已有的电信欺诈场景及线索,圈出潜在客群,并选出观测点,观察期和表现期;S1.2、标签标注,好坏样本划分;根据用户在表现期的表现区分为欺诈用户样本(标记为1)和正常用户样本(标记为0);S1.3、特征汇总;在观测点获取整合用户观察期内的行为特征以及用户自身属性特征,其中行为特征包括如近天的每日通话行为、短信行为、上网流量等数据特征;通话和短信行为数据包括:时间、次数、呼叫类型、漫游类型、对端号码、归属地等;上网流量数据包括:时间、时长、次数、流量字节等;其他特征包括用户属性等特征;最终将所有特征汇总到特征宽表里,并关联正负样本表进行打标签;S2、数据处理:S2.1、数据预处理,包括对异常值进行盖帽法处理、连续型缺失值按照是否有意义填充为

9999或0(如xx金额)、离散型缺失值填充missing,单一值比例超过90%进行删除处理、缺失值比例超过90%进行删除处理;S2.2、特征衍生,有效的特征衍生可以增强模型的效果,可以根据实际情况酌情进行;S2.3、对特征进行分箱并进行WOE编码,分别对连续型特征与离散型特征进行分箱,计算各个分箱的WOE值并替代原有特征值;每个分箱中的WOE值为:1)对连续型变量进行离散化,分别统计各个bin中欺诈用户数,正常用户数,分别记为:Bad
i
,Good
i
;2)统计数据中总欺诈用户数,总正常用户数,分别记为:Bad
total
,Good
total
;3)按照上述计算公式,为每个分箱计算出WOE值,某个分箱中的WOE值=ln(该分箱中的欺诈用户人数/总欺诈用户人数)

ln(该分箱中的正常用户人数/总正常用户人数);S2.4、进行特征筛选,利用多种特征筛选方法进行冗余特征的去除;LGB虽然自带选出重要特征的属性,但适当的进行特征筛选有利于减轻计算压力和耗时;常用的特征筛选方法如利用IV值是否大于0.01进行特征初筛、Null Importance、Boruta等方法;S2.5、相关性筛选,进行相关性分析,若发现两个特征之间相关性大于0.75,则认为此组特征相关,删除IV值较小的特征,因为后续用到的SHAP值在进行计算的时候如果两个特征相似,会影响SHAP值的准确性;S3、建模训练并进行归因分析:S3.1、模型训练,使用LGB算法利用经过预处理和特征筛选后的用户特征宽表进行建模输出概率值,其中概率值范围为0

1,概率值越大代表模型认为该用户为欺诈用户的概率越大;S3.2、模型验证,利用划分的验证集进行验证,调整LGB模型的参数,最终选出使模型效
果最优的一组参数作为模型参数;S3.4、模型结果输出,利用最优模型参数重新训练LGB模型,将样本输入后得到输出概率值,概率值的范围在0

1之间,概率值的大小可以理解为欺诈概率的大小,概率值越大欺诈概率越大;S3.4、融合SHAP值,利用SHAP值对模型的可解释性,可以得到样本级别的特征重要性大小以及重要程度,将特征重要性进行排序后,可以得到影响每个用户被判别为欺诈用户的特征重要性排序,也就能够梳理出最重要的几个核心因素,具体的方式就是将所有对欺诈影响正相关的特征选出来,每个特征值除以选出特征值的总和,得到具体的比例;然后通过设定阈值的方式,比如将累计影响80%以上的特...

【专利技术属性】
技术研发人员:侯金鑫曹文彬徐明成谢杰
申请(专利权)人:天翼征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1