一种基于模型的理由代码实时模型解释方法技术

技术编号:32217622 阅读:16 留言:0更新日期:2022-02-09 17:23
本发明专利技术公开了一种基于模型的理由代码实时模型解释方法。该方法包括针对于每一预测样本,分别计算每一特征的贡献度;根据所述贡献度的大小降序输出n个特征及其分别对应的贡献度。本发明专利技术通过对模型内特征的贡献度进行计算,并根据贡献度的大小降序输出展示特征及其分别对应的贡献度,并可存储现有数据库中,商业落地合作伙伴可以在调用预测分数的同时直接调用,本发明专利技术还从外部数据源中挖掘更新特征,当更新特征的更新特征的信息值超过相应的阈值时,输出将该理由代码作为特征纳入模型当中的建议信息,作为模型迭代更新前置信号。作为模型迭代更新前置信号。作为模型迭代更新前置信号。

【技术实现步骤摘要】
一种基于模型的理由代码实时模型解释方法


[0001]本专利技术涉及基于模型的理由代码实时模型解释方法
,具体涉及一种基于模型的理由代码实时模型解释方法。

技术介绍

[0002]随着大数据时代的到来和电子商务领域的快速发展,越来越多的产品交易通过线上互联网进行,基于零售平台和线下商户提供的金融服务也逐渐走进了人们的视线。在产生经济效益服务社会的同时,对于销售,贷款和支付结算阶段可能产生的潜在的欺诈风险,信用风险甚至法律风险的控制也是不可忽视的。传统的金融风控领域主要以业务运营人工审核和风控专家的规则进行,近年来兴起的机器学习(machine learning)方法则为现代金融风控体系的发展注入了一针强心剂。
[0003]机器学习的定义为基于数据,使用算法知道计算机利用己知数据得出适当的模型,并利用此模型对于新的情景给出判断的过程。在机器学习模型上线进入生产后,商业化业务场景中能够发挥作用的部分主要基于预测结果本身而缺乏有效的从特征指标层面对模型预测结果的原因进行解读。同时机器学习模型上线后的模型解释也是模型在商业化中发挥作用的重要的一环。机器学习模型本身的输出仅是一个数值,并不能让落地执行方彻底理解模型本身的机制。这时如何让模型有效在商业化场景中进行效益的落地,便成为要解决的问题。

技术实现思路

[0004]本专利技术的目的是针对现有技术存在的不足,提供一种基于模型的理由代码实时模型解释方法。
[0005]为实现上述目的,本专利技术提供了一种基于模型的理由代码实时模型解释方法,包括
[0006]将模型表示为Y=f(X1,X2,X3,X4,...,X
n
),其中,Y为模型输出,X1,X2,X3,X4,...,X
n
分别为模型中的特征,n为大于4的自然数;
[0007]针对于每一预测样本,分别计算每一特征的贡献度;
[0008]根据所述贡献度的大小降序输出n个特征及其分别对应的贡献度。
[0009]进一步的,所述贡献度的计算方式具体如下:
[0010][0011]其中,φ
i
为第i个特征的贡献度,i为特征的下标,1≤i≤n,F为所有特征的集合,F为集合F中的特征个数,S为已经入模的变量集合,S为该集合S中的变量个数,x
S∪{i}
为下标为集合S并上i的特征集合,f
S∪{i}
为模型在下标为集合S并上i的特征集合上的结果,x
S
为下标为集合S的特征,f
S
为模型在下标为集合S的特征集合上的结果。
[0012]进一步的,还包括:
[0013]根据商业经验和对于模型场景本身的了解,从外部数据源中挖掘出m个更新特征X
n+1


X
n+m
,其中m为大于1的自然数;
[0014]计算每一更新特征X
n+1
,....X
n+m
分别计算加权平均信息价值;
[0015]根据加权平均信息价值输出建议决策。
[0016]进一步的,所述加权平均信息价值的计算方式具体如下:
[0017]将模型上线后积累的含有标签的回流数据,将其按照落库时间的顺序等分为k份,所述回流数据依次分为D1,D2,D3,...,D
k

[0018]采用所述回流数据,分别计算每一更新特征的信息值IV

1,...,IV

k;
[0019]根据所述更新特征的信息值IV

1,...,IV

k计算更新特征的加权平均信息价值:
[0020][0021]其中,adjustedAverageIV
F
为加权平均信息价值,a为回流数据的序号,1≤a≤k;IV
a
为第a个回流数据计算出的所述更新特征的信息值。
[0022]进一步的,当加权平均信息价值<第一阈值时,输出不建议加入;
[0023]当第一阈值≤加权平均信息价值≤第二阈值时,输出建议继续观测一段时间,收集更多证据;
[0024]当加权平均信息价值>第二阈值时,输出建议在下一步迭代更新模型时加入该特征。
[0025]进一步的,所述第一阈值为0.05。
[0026]进一步的,所述第二阈值为0.1。
[0027]进一步的,所述模型包括针对结构化数据的决策树模型、基于二维数据的线性回归模型以及针对图像/文本数据的深度学习神经网络模型。
[0028]有益效果:本专利技术通过对模型内特征的贡献度进行计算,并根据贡献度的大小降序输出展示特征及其分别对应的贡献度,并可存储现有数据库中,商业落地合作伙伴可以在调用预测分数的同时直接调用,本专利技术还从外部数据源中挖掘更新特征,当更新特征的更新特征的信息值超过相应的阈值时,输出将该理由代码作为特征纳入模型当中的建议信息,作为模型迭代更新前置信号。
附图说明
[0029]图1是基于模型特征的理由代码输出格式示意图;
[0030]图2是基于模型以外的理由代码输出格式示意图;
[0031]图3是根据加权平均信息价值输出建议决策的示意图。
具体实施方式
[0032]下面结合附图和具体实施例,进一步阐明本专利技术,本实施例在以本专利技术技术方案为前提下进行实施,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。
[0033]如图1至图3所示,本专利技术实施例提供了一种基于模型的理由代码实时模型解释方法,包括:
[0034]将模型表示为Y=f(X1,X2,X3,X4,...,X
n
),其中,Y为模型输出,X1,X2,X3,X4,...,X
n
分别为模型中的特征,n为大于4的自然数。对于反欺诈模型来说,Y可以看作是欺诈嫌疑得分,一般来讲,Y分数越高,代表欺诈嫌疑相对越高。
[0035]针对于每一预测样本,分别计算每一特征的贡献度。具体的,本专利技术优选使用基于博弈论的Shapley

value(夏普利值)来作为每一特征的贡献度,该方法对于任何已经上线的机器学习模型,无论是针对结构化数据的决策树模型、基于二维数据的线性回归模型以及针对图像/文本数据的深度学习神经网络模型,均为适用。Shapley值法由Shapley L.S于1953年提出,为解决多个局中人在合作过程中因利益分配而产生矛盾的问题,属于合作博弈领域。应用Shapley值的一大优势是按照成员对联盟的边际贡献率将利益进行分配,即成员i所分得的利益等于该成员为他所参与联盟创造的边际利益的平均值。夏普利值旨在计算每一特征对于预测结果的边际贡献,该方法的基本假设是,对于每一个预测样本,如果去掉某一个特征指标,模型预测变动较大,则认为该特征指标对于模型在这一样本上预测的贡献较大。贡献度的计算方式具体如下:
[0036][0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型的理由代码实时模型解释方法,其特征在于,包括:将模型表示为Y=f(X1,X2,X3,X4,...,X
n
),其中,Y为模型输出,X1,X2,X3,X4,...,X
n
分别为模型中的特征,n为大于4的自然数;针对于每一预测样本,分别计算每一特征的贡献度;根据所述贡献度的大小降序输出n个特征及其分别对应的贡献度。2.根据权利要求1所述的基于模型的理由代码实时模型解释方法,其特征在于,所述贡献度的计算方式具体如下:其中,φ
i
为第i个特征的贡献度,i为特征的下标,1≤i≤n,F为所有特征的集合,|F|为集合F中的特征个数,S为已经入模的变量集合,|S|为该集合S中的变量个数,x
S∪{i}
为下标为集合S并上i的特征集合,f
S∪{i}
为模型在下标为集合S并上i的特征集合上的结果,x
S
为下标为集合S的特征,f
S
为模型在下标为集合S的特征集合上的结果。3.根据权利要求1所述的基于模型的理由代码实时模型解释方法,其特征在于,还包括:根据商业经验和对于模型场景本身的了解,从外部数据源中挖掘出m个更新特征X
n+1
,....X
n+m
,其中m为大于1的自然数;计算每一更新特征X
n+1
,....X
n+m
分别计算加权平均信息价值;根据加权平均信息价值输出建议决策。4.根据权利要求3所述的基于...

【专利技术属性】
技术研发人员:阮鹤樵侯亦杨郑清正
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1