评估模型解释工具的方法和装置制造方法及图纸

技术编号:23787998 阅读:135 留言:0更新日期:2020-04-15 01:00
本说明书实施例提供一种评估模型解释工具的方法和装置,所述方法包括:使用多个第一训练样本训练所述第一模型,以获取具有第一参数组的第一模型;基于多个测试样本获取所述具有第一参数组的第一模型的第一性能值;基于多个第一训练样本和所述第一参数组,通过模型解释工具获取多个特征的重要性排序;将每个第一训练样本中除所述重要性排序的前n个特征之外的特征的特征值替换为相同的预定值,以获取多个第二训练样本;使用多个第二训练样本训练所述第一模型,以获取具有第二参数组的第一模型;基于多个测试样本获取具有第二参数组的第一模型的第二性能值;计算第一性能值与所述第二性能值的差异值,以用于评估所述模型解释工具。

Methods and devices for evaluating model interpretation tools

【技术实现步骤摘要】
评估模型解释工具的方法和装置
本说明书实施例涉及机器学习
,更具体地,涉及一种评估模型解释工具的方法和装置。
技术介绍
机器学习目前在各个领域都有着广泛的应用,如零售,技术,医疗保健,科学等等。机器学习模型本质上是用一个复杂的函数拟合数据和目标之间的关系。机器学习模型与一些简单的规则有着很大的差别,规则明确数据和目标之间的关系,但是机器学习模型是一个黑盒只有输入和输出,不明白内部的机制。在某些领域,特别是在金融领域,比如保险、银行等,数据科学家们通常最终不得不使用更传统更简单的机器学习模型(线性模型或决策树模型)。然而,这类简单模型虽能提供一定的可解释性,但是简单的模型对于实现复杂的任务显的力不从心,模型精度性能等方面必然不如更加复杂的深度模型。例如,使用花呗付款用户可以提前透支次月还款,这一功能类似信用卡,这意味着用户存在套现的风险,这类套现用户相较正常用户逾期还款的概率更高,对公司造成损失。为了减少风险,对于这类套现交易的拦截是十分有必要的,或者对于小额贷款,审批不通过,那么应该给用户提供合理的解释。但是考虑到金融场景比较敏感本文档来自技高网...

【技术保护点】
1.一种评估模型解释工具的方法,所述方法基于第一模型、及预先获取的用于第一模型的多个第一训练样本和多个测试样本进行,其中,每个所述第一训练样本包括业务对象的多个特征的特征值,所述方法包括:/n从所述多个特征中选取n个特征作为n个选定特征;/n将每个所述第一训练样本中除所述n个选定特征之外的特征的特征值替换为其它值,以获取多个第二训练样本;/n使用所述多个第二训练样本训练所述第一模型,以获取具有第一参数组的第一模型;/n基于所述多个测试样本获取所述具有第一参数组的第一模型的第一性能值;/n基于所述多个第二训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的重要性排序;/n将每个所述第二训...

【技术特征摘要】
1.一种评估模型解释工具的方法,所述方法基于第一模型、及预先获取的用于第一模型的多个第一训练样本和多个测试样本进行,其中,每个所述第一训练样本包括业务对象的多个特征的特征值,所述方法包括:
从所述多个特征中选取n个特征作为n个选定特征;
将每个所述第一训练样本中除所述n个选定特征之外的特征的特征值替换为其它值,以获取多个第二训练样本;
使用所述多个第二训练样本训练所述第一模型,以获取具有第一参数组的第一模型;
基于所述多个测试样本获取所述具有第一参数组的第一模型的第一性能值;
基于所述多个第二训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的重要性排序;
将每个所述第二训练样本中除所述重要性排序的前n个特征之外的特征的特征值替换为相同的预定值,以获取多个第三训练样本;
使用所述多个第三训练样本训练所述第一模型,以获取具有第二参数组的第一模型;
基于所述多个测试样本获取所述具有第二参数组的第一模型的第二性能值;
计算所述第一性能值与所述第二性能值的差异值,以用于评估所述模型解释工具。


2.一种评估模型解释工具的方法,所述方法基于第一模型、及预先获取的用于第一模型的多个第一训练样本和多个测试样本进行,其中,每个所述第一训练样本包括业务对象的多个特征的特征值,所述方法包括:
使用所述多个第一训练样本训练所述第一模型,以获取具有第一参数组的第一模型;
基于所述多个测试样本获取所述具有第一参数组的第一模型的第一性能值;
基于所述多个第一训练样本和所述第一参数组,通过模型解释工具获取所述多个特征的重要性排序;
将各个所述第一训练样本中除所述重要性排序的前n个特征之外的特征的特征值替换为相同的预定值,以获取多个第二训练样本;
使用所述多个第二训练样本训练所述第一模型,以获取具有第二参数组的第一模型;
基于所述多个测试样本获取所述具有第二参数组的第一模型的第二性能值;
计算所述第一性能值与所述第二性能值的差异值,以用于评估所述模型解释工具。


3.根据权利要求1或2所述的方法,其中,所述第一模型为非自解释型模型。


4.根据权利要求1所述的方法,其中,从所述多个特征中选取n个特征作为n个选定特征包括,从所述多个特征中随机选取n个特征作为n个选定特征。


5.根据权利要求1所述的方法,其中,将每个所述第一训练样本中除所述n个选定特征之外的特征的特征值替换为其它值包括,将每个所述第一训练样本中除所述n个选定特征之外的特征的特征值替换为随机确定的其它值。


6.根据权利要求1所述的方法,其中,所述方法被执行多次以获取多个差异值,其中,在对所述方法的每次执行中,所述n个选定特征与其它各次执行对应的各组n个选定特征具有不同的特征组合,其中,所述方法还包括,在获取多个差异值之后,基于所述多个差异值计算平均差异值,以用于评估所述模型解释工具。


7.根据权利要求1或2所述的方法,其中,所述第一模型为二分类模型,所述第一性能值和第二性能值与以下至少一项相关:准确率、精确率、召回率、F1值、AUC。


8.根据权利要求1或2所述的方法,其中,所述业务对象为网络平台中的以下一个或多个对象:用户、商户、商品、交易。


9.根据权利要求8所述的方法,其中,所述业务对象为平台用户,每个训练样本包括用户的风险值作为标签值,所述第一模型用于基于所述多个第一训练样本被训练为风险控制模型。


10.一种评估模型解释工具的装置,所述装置基于第一模型和预先获取的用于第一模型的多个第一训练样本和多个测试样本部署,其中,每个所述第一训练样本包括业务对象的多个特征的特征值,所述装置包括:
选取单元,配置为,从所述多个特征中选取n个特征作为n个选定特征;
第一替换单元,配置为,将每个所...

【专利技术属性】
技术研发人员:方军鹏唐才智
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1