数据处理方法、装置、设备、介质及产品制造方法及图纸

技术编号:41358414 阅读:15 留言:0更新日期:2024-05-20 10:09
本申请公开一种数据处理方法,包括:在获取到m个预测模型针对第一样本进行预测得到的m个第一预测概率的情况下,确定m个第一预测概率的平均值为第一样本的目标预测概率;基于预设的原始基础分值对目标预测概率进行调整,将目标预测概率转化为第一样本的目标分值;基于获取到的训练调整分值调整原始基础分值,得到目标基础分值;将目标分值与目标基础分值作差,得到贡献度总分;基于TreeSHAP算法,确定n个特征中每个特征在m个预测模型下的特征贡献度均值;结合贡献度总分与每个特征对应的特征贡献度均值,评估每个特征的SHAP值,SHAP值用于表征每个特征对目标分值的贡献度。根据本申请实施例,能够在多折模型场景下确定出每个特征的SHAP值。

【技术实现步骤摘要】

本申请属于人工智能,尤其涉及一种数据处理方法、装置、设备、介质及产品


技术介绍

1、随着人工智能的发展,机器学习的应用也越来越广泛。在业务智能中枢项目建设过程中,在价格类违规商户侦测场景下,相较于常规的规则模型,机器学习模型的准确度以及召回率都有较高的提升。而复杂机器学习模型大部分属于黑盒模型,具有不透明、非直观以及难以理解的特点,沙普利可加性模型解释方法(shapley additiveex planations,shap)作为特征重要性的统一量度方法,成为当前通用的模型的解释方法。

2、相关技术中,在使用单个模型对样本进行预测时,针对每一个样本,所有特征的特征重要性(即shap值)的和,加上一个基础值等于模型对该样本的预测结果,因此可以根据特征重要性对样本的预测结果进行解释。但是单个模型的效果往往不如多个模型的叠加效果好,例如在预测结果的稳定性以及泛化性能上,多折模型相对于单个模型具有明显优势。但是,当选择多个模型的预测概率求均值对样本进行预测时,相关技术中无法确定出每个特征的shap值,因此如何在多折模型场景下确定每个特征的shap值,本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述确定所述m个第一预测概率的平均值为所述第一样本的目标预测概率之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于m组训练样本进行模型训练,得到所述m个预测模型,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于预设的原始基础分值对所述目标预测概率进行调整,将所述目标预测概率转化为所述第一样本的目标分值,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于获取到的训练调整分值调整所述原始基础分值,得到目标基础分...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述确定所述m个第一预测概率的平均值为所述第一样本的目标预测概率之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于m组训练样本进行模型训练,得到所述m个预测模型,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于预设的原始基础分值对所述目标预测概率进行调整,将所述目标预测概率转化为所述第一样本的目标分值,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于获取到的训练调整分值调整所述原始基础分值,得到目标基础分值,包括:

6.根据权利要求1或5所述的方法,其特征在于,在所述基于获取到的训练调整分值调整所述原始基础分值,得到目标基础分值之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述基于treeshap算法,确定所述n个特征中每个特征在所述m个预测模型下的特征...

【专利技术属性】
技术研发人员:陈中演潘骏邹勇漆维正张磊
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1