训练数据集的贡献度计算方法、装置、设备及存储介质制造方法及图纸

技术编号:24614110 阅读:47 留言:0更新日期:2020-06-24 01:27
本发明专利技术公开了一种训练数据集的贡献度计算方法、装置、设备及存储介质,涉及金融科技领域,该方法包括步骤:获取训练机器学习模型的各训练数据集;计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。本发明专利技术实现了通过训练数据集中各个特征的SHAP目标值对应计算得到各训练数据集的贡献度,以通过各训练数据集的贡献度来评价各训练数据集在训练机器学习模型过程中的重要度,以便于更准确地选择训练机器学习模型的训练数据集,从而提高训练所得机器学习模型对数据预测的准确率。

Contribution calculation method, device, equipment and storage medium of training data set

【技术实现步骤摘要】
训练数据集的贡献度计算方法、装置、设备及存储介质
本专利技术涉及金融科技(Fintech)的数据处理
,尤其涉及一种训练数据集的贡献度计算方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,数据处理技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。数据对于机器学习建模非常重要,一份高质量的数据,有助于提升机器学习模型的性能,进而提升业务收益或者降低运营成本。在机器学习的大规模实践部署过程中,越来越凸显出数据的价值,数据逐渐演变成一种资产。随着信息技术、互联网和大数据等技术的发展普及,各行各业都积累了很多数据,为机器学习建模提供更多的数据选择空间。在实际建模过程中,业务人员经常会用到来自不同供应商、不同类别的数据,各方数据集中包含的特征有差别,对机器学习模型性能的贡献度也不一样。数据集的贡献程度不仅有利于理解模型,在数据集交易时,也可以作为数据定价的一种参考指标。甲方愿意为贡献度高的数据集花更多的成本,乙方也会对高贡本文档来自技高网...

【技术保护点】
1.一种训练数据集的贡献度计算方法,其特征在于,所述训练数据集的贡献度计算方法包括以下步骤:/n获取训练机器学习模型的各训练数据集;/n计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;/n根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。/n

【技术特征摘要】
1.一种训练数据集的贡献度计算方法,其特征在于,所述训练数据集的贡献度计算方法包括以下步骤:
获取训练机器学习模型的各训练数据集;
计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;
根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。


2.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征的SHAP目标值的步骤包括:
计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值;
将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。


3.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值的步骤包括:
确定所述目标特征在不同训练数据集中的SHAP绝对值,计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值;
将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。


4.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征对应的SHAP值的步骤包括:
计算所述训练数据集中各个特征对应的边际收益期望;
根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。


5.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤包括:
确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数...

【专利技术属性】
技术研发人员:卓本刚黄启军唐兴兴林冰垠
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1