【技术实现步骤摘要】
训练数据集的贡献度计算方法、装置、设备及存储介质
本专利技术涉及金融科技(Fintech)的数据处理
,尤其涉及一种训练数据集的贡献度计算方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,数据处理技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。数据对于机器学习建模非常重要,一份高质量的数据,有助于提升机器学习模型的性能,进而提升业务收益或者降低运营成本。在机器学习的大规模实践部署过程中,越来越凸显出数据的价值,数据逐渐演变成一种资产。随着信息技术、互联网和大数据等技术的发展普及,各行各业都积累了很多数据,为机器学习建模提供更多的数据选择空间。在实际建模过程中,业务人员经常会用到来自不同供应商、不同类别的数据,各方数据集中包含的特征有差别,对机器学习模型性能的贡献度也不一样。数据集的贡献程度不仅有利于理解模型,在数据集交易时,也可以作为数据定价的一种参考指标。甲方愿意为贡献度高的数据集花更多的 ...
【技术保护点】
1.一种训练数据集的贡献度计算方法,其特征在于,所述训练数据集的贡献度计算方法包括以下步骤:/n获取训练机器学习模型的各训练数据集;/n计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;/n根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。/n
【技术特征摘要】
1.一种训练数据集的贡献度计算方法,其特征在于,所述训练数据集的贡献度计算方法包括以下步骤:
获取训练机器学习模型的各训练数据集;
计算所述训练数据集中各个特征的沙普利可加性模型解释方法SHAP目标值;
根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度。
2.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征的SHAP目标值的步骤包括:
计算所述训练数据集中各个特征对应的SHAP值,计算各个特征对应的SHAP值的绝对值,得到各个特征对应的SHAP绝对值;
将所述训练数据集中各个特征确定为目标特征,根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值。
3.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述目标特征在不同训练数据集中的SHAP绝对值得到所述目标特征对应的SHAP目标值的步骤包括:
确定所述目标特征在不同训练数据集中的SHAP绝对值,计算所述目标特征在不同训练数据集中SHAP绝对值对应的SHAP平均值;
将所述SHAP平均值确定为所述目标特征对应的SHAP目标值。
4.如权利要求2所述的训练数据集的贡献度计算方法,其特征在于,所述计算所述训练数据集中各个特征对应的SHAP值的步骤包括:
计算所述训练数据集中各个特征对应的边际收益期望;
根据所述边际收益期望计算各所述边际收益期望对应特征的SHAP值,以得到所述训练数据集中各个特征对应的SHAP值。
5.如权利要求1所述的训练数据集的贡献度计算方法,其特征在于,所述根据所述训练数据集中各个特征的SHAP目标值计算所述训练数据集的贡献度的步骤包括:
确定所述训练数据集中各个特征的SHAP目标值,以及确定各个特征所在训练数据集的数据集个数...
【专利技术属性】
技术研发人员:卓本刚,黄启军,唐兴兴,林冰垠,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。