基于不均衡数据集的机器学习模型数据处理方法及装置制造方法及图纸

技术编号:30434716 阅读:27 留言:0更新日期:2021-10-24 17:33
本申请实施例提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,涉及人工智能领域,也可用于金融领域,方法包括:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级;本申请能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。后发生衰减的风险。后发生衰减的风险。

【技术实现步骤摘要】
基于不均衡数据集的机器学习模型数据处理方法及装置


[0001]本申请涉及人工智能领域,也可用于金融领域,具体涉及一种基于不均衡数据集的机器学习模型数据处理方法及装置。

技术介绍

[0002]随着人工智能、大数据技术的发展与普及,机器学习模型在精准营销、反欺诈等方面表现出了一定的优势,在银行业中的应用也越来越广泛。
[0003]通常情况下,银行业在使用机器学习技术进行建模的过程中,根据不同的业务问题,其使用的数据的分布、质量都有所差异,建模选取的数据处理、建模方法也不同,需要根据不同的情况,选取相应的评价指标来衡量所建立的机器学习模型的性能及稳定性。
[0004]对于银行业最常见的二分类问题,常见的评价方法是基于混淆矩阵开展的,混淆矩阵主要包括四个指标,具体定义如下:
[0005]TP=True Positive=真阳性
[0006]FP=False Positive=假阳性
[0007]FN=False Negative=假阴性
[0008]TN=True Negative=真阴性
[0009]除此之外,常用的评价指标,如准确率、精确率、召回率、F1值等都是基于混淆矩阵定义的,这些指标也是银行业常用二分类模型的评价指标。
[0010]专利技术人考虑到银行业常用的建模数据中,数据正负样本不平衡的问题十分普遍且严重,数据正负样本比例的不同将会对评价指标产生影响。例如在客户违约预测问题中,发生违约的客户常常只占全量客户非常小的比例,又如在智慧营销问题中,待营销的高价值客户,也只占全量客户的一小部分。这会对模型的评价工作造成较大的影响,具体而言,有如下问题:
[0011]1、在正负样本比例不平衡的情况下,部分评价指标(如准确率)可能会虚高。
[0012]2、在正负样本比例不平衡的情况下,部分评价指标(如F1值)在测试数据的正负样本比例发生变化时会表现出较大的变化。
[0013]3、大部分评价指标都会受数据正负样本比例影响,缺少在正负样本比例发生变化时不受影响的评价方法。

技术实现思路

[0014]针对现有技术中的问题,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
[0015]为了解决上述问题中的至少一个,本申请提供以下技术方案:
[0016]第一方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法,包括:
[0017]对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
[0018]根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
[0019]根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
[0020]进一步地,还包括:
[0021]根据预设时间标注确定样本数据中的训练数据集和测试数据集。
[0022]进一步地,所述根据所述预测结果确定对应的召回率,包括:
[0023]根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
[0024]进一步地,所述根据所述召回率,确定平均召回率和召回率波动系数,包括:
[0025]根据所有所述召回率的均值确定对应的平均召回率;
[0026]对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
[0027]第二方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理装置,包括:
[0028]数据采集模块,用于对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
[0029]模型预测模块,用于根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
[0030]稳定性判定模块,用于根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
[0031]进一步地,还包括:
[0032]测试集区分采集单元,用于根据预设时间标注确定样本数据中的训练数据集和测试数据集。
[0033]进一步地,所述模型预测模块包括:
[0034]召回率确定单元,用于根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
[0035]进一步地,所述稳定性判定模块包括:
[0036]平均召回率确定单元,用于根据所有所述召回率的均值确定对应的平均召回率;
[0037]召回率波动系数确定单元,用于对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
[0038]第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于不均衡数据集的机器学习模型数据处理方法的步骤。
[0039]第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于不均衡数据集的机器学习模型数据处理方法的步
骤。
[0040]由上述技术方案可知,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
附图说明
[0041]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本申请实施例中的基于不均衡数据集的机器学习模型数据处理方法的流程示意图之一;
[0043]图2为本申请实施例中的基于不均衡数据集的机器学习模型数据处理方法的流程示意图之二;
[0044]图3为本申请实施例中的基于不均衡数据集的机器学习模型数据处理装置的结构图之一;
[0045]图4为本申请实施例中的基于不均衡数据集的机器学习模型数据处理装置的结构图之二;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述方法包括:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。2.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,还包括:根据预设时间标注确定样本数据中的训练数据集和测试数据集。3.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述根据所述预测结果确定对应的召回率,包括:根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。4.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述根据所述召回率,确定平均召回率和召回率波动系数,包括:根据所有所述召回率的均值确定对应的平均召回率;对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。5.一种基于不均衡数据集的机器学习模型数据处理装置,其特征在于,包括:数据采集模块,用于对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;模型预测模块,用于根据所述训练数据集训练...

【专利技术属性】
技术研发人员:李策朱丹王若冰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1