样本数据的处理方法、相关方法、装置、服务器和介质制造方法及图纸

技术编号:36556664 阅读:15 留言:0更新日期:2023-02-04 17:11
本申请涉及人工智能、大数据领域,特别是涉及一种样本数据的处理方法、业务数据的处理方法、样本数据的处理装置、业务数据的处理装置、服务器、存储介质和计算机程序产品。包括:获取样本数据集合;利用样本数据集合所划分的多份训练集和对应的验证集进行模型训练,以获取对应多个样本模型的验证结果;基于多个样本模型的验证结果和预设的目标样本比例,确定各训练集中正样本数据的上采样比例;基于上采样比例,对各样本模型对应的训练集中的正样本数据进行上采样处理,以基于样本数据集合中的负样本数据和上采样处理后得到的正样本数据,得到处理后的样本数据集合。上述方法能够使得训练的模型的稳定性和准确率更高,模型的处理效果更佳。果更佳。果更佳。

【技术实现步骤摘要】
样本数据的处理方法、相关方法、装置、服务器和介质


[0001]本申请涉及数据处理
,特别是涉及一种样本数据的处理方法、业务数据的处理方法、样本数据的处理装置、业务数据的处理装置、服务器、存储介质和计算机程序产品。

技术介绍

[0002]随着金融行业科技的不断发展,金融行业的数字化转型进程的不断深化,以机器学习技术为代表的人工智能技术的应用越来越丰富,例如,通过大量训练样本训练得到的机器学习模型能够改变由传统的基于专家规则、业务经验等方式进行的金融行业的营销、风控等工作,极大的提升了应用精度。
[0003]目前在金融行业构建机器学习模型,主要是通过获取大量的客户样本,然后将客户样本分类成正样本和负样本,再利用复制、组合、放回等采样方法使得客户样本中的正样本和负样本达到数量平衡,最后,再利用数量平衡的正样本和负样本进行模型训练,并得到最终投入使用的机器学习模型。
[0004]然而,由于不同客户样本中的正样本和负样本之间的数量差异往往没有规律可言,工程师利用复制、组合、放回等方法对正样本和或负样本进行采样的比例一般是通过人工确定或者经验算法预测得到,从而使得正样本和负样本之间的采样比例的主观性和随机性较强,最终导致训练的机器学习模型的稳定性和准确率不高,模型处理效果不佳。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够保证样本的采样过程不受主观影响,使得样本到达平衡的样本数据的处理方法、业务数据的处理方法、样本数据的处理装置、业务数据的处理装置、服务器、存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种样本数据的处理方法,所述方法包括:
[0007]获取样本数据集合;所述样本数据集合中包括正样本数据和负样本数据,所述正样本数据和所述负样本数据均为由金融业客户系统记录的业务数据,且所述正样本数据表征已办理目标金融业务的业务数据,所述负样本数据表征未办理目标金融业务的业务数据;
[0008]利用所述样本数据集合所划分的多份训练集和每份训练集相对应的一份验证集进行模型训练,以获取对应多个样本模型的验证结果;所述验证结果用于表征所述样本模型相对于所述验证集的训练效果;所述样本模型用于预测客户是否办理所述目标金融业务并输出预测结果;
[0009]基于多个所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例;所述正样本数据的上采样比例,与所述样本模型的验证结果和预设的标准结果的偏差大小呈正向关系,并且对应的所述训练集中的正样本数据在基于所述上采样比例进行上采样之后的数量,与所述负样本数据的数量的比例符
合所述目标样本比例;
[0010]基于所述上采样比例,对各所述样本模型对应的训练集中的正样本数据进行上采样处理,以基于所述样本数据集合中的负样本数据和所述上采样处理后得到的正样本数据,得到处理后的样本数据集合;所述处理后的样本数据集合用于重新训练所述样本模型。
[0011]在其中一个实施例中,所述利用所述样本数据集合所划分的多份训练集和每份训练集相对应的一份验证集进行模型训练,以获取对应多个样本模型的验证结果,包括:
[0012]将所述样本数据集合随机划分为预设等份的训练数据;
[0013]对所述预设等份的训练数据进行交叉验证,以获取对应数量个的样本模型的验证结果;
[0014]其中,每一个样本模型由对应第一份数的训练数据作为训练集训练得到,每一个样本模型的验证结果由对应第二份数的训练数据作为验证集验证得到,所述第一份数与所述第二份数的和值等于所述预设等份,每一样本模型对应的验证集不相同。
[0015]在其中一个实施例中,所述样本数据集合中包括第一数量的正样本数据和第二数量的负样本数据,且所述第一数量小于所述第二数量;
[0016]所述基于所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例,包括:
[0017]基于所述目标样本比例、所述样本数据集合中第一数量的正样本数据和第二数量的负样本数据,确定各样本模型对应训练集中的正样本数据之间的上采样比例的和值;
[0018]基于各所述样本模型的验证结果和对应各训练集中正样本数据之间的上采样比例的和值,确定每一样本模型对应训练集中的负样本数据的上采样比例。
[0019]在其中一个实施例中,所述基于各所述样本模型的验证结果和对应各训练集中正样本数据之间的上采样比例的和值,确定每一样本模型对应训练集中的正样本数据的上采样比例,包括:
[0020]将每一所述样本模型的验证结果和所述上采样比例的和值进行比例验算,以确定各样本模型对应训练集中的正样本数据的上采样比例。
[0021]在其中一个实施例中,各所述样本模型的验证结果基于对应的各验证分数表征;所述标准结果基于标准验证分数表征;
[0022]在所述基于多个所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例之前,还包括以下两项中的任一项:
[0023]在各所述样本模型对应的验证分数均大于或者等于所述标准验证分数的情况下,确定所述样本模型的训练效果满足期望效果,并结束所述样本数据的处理步骤;
[0024]在各所述样本模型对应的验证分数中存在小于所述标准验证分数的情况下,确定各所述样本模型中存在对应训练效果不满足所述期望效果,并进行确定所述样本数据集合中正样本数据的上采样比例的步骤。
[0025]在其中一个实施例中,所述基于所述上采样比例,对各所述样本模型对应的训练集中的正样本数据进行上采样处理,包括:
[0026]将各样本模型对应训练集中的正样本数据按照对应的上采样比例进行上采样处理,以得到上采样处理后得到的正样本数据;
[0027]基于所述上采样处理后得到的正样本数据,更新各样本模型对应的训练集;
[0028]在所述基于所述上采样比例,对各所述样本模型对应的训练集中的正样本数据进行上采样处理之后,还包括:
[0029]将各更新后的训练集进行交叉验证,以获取对应数量个新的样本模型的验证分数;
[0030]响应于各所述新的样本模型的验证分数中存在小于所述标准验证分数,重新执行确定所述样本数据集合中正样本数据的上采样比例的步骤,直到各所述新的样本模型对应的验证分数均大于或者等于所述标准验证分数。
[0031]在其中一个实施例中,所述基于所述样本数据集合中的负样本数据和所述上采样处理后得到的正样本数据,得到处理后的样本数据集合,包括:
[0032]响应于各所述新的样本模型的验证分数均大于或者等于所述标准验证分数,综合各所述新的样本模型对应的训练集和验证集,生成所述处理后的样本数据集合;
[0033]在所述得到处理后的样本数据集合之后,还包括:
[0034]对所述处理后的样本数据集合中的正样本数据和负样本数据进行重新训练,以得到重新训练后的样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据的处理方法,其特征在于,所述方法包括:获取样本数据集合;所述样本数据集合中包括正样本数据和负样本数据,所述正样本数据和所述负样本数据均为由金融业客户系统记录的业务数据,且所述正样本数据表征已办理目标金融业务的业务数据,所述负样本数据表征未办理目标金融业务的业务数据;利用所述样本数据集合所划分的多份训练集和每份训练集相对应的一份验证集进行模型训练,以获取对应多个样本模型的验证结果;所述验证结果用于表征所述样本模型相对于所述验证集的训练效果;所述样本模型用于预测客户是否办理所述目标金融业务并输出预测结果;基于多个所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例;所述正样本数据的上采样比例,与所述样本模型的验证结果和预设的标准结果的偏差大小呈正向关系,并且对应的所述训练集中的正样本数据在基于所述上采样比例进行上采样之后的数量,与所述负样本数据的数量的比例符合所述目标样本比例;基于所述上采样比例,对各所述样本模型对应的训练集中的正样本数据进行上采样处理,以基于所述样本数据集合中的负样本数据和所述上采样处理后得到的正样本数据,得到处理后的样本数据集合;所述处理后的样本数据集合用于重新训练所述样本模型。2.根据权利要求1所述的方法,其特征在于,所述利用所述样本数据集合所划分的多份训练集和每份训练集相对应的一份验证集进行模型训练,以获取对应多个样本模型的验证结果,包括:将所述样本数据集合随机划分为预设等份的训练数据;对所述预设等份的训练数据进行交叉验证,以获取对应数量个的样本模型的验证结果;其中,每一个样本模型由对应第一份数的训练数据作为训练集训练得到,每一个样本模型的验证结果由对应第二份数的训练数据作为验证集验证得到,所述第一份数与所述第二份数的和值等于所述预设等份,每一样本模型对应的验证集不相同。3.根据权利要求2所述的方法,其特征在于,所述样本数据集合中包括第一数量的正样本数据和第二数量的负样本数据,且所述第一数量小于所述第二数量;所述基于多个所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例,包括:基于所述目标样本比例、所述样本数据集合中第一数量的正样本数据和第二数量的负样本数据,确定各样本模型对应训练集中的正样本数据之间的上采样比例的和值;基于各所述样本模型的验证结果和对应各训练集中正样本数据之间的上采样比例的和值,确定每一样本模型对应训练集中的正样本数据的上采样比例。4.根据权利要求3所述的方法,其特征在于,所述基于各所述样本模型的验证结果和对应各训练集中正样本数据之间的上采样比例的和值,确定每一样本模型对应训练集中的正样本数据的上采样比例,包括:将每一所述样本模型的验证结果和所述上采样比例的和值进行比例验算,以确定各样本模型对应训练集中的正样本数据的上采样比例。5.根据权利要求2所述的方法,其特征在于,各所述样本模型的验证结果基于对应的各
验证分数表征;所述标准结果基于标准验证分数表征;在所述基于多个所述样本模型的验证结果和预设的目标样本比例,确定各所述样本模型对应的训练集中正样本数据的上采样比例之前,还包括以下两项中的任一项:在各所述样本模型对应的验证分数均大于或者等于所述标准验证分数的情况下,确定所述样本模型的训练效果满足期望效果,并结束所述样本数据的处理步骤;在各所述样本模型对应的验证分数中存在小于所述标准验证分数的情况下,确定各所述样本模型中存在对应训练效果不满足所述期望效果,并进行确定所述样本数据集合中正样本数据的上采样比例的步骤。6.根据权利要求5所述的方法,其特征在于,所述基于所述上采样比例,对各所述样本模型对应的训练集中的正样本数据进行上采样处理,包括:将各样本模型对应训练集中的正样本数据按照对应的上采样比例进行上采样处理,以得到上采样处理后得到的正样本数据;基于所述上采样处理后得到的正样本...

【专利技术属性】
技术研发人员:李策王若冰汤鑫淼黄寅
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1