一种训练数据的处理方法及装置制造方法及图纸

技术编号:18784975 阅读:19 留言:0更新日期:2018-08-29 07:23
本文公开了一种训练数据的处理方法及装置,用于处理一个或多个原始训练样本,每个原始训练样本包括样本标签以及至少一个特征变量;上述训练数据的处理方法,包括:确定用于对样本标签进行调整的特征变量;针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内确定至少两个分位值;针对每个原始训练样本,分别确定原始训练样本中该特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。

【技术实现步骤摘要】
一种训练数据的处理方法及装置
本专利技术涉及数据处理领域,尤其涉及一种训练数据的处理方法及装置。
技术介绍
目前,通常可以采用训练数据进行模型训练,以得到具有特定功能的数据模型。比如,针对特定业务场景的用户识别或预测需求,可以基于训练样本采用相应的算法进行模型训练,以构建特定业务场景的用户识别或预测模型。然而,如何对已有的训练数据进行处理以优化训练得到的模型(比如,提升对特定用户的识别能力)是需要解决的问题。以信用贷款业务的催收评分模型为例,催收评分模型是预测早期逾期客户转变成不良客户的概率的计量工具。催收评分模型的建模目标在于区分高不良风险的逾期客户(比如,模型输出结果为1时识别为高不良风险的逾期客户)和低不良风险的逾期客户(比如,模型输出结果为0时识别为低不良风险的逾期客户);但是对于不同严重程度的高不良风险的逾期客户(以下简称为高风险不良客户)没有选择性,也就是说,逾期10块钱的高风险不良客户和逾期10000块的高风险不良客户对催收评分模型来讲不良严重程度是相同的,或者还款率10%的高风险不良客户和还款率90%的高风险不良客户对催收评分模型而言不良严重程度是相同的,即基于现有的训练数据训练得到的模型无法对高风险不良客户进行进一步区分,导致催收评分模型的识别目标和催收业务的实际运营目标并不完全一致,影响催收效率的提升。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种训练数据的处理方法及装置,通过对每个原始训练样本进行处理得到更新样本标签后的多个目标训练样本,使得在进行模型训练时增加对所选择的特征变量的进一步考量,以对模型识别结果进行优化。第一方面,本申请实施例提供一种训练数据的处理方法,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理方法包括:确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。其中,所述样本标签的值可以为0或1;所述根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,可以包括以下之一:针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。其中,所述针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值,可以包括:筛选出符合预定条件的原始训练样本;针对所确定的每个特征变量,根据筛选出的原始训练样本中所述特征变量的值,确定所述特征变量的取值范围,在所述取值范围内,确定至少两个互不相同的分位值。其中,所述处理方法可以用于处理一个或多个符合预定条件的原始训练样本。其中,所述符合预定条件的原始训练样本可以包括:样本标签的值为1的原始训练样本。第二方面,本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理装置包括:第一处理模块,用于确定用于对所述样本标签进行调整的特征变量;第二处理模块,用于针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;第三处理模块,用于针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。其中,所述样本标签的值可以为0或1;所述第三处理模块可以用于通过以下一种方式根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本:针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。第三方面,本申请实施例还提供一种训练数据的处理方法,用于处理一个或多个原始借贷训练样本,每个原始借贷训练样本包括样本标签以及至少一个特征变量;所述样本标签用于指示所述原始借贷训练样本是否存在贷款逾期风险;所述处理方法包括:确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始借贷训练样本,分别确定所述原始借贷训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始借贷训练样本的样本标签进行调整,得到对应的目标借贷训练样本,以便采用所述目标借贷训练样本进行模型训练。其中,所述用于对所述样本标签进行调整的特征变量可以包括以下至少之一:欠款金额、欠款时长、逾期还款金额、逾期还款时长。第四方面,本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理装置包括:处理器和存储器;其中,所述存储器用于存储用于数据处理的程序;该用于数据处理的程序在被所述处理器读取执行时,执行以下操作:确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述第一方面或第三方面的训练数据的处理方法。在本申请实施例中,确定用于对样本标签进行调整的特征变量;针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定原始训练样本中用于对样本标签进行调整的特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。如此,针对每个原始训练样本可以得到至少两个目标训练样本,且每个目标训练样本的样本标签是根据原始训练本文档来自技高网...

【技术保护点】
1.一种训练数据的处理方法,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理方法包括:确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。

【技术特征摘要】
1.一种训练数据的处理方法,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理方法包括:确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。2.根据权利要求1所述的处理方法,其特征在于,所述样本标签的值为0或1;所述根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,包括以下之一:针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。3.根据权利要求1所述的处理方法,其特征在于,所述针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值,包括:筛选出符合预定条件的原始训练样本;针对所确定的每个特征变量,根据筛选出的原始训练样本中所述特征变量的值,确定所述特征变量的取值范围,在所述取值范围内,确定至少两个互不相同的分位值。4.根据权利要求1所述的处理方法,其特征在于,所述处理方法用于处理一个或多个符合预定条件的原始训练样本。5.根据权利要求3或4所述的处理方法,其特征在于,所述符合预定条件的原始训练样本包括:样本标签的值为1的原始训练样本。6.一种训练数据的处理装置,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理装置包括:第一处理模块,用于确定用于对所述样本标签进行调整的特征变量;第二处理模块,用于针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;第三处理模块,用于针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每...

【专利技术属性】
技术研发人员:张柯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1