一种训练数据的处理方法及装置制造方法及图纸

技术编号：18784975 阅读：35 留言：0更新日期：2018-08-29 07:23

本文公开了一种训练数据的处理方法及装置，用于处理一个或多个原始训练样本，每个原始训练样本包括样本标签以及至少一个特征变量；上述训练数据的处理方法，包括：确定用于对样本标签进行调整的特征变量；针对所确定的每个特征变量，确定特征变量的取值范围，并在取值范围内确定至少两个分位值；针对每个原始训练样本，分别确定原始训练样本中该特征变量的值和每个分位值的比较结果，并根据每个比较结果分别对原始训练样本的样本标签进行调整，得到对应的目标训练样本，以便采用目标训练样本进行模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种训练数据的处理方法及装置
本专利技术涉及数据处理领域，尤其涉及一种训练数据的处理方法及装置。
技术介绍
目前，通常可以采用训练数据进行模型训练，以得到具有特定功能的数据模型。比如，针对特定业务场景的用户识别或预测需求，可以基于训练样本采用相应的算法进行模型训练，以构建特定业务场景的用户识别或预测模型。然而，如何对已有的训练数据进行处理以优化训练得到的模型(比如，提升对特定用户的识别能力)是需要解决的问题。以信用贷款业务的催收评分模型为例，催收评分模型是预测早期逾期客户转变成不良客户的概率的计量工具。催收评分模型的建模目标在于区分高不良风险的逾期客户(比如，模型输出结果为1时识别为高不良风险的逾期客户)和低不良风险的逾期客户(比如，模型输出结果为0时识别为低不良风险的逾期客户)；但是对于不同严重程度的高不良风险的逾期客户(以下简称为高风险不良客户)没有选择性，也就是说，逾期10块钱的高风险不良客户和逾期10000块的高风险不良客户对催收评分模型来讲不良严重程度是相同的，或者还款率10％的高风险不良客户和还款率90％的高风险不良客户对催收评分模型而言不良严重程度是...

【技术保护点】
1.一种训练数据的处理方法，其特征在于，用于处理一个或多个原始训练样本；所述每个原始训练样本包括样本标签以及至少一个特征变量；所述处理方法包括：确定用于对所述样本标签进行调整的特征变量；针对所确定的每个特征变量，确定所述特征变量的取值范围，并在所述取值范围内，确定至少两个分位值；针对每个原始训练样本，分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果，并根据每个比较结果分别对所述原始训练样本的样本标签进行调整，得到对应的目标训练样本，以便采用所述目标训练样本进行模型训练。

【技术特征摘要】
1.一种训练数据的处理方法，其特征在于，用于处理一个或多个原始训练样本；所述每个原始训练样本包括样本标签以及至少一个特征变量；所述处理方法包括：确定用于对所述样本标签进行调整的特征变量；针对所确定的每个特征变量，确定所述特征变量的取值范围，并在所述取值范围内，确定至少两个分位值；针对每个原始训练样本，分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果，并根据每个比较结果分别对所述原始训练样本的样本标签进行调整，得到对应的目标训练样本，以便采用所述目标训练样本进行模型训练。2.根据权利要求1所述的处理方法，其特征在于，所述样本标签的值为0或1；所述根据每个比较结果分别对所述原始训练样本的样本标签进行调整，得到对应的目标训练样本，包括以下之一：针对每个分位值，若所述原始训练样本中所述特征变量的值大于或等于所述分位值，在所述目标训练样本中保持所述样本标签的值；若所述原始训练样本中所述特征变量的值小于所述分位值，在所述目标训练样本中调整所述样本标签的值为0；针对每个分位值，若所述原始训练样本中所述特征变量的值小于或等于所述分位值，在所述目标训练样本中保持所述样本标签的值；若所述原始训练样本中所述特征变量的值大于所述分位值，在所述目标训练样本中调整所述样本标签的值为0。3.根据权利要求1所述的处理方法，其特征在于，所述针对所确定的每个特征变量，确定所述特征变量的取值范围，并在所述取值范围内，确定至少两个分位值，包括：筛选出符合预定条件的原始训练样本；针对所确定的每个特征变量，根据筛选出的原始训练样本中所述特征变量的值，确定所述特征变量的取值范围，在所述取值范围内，确定至少两个互不相同的分位值。4.根据权利要求1所述的处理方法，其特征在于，所述处理方法用于处理一个或多个符合预定条件的原始训练样本。5.根据权利要求3或4所述的处理方法，其特征在于，所述符合预定条件的原始训练样本包括：样本标签的值为1的原始训练样本。6.一种训练数据的处理装置，其特征在于，用于处理一个或多个原始训练样本；所述每个原始训练样本包括样本标签以及至少一个特征变量；所述处理装置包括：第一处理模块，用于确定用于对所述样本标签进行调整的特征变量；第二处理模块，用于针对所确定的每个特征变量，确定所述特征变量的取值范围，并在所述取值范围内，确定至少两个分位值；第三处理模块，用于针对每个原始训练样本，分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果，并根据每...

【专利技术属性】
技术研发人员：张柯，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人