【技术实现步骤摘要】
一种数据处理方法、装置及计算机设备
本专利技术涉及数据处理
,具体而言,涉及一种数据处理方法、装置及计算机设备。
技术介绍
现有的信贷产品冷启动建模方法多数是通过对其他信贷产品的原有存量样本数据或者新产品初期积累的少量新样本数据进行风险建模。较新的方案是根据迁移学习的方法,通过调整新旧样本的权重再进行融合的方式来进行建模。由于新旧样本属于不同的产品和客群,样本的分布上有差异。过分依赖其他产品的原有数据建模会导致预测结果的高偏差(Bias),过分依赖少量的新产品数据建模会导致模型的高方差(Variance)。用迁移学习的方式来融合新旧数据进行建模,也会因为单模型方差过大导致模型的泛化能力较差。
技术实现思路
为了改善上述问题,本专利技术提供了一种数据处理方法、装置及计算机设备。基于本专利技术实施例的第一方面,提供了一种数据处理方法,应用于计算机设备,所述方法包括:从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率 ...
【技术保护点】
1.一种数据处理方法,其特征在于,应用于计算机设备,所述方法包括:/n从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;/n从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;/n基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;/n根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;/n根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率 ...
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于计算机设备,所述方法包括:
从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;
从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;
基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;
根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;
根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率;其中,加权权重为M个目标模型的AUC分值;
对所述加权平均概率进行排序得到排序队列并按照设定比例从所述排序队列的两端抽取样本数据作为最终样本数据;
通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据;
合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集。
2.根据权利要求1所述的数据处理方法,其特征在于,合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集,包括:
在第一次合并所述最终样本数据和所述保留样本数据之后,多轮迭代执行确定所述最终样本数据和所述保留样本数据的步骤,并将多轮迭代执行步骤得到的最终样本数据和保留样本数据进行合并得到所述建模数据集。
3.根据权利要求1所述的数据处理方法,其特征在于,通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据,具体包括:
根据所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的加权预测概率,并结合所述开发数据集的真实样本标签确定分类预测损失函数;
采用所述分类预测损失函数对所述开发数据集进行预测并挑选所述开发数据集中的预测损失率小于预设阈值的样本数据作为所述开发数据集的保留样本数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,确定所述M个目标模型对应的M个特征集合,包括:
在获取到每个目标模型的第一特征分布队列与第二特征分布队列之后,获取所述第一特征分布队列的第一队列描述信息和所述第二特征分布队列的第二队列描述信息,其中,所述第一特征分布队列中包括第一特征分布轨迹,所述第二特征分布队列中包括第二特征分布轨迹;
获取所述第一队列描述信息中的每一组信息变量与所述第二队列描述信息中的每一组信息变量,得到信息变量矩阵;确定所述信息变量矩阵中的任意两组信息变量之间的变量相关性系数,得到第一相关性系数列表;将所述第一相关性系数列表中的小于目标系数的变量相关性系数调整为目标系数,得到第二相关性系数列表;根据所述第二相关性系数列表,以及所述第一特征分布轨迹和所述第二特征分布轨迹之间的重合度,确定每个目标模型对应的特征集合。
5.根据权利要求2所述的方法,其特征在于,每一次合并所述最终样本数据和所述保留样本数据的步骤,具体包括:
构建所述最终样本数据对应的第一数据标签分布,构建所述保留样本数据对应的第二数据标签分布,所述第一数据标签分布和所述第二数据标签分布分别包括多个不同标签识别度的样本字段;
提取所述最终样本数据在所述第一数据标签分布的任一样本字段的字段特征信息,将所述第二数据标签分布中具有最小标签识别度的样本字段确定为目标样本字段;
根据所述最终样本数据和所述保留样本数据之间的时序相关度将所述字段特征信息映射到所述目标样本字段,在所述目标样本字段中得到字段映射信息,并根据所述字段特征信息、所述字段映射信息,生成所述最终样本数据和所述保留样本数据之间的样本标签映射路径;
以所述字段映射信息为参考信息在所述目标样本字段中获取待合并信息,根据所述样本标签映射路径对应的多个映射路径节点的节点参数,将所述待合并信息映射到所述字段特征信息所在样本字段,在所述字段特征...
【专利技术属性】
技术研发人员:顾凌云,谢旻旗,段湾,黄以增,张涛,张凯,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。