一种数据处理方法、装置及计算机设备制造方法及图纸

技术编号:27007528 阅读:22 留言:0更新日期:2021-01-08 17:12
本发明专利技术实施例所提供的数据处理方法、装置及计算机设备,首先获取第一样本数据并确定目标模型及其对应的特征集合,其次获取第二样本数据并将第二样本数据按照设定比例或设定时间顺序划分为开发数据集和验证数据集,然后基于目标模型、目标模型对应的特征集合、第一样本数据、开发数据集和验证数据集分别确定第一样本数据的最终样本数据以及开发数据集的保留样本数据并进行合并作为第一业务项目对应的建模数据集。如此,能够通过多个模型筛选出第一业务项目中稳定的建模样本,并筛选出第二业务项目中和第一业务项目分布相似的样本从而扩充第一业务项目建模的有效样本数,还能够利用多模型融合的预测结果来筛选样本,有效减低模型的偏差和方差。

【技术实现步骤摘要】
一种数据处理方法、装置及计算机设备
本专利技术涉及数据处理
,具体而言,涉及一种数据处理方法、装置及计算机设备。
技术介绍
现有的信贷产品冷启动建模方法多数是通过对其他信贷产品的原有存量样本数据或者新产品初期积累的少量新样本数据进行风险建模。较新的方案是根据迁移学习的方法,通过调整新旧样本的权重再进行融合的方式来进行建模。由于新旧样本属于不同的产品和客群,样本的分布上有差异。过分依赖其他产品的原有数据建模会导致预测结果的高偏差(Bias),过分依赖少量的新产品数据建模会导致模型的高方差(Variance)。用迁移学习的方式来融合新旧数据进行建模,也会因为单模型方差过大导致模型的泛化能力较差。
技术实现思路
为了改善上述问题,本专利技术提供了一种数据处理方法、装置及计算机设备。基于本专利技术实施例的第一方面,提供了一种数据处理方法,应用于计算机设备,所述方法包括:从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率;其中,加权权重为M个目标模型的AUC分值;对所述加权平均概率进行排序得到排序队列并按照设定比例从所述排序队列的两端抽取样本数据作为最终样本数据;通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据;合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集。可选地,合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集,包括:在第一次合并所述最终样本数据和所述保留样本数据之后,多轮迭代执行确定所述最终样本数据和所述保留样本数据的步骤,并将多轮迭代执行步骤得到的最终样本数据和保留样本数据进行合并得到所述建模数据集。可选地,通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据,具体包括:根据所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的加权预测概率,并结合所述开发数据集的真实样本标签确定分类预测损失函数;采用所述分类预测损失函数对所述开发数据集进行预测并挑选所述开发数据集中的预测损失率小于预设阈值的样本数据作为所述开发数据集的保留样本数据。可选地,确定所述M个目标模型对应的M个特征集合,包括:在获取到每个目标模型的第一特征分布队列与第二特征分布队列之后,获取所述第一特征分布队列的第一队列描述信息和所述第二特征分布队列的第二队列描述信息,其中,所述第一特征分布队列中包括第一特征分布轨迹,所述第二特征分布队列中包括第二特征分布轨迹;获取所述第一队列描述信息中的每一组信息变量与所述第二队列描述信息中的每一组信息变量,得到信息变量矩阵;确定所述信息变量矩阵中的任意两组信息变量之间的变量相关性系数,得到第一相关性系数列表;将所述第一相关性系数列表中的小于目标系数的变量相关性系数调整为目标系数,得到第二相关性系数列表;根据所述第二相关性系数列表,以及所述第一特征分布轨迹和所述第二特征分布轨迹之间的重合度,确定每个目标模型对应的特征集合。可选地,每一次合并所述最终样本数据和所述保留样本数据的步骤,具体包括:构建所述最终样本数据对应的第一数据标签分布,构建所述保留样本数据对应的第二数据标签分布,所述第一数据标签分布和所述第二数据标签分布分别包括多个不同标签识别度的样本字段;提取所述最终样本数据在所述第一数据标签分布的任一样本字段的字段特征信息,将所述第二数据标签分布中具有最小标签识别度的样本字段确定为目标样本字段;根据所述最终样本数据和所述保留样本数据之间的时序相关度将所述字段特征信息映射到所述目标样本字段,在所述目标样本字段中得到字段映射信息,并根据所述字段特征信息、所述字段映射信息,生成所述最终样本数据和所述保留样本数据之间的样本标签映射路径;以所述字段映射信息为参考信息在所述目标样本字段中获取待合并信息,根据所述样本标签映射路径对应的多个映射路径节点的节点参数,将所述待合并信息映射到所述字段特征信息所在样本字段,在所述字段特征信息所在样本字段中得到所述待合并信息对应的数据合并清单,根据所述数据合并清单将所述最终样本数据和所述保留样本数据进行拆分,按照所述数据合并清单中的数据合并顺序将拆分得到的最终样本数据的第一数据集和所述保留样本数据的第二数据集进行一一配对合并。基于本专利技术实施例的第二方面,提供了一种数据处理装置,应用于计算机设备,所述装置包括:模型训练模块,用于从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;数据划分模块,用于从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;标签确定模块,用于基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;分值计算模块,用于根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;数据筛选模块,用于根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率;其中,加权权重为M个目标模型的AUC分值;数据抽取模块,用于对所述加权平均概率进行排序得到排序队列并按照设定比例从所述排序队列的两端抽取样本数据作为最终样本数据;数据确定模块,用于通过所述开发本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,应用于计算机设备,所述方法包括:/n从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;/n从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;/n基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;/n根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;/n根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率;其中,加权权重为M个目标模型的AUC分值;/n对所述加权平均概率进行排序得到排序队列并按照设定比例从所述排序队列的两端抽取样本数据作为最终样本数据;/n通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据;/n合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集。/n...

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于计算机设备,所述方法包括:
从预设数据库中获取与第一业务项目对应的第一样本数据,基于所述第一样本数据训练N个候选模型,并通过最大互信息系数从所述N个候选模型中筛选M个目标模型,确定所述M个目标模型对应的M个特征集合;其中,N和M为正整数,N大于M;
从所述预设数据库中获取与第二业务项目对应的第二样本数据,将所述第二样本数据按照设定比例或设定时间顺序切分为开发数据集和验证数据集;
基于所述开发数据集以及所述开发数据集对应的数据特征对所述M个目标模型进行训练,以确定所述开发数据集、所述验证数据集和所述第一样本数据中的目标样本数据的命中概率,根据所述命中概率以及预设的概率阈值确定所述第一样本数据中的目标样本数据的命中标签;
根据所述M个目标模型输出的所述验证数据集的目标样本数据的命中概率以及实际样本标签计算所述M个目标模型的AUC分值;
根据所述第一样本数据的命中标签,筛选出所述M个目标模型输出的相同的目标样本数据并作为初筛样本数据;基于所述M个目标模型的第一样本数据的命中概率以及所述M个目标模型的AUC分值确定所述初筛样本数据的加权平均概率;其中,加权权重为M个目标模型的AUC分值;
对所述加权平均概率进行排序得到排序队列并按照设定比例从所述排序队列的两端抽取样本数据作为最终样本数据;
通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据;
合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集。


2.根据权利要求1所述的数据处理方法,其特征在于,合并所述最终样本数据和所述保留样本数据得到所述第一业务项目对应的建模数据集,包括:
在第一次合并所述最终样本数据和所述保留样本数据之后,多轮迭代执行确定所述最终样本数据和所述保留样本数据的步骤,并将多轮迭代执行步骤得到的最终样本数据和保留样本数据进行合并得到所述建模数据集。


3.根据权利要求1所述的数据处理方法,其特征在于,通过所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的保留样本数据,具体包括:
根据所述开发数据集的命中概率和所述M个目标模型的AUC分值确定所述开发数据集的加权预测概率,并结合所述开发数据集的真实样本标签确定分类预测损失函数;
采用所述分类预测损失函数对所述开发数据集进行预测并挑选所述开发数据集中的预测损失率小于预设阈值的样本数据作为所述开发数据集的保留样本数据。


4.根据权利要求1-3任一项所述的方法,其特征在于,确定所述M个目标模型对应的M个特征集合,包括:
在获取到每个目标模型的第一特征分布队列与第二特征分布队列之后,获取所述第一特征分布队列的第一队列描述信息和所述第二特征分布队列的第二队列描述信息,其中,所述第一特征分布队列中包括第一特征分布轨迹,所述第二特征分布队列中包括第二特征分布轨迹;
获取所述第一队列描述信息中的每一组信息变量与所述第二队列描述信息中的每一组信息变量,得到信息变量矩阵;确定所述信息变量矩阵中的任意两组信息变量之间的变量相关性系数,得到第一相关性系数列表;将所述第一相关性系数列表中的小于目标系数的变量相关性系数调整为目标系数,得到第二相关性系数列表;根据所述第二相关性系数列表,以及所述第一特征分布轨迹和所述第二特征分布轨迹之间的重合度,确定每个目标模型对应的特征集合。


5.根据权利要求2所述的方法,其特征在于,每一次合并所述最终样本数据和所述保留样本数据的步骤,具体包括:
构建所述最终样本数据对应的第一数据标签分布,构建所述保留样本数据对应的第二数据标签分布,所述第一数据标签分布和所述第二数据标签分布分别包括多个不同标签识别度的样本字段;
提取所述最终样本数据在所述第一数据标签分布的任一样本字段的字段特征信息,将所述第二数据标签分布中具有最小标签识别度的样本字段确定为目标样本字段;
根据所述最终样本数据和所述保留样本数据之间的时序相关度将所述字段特征信息映射到所述目标样本字段,在所述目标样本字段中得到字段映射信息,并根据所述字段特征信息、所述字段映射信息,生成所述最终样本数据和所述保留样本数据之间的样本标签映射路径;
以所述字段映射信息为参考信息在所述目标样本字段中获取待合并信息,根据所述样本标签映射路径对应的多个映射路径节点的节点参数,将所述待合并信息映射到所述字段特征信息所在样本字段,在所述字段特征...

【专利技术属性】
技术研发人员:顾凌云谢旻旗段湾黄以增张涛张凯
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1