【技术实现步骤摘要】
基于二道模型的业务数据筛选方法及装置
本专利技术涉及风控数据处理
,具体而言,涉及一种基于二道模型的业务数据筛选方法及装置。
技术介绍
目前,对线上贷款的审批数据进行准确筛选是控制信贷短期风险和长期风险的关键。现有技术一般采用前置数据筛分+模型识别的方式来对审批数据进行处理。然而,上述对审批数据进行处理的方法会出现对审批数据的误判,并且难以实现模型识别的区分度。
技术实现思路
为了改善上述问题,本专利技术提供了一种基于二道模型的业务数据筛选方法及装置。基于本专利技术实施例的第一方面,提供一种基于二道模型的业务数据筛选方法,所述方法包括:获取用户终端上传的待处理业务数据;在确定第一筛选模型的第一指标数据后,将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列,从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集,并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分,得到训练集和测试集;根据所述训练集计算所述待处理业务数据中的每个变量 ...
【技术保护点】
1.一种基于二道模型的业务数据筛选方法,其特征在于,所述方法包括:/n获取用户终端上传的待处理业务数据;/n在确定第一筛选模型的第一指标数据后,将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列,从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集,并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分,得到训练集和测试集;根据所述训练集计算所述待处理业务数据中的每个变量的IV值,并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征,将所述第一特征保存为第一列表文件;/n构建所述第一筛选模型并计算所述第一筛选模型在所述跨时 ...
【技术特征摘要】
1.一种基于二道模型的业务数据筛选方法,其特征在于,所述方法包括:
获取用户终端上传的待处理业务数据;
在确定第一筛选模型的第一指标数据后,将所述待处理业务数据按照时序先后顺序进行排序得到业务数据排序序列,从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集,并将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分,得到训练集和测试集;根据所述训练集计算所述待处理业务数据中的每个变量的IV值,并选择IV值大于设定值的第一目标变量作为所述第一筛选模型的第一特征,将所述第一特征保存为第一列表文件;
构建所述第一筛选模型并计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值,若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值都大于超过预定目标值,将所述第一筛选模型对应的模型参数保存为第一模型文件;
根据所述训练集、所述测试集以及所述跨时间验证集确定第二筛选模型的样本集;
在确定所述第二筛选模型的第二指标数据之后,确定所述第二筛选模型的第二特征并保存为第二列表文件;
根据所述样本集构建所述第二筛选模型并将所述第二筛选模型对应的模型参数保存为第二模型文件;
将所述第一列表文件、所述第一模型文件、所述第二列表文件以及所述第二模型文件进行关联存储。
2.根据权利要求1所述的方法,其特征在于,构建所述第一筛选模型,包括:
采用XGBoost的默认参数在训练集上建模,得到所述第一筛选模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值不都大于预定目标值,调整所述默认参数中的学习率参数和估计器个数参数并返回计算所述第一筛选模型在所述跨时间验证与所述测试集上的AUC值的步骤。
4.根据权利要求1-3任一项所述的方法,其特征在于,从所述业务数据排序序列中确定至少部分目标业务数据作为跨时间验证集,包括:
选取排序靠前的20%的目标业务数据作为所述跨时间验证集。
5.根据权利要求4所述的方法,其特征在于,将所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分,得到训练集和测试集,包括:
基于python软件的Scikit-learn(sklearn)工具包中的train_test_split函数对所述业务数据排序序列中除所述目标业务数据之外的业务数据进行划分,得到所述训练集和所述测试集。
6.一种基于二道...
【专利技术属性】
技术研发人员:顾凌云,谢旻旗,段湾,刘辉,任利华,张涛,潘峻,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。