基于二分类模型验证新渠道特征工程正确性的方法及装置制造方法及图纸

技术编号:23316238 阅读:17 留言:0更新日期:2020-02-11 18:12
本申请提供一种基于二分类模型验证新渠道特征工程正确性的方法及装置,涉及风控技术领域。本申请实施例通过获取新渠道用户的特征信息和已有渠道用户的特征信息,根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以快速确定是否需要对新渠道用户的特征信息进行正确性验证,无需对特征信息进行一一比较,从而可以减少新渠道特征工程正确性验证的时长,实现快速有效地对新渠道特征工程正确性进行验证。

Method and device to verify the correctness of new channel feature engineering based on two classification model

【技术实现步骤摘要】
基于二分类模型验证新渠道特征工程正确性的方法及装置
本申请涉及风控
,具体而言,涉及一种基于二分类模型验证新渠道特征工程正确性的方法及装置。
技术介绍
风险控制(风控)是指风险管理者采取各种措施和办法,预防各类风险实现发生或发生的可能性。在金融领域中,一些线上贷款公司经常需要从新渠道引流,即,需要引进新用户;此时,公司的风控系统则需要基于新渠道提供的用户基本信息或者一些附加信息生成用户的特征信息,以排查新渠道中存在的骗贷、欺诈等风险,为了保证排查结果的准确性,需要保证所生成的特征信息是正确可靠的。现有技术中,实现特征正确性验证的方法通常为:获取来自新渠道的用户的原始数据;将新渠道的用户的原始数据与已有渠道的用户的原始数据进行人工对比,确保存储结构、字段命名、取值单位等保持一致;以及,将新渠道的用户的特征信息取出,逐一统计特征信息中每个特征的均值、中值或者空值率等统计量,与已有渠道的用户的特征信息进行对比,挑选差别较大的特征进行追溯排查。但是上述现有的特征正确性验证的方法中,人工一一对比原始数据、以及逐一统计特征信息中每个特征的统计量对差别较大的特征进行挑选的过程,需要耗费大量的时长。
技术实现思路
本申请的目的在于,提供一种基于二分类模型验证新渠道特征工程正确性的方法及装置,可以对新渠道用户进行特征工程所生成的特征信息的正确性进行快速、有效地验证,减少验证新渠道特征工程正确性的验证时长。第一方面,本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的方法,该方法包括:获取新渠道用户的特征信息和已有渠道用户的特征信息;根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度;其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,已有渠道标签为0,新渠道标签为1;上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,分类参数大于等于0、且小于等于1;采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。可选地,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,包括:若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,包括:若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,上述按照预设规则对新渠道用户的特征信息进行正确性验证,包括:根据新渠道用户的特征信息中各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到新渠道用户的特征信息中各特征对应的重要程度排序队列;从重要程度排序队列中,选择前预设数量个特征进行正确性验证。可选地,上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度之前,该方法还包括:获取样本特征信息集合,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;采用预设神经网络以及样本特征信息集合,训练获取二分类模型。第二方面,本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的装置,该装置包括:特征获取模块,用于获取新渠道用户的特征信息和已有渠道用户的特征信息;计算模块,用于根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度;其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;验证模块,用于若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,已有渠道标签为0,新渠道标签为1;计算模块包括:二分类子模块,用于根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,分类参数大于等于0、且小于等于1;计算子模块,用于采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。可选地,计算子模块,具体用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;相应地,验证模块,具体用于若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,计算子模块,具体用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;相应地,验证模块,具体用于若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。可选地,验证模块包括:排序子模本文档来自技高网...

【技术保护点】
1.一种基于二分类模型验证新渠道特征工程正确性的方法,其特征在于,包括:/n获取新渠道用户的特征信息和已有渠道用户的特征信息;/n根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;其中,所述预设二分类模型通过样本特征信息集合训练获取,所述样本特征信息集合包括:样本特征信息,所述样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且所述已有渠道用户的特征信息包含已有渠道标签、所述新渠道用户的特征信息包含新渠道标签;/n若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。/n

【技术特征摘要】
1.一种基于二分类模型验证新渠道特征工程正确性的方法,其特征在于,包括:
获取新渠道用户的特征信息和已有渠道用户的特征信息;
根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;其中,所述预设二分类模型通过样本特征信息集合训练获取,所述样本特征信息集合包括:样本特征信息,所述样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且所述已有渠道用户的特征信息包含已有渠道标签、所述新渠道用户的特征信息包含新渠道标签;
若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。


2.根据权利要求1所述的方法,其特征在于,所述已有渠道标签为0,所述新渠道标签为1;所述根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据预设二分类模型,分别获取所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,所述分类参数大于等于0、且小于等于1;
采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度。


3.根据权利要求2所述的方法,其特征在于,所述采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;
相应地,所述若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证,包括:
若所述KS值大于或等于0.2,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。


4.根据权利要求2所述的方法,其特征在于,所述采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;
相应地,所述若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证,包括:
若所述AUC值大于或等于0...

【专利技术属性】
技术研发人员:邱磊徐凯波
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1