风控特征生成方法及系统技术方案

技术编号:26173955 阅读:33 留言:0更新日期:2020-10-31 13:59
本发明专利技术揭示了一种风控特征生成方法及系统,所述方法包括:对风控特征数据进行筛选,筛选出风控特征数据的数据质量、接入时间及数据稳定性达到设定条件的风控特征数据;获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;获取变量间相关性数据,选择变量间相关性低于设定阈值的风控特征数据;获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。本发明专利技术可高效快速地迭代出最佳特征集,并能在删除过多特征后根据删除原因回溯可用特征。

【技术实现步骤摘要】
风控特征生成方法及系统
本专利技术属于互联网科技
,涉及一种风控方法,尤其涉及一种风控特征生成方法及系统。
技术介绍
金融科技的核心就是和大数据技术有效结合,金融机构通过有效利用大数据,在客户信用评级方面能很大程度提高效率和风控能力。金融机构的数据来源分内部数据和外部数据,内部数据以客户APP行为记录和自有黑白名单为主;外部数据源有基于与传统银行、公安等机关合作获取的客户基础信息、以大型互联网公司提供的基于电商流量数据以及整合多方数据来源的技术公司,涉及到的行业有央行征信报告、司法信息、公安信息、信用卡信息等方面。除此之外有各种数据源亦可以衍生出成百上千的特征。例如央行征信报告中,从个人信用卡记录、欠税记录等不同角度可以衍生出一千多个变量。由此可见,风控领域用于建模的特征数据及其广泛,然而对于预测因变量最有效的特征通常只有部分。因此,在成千上万的特征中有效率地选择最有效的特征是风控建模中极其重要的环节。现有相关文献中,专门对风控模型的特征选择进行研究的文献不多,主要都是在机器学习算法研究中通用的特征选择原则和方法。其基本的原则是先本文档来自技高网...

【技术保护点】
1.一种风控特征生成方法,其特征在于,所述生成方法包括:/n步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;/n步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;/n步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;/n步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;/n两两相关性计算公...

【技术特征摘要】
1.一种风控特征生成方法,其特征在于,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;
两两相关性计算公式为:



其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
方差膨胀系数公式为:



其中,R2是某个特征与其余特征之间的判定系数;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合;同时使用逐步回归、递归特征消除的算法获取最优特征组合,最终根据特征组合的模型效果选择出最终特征组合;
逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著时才加入该特征;当方程加入该特征后,对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如此下去,直到老特征不可删除,新特征也无法加入为止;
递归特征消除是一种寻找最优特征子集的贪心算法,主要的思路是:反复地构建模型,根据系数选出最好的或者最差的特征,然后在剩余的特征上重复这个过程,直到所有特征都遍历;这个过程中特征被消除的次序就是特征的排序。


2.一种风控特征生成方法,其特征在于,所述生成方法包括:
步骤S1、对风控特征数据进行筛选,筛选出数据质量、接入时间及数据稳定性达到设定条件的风控特征;
步骤S2、获取风控模型,根据获取的风控模型得到其对风控特征数据统计学特性及数据内在特性的要求;
步骤S3、获取需要达到的指标数据,根据需要达到的指标数据对风控特征数据进行筛选,选取预测能力满足设定条件的风控特征数据;
步骤S4、获取特征间相关性数据,选择相关性低于设定阈值的特征;
步骤S5、获取最优特征组合,通过逐步回归、递归特征消除的算法得到最优特征组合。


3.根据权利要求2所述的风控特征生成方法,其特征在于:
通过两两变量间的相关性以及衡量特征多重共线性程度的方差膨胀系数;不同算法对特征间相关性要求不一样,通过相关性选择特征需要根据算法区别对待;
两两相关性计算公式为:



其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
方差膨胀系数公式为:



其中,R2是某个特征与其余特征之间的判定系数。


4.根据权利要求2所述的风控特征生成方法,其特征在于:
步骤S4中,逐步回归的处理方式包括:将特征逐一放入模型中,在引入特征时需要利用偏回归平方和进行检验,当显著是才加入该特征;当方程加入该特征后,又要对原有的特征重新用偏回归平方和进行检验,一旦特征不显著便删除该特征;如...

【专利技术属性】
技术研发人员:林建明
申请(专利权)人:深圳无域科技技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1