金融风控逻辑回归特征筛选方法及系统技术方案

技术编号：26173956 阅读：22 留言：0更新日期：2020-10-31 13:59

本发明专利技术揭示了一种金融风控逻辑回归特征筛选方法及系统，所述特征筛选方法包括：获取P个初始变量；从获取的初始变量中生成N份初始变量组合，形成N个数据模型；从数据集中拆分出1～n份数据，作为评估数据集；通过N个数据模型分别对各评估数据集进行评估，得到各评估数据集在各数据模型的评估数据；对于各个评估数据集，从N个数据模型得到的评估数据中选择排名前m的数据模型；在各数据集的排名前m的数据模型中，判断是否存在在每份数据集都出现的数据模型，若存在一个，将该数据模型作为最优数据模型；若存在至少两个，根据评估指标选出初始变量组合中的最佳模型。本发明专利技术更好地保证模型在未来的数据上有相对更好的泛化能力。

Method and system of logistic regression feature selection for financial risk control

全部详细技术资料下载

【技术实现步骤摘要】
金融风控逻辑回归特征筛选方法及系统
本专利技术属于数据处理
，涉及一种数据筛选方法，尤其涉及一种金融风控逻辑回归特征筛选方法及系统。
技术介绍
互联网金融风险控制的核心目标之一是把客户逾期风险控制在一个最优区间。而利用用户过往的行为数据，应用机器学习技术建立模型预测客户在不同场景下未来的风险是实施风险控制的主要手段之一。在互联网金融风险控制场景下，模型的首要目标是预测借款客户在未来一段时间内的逾期风险，所以模型在不同业务场景下是否具备不错的泛化能力是建模人员关注的主要问题。而模型的泛化能力跟建模人员选取的变量组合关系密切。因此，结合互联网金融领域常用的技术之一—logistic回归模型，本专利侧重研究如何选取具有良好泛化能力的变量组合。Logistic模型是互联网金融风险控制的主要技术之一，该模型在实际运用中的难点之一是在众多变量中通过比较不同子集的优劣，筛选出一组合适变量，建立具有不错区分能力和泛化能力的稳健模型。目前Logistic回归变量筛选的研究主要集中在如何提高模型的区分能力，也即减少模型预测的偏差，...

【技术保护点】
1.一种金融风控逻辑回归特征筛选方法，其特征在于，所述特征筛选方法包括：/n步骤S1、获取可用于建模的所有特征，作为初始变量；/n步骤S2、通过随机无放回取样的方式从步骤S1获取的初始变量中随机生成N份初始变量组合，形成N个初始数据模型；所述N个初始数据模型用于评估变量对于模型的贡献；/n步骤S3、从设定数据集中拆分出1～n份数据，作为评估数据集；/n步骤S4、上述构建的N个数据模型中，把每一个数据模型依次对各评估数据集进行评估，得到各评估数据集在各数据模型的评估数据；评估指标包括KS,AUC，如果关注模型分组风险单调性，则把模型分组风险单调性作为评估指标；/n步骤S5、对于N个数据模型，每一...

【技术特征摘要】
1.一种金融风控逻辑回归特征筛选方法，其特征在于，所述特征筛选方法包括：
步骤S1、获取可用于建模的所有特征，作为初始变量；
步骤S2、通过随机无放回取样的方式从步骤S1获取的初始变量中随机生成N份初始变量组合，形成N个初始数据模型；所述N个初始数据模型用于评估变量对于模型的贡献；
步骤S3、从设定数据集中拆分出1～n份数据，作为评估数据集；
步骤S4、上述构建的N个数据模型中，把每一个数据模型依次对各评估数据集进行评估，得到各评估数据集在各数据模型的评估数据；评估指标包括KS,AUC，如果关注模型分组风险单调性，则把模型分组风险单调性作为评估指标；
步骤S5、对于N个数据模型，每一个对应n份评估数据集评估结果；对于每一份评估数据集都选出排名前m的数据模型；
步骤S6、在n份评估数据集的排名前m的数据模型中，判断是否存在在每份数据集都出现的数据模型，若存在一个，将该数据模型作为最优数据模型f1；若存在至少两个，根据评估指标ESA和ESSD，选出初始变量组合中的最优数据模型f1；如果在每份数据集排名前m的模型中没有共同数据模型，则扩大选择范围，选择排名前m+o的数据模型，直到选出最优数据模型f1；其中，o为正整数；
步骤S7、以步骤S6选出的最优数据模型f1对应的变量组合为基础，逐个添加剩余变量进行建模，依据步骤S6逻辑选出泛化能力最佳模型f2；所述剩余变量指除了最优数据模型f1变量之外的所有变量；
步骤S8、根据模型在多份评估集上的综合评估指标，判断f2的评估结果在多数评估数据上是否提升，递归逐个添加剩余变量建模；直到评估结果在多数评估数据上较上一轮没有提升。

2.一种金融风控逻辑回归特征筛选方法，其特征在于，所述特征筛选方法包括：
步骤S1、获取可用于建模的所有特征，作为初始变量；
步骤S2、从步骤S1获取的初始变量中生成N份初始变量组合，形成N个数据模型；
步骤S3、从设定数据集中拆分出1～n份数据，作为评估数据集；
步骤S4、上述构建的N个数据模型中，把每一个数据模型依次对各评估数据集进行评估，得到各评估数据集在各数据模型的评估数据；
步骤S5、对于N个数据模型，每一个对应n份评估数据集评估结果；对于每一份评估数据集都选出排名前m的数据模型；
步骤S6、在n份评估数据集的排名前m的数据模型中，判断是否存在在每份数据集都出现的数据模型，若存在一个，将该数据模型作为最优数据模型f1；若存在至少两个，根据评估指标选出初始变量组合中的最优数据模型f1；如果在每份数据集排名前m的模型中没有共同数据模型，则扩大选择范围，选择排名前m+o的数据模型，直到选出最优数据模型f1；其中，o为正整数。

3.根据权利要求2所述的金融风控逻辑回归特征筛选方法，其特征在于：
所述方法进一步包括：
步骤S7、以步骤S6选出的最优数据模型对应的变量组合为基础，逐个添加剩余变量进行建模，依据步骤S6逻辑选出泛化能力最佳模型f2；所述剩余变量指除了模型f1变量之外的所有变量；
步骤S8、根据模型在多份评估集上的综合评估指标，判断f2的评估结果在多数评估数据上是否提升，递归逐个添加剩余变量建模；直到评估结果在多数评估数据上较上一轮没有提升。

4.根据权利要求2所述的金融风控逻辑回归特征筛选方法，其特征在于：
步骤S2中，通过随机无放回取样的方式从步骤S1获取的初始变量中随机生成N份初始变量组合。

5.根据权利要求2所述的金融风控逻辑回归特征筛选方法，其特征在于：
步骤S6中，若存在至少两个，根据估计排序平均值ESA和估计排序标准差ESSD，选出初始变量组合中的最优模型。

6.根据权利要求5所述的金融风控逻辑回归特征筛选方法，其特征在于：
步骤S6中，估计排序平均值
估计排序标准差
其中，n表示有n份评估数据集，si...

【专利技术属性】
技术研发人员：林建明，
申请(专利权)人：深圳无域科技技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人