基于逻辑回归模型的评分卡模型的建立方法技术

技术编号:28873721 阅读:53 留言:0更新日期:2021-06-15 23:07
本发明专利技术提供基于逻辑回归模型的评分卡模型的建立方法,包括确定样本数据,进行特征衍生,自动及人工对特征进行分箱处理,对分箱进行woe转换处理,利用XGBoost进行特征二次衍生,再利用逐步回归选择最终建模的特征,最终利用Lasso逻辑回归模型建模。本发明专利技术能够使得最后入选的特征和业务逻辑保持高度一致,使得模型的可解释性得到了进一步的提高,同时利用了XGBoost、Lasso算法,自动化衍生出高IV值特征、提供了内嵌的特征选择,显著提高模型拟合以及稳定效果。

【技术实现步骤摘要】
基于逻辑回归模型的评分卡模型的建立方法
本专利技术涉及金融科技信贷行业的用户评分卡
,具体涉及基于逻辑回归模型的评分卡模型的建立方法。
技术介绍
信贷业务是互联网金融公司主要的资产业务,通过给客户放款,赚取利息。然而在实际给客户放款的过程中,会存在一些客户逾期,贷款不还的情况。过多客户逾期不还贷款,可能导致公司资金链断裂从而破产。因此,在信贷风险管理领域,互联网金融公司更倾向于把贷款放给一些资质良好的用户,从而减少放款人群中逾期不还款的人数,增加公司营收。在当今互联网金融公司,基于各种机器学习算法建立的评分卡系统已经成为了筛选好坏客户的主流方式。通常来说,机器学习模型的可解释性和复杂度成反比关系,即一个模型的可解释越高,模型往往就会越简单。按照模型可解释性从高到低的顺序,主流的评分卡模型可大致列举为逻辑回归(LogisticRegression)、树模型(RandomForest,XGBoost)、再到近几年比较流行的深度学习模型CNN,LSTM等。虽然在给定足够多的数据样本的情况下,复杂度高的模型可能能更好地区分本文档来自技高网...

【技术保护点】
1.基于逻辑回归模型的评分卡模型的建立方法,其特征在于,包括以下步骤:/nS1、确定样本,收集相关数据,对变量进行预处理及衍生,并把数据集依比例分割为训练集与测试集;/nS2、自动对所述训练集的所有特征进行卡方最优分箱处理;/nS3、计算经过卡方分箱处理的特征的IV值以及特征之间的相关性,根据计算数据自动筛选出符合要求的特征,完成第一轮特征筛选;/nS4、对第一轮筛选的剩余特征进行人工分箱,逐个分析每一个特征分箱情况,使得特征分箱符合业务逻辑,删除不符合业务逻辑的特征;/nS5、对经过人工分箱处理后的特征进行woe处理;/nS6、计算经过woe处理后的特征的IV值以及特征之间的相关性,并根据计...

【技术特征摘要】
1.基于逻辑回归模型的评分卡模型的建立方法,其特征在于,包括以下步骤:
S1、确定样本,收集相关数据,对变量进行预处理及衍生,并把数据集依比例分割为训练集与测试集;
S2、自动对所述训练集的所有特征进行卡方最优分箱处理;
S3、计算经过卡方分箱处理的特征的IV值以及特征之间的相关性,根据计算数据自动筛选出符合要求的特征,完成第一轮特征筛选;
S4、对第一轮筛选的剩余特征进行人工分箱,逐个分析每一个特征分箱情况,使得特征分箱符合业务逻辑,删除不符合业务逻辑的特征;
S5、对经过人工分箱处理后的特征进行woe处理;
S6、计算经过woe处理后的特征的IV值以及特征之间的相关性,并根据计算数据进行第二次自动筛选,选出符合要求的特征;
S7、通过逐步回归算法,选取最终入模特征;
S8、对所述训练集进行5折交叉验证,自定义目标函数,平衡所述训练集KS值和训练所述测试集的KS值,通过网格搜索法找出最佳Lasso惩罚系数;
S9、当找出最佳Lasso惩罚系数后,通过Lasso逻辑回归模型与XGBoost模型分别对所述训练集进行正向建模与反向建模,当正向Lasso逻辑回归中所述训练集KS值与所述测试集KS值差距大于事先设定值,或者反向建模中所述训练集KS值显著低于正向建模中所述训练集KS值,则返回步骤S1重新定义所述训练集与测试集的样本或者重新选取用户群体;
S10、如果所述XGBoost模型生成的模型KS值比所述Lasso逻辑回归模型KS值高于设定值,则将所述XGBoost模型衍生出高维度特征加入模型,并返回S6重新筛选最终入模特征;
S11、在确定最终入模特征后,通过Lasso逻辑回归进行建模,并检验模型的各项指标,判断特征系数是否均大于0以及模型的PSI值是否均大于设定值;
S12、对于不符合步骤S11中指标的特征变量,将其删除,然后返回至步骤S6重新筛选最终入模特征;
S13、将上述符合条件的...

【专利技术属性】
技术研发人员:沈浩
申请(专利权)人:南京蜂泰互联网科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1