【技术实现步骤摘要】
基于不平衡数据处理的信贷风险评估方法与系统
本专利技术涉及风险评估
,尤其涉及一种基于不平衡数据处理的信贷风险评估方法和一种基于不平衡数据处理的信贷风险评估系统。
技术介绍
信贷风险评估方法,是根据客户的信用属性等数据进行特征处理,然后采用特定的方法对客户进行信用评估,据此决定是否给予授信,从而识别和减少在金融交易中存在的风险。在传统的信贷风险评估方法中,特征处理部分往往依靠专家的知识和经验为准,采用传统客户基本信息,结合一般性的统计方法进行较为主观的判断,对信贷风险评估能力较低,不能有效识别违约客户。现行的基于机器学习的信贷风险评估方法:根据客户的信用属性等数据,利用数据预处理方法对样本数据进行数据清洗,将样本数据转换成可以建模的数据。然后,根据特征重要性进行特征选取,利用机器学习算法构建信贷风险评估分类器,对客户进行信用评估。传统分类问题基于两种假设:(1)各类别间数目大致均等;(2)各种类别错分的代价相同。但不平衡数据中的少数样本发生的概率低于多数类样本,且代价明显高于多数类样本,若采用传统分类器 ...
【技术保护点】
1.一种基于不平衡数据处理的信贷风险评估方法,其特征在于,包括:/n在接收到用户通过客户端发起的申请信贷请求时,获取所述用户填写的客户信息;/n根据所述客户信息,获取所述用户的信用数据中的特征变量;/n将所述特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;/n根据所述信贷风险评估模型输出的预测结果,判断是否通过所述用户的信贷请求,并将判断结果返回至所述客户端。/n
【技术特征摘要】
1.一种基于不平衡数据处理的信贷风险评估方法,其特征在于,包括:
在接收到用户通过客户端发起的申请信贷请求时,获取所述用户填写的客户信息;
根据所述客户信息,获取所述用户的信用数据中的特征变量;
将所述特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;
根据所述信贷风险评估模型输出的预测结果,判断是否通过所述用户的信贷请求,并将判断结果返回至所述客户端。
2.根据权利要求1所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述基于不平衡数据处理的信贷风险评估模型的训练方法包括:
获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗;
利用随机森林方法对数据清洗后的所述信用数据样本集进行特征筛选,获得特征数据集;
利用不平衡数据处理方法对所述特征数据集进行类别平衡,得到训练数据集;
基于逻辑回归算法和xgboost机器学习算法构建集成分类器;
将所述训练数据集输入所述集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的所述信贷风险评估模型。
3.根据权利要求2所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述利用不平衡数据处理方法对所述特征数据集进行类别平衡的具体过程包括:
针对所述特征数据集计算多数类样本中心和少数类样本中心;
为靠近所述多数类样本中心的父样本增加过采样权重;
选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本;
根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。
4.根据权利要求3所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述计算多数类样本中心和少数类样本中心的具体过程包括:
对所述特征数据集中的数据进行归一化处理;
将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;
计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;
根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心。
5.根据权利要求4所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述为靠近所述多数类样本中心的父样本增加过采样权重具体包括:
选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;
遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;
根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;
遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量。
6.根据权利要求5所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本的具体过程包括:
利用KNN算法获取所述父样本的少数类K近邻集合;
遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;
对所述距离集合进行由小到大排序,选取所述距离集...
【专利技术属性】
技术研发人员:何泾沙,张宇晗,朱娜斐,夏新宇,宜裕紫,潘世佳,靳姝婷,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。