【技术实现步骤摘要】
一种适用于碎片化数据的两阶段信贷风险评估方法及系统
[0001]本专利技术涉及信用评估
,特别是涉及一种适用于碎片化数据的两阶段信贷风险评估方法及系统。
技术介绍
[0002]在金融一体化的现实背景下,个人信贷业务已成为行业未来发展的关键领域。信用评分通常用于支持信贷业务中的风险管理和决策。它依赖于信用数据,通过构建信用风险评估的模型与方法,将申请人分为信用较好(不违约)的好客户和信用较差(违约)的坏客户。然而,由于存在信息成本、隐私保护和行业壁垒等因素,并非所有申请人的数据都可供金融机构访问。因此,互联网消费金融机构并不总是能够有效地获得信贷申请人的完整信息,金融信用评分中普遍存在数据缺失问题,信用数据(信用贷款数据)呈现碎片化,这给信用风险评估模型的预测准确性带来了巨大挑战,使得信贷风险评估往往偏离实际水平,信贷风险不可控,导致信贷损失和资源错配。因此,有效地处理碎片化数据是信用风险评估中亟需解决的关键问题。
[0003]现有的许多研究将碎片化数据视为数据缺失的一种特例,并采用处理缺失数据的删除法、插补法处 ...
【技术保护点】
【技术特征摘要】
1.一种适用于碎片化数据的两阶段信贷风险评估方法,其特征在于,所述方法包括:获取不同个人消费贷款申请人的信用样本;所述信用样本包括信用贷款数据以及与所述信用贷款数据对应的个人消费贷款申请人的信用状态;所述信用贷款数据为完整数据或不完整数据;所述完整数据包括贷款特征、基本信息特征、住房特征、手机特征和工作特征;所述不完整数据缺失贷款特征、基本信息特征、住房特征、手机特征和工作特征中的一种或多种;所述信用状态为不违约的好客户或违约的坏客户;将缺失情况相同的所述信用样本归到同一子集,得到每种所述缺失情况对应的子集;所述缺失情况包括不缺失贷款特征、基本信息特征、住房特征、手机特征和工作特征的情况以及缺失贷款特征、基本信息特征、住房特征、手机特征和工作特征中的一种和多种的情况;针对每种所述缺失情况,获取所述缺失情况对应的基础特征,所述基础特征为所述缺失情况未缺失的特征,并将所有缺失情况对应的子集中没有缺失所述基础特征的子集归到所述缺失情况对应的子集集合中;利用所述缺失情况对应的所述子集集合训练所述缺失情况对应的候选子模型,得到所述缺失情况对应的训练好的候选子模型;获取所述缺失情况对应的丢失特征,所述丢失特征为所述缺失情况缺失的特征,并将目标情况集合对应的训练好的候选子模型归到所述缺失情况对应的模型组中;所述目标情况集合包括缺失所述丢失特征的所有缺失情况;基于交叉验证法,利用链接函数和所述缺失情况对应的所述子集集合训练所述链接函数对应的模型,并利用训练好的模型得到预测的信用状态,比对所述预测的信用状态和所述子集集合中真实的所述信用状态,得到所述链接函数的AUC,将AUC最高的所述链接函数作为所述缺失情况对应的所述模型组的链接函数;所述链接函数包括线性回归函数、逻辑回归函数和机器学习方法;所述机器学习方法包括支持向量机方法、随机森林方法和XGBoost方法;根据待评估信用贷款数据得到待评估缺失情况;所述待评估信用贷款数据为待评估个人消费贷款申请人的信用贷款数据;所述待评估缺失情况为所述待评估个人消费贷款申请人的信用贷款数据对应的缺失情况;根据所述待评估缺失情况得到所述待评估缺失情况对应的所述模型组以及所述模型组的链接函数;将所述待评估信用贷款数据输入所述待评估缺失情况对应的所述模型组中,利用所述模型组的链接函数综合所述待评估缺失情况对应的所述模型组中各所述训练好的候选子模型输出的个人消费贷款申请人的信用状态,得到最终预测结果;所述最终预测结果为所述待评估信用贷款数据对应的个人消费贷款申请人的信用状态;所述最终预测结果用于信贷风险评估;采用SHAP方法,基于Shapley值计算所述贷款特征、所述基本信息特征、所述住房特征、所述手机特征和所述工作特征的贡献度;所述贡献度越高的特征对所述最终预测结果的影响程度越大。2.根据权利要求1所述的适用于碎片化数据的两阶段信贷风险评估方法,其特征在于,利用所述缺失情况对应的所述子集集合训练所述缺失情况对应的候选子模型,得到所述缺
失情况对应的训练好的候选子模型,具体包括:利用所述缺失情况对应的所述子集集合,采用自适应lasso逻辑回归模型训练所述缺失情况对应的候选子模型,得到所述缺失情况对应的训练好的候选子模型。3.根据权利要求1所述的适用于碎片化数据的两阶段信贷风险评估方法,其特征在于,所述线性回归函数对应的模型为线性回归模型;所述逻辑回归函数对应的模型为逻辑回归模型;所述支持向量机方法对应的模型为支持向量机模型;所述随机森林方法对应的模型为随机森林模型;所述XGBoost方法对应的模型为XGBoost模型。4.根据权利要求1所述的适用于碎片化数据的两阶段信贷风险评估方法,其特征在于,所述贷款特征包括贷款额度、商品总价、首付金额、月还款额、分期期数和是否保险;所述基本信息特征包括证件类型、性别、户籍类型、婚姻状况和受教育程度;所述住房特征包括现住址居住时间、住址是否同户籍和住房性质;所述手机特征包括号码使用年限、月平均话费和是否实名;所述工作特征包括单位性质、单位规模、现单位工作时长和收入。5.一种适用于碎片化数据的两阶段信贷风险评估系统,其特征在于,所述系统包括:碎片化数据获...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。