一种多源数据的自动化建模方法及系统技术方案

技术编号：39406803 阅读：8 留言：0更新日期：2023-11-19 15:58

本发明专利技术涉及一种多源数据的自动化建模方法，具体为S1：获取样本，包括获取模型样本和获取模型样本的数据维度，模型样本包括通过数据接口获取的模型样本，并根据网贷数据和催收数据确定模型样本的正或者负；S2：数据加工，包括数据清洗，对在步骤S1中获取的样本进行缺失值处理和异常值处理，并调配样本比例和权重；S3：生成数据表，将在步骤S2中清洗后的样本生成数据表；S4：划分数据，对数据表中的样本进行划分，获取训练集、验证集以及跨时间验证样本；S5：特征工程，包括特征构建和特征筛选；S6：建立模型，包括模型训练和模型评估；S7：模型配置，包括特征配置和监控配置，用于配置模型中的变量衍生规则并进行单条变量规则的测试。的变量衍生规则并进行单条变量规则的测试。的变量衍生规则并进行单条变量规则的测试。

全部详细技术资料下载

【技术实现步骤摘要】
一种多源数据的自动化建模方法及系统

[0001]本专利技术涉及金融风控模型建模的
，特别涉及一种适用于多源数据环境下的自动化建模方法及系统。

技术介绍

[0002]为了防控地方性金融风险，需要对待评分机构的原始金融数据进行系统化、规范化的按指标分权重进行评分。但是，传统的风险控制方法一般是按照从上往下进行计算评分，从待评分机构的原始金融数据中随机选择指标输入至预先定制的评分卡模型中进行计算评分。由于是对随机选择的指标进行计算评分，导致传统方法不仅难于全面覆盖所有指标，而且对于同一待评分机构，随机选择出的指标所对应的评分结果也可能具有随机性，无法保证评分卡模型的可信度。此外，对于不同的待评分机构，其所选择的指标可能也不相同，导致传统的检测方法在出现指标调整后(例如存在指标逻辑调整等)，可能会让预先定制的评分卡模型存在翻倍的计算工作量。
[0003]具体来说，传统的金融风控过程一般分以下几步：第一步，数据建模：建模人员从数据库中取数，进行数据清洗，准备建模工作；第二步，将模型部署到系统：开发人员将变量规则、模型规则、监控规则编写部署到系统上，进行测试；第三步，数据源和系统连接；第四步，建模人员进行上线数据测试，保证数据逻辑、模型逻辑、监控规则正确无误。
[0004]传统的金融风控存在以下缺点：一、传统的风控模型特征工程中采用WOE转换，再得用Logistic模型进行拟合构建特征工程的方法已经跟不上大数据、互联网、机器学习发展的速度；二、传统的金融风控中，模型部署需要建模人员将变量规则、模型规则、监控...

【技术保护点】

【技术特征摘要】
1.一种多源数据的自动化建模方法，其特征在于，包括如下步骤：S1：获取样本，包括获取模型样本和获取模型样本的数据维度，所述模型样本包括通过数据接口获取的模型样本，并根据网贷数据和催收数据确定模型样本的正或者负；S2：数据加工，包括数据清洗，对在步骤S1中获取的样本进行缺失值处理和异常值处理，并调配样本比例和权重；S3：生成数据表，将在步骤S2中清洗后的样本生成数据表；S4：划分数据，对所述数据表中的样本进行划分，获取训练集、验证集以及跨时间验证样本；S5：特征工程，包括特征构建和特征筛选；S6：建立模型，包括模型训练和模型评估；S7：模型配置，包括特征配置和监控配置，用于配置模型中的变量衍生规则并进行单条变量规则的测试。2.如权利要求1所述的多源数据的自动化建模方法，其特征在于，在步骤S5中所述特征构建包括以下步骤：S501：在步骤S4划分数据结束后，将样本中的每个变量进行WOE转换；S502：确定变化函数，形成连续变量；S503：对每个变量进行哑变量编码；S504：对多个连续变量进行加减乘除法运算后，再分别进行步骤S501、S502 和S503，得出不同类型的变量；S505：对不同类型的变量进行交叉组合；S506：保留变量：将变量的原值作为特征变量。3.如权利要求2所述的多源数据的自动化建模方法，其特征在于，在步骤S5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数，根据所述信息增益和所述相关系数来筛选变量，在所述相关系数强的变量之间，包括所述信息增益较大的那个所述特征变量。4.如权利要求3所述的多源数据的自动化建模方法，其特征在于，在步骤S6中所述模型训练包括以下步骤：S601：以特征筛选后获得的特征变量作为基础构建模型，并运用逻辑回归算法，进行模型拟合；S602：对拟合后的变量系数进行检查，删掉符号相反的变量后，再次进行模型拟合；S603：重复循环步骤S601和S602，直至变量系数全部正确；S604：对VIF比较高的变量，通过删除特征变量，使VIF达到正常水平，排除变量之间的多重共线性。5.如权利要求1所述的多源数据的自动化建模方法，其特征在于，在步骤S6中所述模型评估包括以下步骤：在所述模型训练完成后，通过模型的KS值、排序能力、PSI值以及模型在...

【专利技术属性】
技术研发人员：罗卫，李浩民，
申请(专利权)人：中邮消费金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人