一种多源数据的自动化建模方法及系统技术方案

技术编号:39406803 阅读:8 留言:0更新日期:2023-11-19 15:58
本发明专利技术涉及一种多源数据的自动化建模方法,具体为S1:获取样本,包括获取模型样本和获取模型样本的数据维度,模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;S4:划分数据,对数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;S5:特征工程,包括特征构建和特征筛选;S6:建立模型,包括模型训练和模型评估;S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。的变量衍生规则并进行单条变量规则的测试。的变量衍生规则并进行单条变量规则的测试。

【技术实现步骤摘要】
一种多源数据的自动化建模方法及系统


[0001]本专利技术涉及金融风控模型建模的
,特别涉及一种适用于多源数据环境下的自动化建模方法及系统。

技术介绍

[0002]为了防控地方性金融风险,需要对待评分机构的原始金融数据进行系统化、规范化的按指标分权重进行评分。但是,传统的风险控制方法一般是按照从上往下进行计算评分,从待评分机构的原始金融数据中随机选择指标输入至预先定制的评分卡模型中进行计算评分。由于是对随机选择的指标进行计算评分,导致传统方法不仅难于全面覆盖所有指标,而且对于同一待评分机构,随机选择出的指标所对应的评分结果也可能具有随机性,无法保证评分卡模型的可信度。此外,对于不同的待评分机构,其所选择的指标可能也不相同,导致传统的检测方法在出现指标调整后(例如存在指标逻辑调整等),可能会让预先定制的评分卡模型存在翻倍的计算工作量。
[0003]具体来说,传统的金融风控过程一般分以下几步:第一步,数据建模:建模人员从数据库中取数,进行数据清洗,准备建模工作;第二步,将模型部署到系统:开发人员将变量规则、模型规则、监控规则编写部署到系统上,进行测试;第三步,数据源和系统连接;第四步,建模人员进行上线数据测试,保证数据逻辑、模型逻辑、监控规则正确无误。
[0004]传统的金融风控存在以下缺点:一、传统的风控模型特征工程中采用WOE转换,再得用Logistic模型进行拟合构建特征工程的方法已经跟不上大数据、互联网、机器学习发展的速度;二、传统的金融风控中,模型部署需要建模人员将变量规则、模型规则、监控规则编写成书面材料,交于开发人员,由开发人员将这些部署到系统上,并由开发人员和模型人员沟通,测试。这种方式不仅增加了沟通所需的成本,后续也可能由于沟通不到位导致测试时出现很多问题,且由于测试也需要开发人员配合测试,也耗费了人力、时间,增加了项目的成本。
[0005]本领域技术词汇解释:WOE转换:即把变量先分箱,然后用每箱的WOE值替代原始值,然后把WOE转换之后的变量拿来拟合逻辑回归。WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把变量进行分组处理(也叫离散化、分箱)。
[0006]Logistic回归模型:又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
[0007]哑变量编码:在统计学中,把一个分类变量用数值来表示的编码方法。一般常用0、1二值来表示每个分类变量,通常将0表示没有对应属性,而1则表示有该属性。哑变量编码也被称之为指示编码或二值化变量。
[0008]VIF:方差膨胀系数,用于衡量多元线性回归模型中复(多重)共线性的严重程度。
[0009]KS值:在模型中用于区分正负样本分隔程度的评价指标。KS值越大,表明正负样本
区分的程度越好,但并非所有情况都是KS越高越好。
[0010]PSI值:指群体稳定性指标(Population Stability Index)。PSI值是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。通常包括特征PSI和模型PSI。特征PSI关注特征的取值是否随时间推移发生大的波动,可用于模型训练和上线前特征选择、变量监控等。模型PSI关注训练集和验证集,以及模型上线部署后,模型的分布是否稳定。
[0011]vintage曲线:在信贷领域,vintage曲线是指贷款组合在给定时间点上的风险分布。Vintage曲线可以用来监控、预测和分析资产质量的好坏,是风险量化和精细化管理的重要指标。
[0012]Swift :一种类型安全的语言,具有自动引用计数(ARC)来管理内存,并且支持函数式编程和面向对象编程。
[0013]Hdfs: Hadoop分布式文件系统,是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。
[0014]Hive表:是用于存储和组织数据的对象,是Hadoop生态系统中的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。Hive表的设计包括表的名称、列的定义和其他属性。Hive表中的数据都存储在HDFS中,没有专门的数据存储格式,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
[0015]过拟合:过拟合(overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。

技术实现思路

[0016]基于此,本专利技术提供一种多源数据的自动化建模方法,其包括如下步骤:S1:获取样本,包括获取模型样本和获取模型样本的数据维度,所述模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;S4:划分数据,对所述数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;S5:特征工程,包括特征构建和特征筛选;S6:建立模型,包括模型训练和模型评估;S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。
[0017]优选地,在步骤S5中所述特征构建包括以下步骤:S501:在步骤S4划分数据结束后,将样本中的每个变量进行WOE转换;
S502:确定变化函数,形成连续变量;S503:对每个变量进行哑变量编码;S504:对多个连续变量进行加减乘除法运算后,再分别进行步骤S501、S502 和S503,得出不同类型的变量;S505:对不同类型的变量进行交叉组合;S506:保留变量:将变量的原值作为特征变量。
[0018]优选地,在步骤S5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数,根据所述信息增益和所述相关系数来筛选变量,在所述相关系数强的变量之间,包括所述信息增益较大的那个所述特征变量。
[0019]优选地,在步骤S6中所述模型训练包括以下步骤:S601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;S602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;S603:重复循环步骤S601和S602,直至变量系数全部正确;S604:对VIF比较高的变量,通过删除特征变量,使VIF达本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源数据的自动化建模方法,其特征在于,包括如下步骤:S1:获取样本,包括获取模型样本和获取模型样本的数据维度,所述模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;S4:划分数据,对所述数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;S5:特征工程,包括特征构建和特征筛选;S6:建立模型,包括模型训练和模型评估;S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。2.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在步骤S5中所述特征构建包括以下步骤:S501:在步骤S4划分数据结束后,将样本中的每个变量进行WOE转换;S502:确定变化函数,形成连续变量;S503:对每个变量进行哑变量编码;S504:对多个连续变量进行加减乘除法运算后,再分别进行步骤S501、S502 和S503,得出不同类型的变量;S505:对不同类型的变量进行交叉组合;S506:保留变量:将变量的原值作为特征变量。3.如权利要求2所述的多源数据的自动化建模方法,其特征在于,在步骤S5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数,根据所述信息增益和所述相关系数来筛选变量,在所述相关系数强的变量之间,包括所述信息增益较大的那个所述特征变量。4.如权利要求3所述的多源数据的自动化建模方法,其特征在于,在步骤S6中所述模型训练包括以下步骤:S601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;S602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;S603:重复循环步骤S601和S602,直至变量系数全部正确;S604:对VIF比较高的变量,通过删除特征变量,使VIF达到正常水平,排除变量之间的多重共线性。5.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在步骤S6中所述模型评估包括以下步骤:在所述模型训练完成后,通过模型的KS值、排序能力、PSI值以及模型在...

【专利技术属性】
技术研发人员:罗卫李浩民
申请(专利权)人:中邮消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1