风控模型创建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38408736 阅读:11 留言:0更新日期:2023-08-07 11:16
本申请公开一种风控模型创建方法,其包括:获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。所述第一模型评价指标确定的最优超参数值。所述第一模型评价指标确定的最优超参数值。

【技术实现步骤摘要】
风控模型创建方法、装置、电子设备及存储介质


[0001]本专利技术涉及基于计算机的金融科技(Fintech)领域,具体地涉及一种风控模型创建方法和装置以及相关的电子设备及存储介质。

技术介绍

[0002]随着大数据和机器学习技术的发展与成熟,以及计算机计算能力的提升与算法的改进,智能风控已经逐步取代传统风控,拥有更高准确度与特征识别能力的机器学习已经逐渐取代传统数据分析方法,成为互联网金融机构主流的风控管理及数据挖掘模式。然而,机器学习模型的优劣很大程度上依赖于数据的好坏、特征的选择和模型自身的参数,因此在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解,这在无形中提高了应用机器学习进行数据分析的门槛和成本。此外,如果要对不同业务、不同场景、不同客户群体建立定制化的机器学习模型,则进一步增大了模型建模的难度。
[0003]本
技术介绍
描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。

技术实现思路

[0004]因此,本专利技术实施例意图提供一种风控模型创建方法及装置以及电子设备和存储介质,其能够自动建模和优化模型,显著提高建模效率,并且降低建模复杂性。
[0005]在第一方面,提供一种风控模型创建方法,包括:获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
[0006]在第二方面,提供一种风控模型创建装置,包括:获取模块,被配置为获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;生成模块,被配置为对所述原始数据进行数据处理,生成样本数据;以及建模模块,被配置为预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
[0007]在第三方面,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一实施例所述的处理方法。
[0008]在第四方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一实施例所述的处理方法。
[0009]本专利技术实施例提出一种改进的处理方案,获取与要进行风控管理的业务相关联的
原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。由此,相比于传统上在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解,本专利技术实施例的方案能够自动生成和优化模型,从而降低了建模难度,提升了建模效率,提高了模型可解释性,并且赋予了非专家用户建模能力。
[0010]本专利技术实施例的可选特征和其他效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
[0011]结合附图来详细说明本专利技术的实施例,所示元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
[0012]图1示出根据本专利技术实施例的风控模型创建环境的示例性示意图;
[0013]图2示出根据本专利技术实施例的风控模型创建方法的示例性流程图;
[0014]图3示出根据本专利技术实施例的数据处理过程的示例性示意图;
[0015]图4示出根据本专利技术实施例的数据实验过程的示例性示意图;
[0016]图5示出根据本专利技术实施例的机器学习工具的执行过程的示例性示意图;
[0017]图6示出根据本专利技术实施例的风控模型创建框架的示例性示意图;
[0018]图7示出根据本专利技术实施例的风控模型创建系统的示例性示意图;
[0019]图8示出传统评分卡建模过程的示例性示意图;
[0020]图9示出根据本专利技术实施例的评分卡建模过程的示例性流程图;
[0021]图10示出根据本专利技术实施例的风控模型创建装置的结构示意图;以及
[0022]图11示出了能实施根据本专利技术实施例的方法的电子设备的示例性结构示意图。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施方式及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0024]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0025]本专利技术实施例提供一种风控模型创建方法和装置以及相关的电子设备和存储介质。该风控模型创建方法可以借助于一个或多个计算机、如终端实施。在一些实施例中,风控模型创建装置可以由软件、硬件或软硬件结合实现。
[0026]如上所述,由于机器学习模型的优劣很大程度上依赖于数据的好坏、特征的选择
和模型自身的参数,因此在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解。这将导致许多问题,例如,建模技术门槛高,建模效率低,模型可解释性低,非专家用户难以建模等。
[0027]具体地,在建模技术门槛高方面,建模人员需要同时具备数理统计、机器学习、计算机编程能力和建模实践经验等。风控建模工作通常只有金融科技类的第三方咨询公司、大型银行可以投入足够资源开展,绝大多数中小银行没有专门的数据分析与建模团队。
[0028]在建模效率低方面,风控模型的开发和处理流程通常异常复杂,开发周期较长,人力投入较多,工程量巨大。人工建模需要花费很多时间进行数据预处理、模型选择、变量选择、调参、模型评估等各个环节,但在业务应用上却通常希望能快速开发、迭代、优化,高效率支持响应业务需求。
[0029]在模型可解释性低方面,金融机构的风控模型通常要求具有一定的可解释性,所以绝大多数风控模型是基于逻辑回归的评分卡模型。评分卡模型建模过程比一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风控模型创建方法,其特征在于,包括:获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。2.根据权利要求1所述的风控模型创建方法,其特征在于,还包括:基于预定的第二模型评价指标,利用测试数据对所述风控模型进行测试。3.根据权利要求1所述的风控模型创建方法,其特征在于,还包括:利用容器分布式部署所述风控模型,用于对所述业务进行风控管理。4.根据权利要求1所述的风控模型创建方法,其特征在于,所述对所述原始数据进行数据处理,生成样本数据,包括:基于一组指定特征,从所述原始数据中选择第一数据集;基于指定抽样规则,从所述第一数据集中选择第二数据集;基于指定特征衍生规则,根据所述第二数据集的特征生成衍生特征,以得到包括所述衍生特征的特征值的第三数据集;以及基于所述第三数据集生成所述样本数据。5.根据权利要求4所述的方法,其特征在于,所述基于指定特征衍生规则,根据所述第二数据集的特征生成衍生特征,以得到包括衍生特征的特征值的第三数据集,包括:选择第二数据集的多个特征用于特征衍生;设置一个或多个衍生逻辑;基于预设的衍生标准验证所述一个或多个衍生逻辑,以筛选出符合衍生标准的衍生逻辑;基于所述符合衍生标准的衍生逻辑,由所述第二数据集的多个特征及其特征值衍生得到所述衍生特征及其特征值。6.根据权利要求4或5所述的方法,其特征在于,基于所述第三数据集生成所述样本数据包括:基于指定转码方式,将所述第三数据集转换为转码数据;填充所述转码数据中的缺失值,以生成填充数据;去除所述填充数据中的异常值,以生成正常数据;以及去除所述正常数据中的重复值,以生成所述样本数据。7.根据权利要求1所述的方法,其特征在于,所述预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,包括:在多个备选风控模型算法类型中选择所述预设的一个或多个风控模型算法类型,可选地,所述备选风控模型算法类型包括逻辑回归、极端梯度提升、提升机器、梯度提升、朴素贝叶斯、决策树和随机森林中至少两种;设置所述模型超参数搜索设置值,所述模型超参数搜索设置值包括超参数搜索方法、
训...

【专利技术属性】
技术研发人员:冯宏轩鲁溪陈光赵子渌
申请(专利权)人:百融云创科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1