一种基于NSGA-II遗传算法的最优分箱数据处理方法及系统技术方案

技术编号:32669755 阅读:12 留言:0更新日期:2022-03-17 11:23
本发明专利技术提供了一种基于NSGA

【技术实现步骤摘要】
一种基于NSGA

II遗传算法的最优分箱数据处理方法及系统


[0001]本专利技术涉及数据分箱算法相关
,具体涉及一种基于NSGA

II遗传算法的最优分箱数据处理方法及系统。

技术介绍

[0002]分箱算法是特征工程的一种,主要是把数据按照不一样的规则分到不同的箱子里,可以理解为一种将连续型数据变为离散数据的建模方式。分箱可以减少数据中噪声的影响,提升模型的鲁棒性,如在金融评分系统中,对数据分箱可以避免极端值对建模的影响;分箱算法将连续变量离散化也方便特征衍生,可以直接把特征做内积提升特征维度。
[0003]分箱算法有多种方法,较为简易的有等距分箱和等频分箱,现有技术中较为常见的有k

means分箱和决策树分箱等。
[0004]在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:上述现有技术中常见的分箱方法不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE(Weight of evidence)单调性,且分箱效果不佳或分箱效率较低。

技术实现思路

[0005]本申请实施例通过提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法及系统,用于针对解决现有技术中常见分箱算法或多或少存在一定缺点,例如不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低,不易获得最佳分割结果的技术问题
[0006]鉴于上述问题,本申请实施例提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法及系统。
[0007]本申请实施例的第一个方面,提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法,所述方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得所述决策变量矩阵的IV值;根据所述决策变量矩阵和所述IV值定义目标函数向量;设定分箱的约束条件;根据所述分箱的约束条件和所述目标函数向量,使用NSGA

II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;根据所述多个最优解,获得最优分割点;根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
[0008]本申请实施例的第二个方面,提供了一种基于NSGA

II遗传算法的最优分箱数据处理系统,其中,所述系统包括:
第一获得单元,所述第一获得单元用于对数据样本进行预处理,获得第一数据样本;第一处理单元,所述第一处理单元用于按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;第二处理单元,所述第二处理单元用于根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;第二获得单元,所述第二获得单元用于获得所述决策变量矩阵的IV值;第三处理单元,所述第三处理单元用于根据所述决策变量矩阵和所述IV值定义目标函数向量;第四处理单元,所述第四处理单元用于设定分箱的约束条件;第五处理单元,所述第五处理单元用于根据所述分箱的约束条件和所述目标函数向量,使用NSGA

II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;第三获得单元,所述第三获得单元用于根据所述多个最优解,获得最优分割点;第六处理单元,所述第六处理单元用于根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。
[0009]本申请实施例的第三个方面,提供了一种基于NSGA

II遗传算法的最优分箱数据处理系统,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使系统以执行如第一方面所述方法的步骤。
[0010]本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本申请实施例通过对数据样本进行预处理,得到处理后的第一数据样本,然后进行预分箱获得n个预分箱,根据n个预分箱,定义决策变量矩阵,对n个预分箱进行合并处理,然后计算合并后的与定义决策变量矩阵对应的IV值,根据决策变量矩阵和IV值定义目标函数向量,然后设置分箱的约束条件,采用NSGA

II遗传算法对上述的第一数据样本进行多目标优化求解,获得多个最优解,根据多个最优解获得最优分割点,然后对第一数据样本进行分箱。本申请实施例提供的分箱数据处理方法支持设置各种限制条件,如单调性约束、箱数上下界约束、样本量约束、每一箱中事件发生与不发生的样本量约束,以满足各种业务的需求,通过预分箱减少分箱时间消耗,提升分箱的速率,排除异常数据的影响,可以同时优化分箱的IV值和HHI值,在分箱效果良好的情况下使得分箱更均匀,且分箱后可以保证WoE单调性,达到了高效分箱处理、根据业务需求设置约束条件、分箱效果较好的技术效果。
[0011]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0012]图1为本申请实施例提供的一种基于NSGA

II遗传算法的最优分箱数据处理方法流程示意图;图2为本申请实施例提供的一种基于NSGA

II遗传算法的最优分箱数据处理方法中获得预分箱结果对应三角矩阵示意图;图3为本申请实施例提供的一种基于NSGA

II遗传算法的最优分箱数据处理方法中合并预分箱结果后对应三角矩阵示意图;
图4为本申请实施例提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法中获得第一数据样本流程示意图;图5为本申请实施例提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法中获得多个最优解流程示意图;图6本申请实施例提供的一种基于NSGA

II遗传算法的最优分箱数据处理系统结构示意图;图7为本申请实施例示例性电子设备的结构示意图。
[0013]附图标记说明:第一获得单元11,第一处理单元12,第二处理单元13,第二获得单元14,第三处理单元15,第四处理单元16,第五处理单元17,第三获得单元18,第六处理单元19,电子设备300,存储器301,处理器302,通信接口303,总线架构304。
具体实施方式
[0014]本申请实施例提供了一种基于NSGA

II遗传算法的最优分箱数据处理方法及系统,用于针对解决现有技术中常见分箱算法或多或少存在一定缺点,例如不能设置分箱的约束条件,例如每箱的样本量、箱数的上下界等,不能满足分箱后的WoE单调性,且分箱效果不佳或分箱效率较低,不易获得最佳分割结果的技术问题。本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NSGA

II遗传算法的最优分箱数据处理方法,其中,所述方法包括:对数据样本进行预处理,获得第一数据样本;按照预分箱规则对所述第一数据样本进行预分箱,获得n个预分箱;根据所述n个预分箱,定义决策变量矩阵,包含一个大小为n的下三角矩阵,其中;获得所述决策变量矩阵的IV值;根据所述决策变量矩阵和所述IV值定义目标函数向量;设定分箱的约束条件;根据所述分箱的约束条件和所述目标函数向量,使用NSGA

II遗传算法对预分箱后的所述第一数据样本进行多目标优化求解,获得多个最优解;根据所述多个最优解,获得最优分割点;根据所述最优分割点,对预分箱后的所述第一数据样本进行分箱。2.如权利要求1所述的方法,其中,所述对数据样本进行预处理,获得第一数据样本,包括:获得预处理规则;按照所述预处理规则,对所述数据样本进行预处理,获得第二数据样本,所述第二数据样本包括不符合所述预处理规则的数据;对所述第二数据样本进行单独分箱;根据所述数据样本和所述第二数据样本,获得所述第一数据样本。3.如权利要求1所述的方法,其中,所述决策变量矩阵X满足的约束条件包括:所述决策变量矩阵X的每一列须包含一个1;所述决策变量矩阵X的每一行取值单调不减;所述决策变量矩阵X的最后一箱的形式须为, .同时需满足 ;只有连续的所述预分箱可以被合并,不相邻的所述预分箱不能进行合并。4.如权利要求1所述的方法,其中,所述获得所述决策变量矩阵的IV值的公式为:其中:
其中:表示第个所述预分箱中事件不发生的样本数;表示所有所述预分箱中事件不发生的样本数和;表示第个所述预分箱中事件发生的样本数;表示所有所述预分箱中事件发生的样本数和;表示所述决策变量矩阵中第i行j列位置的值。5.如权利要求4所述的方法,其中,所述根据所述决策变量矩阵和所述IV值定义目标函数向量,包括:其中,是每一所述预分的样本数量和;表示所述决策变量矩阵中第i行j列位置的值。6.如权利要求1所述的方法,其中,所述根据所述分箱的约束条件和所述目标函数向量,使用NS...

【专利技术属性】
技术研发人员:刘凯张韶峰冯鑫
申请(专利权)人:百融云创科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1