【技术实现步骤摘要】
对数据自动分箱的方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种对数据自动分箱的方法及装置。
技术介绍
随着大数据、人工智能技术的发展和普及,越来越多的金融机构增加了对机器学习的重视程度,将传统基于人工决策的管理方法逐步转变为以数据驱动为基础的智能化决策。特别是在银行个人金融业务中,如信用卡业务、消费金融业务等领域,因其单笔金额小、申请频率高、时效要求高等原因,导致使用传统人工审批的方式无法满足业务诉求。使用机器学习方法来进行风险管理,特别是基于逻辑回归的评分卡模型,因其易于解释、快速迭代、成熟稳定的特征,正逐渐被广大银行所采纳。在评分卡过程中,分箱是尤为重要的一个环节,分箱能够提高模型稳定性,提高计算性能,但是如何实现自动分箱,如何将分箱过程最优化一直是机器学习建模中的一个问题。分箱的主要方法包括:等频分箱、等宽分箱、自动分箱等,其中,等频分箱主要是按数据占比进行分箱,如每10%数据作为一箱,等宽分箱主要是按特征最大最小值均分进行分箱,如年龄最大最小跨度为50,每10岁作为一箱,分为5箱,缺点在于弱化了特征取值不同对响应变量的影响。自动分箱方法中目 ...
【技术保护点】
1.一种对数据自动分箱的方法,其特征在于,所述方法包括:获取用户输入的基本特征数据以及分箱条件;将所述分箱条件带入预定义函数得到目标函数;根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向;以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定所述后一个函数值对应的调整后的初始向量作为分割点;依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。
【技术特征摘要】
1.一种对数据自动分箱的方法,其特征在于,所述方法包括:获取用户输入的基本特征数据以及分箱条件;将所述分箱条件带入预定义函数得到目标函数;根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向;以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定所述后一个函数值对应的调整后的初始向量作为分割点;依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。2.如权利要求1所述的方法,其特征在于,所述将所述分箱条件带入预定义函数得到目标函数之后包括步骤:对所述目标函数求解拉格朗日函数;对所述拉格朗日函数进行二次近似求解得到二次规划问题。3.如权利要求2所述的方法,其特征在于,所述根据所述分箱条件确定初始变量,将所述初始变量带入所述目标函数,确定对所述基本特征数据的搜索方向的步骤包括:根据所述分箱条件中包括的分箱数确定初始变量,并将所述初始变量带入所述二次规划问题;对所述二次规划问题进行一阶求导得到梯度向量;对所述二次规划问题进行二阶求导得到海森矩阵;按照预定规则对所述梯度向量和海森矩阵进行计算得到方向向量,所述方向向量表征对所述基本特征数据的搜索方向。4.如权利要求3所述的方法,其特征在于,所述对所述二次规划问题进行二阶求导得到海森矩阵的步骤包括:当所述分箱数小于预定阈值,采用牛顿算法求解所述海森矩阵的近似最优解;当所述分箱数大于预定阈值,采用BFGS算法求解所述海森矩阵的近似最优解。5.如权利要求1所述的方法,其特征在于,所述以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值的步骤包括:获取用户输入的迭代步长以及迭代次数;...
【专利技术属性】
技术研发人员:李骥东,何智福,蓝科,覃进学,
申请(专利权)人:成都四方伟业软件股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。