【技术实现步骤摘要】
评分卡模型的建立方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种评分卡模型的建立方法、装置、计算机设备和存储介质。
技术介绍
通常在建立分类模型时,需要对连续变量离散化,特征离散化可以使模型更稳定,降低模型过拟合的风险。比如,在建立评分卡模型时用逻辑回归模型作为基模型就需要对连续变量进行离散化,而离散化通常采用分箱法。而传统的数据分箱方法存在分箱数过多等现象,使得模型训练效率降低,且会影响模型输出的精准度。
技术实现思路
基于此,有必要针对上述技术问题,提供一种通过改进数据分箱方法,实现样本均衡,进而提高模型训练效率和输出精度的评分卡模型的建立方法、装置、计算机设备和存储介质。一种评分卡模型的建立方法,所述方法包括:获取多个训练样本的样本数据;所述样本数据包括多个样本变量;对每个样本变量进行分箱操作;确定每个样本变量对应的分箱数,比较所述分箱数是否超过阈值;若是,计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值;根据所述分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,返回所述确定每个样本变量对应的分箱数的步骤; ...
【技术保护点】
1.一种评分卡模型的建立方法,所述方法包括:获取多个训练样本的样本数据;所述样本数据包括多个样本变量;对每个样本变量进行分箱操作;确定每个样本变量对应的分箱数,比较所述分箱数是否超过阈值;若是,计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值;根据所述分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,返回所述确定每个样本变量对应的分箱数的步骤;否则,计算每个样本变量的WOE值,根据所述WOE值进行样本变量筛选,基于筛选得到的样本变量建立评分卡模型。
【技术特征摘要】
1.一种评分卡模型的建立方法,所述方法包括:获取多个训练样本的样本数据;所述样本数据包括多个样本变量;对每个样本变量进行分箱操作;确定每个样本变量对应的分箱数,比较所述分箱数是否超过阈值;若是,计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值;根据所述分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,返回所述确定每个样本变量对应的分箱数的步骤;否则,计算每个样本变量的WOE值,根据所述WOE值进行样本变量筛选,基于筛选得到的样本变量建立评分卡模型。2.根据权利要求1所述的方法,其特征在于,所述对每个样本变量进行分箱操作,包括:识别所述训练样本的关联样本,爬取所述关联样本的关联数据;所述关联数据包括多个关联变量;接收终端发送的模型配置信息,在所述模型配置信息中提取衍生因子,获取训练样本对应每个衍生因子的衍生变量;对每个样本变量、关联变量和衍生变量进行分箱操作。3.根据权利要求1所述的方法,其特征在于,所述根据分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,包括:根据所述坏样本率确定多个分箱的单调特性;识别不符合所述单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱,分别记作待合并分箱;将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并。4.根据权利要求3所述的方法,其特征在于,所述根据所述坏样本率确定多个分箱的单调特性,包括:统计坏样本率呈单调趋势的分箱数;确定分箱数最大的单调趋势;根据所述分箱数最大的单调趋势确定相应样本变量的单调特性。5.根据权利要求3所述的方法,其特征在于,所述将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并,包括:计算所述待合并分箱与前一相邻分箱的卡方值,记作第一卡方值;计算所述待合并分箱与后一相邻分箱的卡方值,记作第二卡方值;比较所述第一卡方值是否等于所述第二卡方值;若是,将待合并分箱与分箱占比小的前一相邻分箱或后一相邻分箱合并;否则,将待合并分箱与卡方值小的前一相邻分箱或后一相邻分箱进行合并。6....
【专利技术属性】
技术研发人员:季洁璐,何友鑫,彭琛,汪伟,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。