【技术实现步骤摘要】
一种确定模型特征分箱方案的方法及装置
[0001]本专利技术涉及数据处理
,具体涉及一种确定模型特征分箱方案的方法及装置。
技术介绍
[0002]在数据模型的开发流程中,需要对数据模型的特征变量进行特征分箱处理。
[0003]现有的特征分箱处理方式为:技术人员指定分箱方法和分箱个数并进行特征分箱,当指定多个分箱方法和分箱个数时,还需要技术人员对不同组合的分箱方法和分箱个数的分箱效果进行测试和比较。但是,随着分箱方法和分箱个数的组合的增多,测试分箱方法和分箱个数的不同组合的分箱效果的工作量呈指数级增长,并且需要人工逐一对各个分箱效果进行比较,特征分箱所耗费的时间较长和特征分箱的效率较低。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种确定模型特征分箱方案的方法及装置,以解决现有特征分箱处理方式存在的耗费时间长及效率较低的问题。
[0005]为实现上述目的,本专利技术实施例提供如下技术方案:
[0006]本专利技术实施例第一方面公开一种确定模型特征分箱方案的方法,所述方 ...
【技术保护点】
【技术特征摘要】
1.一种确定模型特征分箱方案的方法,其特征在于,所述方法包括:根据用户从特征分箱操作界面中输入的建模数据集名称,获取相应的建模数据集;从所述建模数据集中读取特征变量名称;从所述特征变量名称中确定目标变量名称,所述目标变量名称对应的目标特征变量至少携带指定标签;响应于所述用户在所述特征分箱操作界面中的配置指令,设置分箱参数及对应的分箱方案;根据所述分箱参数对所述目标特征变量进行分箱处理,生成并展示分箱结果,所述分箱结果至少包含每个所述目标特征变量对应的预设指标值;根据所述分箱结果对所述目标特征变量进行筛选和排序,得到筛选排序结果;根据所述筛选排序结果,确定满足预设条件的所述分箱方案为最优分箱方案。2.根据权利要求1所述的方法,其特征在于,所述从所述建模数据集中读取特征变量名称,包括:从所述建模数据集中读取多个字段对应的字段名称,确定所读取的字段名称为特征变量名称。3.根据权利要求1所述的方法,其特征在于,所述指定标签为good标签或bad标签。4.根据权利要求1所述的方法,其特征在于,所述分箱参数至少包含分箱个数和分箱方法。5.根据权利要求1所述的方法,其特征在于,所述根据所述分箱参数对所述目标特征变量进行分箱处理,生成并展示分箱结果,包括:根据所述分箱参数对所述目标特征变量进行网格化组合,生成并展示分箱结果。6.根据权利要求1所述的方法,其特征在于,所述预设指标值至少包含:缺失率、信息量IV值、KS值和群体稳定性指数PSI值。7.根据权利要求1所述的方法,其特征在于,所述根据所述分箱结果对所述目标特征变量进行筛选和排序,得...
【专利技术属性】
技术研发人员:郭琰琰,陆凌,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。