本申请实施例属于人工智能领域,涉及一种特征分箱方法、装置、计算机设备及存储介质,方法包括:获取包含多个建模样本的建模样本集,其中,建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从特征变量维度对建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,证据权重和信息值基于标签变量计算,各决策树的深度小于或等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对各候选分箱结果进行筛选,得到特征变量的目标分箱结果。本申请提高了特征分箱的速度以及准确性。箱的速度以及准确性。箱的速度以及准确性。
【技术实现步骤摘要】
特征分箱方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种特征分箱方法、装置、计算机设备及存储介质。
技术介绍
[0002]评分卡模型是金融领域信用评估中非常重要的一种模型,它可以采用逻辑回归(Logistics Regression)进行建模,并在使用中需要对连续变量进行离散化,即需要对建模的特征进行特征分箱,而分箱的质量很大程度决定了评分卡模型的质量。
[0003]当前的特征分箱技术为了确保特征分箱的质量,通常是人为依据经验和知识进行特征分箱。在大数据建模的背景下,评分卡建模时所需的数据量异常庞大,这导致分箱过程耗时且繁琐,使得特征分箱的效率较低。
技术实现思路
[0004]本申请实施例的目的在于提出一种特征分箱方法、装置、计算机设备及存储介质,以解决特征分箱效率较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种特征分箱方法,采用了如下所述的技术方案:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。
[0006]为了解决上述技术问题,本申请实施例还提供一种特征分箱装置,采用了如下所述的技术方案:样本集获取模块,用于获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;样本集分割模块,用于以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;结果筛选模块,用于根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。
[0007]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述
的技术方案:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。
[0008]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。
[0009]与现有技术相比,本申请实施例主要有以下有益效果:获取包含多个建模样本的建模样本集,建模样本包含标签变量和待分箱的特征变量;决策树在分裂过程中可以从特征变量维度对建模样本集进行分割,从而自动实现特征分箱,并将证据权重和信息值直接作为决策树分割标准,减少了计算量,提高了生成的决策树和候选分箱结果的准确性;并可以生成多个决策树及其对应的候选分箱结果,各决策树的深度小于或等于预设的最大深度,每个深度对应至少一个候选分箱结果,提高了候选分箱结果的丰富度;根据各候选分箱结果中各分箱的证据权重,对各候选分箱结果自动进行总体评估并进行筛选,进一步提高了最终的目标分箱结果的准确性以及生成速度。
附图说明
[0010]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的特征分箱方法的一个实施例的流程图;图3是根据本申请的特征分箱装置的一个实施例的结构示意图;图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0012]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的
技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0013]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0014]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0015]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0016]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0017]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
[0018]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种特征分箱方法,其特征在于,包括下述步骤:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。2.根据权利要求1所述的特征分箱方法,其特征在于,在所述获取包含多个建模样本的建模样本集的步骤之后,还包括:获取决策树配置信息,所述决策树配置信息包含所述最大深度以及分箱最小样本数,所述决策树配置信息用于对决策树进行限制。3.根据权利要求2所述的特征分箱方法,其特征在于,所述以证据权重和信息值作为决策树分割标准,从特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果的步骤包括:在每个小于或等于所述最大深度的深度下,在所述特征变量的取值范围内,根据所述分箱最小样本数确定多个特征分割点;根据各特征分割点分别对所述建模样本集进行一级分割,得到多个一级分箱结果;根据各一级分箱结果中各建模样本的标签变量,分别计算各一级分箱结果的证据权重,并根据所述各一级分箱结果的证据权重分别计算所述各一级分箱结果的信息值;根据得到的信息值对所述各一级分箱结果进行筛选;对筛选到的一级分箱结果进行一级分割之后的迭代分割,直至分割后决策树的深度达到预设的深度,得到所述候选分箱结果。4.根据权利要求3所述的特征分箱方法,其特征在于,所述根据得到的信息值对所述各一级分箱结果进行筛选的步骤包括:对得到的各信息值进行降序排列,得到信息值序列;从所述信息值序列中选取至少一个信息值,并保留选取到的信息值所对应的一级分箱结果。5.根据权利要求1所述的特征分箱方法,其特征在于,所述根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果的步骤包括:对于每个候选分箱结果,获取所述候选分箱结果中各分箱的证据权重;根据得到的证据权重绘制所述候选分箱结果的证据权重曲线;根据各证...
【专利技术属性】
技术研发人员:刘帅,斯洪标,姜桂林,唐丽华,张东阳,刘逾江,闫宁,
申请(专利权)人:湖南财信数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。