本发明专利技术涉及计算机技术领域,公开了一种基于CART算法的多维度策略自动化、批量化挖掘方法,包括:数据准备步骤准备分析所需原始变量;多维度策略分析变量池构建步骤确定最终进行多维度策略分析和挖掘的变量池;决策树预构建步骤采用变量组合加均匀分布随机数的方式抽取组合变量并决定是否生成决策树;决策树构建步骤基于抽取的组合变量自动化生成决策树;决策树规则抽取和解析步骤对决策树的规则进行自动抽取并解析;规则筛选步骤从解析后的规则中筛选效果好的多维度规则;多维度规则泛化步骤对筛选的效果好的规则跨时间段进行泛化并筛选效果好的规则上线进行决策;本申请实现了多维度策略自动化、批量化挖掘,提高了多维度策略挖掘效率。策略挖掘效率。策略挖掘效率。
【技术实现步骤摘要】
一种基于CART算法的多维度策略自动化、批量化挖掘方法
[0001]本专利技术涉及计算机
,具体涉及一种基于CART算法的多维度策略自动化、批量化挖掘方法。
技术介绍
[0002]在金融风控领域,贷前授信申请场景中的风控策略分为单维度策略和多维度策略两种,风控策略是由一条条风控规则组成,策略属于宏观概念,规则属于微观概念;进行多维度策略挖掘的时候,经常使用CART算法分析成千上万个变量,基于分析结果筛选效果好且有业务解释性的多维度规则上线进行风险拦截;然而现有技术中,在进行多维度策略挖掘的时候面临着以下五个难题:1、在使用CART算法对成千上万个变量进行多维度策略挖掘时,构建一棵决策树通常只会使用效果最好的少数几个或几十个变量,还有数以万计的变量未使用,造成了信息的大量浪费;2、在使用CART算法构建完成决策树后,通常是基于决策树结构人为抽取和解析符合要求的多维度规则,效率低;3、无法确定基于训练数据构建决策树并抽取了效果好的多维度规则是否有效;4、无法确定基于CART算法最终筛选的多条效果好的待上线规则同时上线后的效果;5、在基于CART算法进行多维度策略挖掘的过程中,产生的所有分析结果不能实现整合并自动化输出为标准化的分析文档。
[0003]因此,亟需一种方法解决现有技术中的五大难题,提高多维度策略挖掘效率。
技术实现思路
[0004]本专利技术意在提供一种基于CART算法的多维度策略自动化、批量化挖掘方法,以实现多维度策略自动化、批量化挖掘,同时自动输出标准化的分析报告,提高多维度策略挖掘效率。
[0005]为达到上述目的,本专利技术采用如下技术方案: 一种基于CART算法的多维度策略自动化、批量化挖掘方法,包括:数据准备步骤,准备分析所需原始变量;多维度策略分析变量池构建步骤,基于缺失率、众数占比、变量间的相关性分析对原始变量进行分析和筛选,确定最终进行多维度策略分析和挖掘的变量池;决策树预构建步骤,在变量池中采用变量组合加均匀分布随机数的方式自动化、批量化抽取组合变量并决定是否生成决策树;决策树构建步骤,基于抽取的组合变量自动化生成决策树;决策树规则抽取和解析步骤,对决策树的规则进行自动抽取,并解析出每条规则包含的叶节点数、叶节点数占建模样本的比例、叶节点对应的坏样本率;规则筛选步骤,按照评估标准根据规则对应的叶节点数、叶节点占建模样本的比例和Lift值筛选效果好的多维度规则;多维度规则泛化步骤,对筛选的效果好的多维度规则跨时间段进行泛化,筛选效果好且在不同时间段上表现稳定的规则,得到分析结果,将分析结果准备上线进行风险管
控。
[0006]本方案的原理及优点是:一种基于CART算法的多维度策略自动化、批量化挖掘方法应用于金融风控领域,在多维度策略挖掘的时候,使用CART算法分析成千上万个变量,基于分析结果筛选效果好且有业务解释性的多维度规则上线进行风险拦截;实际应用时,先准备分析所需的原始数据,基于缺失率、众数占比、变量间的相关性分析对原始变量进行分析和筛选,确定最终进行多维度策略分析和挖掘的变量池;在变量池中采用变量组合加均匀分布随机数的方式自动化、批量化抽取组合变量并决定是否生成决策树;基于抽取的组合变量自动化生成决策树;能够确保变量池中所有的变量信息被充分利用,而不会造成信息资源的浪费;在每次完成变量组合后采用均匀分布随机数的方法,能够控制决策树生成数量,避免变量池中变量较多,随机组合生成决策树会造成信息多次重复使用导致计算复杂度增加;然后对决策树的规则进行自动抽取,并解析出每条规则包含的叶节点数、叶节点数占建模样本的比例、叶节点对应的坏样本率;在完成多维度规则解析后需要分析规则效果,筛选效果好的规则便于后续泛化处理,根据规则对应的叶节点数、叶节点占建模样本的比例和Lift值从解析后的规则中筛选效果好的多维度规则;最后对筛选的效果好的多维度规则跨时间段进行泛化,筛选效果好且在不同时间段上表现稳定的规则准备上线进行风险管控,引入多维度规则泛化环节,能够更加全面的证明多维度规则的有效性。
[0007]优选的,作为一种改进,所述原始数据包括因变量、自变量、标签变量和数据字典。
[0008]技术效果:基于标签变量能够区分测算样本、泛化样本,基于准备的数据字典,在后续分析时为每个变量自动匹配中文名称,提高分析结果可读性。
[0009]优选的,作为一种改进,所述决策树预构建步骤,包括:对比值设定步骤,设置进行决策树生成的对比值b;随机数生成与判断步骤,生成一个“0~1”均匀分布随机数值a,控制a与对比值b进行比较,当a>b时进行决策树生成,否则不生成。
[0010]技术效果:通过控制a与对比值b进行比较,能够控制决策树生成数量;通过控制对比值b的取值,能够控制决策树的生成数量。
[0011]优选的,作为一种改进,所述评估标准包括:规则对应的叶节点数不少于30个,叶节点占建模样本的比例在0.5%~5%之间且Lift值较大。
[0012]技术效果:按照评估规则能够从解析后的规则中筛选效果好的多维度规则。
[0013]优选的,作为一种改进,所述多维度规则泛化步骤还包括标准化步骤,基于预设的分析模板对分析结果自动整合、格式调整、美化并自动生成标准化分析报告。
[0014]技术效果:整理和汇总分析结果文档,避免每次分析完成后都要将分散各处的分析结果进行整合,格式调整和美化,减小工作量,提升工作效率。
[0015]优选的,作为一种改进,所述多维度规则泛化步骤包括:跨样本集泛化步骤,将多维度规则转换成新的单个变量,根据触碰规则为变量取值,变量取值为0和1,1表示触碰规则,0表示未触碰规则;根据分析指标分析规则在不同时间段的效果和触碰情况;分析报告输出步骤,自动化输出多维度规则泛化分析报告。
[0016]技术效果:多维度规则由多个变量构成,将多维度规则转换成一个新的变量能够方便泛化,提升工作效率。
[0017]优选的,作为一种改进,还包括合并泛化步骤,对泛化效果好的多条待上线规则合并泛化。
[0018]技术效果:能够评估多条规则同时上线后对通过率和风险的影响,便于管理人员及时进行策略调整。
附图说明
[0019]图1为本专利技术实施例的流程示意图。
具体实施方式
[0020]实施例基本如附图1所示:一种基于CART算法的多维度策略自动化、批量化挖掘方法应用于金融风控领域,在多维度策略挖掘的时候,使用CART算法分析成千上万个变量,基于分析结果筛选效果好且有业务解释性的多维度规则上线进行风险拦截。
[0021]实际应用时,数据准备步骤,准备分析所需原始变量,原始数据包括因变量、自变量、标签变量和数据字典。基于自变量和因变量能够进行多维度策略挖掘,挖掘完成后能够基于标签变量和多维度策略结果做项目漏斗指标分析,如申请人数、通过人数、用信人数、用信的人里多维度策略预计触碰人数、触碰的人里风险情况等;标签变量如对客户是否授信通过、授信通过后是否用信进行的标签,基于标签变量能够区分测算本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于CART算法的多维度策略自动化、批量化挖掘方法,其特征在于,包括:数据准备步骤,准备分析所需原始变量;多维度策略分析变量池构建步骤,基于缺失率、众数占比、变量间的相关性分析对原始变量进行分析和筛选,确定最终进行多维度策略分析和挖掘的变量池;决策树预构建步骤,在变量池中采用变量组合加均匀分布随机数的方式自动化、批量化抽取组合变量并决定是否生成决策树;决策树构建步骤,基于抽取的组合变量自动化生成决策树;决策树规则抽取和解析步骤,对决策树的规则进行自动抽取,并解析出每条规则包含的叶节点数、叶节点数占建模样本的比例、叶节点对应的坏样本率;规则筛选步骤,按照评估标准根据规则对应的叶节点数、叶节点占建模样本的比例和Lift值筛选效果好的多维度规则;多维度规则泛化步骤,对筛选的效果好的多维度规则跨时间段进行泛化,筛选效果好且在不同时间段上表现稳定的规则,得到分析结果,将分析结果准备上线进行风险管控。2.根据权利要求1所述的一种基于CART算法的多维度策略自动化、批量化挖掘方法,其特征在于:所述原始数据包括因变量、自变量、标签变量和数据字典。3.根据权利要求1所述的一种基于CART算法的多维度策略自动化、批量化挖掘方法,其特征在于,所述决策树预构建步骤,包括:对比值设定步骤,设...
【专利技术属性】
技术研发人员:冯占鹏,
申请(专利权)人:重庆富民银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。