特征因子确定方法及设备技术

技术编号:20945534 阅读:30 留言:0更新日期:2019-04-24 02:49
本实施例提供一种特征因子确定方法及设备,该方法包括:先根据N个候选特征因子,获取基准AUC值,各所述候选特征因子分别用于描述一种类型的风控特征,所述风控特征的类型包括如下中的至少一种:投保特征、承保特征或理赔特征;再根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线;再根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子,克服了使用单轮刀切法去筛选特征因子,不能评估入模特征因子的数量,对于入模的特征因子的数量只能由工作人员自己估测,存在偏差,无法合理的选择到最佳特征因子的问题。

Method and Equipment for Determining Characteristic Factor

The present embodiment provides a method and equipment for determining characteristic factors. The method includes: firstly, obtaining the reference AUC value according to N candidate characteristic factors, each candidate characteristic factor is used to describe one type of wind control characteristics, and the types of wind control features include at least one of the following: insurance feature, insurance feature or claim feature; secondly, according to each candidate characteristic factor, the reference AUC value is obtained. It is important to obtain the AUC critical value and the AUC fitting curve. Then, according to the reference AUC value, the AUC critical value and the AUC fitting curve, the target feature factor is determined in the N candidate feature factors, which overcomes the use of single-wheel cutter method to screen the feature factors, and can not evaluate the number of feature factors. For the number of feature factors entering the model, only the staff can determine the target feature factor. Self-estimation, there are deviations, can not reasonably choose the best feature factor.

【技术实现步骤摘要】
特征因子确定方法及设备
本专利技术涉及保险风控
,尤其涉及一种特征因子确定方法及设备。
技术介绍
目前,意外险和健康险存在部分欺诈行为,比如有些投保人在申请单上填写虚假高收入信息,借此信息来获得高保额,造成很大的欺诈嫌疑。对于此类行为,可以借助保险业务场景来搭建一套全面的、系统的、切合业务场景的数学模型,进而结合业务场景规则引擎,来多维度筛查虚假信息,并应用到核保规则中,来避免欺诈行为的发生。目前数学模型的优化大体有三种:算法的优化、样本的优化,即筛选一部分优质的样本、特征因子的优化。其中现有的特征因子优化的方法主要为单轮刀切法,具体原理为:通过评估每一个特征因子对模型的效果,来排除对模型影响较小的特征因子,以此来完成特征因子对应的样本数据的属性规约,即筛选较合理的特征因子输入模型。但是,使用单轮刀切法去筛选特征因子不能评估输入模型的特征因子的数量,对于输入模型的特征因子的数量只能由工作人员自己估测,存在偏差,无法合理的选择到最佳特征因子。
技术实现思路
本专利技术实施例提供一种特征因子确定方法及设备,克服了使用单轮刀切法去筛选特征因子,不能评估入模特征因子的数量,对于入模的特征因子的数量只能由工作人员自己估测,存在偏差,无法合理的选择到最佳特征因子的问题。第一方面,本专利技术实施例提供一种特征因子确定方法,包括:根据N个候选特征因子,获取基准AUC值,各所述候选特征因子分别用于描述一种类型的风控特征,所述风控特征的类型包括如下中的至少一种:投保特征、承保特征或理赔特征;根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线;根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子。在一种可能的设计中,所述根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线,包括:从所述N个候选特征因子中删除重要性最低的特征因子,将剩余的N-1个候选特征因子输入训练模型,得到所述训练模型输出的AUC值;从所述N-1个候选特征因子中删除重要性最低的特征因子,将剩余的N-2个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;重复执行删除重要性最低的特征因子的操作,直至从剩余的2个候选特征因子中删除重要性最低的特征因子,将1个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;根据得到的N-1个AUC值,获取所述AUC临界值以及所述AUC拟合曲线。在一种可能的设计中,所述根据得到的N-1个AUC值,获取所述AUC临界值以及所述AUC拟合曲线,包括:将所述N-1个AUC值中的最大值作为所述AUC临界值;对所述N-1个AUC值进行拟合,得到所述AUC拟合曲线。在一种可能的设计中,所述根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子,包括:将所述AUC临界值对应的候选特征因子存入第一特征因子组;根据所述基准AUC值和所述AUC拟合曲线,获取AUC极值,所述AUC极值为大于所述基准AUC值,且小于所述AUC临界值的极大值或极小值;根据所述特征因子组、各所述AUC极值对应的候选特征因子,确定目标特征因子。在一种可能的设计中,所述根据所述特征因子组、各所述AUC极值对应的候选特征因子,确定目标特征因子,包括:针对每个AUC极值,获取所述AUC极值对应的M个候选特征因子;针对所述M个候选特征因子中的每个候选特征因子,将所述候选特征因子存入至所述第一特征因子组,得到第二特征因子组;将所述第二特征因子组中的特征因子输入所述训练模型,得到多个第一AUC值;根据所述多个第一AUC值和所述临界AUC值,确定目标特征因子。在一种可能的设计中,所述根据所述多个第一AUC值和所述临界AUC值,确定目标特征因子,包括:若存在大于所述临界AUC值的第一AUC值以及小于所述临界值的第一AUC值,则将大于所述临界AUC值的第一AUC值对应的候选特征因子和所述第一特征因子组中的特征因子作为所述目标特征因子。在一种可能的设计中,所述根据所述多个第一AUC值和所述临界AUC值,确定目标特征因子,包括:若所有第一AUC值均大于所述临界AUC值,则将所述M个候选特征因子存入所述第一特征因子组,得到第三特征因子组;将所述第三特征因子组中的特征因子输入到所述训练模型,得到第二AUC值;根据所述第二AUC值和所述临界AUC值,确定目标特征因子。第二方面,本专利技术实施例提供一种特征因子确定设备,包括:基准AUC值获取模块,用于根据N个候选特征因子,获取基准AUC值值,各所述候选特征因子分别用于描述一种类型的风控特征,所述风控特征的类型包括如下中的至少一种:投保特征、承保特征或理赔特征;AUC临界值获取模块,用于根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线;目标特征因子确定模块,用于根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子。在一种可能的设计中,所述AUC临界值获取模块具体用于:从所述N个候选特征因子中删除重要性最低的特征因子,将剩余的N-1个候选特征因子输入训练模型,得到所述训练模型输出的AUC值;从所述N-1个候选特征因子中删除重要性最低的特征因子,将剩余的N-2个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;重复执行删除重要性最低的特征因子的操作,直至从剩余的2个候选特征因子中删除重要性最低的特征因子,将1个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;根据得到的N-1个AUC值,获取所述AUC临界值以及所述AUC拟合曲线。在一种可能的设计中,所述AUC临界值获取模块还具体用于:将所述N-1个AUC值中的最大值作为所述AUC临界值;对所述N-1个AUC值进行拟合,得到所述AUC拟合曲线。在一种可能的设计中,所述目标特征因子确定模块具体用于:将所述AUC临界值对应的候选特征因子存入第一特征因子组;根据所述基准AUC值和所述AUC拟合曲线,获取AUC极值,所述AUC极值为大于所述基准AUC值,且小于所述AUC临界值的极大值或极小值;根据所述第一特征因子组、各所述AUC极值对应的候选特征因子,确定目标特征因子。在一种可能的设计中,所述目标特征因子确定模块还具体用于:针对每个AUC极值,获取所述AUC极值对应的M个候选特征因子;针对所述M个候选特征因子中的每个候选特征因子,将所述候选特征因子存入至所述第一特征因子组,得到第二特征因子组;将所述第二特征因子组中的特征因子输入所述训练模型,得到多个第一AUC值;根据所述多个第一AUC值和所述临界AUC值,确定目标特征因子。在一种可能的设计中,所述目标特征因子确定模块还具体用于:若存在大于所述临界AUC值的第一AUC值以及小于所述临界值的第一AUC值,则将大于所述临界AUC值的第一AUC值对应的候选特征因子和所述第一特征因子组中的特征因子作为所述目标特征因子。在一种可能的设计中,所述目标特征因子确定模块还具体用于:若所有第一AUC值均大于所述临界AUC值,则将所述M个候选特征因子存入所述第一特征因子组,得到第三特征因子组;将所述第三特征因子组中的特征因子输入到所述训练模型,得到第本文档来自技高网...

【技术保护点】
1.一种特征因子确定方法,其特征在于,包括:根据N个候选特征因子,获取基准特征曲线下基准AUC值,各所述候选特征因子分别用于描述一种类型的风控特征,所述风控特征的类型包括如下中的至少一种:投保特征、承保特征或理赔特征;根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线;根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子。

【技术特征摘要】
1.一种特征因子确定方法,其特征在于,包括:根据N个候选特征因子,获取基准特征曲线下基准AUC值,各所述候选特征因子分别用于描述一种类型的风控特征,所述风控特征的类型包括如下中的至少一种:投保特征、承保特征或理赔特征;根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线;根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子。2.根据权利要求1所述的方法,其特征在于,所述根据各所述候选特征因子的重要性,获取AUC临界值以及AUC拟合曲线,包括:从所述N个候选特征因子中删除重要性最低的特征因子,将剩余的N-1个候选特征因子输入训练模型,得到所述训练模型输出的AUC值;从所述N-1个候选特征因子中删除重要性最低的特征因子,将剩余的N-2个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;重复执行删除重要性最低的特征因子的操作,直至剩余的从2个候选特征因子中删除重要性最低的特征因子,将1个候选特征因子输入所述训练模型,得到所述训练模型输出的AUC值;根据得到的N-1个AUC值,获取所述AUC临界值以及所述AUC拟合曲线。3.根据权利要求2所述的方法,其特征在于,所述根据得到的N-1个AUC值,获取所述AUC临界值以及所述AUC拟合曲线,包括:将所述N-1个AUC值中的最大值作为所述AUC临界值;对所述N-1个AUC值进行拟合,得到所述AUC拟合曲线。4.根据权利要求3所述的方法,其特征在于,所述根据所述基准AUC值、所述AUC临界值以及所述AUC拟合曲线,在所述N个候选特征因子中确定目标特征因子,包括:将所述AUC临界值对应的候选特征因子存入第一特征因子组;根据所述基准AUC值和所述AUC拟合曲线,获取AUC极值,所述AUC极值为大于所述基准AUC值,且小于所述AUC临界值的极大值或极小值;根据所述第一特征因子组、各所述AUC极值对应的候选特征因子,确定目标特征因子。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一特征因子组、各所述AUC极值对应的候选特征因子,确定目标特征因子,包括:针对每个AUC极值...

【专利技术属性】
技术研发人员:崔蓝艺
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1