用于特征筛选的方法与设备技术

技术编号:37428108 阅读:13 留言:0更新日期:2023-04-30 09:48
本申请的目的是提供一种用于特征筛选的方法与设备。与现有技术相比,本申请通过获取来自不同数据源的特征数据,并基于所述不同数据源的属性信息对所述特征数据做归组操作,确定多个第一特征归组集合,然后基于所述第一特征归组集合以及每个特征的模型重要性,筛选出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合以及基于所述第二特征归组集合以及特征业务重要性指标,进行特征数据回捞,以确定在模型效果阈值范围内的特征数据。通过这种方式,能够兼顾业务重要性与模型效果,而且解决了相似特征以及同源衍生过多的问题。问题。问题。

【技术实现步骤摘要】
用于特征筛选的方法与设备


[0001]本申请涉及计算机
,尤其涉及一种用于特征筛选的技术。

技术介绍

[0002]在当前信用卡风险建模工作中,会从众多数据源接入各样特征,并使用多种方法进行特征的衍生。随着业务的不断积累和深入,特征库累积的特征数目也会不断增多,量级可达万以上。在每一次建模实践中,都需要从海量的特征中筛选出有效的特征进行后续的模型工作。
[0003]当前特征自动筛选方法通常从特征对模型的重要性指标出发,对模型整体的准确度效果有较好保障,但选择出的特征集合通常会出现业务上难以解释、相似特征过多,大部分来源于同源同变量衍生等情况。而从业务角度手动挑选的变量,在业务重要性上有较好保障,但通常对于模型的整体效果会有折扣。当前特征筛选方法很难兼顾业务重要性与模型效果。

技术实现思路

[0004]本申请的目的是提供一种用于特征筛选的方法与设备,以解决现有技术中难以兼顾业务重要性与模型效果的缺陷。
[0005]根据本申请的一个方面,提供了一种用于特征筛选的方法,其中,该方法包括:
[0006]获取来自不同数据源的特征数据;
[0007]基于所述不同数据源的属性信息对所述特征数据做归组操作,确定多个第一特征归组集合;
[0008]基于所述第一特征归组集合以及每个特征的模型重要性,筛选出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合;
[0009]基于所述第二特征归组集合以及特征业务重要性指标,进行特征数据回捞,以确定在模型效果阈值范围内的特征数据。
[0010]优选地,其中,所述方法还包括:
[0011]将来自不同数据源的特征数据进行拼接操作和/或衍生操作,其中,基于不同数据源之间的关联关系进行特征数据的拼接;基于特征数据的类型进行衍生。
[0012]进一步地,其中,所述基于所述不同数据源的属性信息对所述特征数据做归组操作包括:
[0013]对同一数据源的特征数据进行第一层归组、对同一数据源的不同模块的特征数据进行第二层归组、对同一原始特征数据的衍生进行第三层归组。
[0014]进一步地,其中,所述归组操作与所述拼接操作和/或衍生操作并行进行。
[0015]进一步地,其中,基于特征数据的类型进行衍生包括以下至少任一项:对数值型特征在时间上做聚合、对类别型特征做归并、对特征之间做交互。
[0016]优选地,其中,所述基于所述第一特征归组集合以及每个特征的模型重要性,筛选
出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合包括:
[0017]确定所述第一特征归组集合中每个特征的模型重要性,并按照所述模型重要性对特征进行排序;
[0018]计算每个第一特征归组集合中各个特征之间的相关程度,基于所述相关程度以及每个特征的模型重要性,确定第二特征归组集合。
[0019]优选地,其中,所述计算每个第一特征归组集合中各个特征之间的相关程度,基于所述相关程度以及每个特征的模型重要性,确定第二特征归组集合包括:
[0020]步骤一,计算最小归组内各特征之间的相关程度,基于预设阈值去除组内相关程度超过阈值且模型重要性低的特征;
[0021]步骤二,按模型重要性排序,依次对剩余特征操作步骤一;
[0022]步骤三,在步骤二剩余的特征集合上,重新训练计算每个特征的模型重要性,按重要性从高到低排序,在模型重要性特征的最小归组内,继续按特征重要性依次去除组内最低的特征,直至模型整体效果降低超过预设阈值范围;
[0023]步骤四,按模型重要性排序,依次对剩余特征操作步骤三;
[0024]步骤五,最小归组操作完毕后,到上一层级重复步骤三至四,直至将所有层级都操作完毕。
[0025]优选地,其中,所述特征业务重要性指标的评判至少包括以下任一项:业务专家对特征打分、特征历史被调用的次数、最近一次使用特征距今的天数。
[0026]优选地,其中,所述基于所述第二特征归组集合以及特征业务重要性指标,进行特征数据回捞,以确定在模型效果阈值范围内的特征数据包括:
[0027]基于特征业务重要性指标、将排序位于业务重要性前预设阈值内的特征加入所述第二特征归组集合,并去除与加入特征位于同一最小归组的模型重要性最低的特征,若模型效果降低在预设阈值范围内,则去除;若不存在同一最小归组特征或同一最小归组特征去除后模型效果降低超过预设阈值,确定全局模型重要性最低的特征,去除,若模型效果降低在可预设阈值范围内,则去除。
[0028]根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述方法的操作。
[0029]根据本申请的再一方面,还提供了一种用于特征筛选的设备,其中,该设备包括:
[0030]一个或多个处理器;以及
[0031]存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
[0032]与现有技术相比,本申请通过获取来自不同数据源的特征数据,并基于所述不同数据源的属性信息对所述特征数据做归组操作,确定多个第一特征归组集合,然后基于所述第一特征归组集合以及每个特征的模型重要性,筛选出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合以及基于所述第二特征归组集合以及特征业务重要性指标,进行特征数据回捞,以确定在模型效果阈值范围内的特征数据。通过这种方式,能够兼顾业务重要性与模型效果,而且解决了相似特征以及同源衍生过多的问题。
附图说明
[0033]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0034]图1示出根据本申请一个方面的一种用于特征筛选的方法流程图。
[0035]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0036]下面结合附图对本专利技术作进一步详细描述。
[0037]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0038]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0039]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD

ROM)、数字多功能光盘(D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于特征筛选的方法,其中,该方法包括:获取来自不同数据源的特征数据;基于所述不同数据源的属性信息对所述特征数据做归组操作,确定多个第一特征归组集合;基于所述第一特征归组集合以及每个特征的模型重要性,筛选出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合;基于所述第二特征归组集合以及特征业务重要性指标,进行特征数据回捞,以确定在模型效果阈值范围内的特征数据。2.根据权利要求1所述的方法,其中,所述方法还包括:将来自不同数据源的特征数据进行拼接操作和/或衍生操作,其中,基于不同数据源之间的关联关系进行特征数据的拼接;基于特征数据的类型进行衍生。3.根据权利要求1或2所述的方法,其中,所述基于所述不同数据源的属性信息对所述特征数据做归组操作包括:对同一数据源的特征数据进行第一层归组、对同一数据源的不同模块的特征数据进行第二层归组、对同一原始特征数据的衍生进行第三层归组。4.根据权利要求3所述的方法,其中,所述归组操作与所述拼接操作和/或衍生操作并行进行。5.根据权利要求2所述的方法,其中,基于特征数据的类型进行衍生包括以下至少任一项:对数值型特征在时间上做聚合、对类别型特征做归并、对特征之间做交互。6.根据权利要求1至5中任一项所述的方法,其中,所述基于所述第一特征归组集合以及每个特征的模型重要性,筛选出组内相关程度超过相似度阈值的特征数据,以确定第二特征归组集合包括:确定所述第一特征归组集合中每个特征的模型重要性,并按照所述模型重要性对特征进行排序;计算每个第一特征归组集合中各个特征之间的相关程度,基于所述相关程度以及每个特征的模型重要性,确定第二特征归组集合。7.根据权利要求6所述的方法,其中,所述计算每个第一特征归组集合中各个特征之间的相关程度,基于所述相关程度以...

【专利技术属性】
技术研发人员:刘谦尹悦杨琦琦
申请(专利权)人:连通杭州技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1