用于特征筛选的方法与设备技术

技术编号：37428108 阅读：13 留言：0更新日期：2023-04-30 09:48

本申请的目的是提供一种用于特征筛选的方法与设备。与现有技术相比，本申请通过获取来自不同数据源的特征数据，并基于所述不同数据源的属性信息对所述特征数据做归组操作，确定多个第一特征归组集合，然后基于所述第一特征归组集合以及每个特征的模型重要性，筛选出组内相关程度超过相似度阈值的特征数据，以确定第二特征归组集合以及基于所述第二特征归组集合以及特征业务重要性指标，进行特征数据回捞，以确定在模型效果阈值范围内的特征数据。通过这种方式，能够兼顾业务重要性与模型效果，而且解决了相似特征以及同源衍生过多的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
用于特征筛选的方法与设备

[0001]本申请涉及计算机
，尤其涉及一种用于特征筛选的技术。

技术介绍

[0002]在当前信用卡风险建模工作中，会从众多数据源接入各样特征，并使用多种方法进行特征的衍生。随着业务的不断积累和深入，特征库累积的特征数目也会不断增多，量级可达万以上。在每一次建模实践中，都需要从海量的特征中筛选出有效的特征进行后续的模型工作。
[0003]当前特征自动筛选方法通常从特征对模型的重要性指标出发，对模型整体的准确度效果有较好保障，但选择出的特征集合通常会出现业务上难以解释、相似特征过多，大部分来源于同源同变量衍生等情况。而从业务角度手动挑选的变量，在业务重要性上有较好保障，但通常对于模型的整体效果会有折扣。当前特征筛选方法很难兼顾业务重要性与模型效果。

技术实现思路

[0004]本申请的目的是提供一种用于特征筛选的方法与设备，以解决现有技术中难以兼顾业务重要性与模型效果的缺陷。
[0005]根据本申请的一个方面，提供了一种用于特征筛选的方法，其中，该方法包括：
[0006]获取来自不同数据源的特征数据；
[0007]基于所述不同数据源的属性信息对所述特征数据做归组操作，确定多个第一特征归组集合；
[0008]基于所述第一特征归组集合以及每个特征的模型重要性，筛选出组内相关程度超过相似度阈值的特征数据，以确定第二特征归组集合；
[0009]基于所述第二特征归组集合以及特征业务重要性指标，进行特征数据回捞，以确定在模型效果阈值范围内...

【技术保护点】

【技术特征摘要】
1.一种用于特征筛选的方法，其中，该方法包括：获取来自不同数据源的特征数据；基于所述不同数据源的属性信息对所述特征数据做归组操作，确定多个第一特征归组集合；基于所述第一特征归组集合以及每个特征的模型重要性，筛选出组内相关程度超过相似度阈值的特征数据，以确定第二特征归组集合；基于所述第二特征归组集合以及特征业务重要性指标，进行特征数据回捞，以确定在模型效果阈值范围内的特征数据。2.根据权利要求1所述的方法，其中，所述方法还包括：将来自不同数据源的特征数据进行拼接操作和/或衍生操作，其中，基于不同数据源之间的关联关系进行特征数据的拼接；基于特征数据的类型进行衍生。3.根据权利要求1或2所述的方法，其中，所述基于所述不同数据源的属性信息对所述特征数据做归组操作包括：对同一数据源的特征数据进行第一层归组、对同一数据源的不同模块的特征数据进行第二层归组、对同一原始特征数据的衍生进行第三层归组。4.根据权利要求3所述的方法，其中，所述归组操作与所述拼接操作和/或衍生操作并行进行。5.根据权利要求2所述的方法，其中，基于特征数据的类型进行衍生包括以下至少任一项：对数值型特征在时间上做聚合、对类别型特征做归并、对特征之间做交互。6.根据权利要求1至5中任一项所述的方法，其中，所述基于所述第一特征归组集合以及每个特征的模型重要性，筛选出组内相关程度超过相似度阈值的特征数据，以确定第二特征归组集合包括：确定所述第一特征归组集合中每个特征的模型重要性，并按照所述模型重要性对特征进行排序；计算每个第一特征归组集合中各个特征之间的相关程度，基于所述相关程度以及每个特征的模型重要性，确定第二特征归组集合。7.根据权利要求6所述的方法，其中，所述计算每个第一特征归组集合中各个特征之间的相关程度，基于所述相关程度以...

【专利技术属性】
技术研发人员：刘谦，尹悦，杨琦琦，
申请(专利权)人：连通杭州技术服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人