计算模型的特征筛选方法、装置、电子设备和存储介质制造方法及图纸

技术编号:22388042 阅读:35 留言:0更新日期:2019-10-29 06:43
本申请公开了计算模型的特征筛选方法、装置、电子设备和存储介质。所述方法包括:确定计算模型的样本数据;从样本数据中提取出待筛选特征;将待筛选特征划分为第一特征集合和第二特征集合;基于条件互信息指标筛选出从第二特征集合中移至第一特征集合中的特征;将最终得到的第一特征集合中的各特征作为所述计算模型的入模特征。该技术方案提供了一种自动化的特征筛选方式,以条件互信息作为筛选指标,同时考虑特征和目标的相关性以及特征之间的冗余性,衡量新入模特征对已有特征和目标的信息增益,从而同时考虑了特征对标签值的区分度和特征之间的重合度,尽可能以多维度建立模型;减少了人工参与,可以实现特征的快速筛选,具有较强的鲁棒性。

Feature selection method, device, electronic equipment and storage medium of computing model

【技术实现步骤摘要】
计算模型的特征筛选方法、装置、电子设备和存储介质
本申请涉及机器学习领域,具体涉及计算模型的特征筛选方法、装置、电子设备和存储介质。
技术介绍
在机器学习领域,计算模型的特征是一个重点研究对象,在进行特征选择时,不仅需要考虑是否能够提升模型的准确度,在传统金融等领域,信用评分卡等业务的入模特征还需要具有业务上的强解释性,这就带来了挑战。现有技术中往往需要人工的过多干预,例如,需要用户提供证明证实其有工作,需要对用户的工作性质进行判定,这都需要耗费人力成本,并且不同的机构和审批人员也具有不同的判定标准和认知,难以规范。因此需要一种能够自动化进行特征选择的方法。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的计算模型的特征筛选方法、装置、电子设备和存储介质。依据本申请的一个方面,提供了一种计算模型的特征筛选方法,其特征在于,所述方法包括:确定计算模型的样本数据;从样本数据中提取出待筛选特征;将待筛选特征划分为第一特征集合和第二特征集合;基于条件互信息指标筛选出从第二特征集合中移至第一特征集合中的特征;将最终得到的第一特征集合中的各特征作为所述计算本文档来自技高网...

【技术保护点】
1.一种计算模型的特征筛选方法,其特征在于,所述方法包括:确定计算模型的样本数据;从样本数据中提取出待筛选特征;将待筛选特征划分为第一特征集合和第二特征集合;基于条件互信息指标筛选出从第二特征集合中移至第一特征集合中的特征;将最终得到的第一特征集合中的各特征作为所述计算模型的入模特征。

【技术特征摘要】
1.一种计算模型的特征筛选方法,其特征在于,所述方法包括:确定计算模型的样本数据;从样本数据中提取出待筛选特征;将待筛选特征划分为第一特征集合和第二特征集合;基于条件互信息指标筛选出从第二特征集合中移至第一特征集合中的特征;将最终得到的第一特征集合中的各特征作为所述计算模型的入模特征。2.如权利要求1所述的方法,其特征在于,所述将待筛选特征划分为第一特征集合和第二特征集合包括:计算各待筛选特征与目标值的互信息,根据计算结果将待筛选特征划分为第一特征集合和第二特征集合。3.如权利要求1所述的方法,其特征在于,所述基于条件互信息指标筛选出从第二特征集合中移至第一特征集合中的特征包括:对第二特征集合中的各特征进行若干轮特征筛选;在每轮筛选中,计算当前第二特征集合中的各特征与当前第一特征集合中的各特征及目标值的条件互信息,根据计算结果筛选出本轮从第二特征集合中移至第一特征集合中的特征。4.如权利要求3所述的方法,其特征在于,所述根据计算结果筛选出本轮从第二特征集合中移至第一特征集合中的特征包括:根据计算出的条件互信息进行排序,根据排序结果选择若干个待转移特征;将符合转移条件的待转移特征从第二特征集合中移至第一特征集合中。5.如权利要求4所述的方法,其特征在于,所述将符合转移条件的待转移特征从第二特征集合中移至第一特征集合中包括:根据各符合条件的待转移特征和第一特征集合中的各特征计算方差膨胀因子VIF;若VIF大于预设值则相应的待转移特征符合转移条件。6.如权利要求3所述的方法,其特征在于,所述基于条件互信息指标筛选...

【专利技术属性】
技术研发人员:刘扬陈金辉陈鹏程朱晨
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1