计算机实现的特征筛选方法、装置、设备和存储介质制造方法及图纸

技术编号：37120021 阅读：15 留言：0更新日期：2023-04-01 05:15

提供了一种计算机实现的特征筛选方法，包括：从存储器中读取原始特征集合；对原始特征集合进行初级筛选以得到第一特征集合，初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者；对第一特征集合进行次级筛选以得到第二特征集合，次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者；以及从存储器中删除原始特征集合中除第二特征集合之外的原始特征，以释放原始特征集合中除第二特征集合之外的原始特征所占用的存储空间。征集合之外的原始特征所占用的存储空间。征集合之外的原始特征所占用的存储空间。

全部详细技术资料下载

【技术实现步骤摘要】
计算机实现的特征筛选方法、装置、设备和存储介质

[0001]本公开涉及数据处理
，特别是涉及一种计算机实现的特征筛选方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大数据和人工智能技术的发展，各行各业对机器学习模型的依赖性和认可度逐步加强，如何更好地实现对机器学习模型的训练以得到理想的目标模型已经成为了当下的研究热点。相关技术中，需要使用特征数据对机器学习模型进行训练，然而，大规模的特征数据会占用存储器中较大的存储空间，浪费资源且训练效率较低。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
[0005]根据本公开的一方面，提供了一种计算机实现的特征筛选方法，包括：从存储器中读取原始特征集合；对所述原始特征集合进行初级筛选以得到第一特征集合，所述初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者；对所述第一特征集合进行次级筛选以得到第二特征集合，所述次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者；以及从所述存储器中删除所述原始特征集合中除所述第二特征集合之外的原始特征，以释放所原始特征集合中除所述第二特征集合之外的原始特征所占用的存储空间。
[0006]根据本公...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的特征筛选方法，包括：从存储器中读取原始特征集合；对所述原始特征集合进行初级筛选以得到第一特征集合，所述初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者；对所述第一特征集合进行次级筛选以得到第二特征集合，所述次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者；以及从所述存储器中删除所述原始特征集合中除所述第二特征集合之外的原始特征，以释放所述原始特征集合中除所述第二特征集合之外的原始特征所占用的存储空间。2.根据权利要求1所述的方法，其中，所述原始特征集合用于训练预测目标行为被执行的概率的机器学习模型，所述基于统计指标的筛选包括：获取样本集合，所述样本集合中的每个样本包括所述原始特征集合中的至少一个原始特征和目标标签，其中，所述目标标签用于指示该样本是否与所述目标行为被执行相关联；根据所述样本集合计算一原始特征的缺失率和信息价值中的至少一者，其中，所述缺失率指示所述样本集合中不包括该原始特征的样本所占的比例，所述信息价值指示所述样本集合中的样本包括该原始特征和所述目标行为被执行二者之间的关联关系；以及响应于确定该原始特征的缺失率大于第一阈值和/或该原始特征的信息价值小于第二阈值，过滤掉该原始特征。3.根据权利要求2所述的方法，其中，所述计算一原始特征的缺失率包括：确定所述样本集合中不包括该原始特征的样本的数量，得到特征缺失样本数；以及根据所述特征缺失样本数除以所述样本集合中的样本总数的结果确定该原始特征的缺失率。4.根据权利要求2所述的方法，其中，所述计算一原始特征的信息价值包括：获取所述样本集合中包括该原始特征的至少一个样本以生成目标样本集合；响应于所述目标样本集合中的一样本的目标标签指示该样本与所述目标行为被执行相关联，将该样本作为正样本，并且，响应于所述目标样本集合中的一样本的目标标签指示该样本不与所述目标行为被执行相关联，将该样本作为负样本；对所述目标样本集合中的样本进行分组，得到N个样本组，所述N个样本组中的每个样本组包括至少一个正样本和/或至少一个负样本，其中，N为大于或等于1的整数；以及通过如下公式计算每个样本组的证据权重和该样本特征的信息价值通过如下公式计算每个样本组的证据权重和该样本特征的信息价值其中，i表示第i个样本组，i为大于或等于1的整数，WOE
i
表示第i个样本组的证据权重，p
good
表示第i个样本组中的正样本的数量占所述目标样本集合中的正样本的数量的比例，p
bad
表示第i个样本组中的负样本的数量占所述目标样本集合中的负样本的数量的比例，#
good
i
表示第i个样本组中的正样本的数量，#good
T
表示所述目标样本集合中的正样本的数量，#bad
i
表示第i各样本组中的负样本的数量，#bad
T
表示所述目标样本集合中的负样本的数量，IV表示该样本特征的信息价值。5.根据权利要求2所述的方法，其中，所述基于遗传算法的筛选包括：响应于所述初级筛选为基于遗传算法的筛选，对所述原始特征集合中的原始特征进行编码和初始化操作以得到初始种群，或，响应于所...

【专利技术属性】
技术研发人员：陈凯，杜金栗，张誉，段伟民，陈鑫，李伯堂，
申请(专利权)人：腾云天宇科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人