计算机实现的特征筛选方法、装置、设备和存储介质制造方法及图纸

技术编号:37120021 阅读:15 留言:0更新日期:2023-04-01 05:15
提供了一种计算机实现的特征筛选方法,包括:从存储器中读取原始特征集合;对原始特征集合进行初级筛选以得到第一特征集合,初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者;对第一特征集合进行次级筛选以得到第二特征集合,次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者;以及从存储器中删除原始特征集合中除第二特征集合之外的原始特征,以释放原始特征集合中除第二特征集合之外的原始特征所占用的存储空间。征集合之外的原始特征所占用的存储空间。征集合之外的原始特征所占用的存储空间。

【技术实现步骤摘要】
计算机实现的特征筛选方法、装置、设备和存储介质


[0001]本公开涉及数据处理
,特别是涉及一种计算机实现的特征筛选方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大数据和人工智能技术的发展,各行各业对机器学习模型的依赖性和认可度逐步加强,如何更好地实现对机器学习模型的训练以得到理想的目标模型已经成为了当下的研究热点。相关技术中,需要使用特征数据对机器学习模型进行训练,然而,大规模的特征数据会占用存储器中较大的存储空间,浪费资源且训练效率较低。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
[0005]根据本公开的一方面,提供了一种计算机实现的特征筛选方法,包括:从存储器中读取原始特征集合;对所述原始特征集合进行初级筛选以得到第一特征集合,所述初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者;对所述第一特征集合进行次级筛选以得到第二特征集合,所述次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者;以及从所述存储器中删除所述原始特征集合中除所述第二特征集合之外的原始特征,以释放所原始特征集合中除所述第二特征集合之外的原始特征所占用的存储空间。
[0006]根据本公开的另一方面,提供了一种计算机实现的特征筛选装置,包括:特征读取模块,用于从存储器中读取原始特征集合;初级筛选模块,用于对所述原始特征集合进行初级筛选以得到第一特征集合,所述初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者;次级筛选模块,用于对所述第一特征集合进行次级筛选以得到第二特征集合,所述次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者;以及特征过滤模块,用于从所述存储器中删除所述原始特征集合中除所述第二特征集合之外的原始特征,以释放所原始特征集合中除所述第二特征集合之外的原始特征所占用的存储空间。
[0007]根据本公开的又另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,其中,所述计算机程序在被所述至少一个处理器执行时,使所述至少一个处理器执行如上所述的方法。
[0008]根据本公开的又另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行如上所述的方法。
[0009]根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使所述处理器执行如上所述的方法。
[0010]根据本公开的一个或多个实施例,通过对原始特征集合进行两级筛选,删除了集
合中与模型训练相关度较低的原始特征,可以释放计算机存储器的存储空间。此外,使用筛选得到的第二特征集合来训练预测模型,可以提升训练效率,并且训练得到的模型的预测准确性和模型稳定性也较高。
[0011]根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
[0012]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0013]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
[0014]图2是图示出根据示例性实施例的计算机实现的特征筛选方法的示意性流程图;
[0015]图3是图示出根据示例性实施例的基于统计指标的筛选的示意性流程图;
[0016]图4是图示出根据示例性实施例的计算一原始特征的缺失率的示意性流程图;
[0017]图5是图示出根据示例性实施例的计算一原始特征的信息价值的示意性流流程图;
[0018]图6是图示出根据示例性实施例的基于遗传算法的筛选的示意性流程图;
[0019]图7是图示出根据示例性实施例的计算机实现的特征筛选装置的示意性框图;
[0020]图8是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
[0021]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0022]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0023]在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0024]相关技术中,在对机器学习模型进行训练时,如果希望训练得到的模型能够具有理想的性能和较强的稳定性,则通常需要使用大量的样本特征数据作为模型训练数据,这些样本特征数据占据了大量的存储器空间,在很大程度上降低了计算机的内部性能。
[0025]根据本公开的实施例,提供了一种计算机实现的特征筛选方法,通过对原始特征
集合中的原始特征分别进行基于统计指标和基于遗传算法的两级筛选,实现了从原始特征集合中过滤掉与预期目标模型的训练关联性较弱的特征数据,降低了特征数据对存储空间的占用,提升了计算机的内部性能。进一步地,使用筛选后的特征数据集合对机器学习模型进行训练,能够有效提高模型训练效率,并提升训练得到的模型的性能和稳定性。
[0026]下面结合附图详细描述本公开的示例性实施例。
[0027]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。参考图1,该系统100包括第一计算设备110、第二计算设备120、以及将第一计算设备110与第二计算设备120通信地耦合的网络130。图1所示的示例系统100可以适用于任何对机器学习模型进行模型训练的场景。
[0028]在一些实施例中,用于模型训练的原始特征集合存储在第一计算设备110的存储器中,第二计算设备120从第一计算设备110的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的特征筛选方法,包括:从存储器中读取原始特征集合;对所述原始特征集合进行初级筛选以得到第一特征集合,所述初级筛选为基于统计指标的筛选和基于遗传算法的筛选中的一者;对所述第一特征集合进行次级筛选以得到第二特征集合,所述次级筛选为基于统计指标的筛选和基于遗传算法的筛选中的另一者;以及从所述存储器中删除所述原始特征集合中除所述第二特征集合之外的原始特征,以释放所述原始特征集合中除所述第二特征集合之外的原始特征所占用的存储空间。2.根据权利要求1所述的方法,其中,所述原始特征集合用于训练预测目标行为被执行的概率的机器学习模型,所述基于统计指标的筛选包括:获取样本集合,所述样本集合中的每个样本包括所述原始特征集合中的至少一个原始特征和目标标签,其中,所述目标标签用于指示该样本是否与所述目标行为被执行相关联;根据所述样本集合计算一原始特征的缺失率和信息价值中的至少一者,其中,所述缺失率指示所述样本集合中不包括该原始特征的样本所占的比例,所述信息价值指示所述样本集合中的样本包括该原始特征和所述目标行为被执行二者之间的关联关系;以及响应于确定该原始特征的缺失率大于第一阈值和/或该原始特征的信息价值小于第二阈值,过滤掉该原始特征。3.根据权利要求2所述的方法,其中,所述计算一原始特征的缺失率包括:确定所述样本集合中不包括该原始特征的样本的数量,得到特征缺失样本数;以及根据所述特征缺失样本数除以所述样本集合中的样本总数的结果确定该原始特征的缺失率。4.根据权利要求2所述的方法,其中,所述计算一原始特征的信息价值包括:获取所述样本集合中包括该原始特征的至少一个样本以生成目标样本集合;响应于所述目标样本集合中的一样本的目标标签指示该样本与所述目标行为被执行相关联,将该样本作为正样本,并且,响应于所述目标样本集合中的一样本的目标标签指示该样本不与所述目标行为被执行相关联,将该样本作为负样本;对所述目标样本集合中的样本进行分组,得到N个样本组,所述N个样本组中的每个样本组包括至少一个正样本和/或至少一个负样本,其中,N为大于或等于1的整数;以及通过如下公式计算每个样本组的证据权重和该样本特征的信息价值通过如下公式计算每个样本组的证据权重和该样本特征的信息价值其中,i表示第i个样本组,i为大于或等于1的整数,WOE
i
表示第i个样本组的证据权重,p
good
表示第i个样本组中的正样本的数量占所述目标样本集合中的正样本的数量的比例,p
bad
表示第i个样本组中的负样本的数量占所述目标样本集合中的负样本的数量的比例,#
good
i
表示第i个样本组中的正样本的数量,#good
T
表示所述目标样本集合中的正样本的数量,#bad
i
表示第i各样本组中的负样本的数量,#bad
T
表示所述目标样本集合中的负样本的数量,IV表示该样本特征的信息价值。5.根据权利要求2所述的方法,其中,所述基于遗传算法的筛选包括:响应于所述初级筛选为基于遗传算法的筛选,对所述原始特征集合中的原始特征进行编码和初始化操作以得到初始种群,或,响应于所...

【专利技术属性】
技术研发人员:陈凯杜金栗张誉段伟民陈鑫李伯堂
申请(专利权)人:腾云天宇科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1