一种样本特征选择方法、装置、设备及介质制造方法及图纸

技术编号:31839214 阅读:13 留言:0更新日期:2022-01-12 13:18
本申请公开了一种样本特征选择方法、装置、设备及介质,应用于人工智能技术领域,用以解决现有技术中的样本特征选择方法存在样本特征选择的准确性较差的问题。具体为:获取各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,并基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选取目标样本特征。这样,通过从信息量、单调性、稳定性、重要性和相关性各方面,综合评估样本特征的可选性,不仅可以缓解关键样本特征丢失的问题,还可以提升样本特征选择的准确性。还可以提升样本特征选择的准确性。还可以提升样本特征选择的准确性。

【技术实现步骤摘要】
一种样本特征选择方法、装置、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种样本特征选择方法、装置、设备及介质。

技术介绍

[0002]近年来,基于人工智能的机器学习、深度学习等技术的应用越来越广泛,尤其是利用机器学习、深度学习等技术进行建模,被广泛应用于信贷风控、云服务、活体检测、图像检索、行为识别、机器人导航与定位等领域。
[0003]实际应用中,建模过程即为模型训练过程,为了使模型训练效果达到最优,在模型训练之前,通常需要从各维度的样本特征中选择用于模型训练的样本特征,由于选择出来的样本特征会作为模型输入参与模型训练和使用,因此,样本特征的选择对模型训练和使用的最终效果有直接决定性的影响,然而,目前的样本特征选择方法所选择出来的样本特征不是很准确,从而导致模型训练和使用的最终效果不是很理想。

技术实现思路

[0004]本申请实施例提供了一种样本特征选择方法、装置、设备及介质,用以解决现有技术存在的由于样本特征选择的准确性较差,导致模型训练和使用的效果不是很理想的问题。
[0005]本申请实施例提供的技术方案如下:
[0006]一方面,本申请实施例提供了一种样本特征选择方法,包括:
[0007]基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
[0008]基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果;
[0009]基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果;
[0010]基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果;
[0011]基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果;
[0012]基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
[0013]另一方面,本申请实施例提供了一种样本特征选择装置,包括:
[0014]信息量确定单元,用于基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
[0015]单调性检测单元,用于基于各个样本特征的实际样本分布和基准样本分布,确定
各个样本特征的单调性检测结果;
[0016]稳定性检测单元,用于基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果;
[0017]重要性检测单元,用于基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果;
[0018]相关性检测单元,用于基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果;
[0019]特征选择单元,用于基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
[0020]另一方面,本申请实施例提供了一种样本特征选择设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的样本特征选择方法。
[0021]另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的样本特征选择方法。
[0022]本申请实施例的有益效果如下:
[0023]本申请实施例中,通过从样本特征的信息量、单调性、稳定性、重要性和相关性各方面综合评估样本特征的可选性,可以提升最终选择出的目标样本特征选择的准确度和可靠性,进而在利用选择出的目标样本特征进行模型训练时,可以提高模型训练和模型使用的最终效果。
[0024]本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
附图说明
[0025]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0026]图1为本申请实施例中样本特征选择方法的总体框架示意图;
[0027]图2为本申请实施例中样本特征选择方法的概况流程示意图;
[0028]图3为本申请实施例中样本特征选择方法的具体流程示意图;
[0029]图4为本申请实施例中样本特征选择装置的功能结构示意图;
[0030]图5为本申请实施例中样本特征选择设备的硬件结构示意图。
具体实施方式
[0031]为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
[0033]1、信息量检测,为通过判断各个样本特征的信息量是否在设定范围内,来确定各个样本特征的可用程度的一种检测。
[0034]2、单调性检测,为通过判断各个样本特征的实际样本分布与基准样本分布是否一致,来确定各个样本特征是否符合单调性要求的一种检测。
[0035]3、稳定性检测,为通过判断各个样本特征的特征稳定性指标是否不大于稳定性阈值,来确定各个样本特征是否符合稳定性要求的一种检测。
[0036]4、重要性检测,为通过判断各个样本特征的重要性程度是否满足重要性筛选条件,来确定各个样本特征是否符合重要性要求的一种检测。
[0037]5、相关性检测,为通过判断各个样本特征之间的相关程度是否满足相关性筛选条件,来确定各个样本特征是否符合相关性要求的一种检测。本申请实施例中,相关性检测包括但不限于:两两相关性检测和多重共线性检测;其中:
[0038]两两相关性检测,为通过判断各个样本特征中每两个样本特征的两两相关性得分是否不大于两两相关阈值,来确定各个样本特征中每两个样本特征之间的可替代程度的一种检测;
[0039]多重共线性检测,为通过判断各个样本特征的多重共线性得分是否不大于多重共线阈值,来确定各个样本特征中每一样本特征与其他样本特征之间的可替代程度的一种检测。
[0040]需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,本申请中提及的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本特征选择方法,其特征在于,包括:基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果;基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果;基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果;基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果;基于所述各个样本特征的训练样本,采用相关性检测方式,确定所述各个样本特征的相关性检测结果;基于所述各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从所述各个样本特征中选择目标样本特征。2.如权利要求1所述的样本特征选择方法,其特征在于,基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果,包括:针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定所述各个特征分箱的证据权重,并基于所述各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定所述各个特征分箱的信息量,以及基于所述各个特征分箱的信息量,确定所述样本特征的信息量并作为所述样本特征的信息量检测结果。3.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果,包括:针对所述各个样本特征,基于所述样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果;或者,针对所述各个样本特征,基于所述样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果。4.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果,包括:针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定所述各个特征分箱的特征稳定性指标,基于所述各个特征分箱的特征稳定性指标,确定所述样本特征的特征稳定性指标并作为所述样本特征的稳定性检测结果。5.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果,包括:将所述各个样本特征的训练样本输入一个重要性检测模型,得到包含所述各个样本特征的重要性得分的重要性检测结果;或者,将所述各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含所述各个样本特征的重要性得分的重要性检测结果;或者,将所述各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包
含所述各个样本特征的重要性得分的重要性检测结果。6.如权利要求1所述的样本特征选择方法,其特征在于,所述相关性检测方式包括两两相关性检测算法和/或多重共线性检测算法;基于所述各个样本特征的训练...

【专利技术属性】
技术研发人员:周玉
申请(专利权)人:上海勃池信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1