【技术实现步骤摘要】
一种样本特征选择方法、装置、设备及介质
[0001]本申请涉及人工智能
,尤其涉及一种样本特征选择方法、装置、设备及介质。
技术介绍
[0002]近年来,基于人工智能的机器学习、深度学习等技术的应用越来越广泛,尤其是利用机器学习、深度学习等技术进行建模,被广泛应用于信贷风控、云服务、活体检测、图像检索、行为识别、机器人导航与定位等领域。
[0003]实际应用中,建模过程即为模型训练过程,为了使模型训练效果达到最优,在模型训练之前,通常需要从各维度的样本特征中选择用于模型训练的样本特征,由于选择出来的样本特征会作为模型输入参与模型训练和使用,因此,样本特征的选择对模型训练和使用的最终效果有直接决定性的影响,然而,目前的样本特征选择方法所选择出来的样本特征不是很准确,从而导致模型训练和使用的最终效果不是很理想。
技术实现思路
[0004]本申请实施例提供了一种样本特征选择方法、装置、设备及介质,用以解决现有技术存在的由于样本特征选择的准确性较差,导致模型训练和使用的效果不是很理想的问题。
[0005]本申请实施例提供的技术方案如下:
[0006]一方面,本申请实施例提供了一种样本特征选择方法,包括:
[0007]基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
[0008]基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果;
[0009]基于各个样本特征的训练样本数量占比和验证样本数量占比 ...
【技术保护点】
【技术特征摘要】
1.一种样本特征选择方法,其特征在于,包括:基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果;基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果;基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果;基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果;基于所述各个样本特征的训练样本,采用相关性检测方式,确定所述各个样本特征的相关性检测结果;基于所述各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从所述各个样本特征中选择目标样本特征。2.如权利要求1所述的样本特征选择方法,其特征在于,基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果,包括:针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定所述各个特征分箱的证据权重,并基于所述各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定所述各个特征分箱的信息量,以及基于所述各个特征分箱的信息量,确定所述样本特征的信息量并作为所述样本特征的信息量检测结果。3.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果,包括:针对所述各个样本特征,基于所述样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果;或者,针对所述各个样本特征,基于所述样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果。4.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果,包括:针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定所述各个特征分箱的特征稳定性指标,基于所述各个特征分箱的特征稳定性指标,确定所述样本特征的特征稳定性指标并作为所述样本特征的稳定性检测结果。5.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果,包括:将所述各个样本特征的训练样本输入一个重要性检测模型,得到包含所述各个样本特征的重要性得分的重要性检测结果;或者,将所述各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含所述各个样本特征的重要性得分的重要性检测结果;或者,将所述各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包
含所述各个样本特征的重要性得分的重要性检测结果。6.如权利要求1所述的样本特征选择方法,其特征在于,所述相关性检测方式包括两两相关性检测算法和/或多重共线性检测算法;基于所述各个样本特征的训练...
【专利技术属性】
技术研发人员:周玉,
申请(专利权)人:上海勃池信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。