特征重要性评估方法和装置、电子设备、存储介质制造方法及图纸

技术编号:38734896 阅读:14 留言:0更新日期:2023-09-08 23:22
本申请实施例提供了一种特征重要性评估方法和装置、电子设备、存储介质,属于人工智能和金融科技技术领域。该方法包括:获取样本对象的对象属性特征和标定标签;获取所述对象属性特征的特征表示得到特征类别;根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征箱和初步特征;获取所述初步特征与所述标定标签之间的关联关系得到特征关联数据;根据所述特征关联数据计算所述特征箱的样本占比得到正样本占比、负样本占比、正负样本占比;根据所述正样本占比和所述负样本占比计算正负样本差异度数据;根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估。本申请实施例能够提高评估特征重要性的准确性。要性的准确性。要性的准确性。

【技术实现步骤摘要】
特征重要性评估方法和装置、电子设备、存储介质


[0001]本申请涉及人工智能和金融科技
,尤其涉及一种特征重要性评估方法和装置、电子设备、存储介质。

技术介绍

[0002]通常,在进行数据建模前需要进行特征分析;且由于特征的质量直接影响模型的训练效果,因此,特征的重要性用于决定特征是否可以用于建模;例如在金融科技场景下,用户的性别特征、年龄特征、或者收入特征等可以用于预测用户是否购买保险的建模。目前用对于特征重要性的衡量方法,主要包括:信息增益(information divergence,ID)、基尼系数、信息价值(information value,IV)等,其中,信息增益和基尼系数,在理解上,不是很直观;信息价值相比于信息增益和基尼系数更易于理解;但是,用信息价值进行特征重要性衡量时,特征的分类较多,则特征的信息价值会较大,从而会错误地表征特征重要性,使得特征重要性不够准确。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种特征重要性评估方法和装置、电子设备、存储介质,旨在提高评估特征重要性的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种特征重要性评估方法,所述方法包括:
[0005]获取样本对象的对象属性特征、所述样本对象的标定标签;其中,所述标定标签用于表征所述样本对象执行预设行为或者未执行所述预设行为;
[0006]获取所述对象属性特征的特征表示,得到所述对象属性特征的特征类别;
[0007]根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征分箱数据;其中,所述特征分箱数据包括特征箱和位于所述特征箱的初步特征;
[0008]获取所述初步特征与所述标定标签之间的关联关系,得到特征关联数据;
[0009]根据所述特征关联数据计算所述特征箱的样本占比,得到正样本占比、负样本占比、正负样本占比;
[0010]根据所述正样本占比和所述负样本占比计算正负样本差异度数据;
[0011]根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估。
[0012]在一些实施例,所述根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征分箱数据,包括:
[0013]根据所述特征类别进行分箱,得到所述特征箱;其中,将一个所述特征类别作为一个所述特征箱;
[0014]根据所述特征类别将所述对象属性特征装入所述特征箱,将装入所述特征箱的所述对象属性特征作为所述初步特征。
[0015]在一些实施例,所述获取所述初步特征与所述标定标签之间的关联关系,得到特征关联数据,包括:
[0016]获取所述样本对象中所述初步特征与所述标定标签的匹配频次,得到匹配分布数据;
[0017]获取所述样本对象中所述初步特征与所述标定标签的非匹配频次,得到非匹配分布数据;
[0018]根据所述匹配分布数据和所述非匹配分布数据得到所述初步特征的特征关联数据。
[0019]在一些实施例,所述根据所述特征关联数据计算所述特征箱的样本占比,得到正样本占比、负样本占比、正负样本占比,包括:
[0020]获取所述样本对象的数量,得到样本总量;
[0021]计算所述匹配分布数据在所述特征关联数据中的占比,得到所述正样本占比;
[0022]计算所述非匹配分布数据在所述特征关联数据中的占比,得到所述负样本占比;
[0023]计算所述特征关联数据和所述样本总量的占比,得到所述正负样本占比。
[0024]在一些实施例,所述根据所述正样本占比和所述负样本占比计算正负样本差异度数据,包括:
[0025]获取所述样本对象中所有所述对象属性特征与所述标定标签的匹配频次,得到总匹配数据;
[0026]计算所述总匹配数据在所述样本总量中的占比,得到总匹配占比;
[0027]比较所述正样本占比和所述负样本占比之间的大小关系;
[0028]根据所述正样本占比和所述负样本占比之间的大小关系将所述正样本占或者所述负样本占比作为候选占比;
[0029]根据所述总匹配数据和所述候选占比计算所述正负样本差异度数据。
[0030]在一些实施例,所述根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估,包括:
[0031]获取所述特征箱的数量,得到特征分箱量;
[0032]根据所述特征分箱量计算出所述预设基准数据;
[0033]根据所述正负样本占比进行取对数计算,得到正负样本对数数据;
[0034]根据所述正负样本差异度数据、所述正负样本对数数据、所述预设基准数据计算每一所述特征箱的特征重要性,得到初步特征权重数据;
[0035]根据所述初步特征权重数据对所述对象属性特征进行特征重要性评估,得到特征评估结果;其中,所述特征评估结果用于表示所述对象属性特征的重要程度。
[0036]在一些实施例,在所述根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估之后,所述方法还包括:
[0037]根据所述特征评估结果从所述对象属性特征筛选出目标特征;
[0038]根据所述目标特征对所述目标对象进行行为预测,得到行为预测数据。
[0039]为实现上述目的,本申请实施例的第二方面提出了一种特征重要性评估装置,所述装置包括:
[0040]样本特征获取模块,用于获取样本对象的对象属性特征、所述样本对象的标定标
签;其中,所述标定标签用于表征所述样本对象执行预设行为或者未执行所述预设行为;
[0041]特征类别获取模块,用于获取所述对象属性特征的特征表示,得到所述对象属性特征的特征类别;
[0042]特征分箱处理模块,用于根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征分箱数据;其中,所述特征分箱数据包括特征箱和位于所述特征箱的初步特征;
[0043]特征关联数据获取模块,用于获取所述初步特征与所述标定标签之间的关联关系,得到特征关联数据;
[0044]样本占比计算模块,用于根据所述特征关联数据计算所述特征箱的样本占比,得到正样本占比、负样本占比、正负样本占比;
[0045]正负样本差异度计算模块,用于根据所述正样本占比和所述负样本占比计算正负样本差异度数据;
[0046]特征重要性评估模块,用于根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估。
[0047]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0048]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。...

【技术保护点】

【技术特征摘要】
1.一种特征重要性评估方法,其特征在于,所述方法包括:获取样本对象的对象属性特征、所述样本对象的标定标签;其中,所述标定标签用于表征所述样本对象执行预设行为或者未执行所述预设行为;获取所述对象属性特征的特征表示,得到所述对象属性特征的特征类别;根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征分箱数据;其中,所述特征分箱数据包括特征箱和位于所述特征箱的初步特征;获取所述初步特征与所述标定标签之间的关联关系,得到特征关联数据;根据所述特征关联数据计算所述特征箱的样本占比,得到正样本占比、负样本占比、正负样本占比;根据所述正样本占比和所述负样本占比计算正负样本差异度数据;根据所述正负样本差异度数据、所述正负样本占比、预设基准数据进行特征重要性评估。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征类别对所述对象属性特征进行特征分箱处理,得到特征分箱数据,包括:根据所述特征类别进行分箱,得到所述特征箱;其中,将一个所述特征类别作为一个所述特征箱;根据所述特征类别将所述对象属性特征装入所述特征箱,将装入所述特征箱的所述对象属性特征作为所述初步特征。3.根据权利要求1所述的方法,其特征在于,所述获取所述初步特征与所述标定标签之间的关联关系,得到特征关联数据,包括:获取所述样本对象中所述初步特征与所述标定标签的匹配频次,得到匹配分布数据;获取所述样本对象中所述初步特征与所述标定标签的非匹配频次,得到非匹配分布数据;根据所述匹配分布数据和所述非匹配分布数据得到所述初步特征的特征关联数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述特征关联数据计算所述特征箱的样本占比,得到正样本占比、负样本占比、正负样本占比,包括:根据所述初步特征和所述特征关联数据得到样本总量;计算所述匹配分布数据在所述特征关联数据中的占比,得到所述正样本占比;计算所述非匹配分布数据在所述特征关联数据中的占比,得到所述负样本占比;计算所述特征关联数据和所述样本总量的占比,得到所述正负样本占比。5.根据权利要求4所述的方法,其特征在于,所述根据所述正样本占比和所述负样本占比计算正负样本差异度数据,包括:获取所述样本对象中所有所述对象属性特征与所述标定标签的匹配频次,得到总匹配数据;计算所述总匹配数据在所述样本总量中的占比,得到总匹配占比;比较所述正样本占比和所述负样本占比之间的大小关系;根据所述正样本占比和所述负样本占比之间的大小关系将...

【专利技术属性】
技术研发人员:董萍
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1