入模特征提取方法、装置、设备、介质及产品制造方法及图纸

技术编号:39183821 阅读:29 留言:0更新日期:2023-10-27 08:31
本申请公开了一种入模特征提取方法、装置、设备、介质及产品。该入模特征提取方法包括在N个特征中每个特征下分别对M个对象进行分箱处理,确定每个特征对应的K个目标对象集合,计算每个目标对象集合对应的入模评价指标值,并根据第一权重对其中少数类对象占优的第一对象集合所对应的入模评价指标值进行加权处理,根据第二权重对其中多数类对象占优的第二对象集合所对应的入模评价指标值进行加权处理,确定每个特征对应的加权入模评价指标值,进而提取对象分类模型的入模特征。根据本申请实施例,可以使选取得到的入模特征在兼顾模型对多数类对象的识别能力的同时,提升对少数类对象的识别能力,从而在有限个入模特征下最大限度提升建模有效性。限度提升建模有效性。限度提升建模有效性。

【技术实现步骤摘要】
入模特征提取方法、装置、设备、介质及产品


[0001]本申请属于数据处理技术,尤其涉及一种入模特征提取方法、装置、设备、介质及产品。

技术介绍

[0002]特征入模技术是特征工程中的重要技术之一,决定了数据提供方在特定场景分析时参与建模的特征组成,进而决定了模型输出结果准确性的上限。
[0003]针对对象分类模型的入模特征的选取,现有的特征入模评价指标对于每个类型对象的重要性视为同等重要。然而,在很多场景下,占比较小的少数类对象往往比占比较多的多数类对象更具有识别价值,因此通常需要对少数类对象进行精准识别。这也意味着在建模过程中应尽可能提升模型对这种少数类对象的识别能力。
[0004]因此,根据现有的特征入模评价指标选取得到的入模特征,无法在兼顾模型对多数类对象的识别能力的同时提升对少数类对象的识别能力,降低了建模有效性。

技术实现思路

[0005]本申请实施例提供一种入模特征提取方法、装置、设备、介质及产品,能够使选取得到的入模特征在兼顾模型对多数类对象的识别能力的同时,提升对少数类对象的识别能力,从而在有限个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种入模特征提取方法,其特征在于,包括:获取M个对象在N个特征下的特征数据,所述M个对象包括第一类型对象和第二类型对象,所述M个对象中所述第一类型对象的数量大于所述第二类型对象的数量;针对所述N个特征中的每个特征,根据所述特征数据对所述M个对象进行分箱处理,确定与每个特征对应的K个目标对象集合;按照预设特征入模评价指标对应的计算方式,确定所述K个目标对象集合对应的入模评价指标值;根据第一权重对所述K个目标对象集合中满足目标条件的第一对象集合对应的入模评价指标值进行加权处理,以及根据第二权重对所述K个目标对象集合中不满足所述目标条件的第二对象集合对应的入模评价指标值进行加权处理,基于加权处理结果确定与所述特征对应的加权入模评价指标值,所述目标条件为目标对象集合中第一类型对象的数量占比小于所述M个对象中第一类型对象的数量占比,所述第一权重大于所述第二权重;根据所述N个特征分别对应的加权入模评价指标值,从所述N个特征中提取至少一个特征,作为对象分类模型的入模特征,所述对象分类模型用于对第一类型对象和第二类型对象进行分类识别;其中,M、N为大于1的整数,K为自然数。2.根据权利要求1所述的方法,其特征在于,所述针对所述N个特征中的每个特征,根据所述特征数据对所述M个对象进行分箱处理,确定与每个特征对应的K个目标对象集合,包括:针对所述N个特征中的每个特征,根据所述特征数据对所述M个对象进行分箱处理,得到与每个特征对应的L个对象集合;从所述L个对象集合中确定与所述M个对象中的对象类型分布特征不匹配的对象集合,得到与每个特征对应的K个目标对象集合;其中,L为大于1的整数,且L≥K。3.根据权利要求2所述的方法,其特征在于,所述从所述L个对象集合中确定与所述M个对象中的对象类型分布特征不匹配的对象集合,得到与每个特征对应的K个目标对象集合,包括:确定所述L个对象集合中的每个对象集合相对于所述M个对象在对象类型分布特征上的显著性指标值;从所述L个对象集合中确定显著性指标值大于预设指标阈值的对象集合,得到与每个特征对应的K个目标对象集合。4.根据权利要求3所述的方法,其特征在于,所述确定所述L个对象集合中的每个对象集合相对于所述M个对象在对象类型分布特征上的显著性指标值,包括:根据所述L个对象集合中的每个对象集合中第一类型对象的数量和第二类型对象的数量,以及所述M个对象中第一类型对象的数量和第二类型对象的数量,计算每个对象集合对应的卡方值;根据所述卡方值确定所述显著性指标值。5.根据权利要求1所述的方法,其特征在于,所述根据所述N个特征分别对应的加权入模评价指标值,从所述N个特征中提取至少一个特征,作为对象分类模型的入模特征,包括:
按照所述N个特征分别对应的加权入模评价指标值的大小,对所述N个特征进行排序,得到特征入模顺序;基于所述特征入模顺序,从所述N个特征中提取至少一个特征,作为所述对象分类模型的入模特征。6.根据权利要求5所述的方法,其特征在于,所述按照所述N个特征分别对应的加权入模评价指标值的大小,对所述N个特征进行排序,得到特征入模顺序,包括:按照所述N个特征分别对应的加权入模评价指标值的大小,对所述N个特征进行排序;在第一特征对应的加权入模评价指标值与第二特征对应的加权入模评价指标值大小相同的情况下,获取所述第一特征对应的K个目标对象集合中满足所述目标条件的第一对象集合的数量,得到第一数量,以及获取所述第二特征对应的K个目标对象集合中满足所述目标条件的第一对象集合的数量,得到第二数量,其中,所述第一特征和所述第二特征为所述N个特征中的任意两个特征;在所述第一数量大于所述第二数量的情况下,将所述第一特征排列在所述第二特征之前,得到所述特征入模顺序。7.根据权利要求5所述的方法,其特征在于,所述基于所述特征入模顺序,从所述N个特征中提取至少一个特征,作为所述对象分类模型的入模特征,包括:基于所述特征入模顺序,从所述N个特征中未被选择过的特征中选择最靠前的特征作为目标特征;确定所述目标特征对应的加权入模评价指标值与已确定的入模特征对应的加权入模评价指标值之间的差异值;在所述差异值不小于预...

【专利技术属性】
技术研发人员:张远健丁亚丹周雍恺李定洲高鹏飞孙权
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1