特征信息的处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33480261 阅读:14 留言:0更新日期:2022-05-19 00:54
本公开提供了一种特征信息的处理方法,涉及数据处理技术领域,尤其涉及人工智能和大数据领域。具体实现方案为:在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分割取值范围的两个子范围;将所述两个子范围中符合终止条件的子范围确定为目标区间,并将所述两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回所述在待分割取值范围中确定至少一个候选分割点的步骤,直至所述两个子范围均满足所述终止条件,得到多个目标区间。多个目标区间。多个目标区间。

【技术实现步骤摘要】
特征信息的处理方法、装置、电子设备和存储介质


[0001]本公开涉及数据处理
,尤其涉及人工智能和大数据领域,具体涉及一种特征信息的处理方法、装置、电子设备和存储介质。

技术介绍

[0002]在数据处理
,待处理的数据的特征信息包括连续型变量和离散型变量。在一些场景下,对于连续型变量例如年龄、金额等,需要对其进行变量分箱(即离散化处理),以利用连续型变量对应的离散化编码进行数据挖掘和分析。常用的分箱方式包括等频分箱、等距分箱、分布分箱等。

技术实现思路

[0003]本公开提供了一种特征信息的处理方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种特征信息的处理方法,包括:
[0005]在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;
[0006]基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;
[0007]基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分割取值范围的两个子范围;
[0008]将所述两个子范围中符合终止条件的子范围确定为目标区间,并将所述两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回所述在待分割取值范围中确定至少一个候选分割点的步骤,直至所述两个子范围均满足所述终止条件,得到多个目标区间;其中,所述多个目标区间用于确定待处理数据的特征信息的离散化编码。
[0009]根据本公开的另一方面,提供了一种价值确定模块,用于在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;
[0010]分割点确定模块,用于基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;
[0011]分割模块,用于基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分割取值范围的两个子范围;
[0012]子范围迭代模块,用于将所述两个子范围中符合终止条件的子范围确定为目标区间,并将所述两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回所述在待分割取值范围中确定至少一个候选分割点的步骤,直至所述两个子范围均满足所述终止条件,得到多个目标区间;其中,所述多个目标区间用于确定待处理数据的所述特征信息的离散化编码。
[0013]根据本公开的另一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与该至少一个处理器通信连接的存储器;其中,
[0016]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
[0017]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
[0018]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。
[0019]根据本公开的技术,可以在特征信息的取值范围内确定信息价值最大的多个离散化区间,实现最优离散化并且提高离散化处理的效率。
[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0022]图1是根据本公开一实施例的特征信息处理方法的流程示意图一;
[0023]图2是根据本公开一实施例的特征信息处理方法的流程示意图二;
[0024]图3是根据本公开一实施例的年龄分割的树结构示意图;
[0025]图4是根据本公开一实施例的特征信息处理的全流程示意图;
[0026]图5是根据本公开一实施例的特征信息处理装置示意图一;
[0027]图6是根据本公开一实施例的特征信息处理装置示意图二;
[0028]图7是根据本公开一实施例的特征信息处理装置示意图三;
[0029]图8是用来实现本公开的实施例的特征信息处理方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]图1示出了本公开一个实施例提供的特征信息的处理方法的示意图。如图1所示,该方法可以包括:
[0032]S110,在特征信息的待分割取值范围中确定至少一个候选分割点,并确定至少一个候选分割点中每个候选分割点对应的信息价值(Infromation Value,IV);
[0033]S120,基于信息价值,在至少一个候选分割点中确定目标分割点;
[0034]S130,基于目标分割点对待分割取值范围进行分割,得到待分割取值范围的两个子范围;
[0035]S140,将两个子范围中符合终止条件的子范围确定为目标区间,并将两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回在待分割取值范围中确定至少一个候选分割点的步骤,直至两个子范围均满足终止条件,得到多个目标区间;其中,多个目标区间用于确定待处理数据的特征信息的离散化编码。
[0036]在本公开实施例中,特征信息可以指表征对象数据(如用户数据或产品数据)的特征的变量。示例性地,在利用预测模型(如逻辑回归模型或神经网络模型)对某些对象进行预测的场景中,特征信息可以为输入预测模型中的代表该对象的变量。例如,对于某个用户,特征信息可以是年龄、身高等。
[0037]在本公开实施例中,信息价值(IV)为表征预测能力的数值,也可以称为信息量。实际应用中,信息价值可用于衡量变量分箱后得到的各个变量分组(例如上述子范围、目标区间)的预测能力。
[0038]示例性地,对于变量分组i,其信息价值可以基于分组i的WOE(Weight ofEvidence,证据权重)计算得到,其中,WOE表征分组i中正负样本的比值与所有样本中正负样本的比值之间的差异。根据变量在各个分组上的信息价值,可以得到变量整体的信息价值,例如将各个分组的信息价值累加得到变量整体的信息价值。可见,信息价值也用于衡量变量的预测能力,例如可以在建模时用于筛选变量。
[0039]根据上述步骤S110,本公开实施例需要计算待分割取值范围中的候选分割点的信息价值。示例性地,候选分割点的信息价值可以是其对应的各个子范围的信息价值之和。其中,候选分割点对应的子范围为基于该候选分割点对待分割取值范围进行分割后得到的子范围。
[0040]根据上述方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征信息的处理方法,包括:在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分割取值范围的两个子范围;将所述两个子范围中符合终止条件的子范围确定为目标区间,并将所述两个子范围中不符合终止条件的子范围确定为新的待分割取值范围,返回所述在待分割取值范围中确定至少一个候选分割点的步骤,直至所述两个子范围均满足所述终止条件,得到多个目标区间;其中,所述多个目标区间用于确定待处理数据的特征信息的离散化编码。2.根据权利要求1所述的方法,还包括:在所述多个目标区间中确定所述待处理数据的特征信息所在的区间;基于所述待处理数据的特征信息所在的区间的证据权重,得到所述待处理数据的特征信息的离散化编码。3.根据权利要求1或2所述的方法,还包括:利用预设的逻辑回归模型对所述待处理数据的特征信息的离散化编码进行处理,得到所述待处理数据对应的预测信息。4.根据权利要求1

3中任一项所述的方法,其中,所述确定所述至少一个候选分割点中每个候选分割点对应的信息价值,包括:基于所述至少一个候选分割点中的第i个候选分割点对所述待分割取值范围进行分割,得到所述第i个候选分割点对应的两个候选子范围;其中,i为大于或等于1的整数;基于多个样本数据中的每个样本数据的特征信息,得到所述两个候选子范围分别对应的信息价值;基于所述两个候选子范围分别对应的信息价值,得到所述第i个候选分割点对应的信息价值。5.根据权利要求1

4中任一项所述的方法,其中,所述方法还包括:基于多个样本数据中的每个样本数据的特征信息,得到初始的待分割取值范围。6.根据权利要求1

5中任一项所述的方法,其中,所述终止条件包括以下条件中的至少一个:所述子范围为相对初始的待分割取值范围的第N级子范围,其中,N为大于或等于2的整数;所述子范围包括的特征值的数量小于预设数量;对所述子范围进行分割后的信息价值小于所述子范围的信息价值。7.一种特征信息的处理装置,包括:价值确定模块,用于在特征信息的待分割取值范围中确定至少一个候选分割点,并确定所述至少一个候选分割点中每个候选分割点对应的信息价值;分割点确定模块,用于基于所述信息价值,在所述至少一个候选分割点中确定目标分割点;分割模块,用于基于所述目标分割点对所述待分割取值范围进行分割,得到所述待分
割取值范围的两个子范围;子范围迭代模块,用于将所...

【专利技术属性】
技术研发人员:刘昊骋徐靖宇陈才李硕
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1