数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32571185 阅读:26 留言:0更新日期:2022-03-09 16:58
本公开提供了一种数据处理方法、装置、电子设备和存储介质,涉及计算机领域,尤其涉及设备应用领域。具体实现方案为:对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据;基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性;基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。得到目标数据集。得到目标数据集。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及设备应用领域中的数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,在建模场景中,使用机器学习和深度学习的模型,数据的稳定性是需要考虑到的因素,不仅需要最大限度提高离线建模效果,还要保证模型的上线效果。

技术实现思路

[0003]本公开提供了一种用于数据处理的方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种数据处理的方法。该方法包括:对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据;基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性;基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。
[0005]根据本公开的另一方面,还提供了另一种数据处理装置。该装置包括:分箱单元,用于对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据;确定单元,用于基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性;筛选单元,用于基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。
[0006]根据本公开的另一方面,还提供了一种电子设备。该电子设备可以包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的数据处理方法。
[0007]根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例的数据处理方法。
[0008]根据本公开的另一方面,还提供了一种计算机程序产品,可以包括计算机程序,计算机程序在被处理器执行时实现本公开实施例的数据处理方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例的一种数据处理方法的流程图;
[0012]图2是根据本公开实施例中的不稳定性特征的分布变化的示意图;
[0013]图3是根据本公开实施例的一种特征筛选验证的流程图;
[0014]图4是根据本公开实施例的一种数据集的切分方式的示意图;
[0015]图5是根据本公开实施例的一种特征筛选方法在已有的一个数据集上表现的示意图;
[0016]图6是根据本公开实施例的一种数据处理装置的示意图;
[0017]图7是根据本公开实施例的一种数据处理的方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]图1是根据本公开实施例的一种数据处理方法的流程图。如图1所示,该方法可以包括以下步骤:
[0020]步骤S102,对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据。
[0021]在本公开上述步骤S102提供的技术方案中,第一原始数据集可以为原始数据特征,可以包括类别特征和连续特征,其中,类别特征可以为性别、学历等,连续特征可以为收入等。
[0022]可选地,分箱处理可以为利用等距、等频、以及依据特征重要度(xgboost)等树模型训练过程中的特征分裂值作为分箱依据,进行分箱处理。其中,针对不同信贷场景的数据分布差异,多种分箱方式都会进行尝试,最终对比提升效果,取其最优。
[0023]可选地,分箱处理作为一种常见的连续特征离散化的方式,可以为将连续特征、属性或变量转换或划分为离散数据,因此,每个分箱结果用于表示第一原始数据集所对应的离散数据。需要说明的是,离散特征无需分箱,离散特征也即类别特征,比如,学历有高中、本科、研究生,那么这三个取值其实就是三个分箱。
[0024]可选地,根据实际需求,选取提升效果最优的分箱方式,从而对第一原始数据集进行分箱处理,得到第一原始数据集所对应的离散数据。
[0025]步骤S104,基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性。
[0026]在本公开上述步骤S104提供的技术方案中,目标指标可以为特征的跨时间不稳定性指标,又可以称为特征波动指标,用于衡量对应的数据的非稳定性,可以用讯息散度(Kullback

Leibler divergence,简称为KL)计算。
[0027]可选地,利用讯息散度计算每个分箱结果的目标指标,从而得到第一原始数据集中每个数据的非稳定性。
[0028]步骤S106,基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。
[0029]在本公开上述步骤S106提供的技术方案中,可以按照经验设定要移除的不稳定特征值,从而实现对于第一原始数据集的筛选,移除稳定性较低的第一原始数据集的分箱结果,得到稳定性较高的目标数据集。
[0030]举例而言,将每个分箱结果的目标指标进行从高到低的排序,根据业务经验分别移除前10、20、30和40个,从而完成对第一原始数据集的筛选,得到目标数据集。
[0031]通过上述步骤S102至步骤S106,对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据;基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性;基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。也就是说,本公开通过对第一原始数据集进行分箱处理得到多个分箱结果,基于多个分箱结果确定第一原始数据集中每个数据的目标指标,基于每个数据的目标指标对第一原始数据集进行筛选,从而筛选掉不稳定的特征,进而达到了有效对不稳定特征进行筛选的技术效果,解决了无法有效对不稳定特征进行筛选的技术问题。
[0032]下面对该实施例的上述方法进行进一步地详细介绍。
[0033]作为一种可选的实施方式,该方法还包括:基于多个分箱结果确定第一原始数据集中每个数据的目标指标包括:确定多个分箱结果之间的差异信息,其中,差异信息用于表示第一原始数据集的波动程度;基于差异信息确定每个数据的目标指标。...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个所述分箱结果用于表示所述第一原始数据集所对应的离散数据;基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标,其中,每个所述数据的目标指标用于衡量对应的所述数据的非稳定性;基于每个所述数据的目标指标对所述第一原始数据集进行筛选,得到目标数据集。2.根据权利要求1所述的方法,其中,基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标包括:确定所述多个分箱结果之间的差异信息,其中,所述差异信息用于表示所述第一原始数据集的波动程度;基于所述差异信息确定每个所述数据的目标指标。3.根据权利要求2所述的方法,其中,确定所述多个分箱结果之间的差异信息包括:基于每个所述分箱结果的正样本率,确定所述差异信息,其中,所述正样本率为每个所述分箱结果中的正样本数占每个所述分箱结果中的总样本数的比例。4.根据权利要求3所述的方法,其中,所述差异信息包括所述多个分箱结果的正样本率在不同时间区间对应的数据集之间的对比信息。5.根据权利要求2所述的方法,其中,所述方法还包括:确定每个所述分箱结果的目标权重,其中,所述目标权重为每个所述分箱结果中的样本数占多个所述分箱结果中的样本数的比例;确定所述多个分箱结果之间的差异信息包括:确定每个所述分箱结果中的样本数小于第一阈值,则基于每个所述分箱结果的目标权重确定所述差异信息。6.根据权利要求1所述的方法,还包括:将第二原始数据集中重要度大于第二阈值的数据,确定为所述第一原始数据集中的数据。7.根据权利要求1所述的方法,基于每个所述数据的目标指标对所述第一原始数据集进行筛选,得到目标数据集包括:对每个所述数据的目标指标进行排序,得到多个所述目标指标;在所述第一原始数据集中,筛除掉位于多个所述目标指标中的目标排序...

【专利技术属性】
技术研发人员:严巍许韩晨玺
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1