数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：32571185 阅读：35 留言：0更新日期：2022-03-09 16:58

本公开提供了一种数据处理方法、装置、电子设备和存储介质，涉及计算机领域，尤其涉及设备应用领域。具体实现方案为：对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。得到目标数据集。得到目标数据集。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质

[0001]本公开涉及计算机
，尤其涉及设备应用领域中的数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]目前，在建模场景中，使用机器学习和深度学习的模型，数据的稳定性是需要考虑到的因素，不仅需要最大限度提高离线建模效果，还要保证模型的上线效果。

技术实现思路

[0003]本公开提供了一种用于数据处理的方法、装置、设备以及存储介质。
[0004]根据本公开的一方面，提供了一种数据处理的方法。该方法包括：对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于表示第一原始数据集所对应的离散数据；基于多个分箱结果确定第一原始数据集中每个数据的目标指标，其中，每个数据的目标指标用于衡量对应的数据的非稳定性；基于每个数据的目标指标对第一原始数据集进行筛选，得到目标数据集。
[0005]根据本公开的另一方面，还提供了另一种数据处理装置。该装置包括：分箱单元，用于对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个分箱结果用于...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：对第一原始数据集进行分箱处理，得到多个分箱结果，其中，每个所述分箱结果用于表示所述第一原始数据集所对应的离散数据；基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标，其中，每个所述数据的目标指标用于衡量对应的所述数据的非稳定性；基于每个所述数据的目标指标对所述第一原始数据集进行筛选，得到目标数据集。2.根据权利要求1所述的方法，其中，基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标包括：确定所述多个分箱结果之间的差异信息，其中，所述差异信息用于表示所述第一原始数据集的波动程度；基于所述差异信息确定每个所述数据的目标指标。3.根据权利要求2所述的方法，其中，确定所述多个分箱结果之间的差异信息包括：基于每个所述分箱结果的正样本率，确定所述差异信息，其中，所述正样本率为每个所述分箱结果中的正样本数占每个所述分箱结果中的总样本数的比例。4.根据权利要求3所述的方法，其中，所述差异信息包括所述多个分箱结果的正样本率在不同时间区间对应的数据集之间的对比信息。5.根据权利要求2所述的方法，其中，所述方法还包括：确定每个所述分箱结果的目标权重，其中，所述目标权重为每个所述分箱结果中的样本数占多个所述分箱结果中的样本数的比例；确定所述多个分箱结果之间的差异信息包括：确定每个所述分箱结果中的样本数小于第一阈值，则基于每个所述分箱结果的目标权重确定所述差异信息。6.根据权利要求1所述的方法，还包括：将第二原始数据集中重要度大于第二阈值的数据，确定为所述第一原始数据集中的数据。7.根据权利要求1所述的方法，基于每个所述数据的目标指标对所述第一原始数据集进行筛选，得到目标数据集包括：对每个所述数据的目标指标进行排序，得到多个所述目标指标；在所述第一原始数据集中，筛除掉位于多个所述目标指标中的目标排序...

【专利技术属性】
技术研发人员：严巍，许韩晨玺，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人