一种数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号：38239331 阅读：13 留言：0更新日期：2023-07-25 18:03

本发明专利技术实施例公开了一种数据处理方法、装置、设备和存储介质，该方法包括：对样本数据进行初始分箱，并确定初始分箱后所述样本数据对应的初始分箱状态；根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重，通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态；根据所述调优后分箱状态对所述样本数据进行再次分箱，得到多箱目标样本数据。上述技术方案，确定初始分箱后各箱样本数据的证据权重后，对证据权重进行单调调优得到调优后证据权重，根据调优后证据权重所确定的调优后分箱状态对样本数据进行再次分箱，得到多箱目标样本数据，实现对样本数据的线性分箱。本数据的线性分箱。本数据的线性分箱。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备和存储介质

[0001]本专利技术实施例涉及计算机
，尤其涉及一种数据处理方法、装置、设备和存储介质。

技术介绍

[0002]联邦学习框架是一种分布式的人工智能模型训练框架，联邦学习可以使得多个企业的企业数据在无需共享的条件下实现联邦建模和联邦训练，即联邦学习提供了一种破解数据安全和数据孤岛问题的可行性方向。
[0003]在需要基于多个企业的企业数据建立模型时，可以基于联邦学习框架进行模型构建和模型训练，在模型训练时，需要对多个企业所提供的企业数据即连续变量进行离散化，得到离散变量，并基于各企业对应的离散变量进行模型训练。现有技术可以通过等频分箱或者等距分箱实现变量离散化。
[0004]在实现本专利技术的过程中，专利技术人发现现有技术中至少存在以下技术问题：
[0005]在需要对线性模型进行训练时，如果连续变量与线性模型的输出不存在直接线性关系，通过现有技术对连续变量进行离散化得到的离散变量对模型的训练效果较差。

技术实现思路

[0006]本专利技术提供一种数据处理方法、装置、设备和存储介质，以实现对数据的线性分箱，提升分箱效果，使得对分箱后数据进行离散化处理得到的离散数据可以用于线性模型训练。
[0007]第一方面，本专利技术实施例提供了一种数据处理方法，所述方法包括：
[0008]对样本数据进行初始分箱，并确定初始分箱后所述样本数据对应的初始分箱状态；
[0009]根据各所述样本数据对应的标签以及所述初始分箱状态确定...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：对样本数据进行初始分箱，并确定初始分箱后所述样本数据对应的初始分箱状态；根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重，通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态；根据所述调优后分箱状态对所述样本数据进行再次分箱，得到多箱目标样本数据。2.根据权利要求1所述的数据处理方法，其特征在于，对样本数据进行初始分箱，并确定初始分箱后所述样本数据对应的初始分箱状态，包括：基于所述样本数据所包含的特征信息对所述样本数据进行分类，将所述样本数据划分为i类；其中，i表示特征编号；对各类样本数据进行分箱，将各类样本数据划分为j箱，其中，j表示箱编号；根据i类被划分为j箱的各箱样本数据确定所述初始分箱状态，其中，所述初始分箱状态包括各箱样本数据的特征编号、箱编号、左阈值、右阈值以及样本总数。3.根据权利要求2所述的数据处理方法，其特征在于，根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重，包括：基于各箱样本数据所包含的各所述样本数据对应的标签的和值，确定各箱样本数据的正样本数；基于各箱样本数据的正样本数以及所述初始分箱状态所包含的各箱样本数据的样本总数，确定各箱样本数据的负样本数；根据各箱样本数据的正样本数和负样本数确定各箱样本数据的证据权重。4.根据权利要求3所述的数据处理方法，其特征在于，根据各箱样本数据的正样本数和负样本数确定各箱样本数据的证据权重，包括：根据各箱样本数据的正样本数确定各类样本数据中的正样本总数；根据各箱样本数据的负样本数确定各类样本数据中的负样本总数；基于各箱样本数据的正样本数以及各箱样本数据所属各类样本数据中的正样本总数确定各箱样本数据对应的第一比值，基于各箱样本数据的负样本数以及各箱样本数据所属各类样本数据中的负样本总数确定各箱样本数据对应的...

【专利技术属性】
技术研发人员：刘帅朝，陈行，张德，
申请(专利权)人：京东科技控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人