一种数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:38239331 阅读:13 留言:0更新日期:2023-07-25 18:03
本发明专利技术实施例公开了一种数据处理方法、装置、设备和存储介质,该方法包括:对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态;根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态;根据所述调优后分箱状态对所述样本数据进行再次分箱,得到多箱目标样本数据。上述技术方案,确定初始分箱后各箱样本数据的证据权重后,对证据权重进行单调调优得到调优后证据权重,根据调优后证据权重所确定的调优后分箱状态对样本数据进行再次分箱,得到多箱目标样本数据,实现对样本数据的线性分箱。本数据的线性分箱。本数据的线性分箱。

【技术实现步骤摘要】
一种数据处理方法、装置、设备和存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种数据处理方法、装置、设备和存储介质。

技术介绍

[0002]联邦学习框架是一种分布式的人工智能模型训练框架,联邦学习可以使得多个企业的企业数据在无需共享的条件下实现联邦建模和联邦训练,即联邦学习提供了一种破解数据安全和数据孤岛问题的可行性方向。
[0003]在需要基于多个企业的企业数据建立模型时,可以基于联邦学习框架进行模型构建和模型训练,在模型训练时,需要对多个企业所提供的企业数据即连续变量进行离散化,得到离散变量,并基于各企业对应的离散变量进行模型训练。现有技术可以通过等频分箱或者等距分箱实现变量离散化。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中至少存在以下技术问题:
[0005]在需要对线性模型进行训练时,如果连续变量与线性模型的输出不存在直接线性关系,通过现有技术对连续变量进行离散化得到的离散变量对模型的训练效果较差。

技术实现思路

[0006]本专利技术提供一种数据处理方法、装置、设备和存储介质,以实现对数据的线性分箱,提升分箱效果,使得对分箱后数据进行离散化处理得到的离散数据可以用于线性模型训练。
[0007]第一方面,本专利技术实施例提供了一种数据处理方法,所述方法包括:
[0008]对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态;
[0009]根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态;
[0010]根据所述调优后分箱状态对所述样本数据进行再次分箱,得到多箱目标样本数据。
[0011]第二方面,本专利技术实施例还提供了一种数据处理装置,所述装置包括:
[0012]分箱模块,用于对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态;
[0013]确定模块,用于根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态;
[0014]执行模块,用于根据所述调优后分箱状态对所述样本数据进行再次分箱,得到多箱目标样本数据。
[0015]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在
存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任一所述的数据处理方法。
[0016]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的数据处理方法。
[0017]上述专利技术中的实施例具有如下优点或有益效果:
[0018]本专利技术实施例提供一种数据处理方法,所述方法包括:对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态;根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态;根据所述调优后分箱状态对所述样本数据进行再次分箱,得到多箱目标样本数据。上述技术方案,首先可以对样本数据进行分类,对各类样本数据进行分箱,得到被分为多箱的样本数据,实现对样本数据的初始分箱,确定初始分箱状态为初始分箱后各箱样本数据的特征编号、箱编号、左阈值、右阈值以及样本总数,其次可以根据样本数据对应的标签确定的各箱样本数据的正样本数以及初始分箱状态所包含的各箱样本数据的样本总数确定各箱样本数据的负样本数,根据各箱样本数据的正样本数以及负样本数确定各箱样本数据的证据权重,对证据权重进行单调调优可以确定调优后分箱状态,基于调优后分箱状态对样本数据进行再次分箱,可以得到多箱目标样本数据,实现对样本数据的线性分箱,对多箱目标数据进行离散化处理得到的离散目标样本数据可以用于对线性模型进行训练。
附图说明
[0019]图1为本专利技术实施例提供的一种数据处理方法的流程图;
[0020]图2为本专利技术实施例提供的另一种数据处理方法的流程图;
[0021]图3为本专利技术实施例提供的另一种数据处理方法实现流程图;
[0022]图4为本专利技术实施例提供的一种数据处理装置的结构示意图;
[0023]图5为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0025]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0026]一般在建立分类模型时,需要对连续的样本数据进行离散化处理,对样本数据离散化处理后,降低了模型过拟合的风险,提高模型稳定性,并且离散特征的增加和减少都很
容易,易于模型的快速迭代,稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
[0027]在需要建立线性模型时,如果样本数据与线性模型的输出不存在直接线性关系,通过现有的等频分箱或者等距分箱对样本数据进行离散化处理得到的离散样本数据对线性模型的训练效果较差。因此,本申请提出一种数据处理方法,以实现对样本数据的分箱,而且对分箱后的样本数据进行样本数据离散化处理得到的离散样本数据可以用于训练线性模型。
[0028]下面将结合示图和实施例对本申请提出的数据处理方法进行详细的描述。
[0029]图1为本专利技术实施例提供的一种数据处理方法的流程图,本专利技术实施例可适用于需要对数据进行线性分箱的情况。该方法可以由数据处理装置来执行,该装置可以由软件和/或硬件的方式来实现。可选的,该数据处理装置可配置于计算机设备。如图1所述,该方法具体包括以下步骤:
[0030]步骤110、对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态。
[0031]对样本数据进行初始分箱时,可以采用常用的分箱方法,例如,可以采用等频分箱或者等距分箱对样本数据进行初始分箱。等频分箱只考虑边界值,每箱中样本数据的数量可能不一样。基于等频分箱对样本数据进行分箱时,首先确定样本数据的最小值A和最大值B,进而确定等频分箱的长度W=(B

A)/N,各箱的边界值为A+W,A+2W,
……
A+(N

1)W。等距分箱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态;根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,通过对各箱样本数据的证据权重进行单调调优确定调优后分箱状态;根据所述调优后分箱状态对所述样本数据进行再次分箱,得到多箱目标样本数据。2.根据权利要求1所述的数据处理方法,其特征在于,对样本数据进行初始分箱,并确定初始分箱后所述样本数据对应的初始分箱状态,包括:基于所述样本数据所包含的特征信息对所述样本数据进行分类,将所述样本数据划分为i类;其中,i表示特征编号;对各类样本数据进行分箱,将各类样本数据划分为j箱,其中,j表示箱编号;根据i类被划分为j箱的各箱样本数据确定所述初始分箱状态,其中,所述初始分箱状态包括各箱样本数据的特征编号、箱编号、左阈值、右阈值以及样本总数。3.根据权利要求2所述的数据处理方法,其特征在于,根据各所述样本数据对应的标签以及所述初始分箱状态确定各箱样本数据的证据权重,包括:基于各箱样本数据所包含的各所述样本数据对应的标签的和值,确定各箱样本数据的正样本数;基于各箱样本数据的正样本数以及所述初始分箱状态所包含的各箱样本数据的样本总数,确定各箱样本数据的负样本数;根据各箱样本数据的正样本数和负样本数确定各箱样本数据的证据权重。4.根据权利要求3所述的数据处理方法,其特征在于,根据各箱样本数据的正样本数和负样本数确定各箱样本数据的证据权重,包括:根据各箱样本数据的正样本数确定各类样本数据中的正样本总数;根据各箱样本数据的负样本数确定各类样本数据中的负样本总数;基于各箱样本数据的正样本数以及各箱样本数据所属各类样本数据中的正样本总数确定各箱样本数据对应的第一比值,基于各箱样本数据的负样本数以及各箱样本数据所属各类样本数据中的负样本总数确定各箱样本数据对应的...

【专利技术属性】
技术研发人员:刘帅朝陈行张德
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1