一种数据处理方法及其相关产品技术

技术编号:36227255 阅读:52 留言:0更新日期:2023-01-04 12:26
本申请公开了一种数据处理方法及其相关产品。该方法包括:从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;未标记数据集中包括多个未被标记的结构化数据;对已标记的目标样本进行分析处理,生成与已标记的目标样本具有相同标记信息的新的样本;以新的样本更新用于训练结构化数据检测模型的已标记数据集;已标记数据集中包括多个已标记的结构化数据。如此,通过选取信息量最大的结构化数据作为目标样本进行标记,而非对未标记数据集中的所有样本均进行标记,可以节约标记数据的资源。并且,新的样本与目标样本具有相同标记信息,以新的样本扩充已标记数据集,可以进一步减少标记数据的计算资源和人力资源。资源。资源。

【技术实现步骤摘要】
一种数据处理方法及其相关产品


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法及其相关产品。

技术介绍

[0002]结构化数据,简单来说就是数据库。它是一种由二维表结构来表达逻辑和实现的数据,需要严格地遵循数据格式和长度规范。在实际应用中,较为典型的结构化数据,例如是身份证号、电话号码、姓名及家庭住址等。基于此,针对结构化数据的检测方案,便可及时发现结构化数据的异常情况,从而在数据安全方面具有重要意义,例如是实现社交网络恶意账号检测、金融交易欺诈检测等。
[0003]现有技术中,针对结构化数据的检测方案一般采取深度学习模型实现。虽然深度学习模型在结构化数据的检测方面效果较好,但在模型训练过程中,往往需要大量的计算资源和人力资源预先标记训练数据,导致训练代价较大。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法及其相关产品,旨在采用较小的训练代价训练用于结构化数据的检测的模型。
[0005]第一方面,本申请实施例提供了一种数据处理方法,包括:
[0006]从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;
[0007]对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;
[0008]以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。
[0009]可选地,所述从未标记数据集中确定信息量最大的结构化数据作为目标样本,包括:
[0010]基于蒙特卡洛的丢弃算法,确定用于选取所述目标样本的获取函数;
[0011]基于所述获取函数,并通过最大化算法,从所述未标记数据集中确定所述目标样本。
[0012]可选地,所述方法基于贝叶斯的深度学习框架实现;所述获取函数通过如下公式确定:
[0013][0014]其中,a(X,M)为所述获取函数;X为所述未标记数据集中的样本;M为所述深度学习框架;c为样本类别;t为丢弃次数,t=0,1,

,T;为第t次丢弃时,所述深度学习框架的参数θ的估计值。
[0015]可选地,所述目标样本通过如下公式确定:
[0016][0017]其中,X
*
为所述目标样本;argmax为所述最大化算法,X为所述未标记数据集中的样本;D
pool
为所述未标记数据集;a(X,M)为所述获取函数。
[0018]可选地,所述方法基于贝叶斯的深度学习框架实现;所述深度学习框架包括编码器、解码器和鉴别器;所述对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本,包括:
[0019]将所述已标记的目标样本输入至所述编码器,并通过所述解码器,得到所述解码器的输出结果作为所述新的样本;
[0020]利用所述鉴别器优化所述解码器,以使所述新的样本逼近真实样本。
[0021]可选地,所述深度学习框架还包括分类器;所述解码器通过变分自编码器VAE

辅助分类生成式对抗网络ACGAN实现;所述方法还包括:
[0022]基于所述VAE的重建损失和正则化损失,确定所述VAE的损失作为第一损失;所述第一损失用于优化所述VAE;
[0023]基于所述编码器、所述解码器、所述鉴别器和所述分类器,确定所述ACGAN的损失作为第二损失;所述第二损失用于优化所述ACGAN;
[0024]基于所述第一损失和所述第二损失,确定所述解码器的损失作为第三损失,并利用所述第三损失优化所述解码器。
[0025]可选地,所述方法还包括:
[0026]基于一阶泰勒公式,确定所述获取函数在所述新的样本下的值;
[0027]根据所述获取函数在所述新的样本下的值,评估所述新的样本的信息量。
[0028]第二方面,本申请实施例提供了一种数据处理装置,包括:
[0029]样本确定模块,用于从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;
[0030]样本生成模块,用于对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;
[0031]数据集更新模块,用于以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。
[0032]第三方面,本申请实施例提供了一种数据处理设备,所述设备包括:处理器、存储器、系统总线;
[0033]所述处理器以及所述存储器通过所述系统总线相连;
[0034]所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述数据处理方法的任一种实现方法。
[0035]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述数据处理方法的任一种实现方法。
[0036]从以上技术方案可以看出,本申请实施例具有以下优点:
[0037]在本申请实施例中,从包括多个未被标记的结构化数据的未标记数据集中,选取
信息量最大的结构化数据作为目标样本,并进行标记之后,可以对已标记的目标样本进行分析处理,生成与已标记的目标样本具有相同标记信息的新的样本。而后,可以采用新的样本更新包括多个已标记的结构化数据的已标记数据集,以便利用已标记数据集训练结构化数据检测模型。如此,通过选取信息量最大的结构化数据作为目标样本进行标记,而不是对未标记数据集中的所有样本均进行标记,可以节约标记数据的资源。并且,由于对已标记的目标样本进行分析处理生成的新的样本,与已标记的目标样本具有相同标记信息,因此,以新的样本扩充已标记数据集,可以进一步减少标记数据的计算资源和人力资源,从而实现以较小的训练代价训练结构化数据检测模型,便于后续实现结构化数据的检测。
附图说明
[0038]图1为本申请实施例提供的一种数据处理方法的流程图;
[0039]图2为本申请实施例提供的另一种数据处理方法的流程图;
[0040]图3为本申请实施例提供的一种数据处理装置的结构示意图。
具体实施方式
[0041]正如前文所述,现有技术中,针对结构化数据的检测方案一般采取深度学习模型实现。虽然深度学习模型在结构化数据的检测方面效果较好,但在模型训练过程中,往往需要大量的计算资源和人力资源预先对结构化数据进行标记,使得深度学习模型能够基于标记的结构化数据进行学习,实现结构化数据的检测。如此,导致训练代价较大。
[0042]为了解决上述问题,本申请实施例提供了一种数据处理方法,该方法可以包括:从包括多个未被标记的结构化数据的未标记数据集中,选取信息量最大的结构化数据作为目标样本,并进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从未标记数据集中确定信息量最大的结构化数据作为目标样本,并进行标记;所述未标记数据集中包括多个未被标记的结构化数据;对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本;以所述新的样本更新用于训练结构化数据检测模型的已标记数据集;所述已标记数据集中包括多个已标记的结构化数据。2.根据权利要求1所述的方法,其特征在于,所述从未标记数据集中确定信息量最大的结构化数据作为目标样本,包括:基于蒙特卡洛的丢弃算法,确定用于选取所述目标样本的获取函数;基于所述获取函数,并通过最大化算法,从所述未标记数据集中确定所述目标样本。3.根据权利要求2所述的方法,其特征在于,所述方法基于贝叶斯的深度学习框架实现;所述获取函数通过如下公式确定:其中,a(X,M)为所述获取函数;X为所述未标记数据集中的样本;M为所述深度学习框架;c为样本类别;t为丢弃次数,t=0,1,

,T;为第t次丢弃时,所述深度学习框架的参数θ的估计值。4.根据权利要求2所述的方法,其特征在于,所述目标样本通过如下公式确定:其中,X
*
为所述目标样本;argmax为所述最大化算法,X为所述未标记数据集中的样本;D
pool
为所述未标记数据集;a(X,M)为所述获取函数。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法基于贝叶斯的深度学习框架实现;所述深度学习框架包括编码器、解码器和鉴别器;所述对已标记的目标样本进行分析处理,生成与所述已标记的目标样本具有相同标记信息的新的样本,包括:将所述已标记的目标样本输入至所述编码器,并通过所述解码器,得到所述解码器的输出结果作为所述新的样本;利用所述鉴别器优化所述解码器,以使所述新的样本逼近真实样本...

【专利技术属性】
技术研发人员:聂玲尹将伯刘梓田杨洋余泽豪
申请(专利权)人:北京中电普华信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1