一种数据处理方法及其相关产品技术

技术编号：36227255 阅读：52 留言：0更新日期：2023-01-04 12:26

本申请公开了一种数据处理方法及其相关产品。该方法包括：从未标记数据集中确定信息量最大的结构化数据作为目标样本，并进行标记；未标记数据集中包括多个未被标记的结构化数据；对已标记的目标样本进行分析处理，生成与已标记的目标样本具有相同标记信息的新的样本；以新的样本更新用于训练结构化数据检测模型的已标记数据集；已标记数据集中包括多个已标记的结构化数据。如此，通过选取信息量最大的结构化数据作为目标样本进行标记，而非对未标记数据集中的所有样本均进行标记，可以节约标记数据的资源。并且，新的样本与目标样本具有相同标记信息，以新的样本扩充已标记数据集，可以进一步减少标记数据的计算资源和人力资源。资源。资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及其相关产品

[0001]本申请涉及计算机
，尤其涉及一种数据处理方法及其相关产品。

技术介绍

[0002]结构化数据，简单来说就是数据库。它是一种由二维表结构来表达逻辑和实现的数据，需要严格地遵循数据格式和长度规范。在实际应用中，较为典型的结构化数据，例如是身份证号、电话号码、姓名及家庭住址等。基于此，针对结构化数据的检测方案，便可及时发现结构化数据的异常情况，从而在数据安全方面具有重要意义，例如是实现社交网络恶意账号检测、金融交易欺诈检测等。
[0003]现有技术中，针对结构化数据的检测方案一般采取深度学习模型实现。虽然深度学习模型在结构化数据的检测方面效果较好，但在模型训练过程中，往往需要大量的计算资源和人力资源预先标记训练数据，导致训练代价较大。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法及其相关产品，旨在采用较小的训练代价训练用于结构化数据的检测的模型。
[0005]第一方面，本申请实施例提供了一种数据处理方法，包括：
[0006]从未标记数据集中确定信息量最大的结构化数据作为目标样本，并进行标记；所述未标记数据集中包括多个未被标记的结构化数据；
[0007]对已标记的目标样本进行分析处理，生成与所述已标记的目标样本具有相同标记信息的新的样本；
[0008]以所述新的样本更新用于训练结构化数据检测模型的已标记数据集；所述已标记数据集中包括多个已标记的结构化数据。
[0009]可选地，所述从未标记数据集中确...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：从未标记数据集中确定信息量最大的结构化数据作为目标样本，并进行标记；所述未标记数据集中包括多个未被标记的结构化数据；对已标记的目标样本进行分析处理，生成与所述已标记的目标样本具有相同标记信息的新的样本；以所述新的样本更新用于训练结构化数据检测模型的已标记数据集；所述已标记数据集中包括多个已标记的结构化数据。2.根据权利要求1所述的方法，其特征在于，所述从未标记数据集中确定信息量最大的结构化数据作为目标样本，包括：基于蒙特卡洛的丢弃算法，确定用于选取所述目标样本的获取函数；基于所述获取函数，并通过最大化算法，从所述未标记数据集中确定所述目标样本。3.根据权利要求2所述的方法，其特征在于，所述方法基于贝叶斯的深度学习框架实现；所述获取函数通过如下公式确定：其中，a(X,M)为所述获取函数；X为所述未标记数据集中的样本；M为所述深度学习框架；c为样本类别；t为丢弃次数，t＝0,1,
…
,T；为第t次丢弃时，所述深度学习框架的参数θ的估计值。4.根据权利要求2所述的方法，其特征在于，所述目标样本通过如下公式确定：其中，X
*
为所述目标样本；argmax为所述最大化算法，X为所述未标记数据集中的样本；D
pool
为所述未标记数据集；a(X,M)为所述获取函数。5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法基于贝叶斯的深度学习框架实现；所述深度学习框架包括编码器、解码器和鉴别器；所述对已标记的目标样本进行分析处理，生成与所述已标记的目标样本具有相同标记信息的新的样本，包括：将所述已标记的目标样本输入至所述编码器，并通过所述解码器，得到所述解码器的输出结果作为所述新的样本；利用所述鉴别器优化所述解码器，以使所述新的样本逼近真实样本...

【专利技术属性】
技术研发人员：聂玲，尹将伯，刘梓田，杨洋，余泽豪，
申请(专利权)人：北京中电普华信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人