分类模型训练方法及装置制造方法及图纸

技术编号:34853954 阅读:16 留言:0更新日期:2022-09-08 07:54
本说明书实施例提供分类模型训练方法及装置,其中,该方法包括获取正样本训练数据,并根据至少两种数据增强方法,对正样本训练数据进行数据增强,获得初始负样本训练数据;根据正样本训练数据和初始负样本训练数据,训练获得第一分类模型;根据至少两种数据增强方法、初始负样本训练数据以及第一分类模型,获得目标负样本训练数据;根据正样本训练数据和目标负样本训练数据,训练获得第二分类模型。具体的,该方法可以根据正样本训练数据以及、通过数据增强方法获得的负样本训练数据训练相应的分类模型,提高该分类模型的训练效果,使得该分类模型后续应用于隐私数据识别场景中时,可以快速且准确的识别数据仓库中的隐私数据。可以快速且准确的识别数据仓库中的隐私数据。可以快速且准确的识别数据仓库中的隐私数据。

【技术实现步骤摘要】
分类模型训练方法及装置


[0001]本说明书实施例涉及计算机
,特别涉及一种分类模型训练方法。

技术介绍

[0002]随着信息化技术的发展和移动智能设备的普及,人们无时无刻不在产生数据,各大公司和机构也都收集、积累了大量的用户数据。其中,有不少数据都属于用户隐私数据(如证件号码等)。在最近几年,各大公司发生隐私数据泄密事件造成的影响和结果极为严重,严守数据安全是企业和机构的底线。而在做隐私数据保护工作前,第一步重要工作就是识别出哪些数据是隐私数据。对于一些大型的互联网公司或者大型机构,存储了大量的用户数据,如何从数以万计的数据表中识别出哪些数据字段是隐私数据已经成为一个比较棘手的问题。
[0003]现有技术中,通常基于深度模型进行隐私数据识别,但在隐私数据识别场景中,往往会出现只有正样本的情况,这无疑会使得训练获得的深度模型的预测效果大打折扣。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种分类模型训练方法。本说明书一个或者多个实施例同时涉及一种分类模型训练装置,一种数据处理方法,一种数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种分类模型训练方法,包括:
[0006]获取正样本训练数据,并根据至少两种数据增强方法,对所述正样本训练数据进行数据增强,获得初始负样本训练数据,其中,所述正样本训练数据为用户隐私数据;
[0007]根据所述正样本训练数据和所述初始负样本训练数据,训练获得第一分类模型;
[0008]根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型,获得目标负样本训练数据;
[0009]根据所述正样本训练数据和所述目标负样本训练数据,训练获得第二分类模型。
[0010]根据本说明书实施例的第二方面,提供了一种分类模型训练装置,包括:
[0011]初始数据获取模块,被配置为获取正样本训练数据,并根据至少两种数据增强方法,对所述正样本训练数据进行数据增强,获得初始负样本训练数据,其中,所述正样本训练数据为用户隐私数据;
[0012]第一模型训练模块,被配置为根据所述正样本训练数据和所述初始负样本训练数据,训练获得第一分类模型;
[0013]目标数据获取模块,被配置为根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型,获得目标负样本训练数据;
[0014]第二模型训练模块,被配置为根据所述正样本训练数据和所述目标负样本训练数据,训练获得第二分类模型。
[0015]根据本说明书实施例的第三方面,提供了一种数据处理方法,包括:
[0016]确定待检测数据;
[0017]将所述待检测数据输入分类模型,获得所述待检测数据的检测结果;
[0018]根据所述检测结果确定所述待检测数据是否为目标数据,
[0019]其中,所述分类模型为通过上述分类模型训练方法训练获得的模型。
[0020]根据本说明书实施例的第四方面,提供了一种数据处理装置,包括:
[0021]数据确定模块,被配置为确定待检测数据;
[0022]结果获得模块,被配置为将所述待检测数据输入分类模型,获得所述待检测数据的检测结果;
[0023]数据判断模块,被配置为根据所述检测结果确定所述待检测数据是否为目标数据,
[0024]其中,所述分类模型为通过上述分类模型训练方法训练获得的模型。
[0025]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0026]存储器和处理器;
[0027]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述分类模型训练方法或者数据处理方法的步骤。
[0028]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述分类模型训练方法或者数据处理方法的步骤。
[0029]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述分类模型训练方法或者数据处理方法的步骤。
[0030]本说明书一个实施例实现了一种分类模型训练方法及装置,其中,该分类模型训练方法包括获取正样本训练数据,并根据至少两种数据增强方法,对所述正样本训练数据进行数据增强,获得初始负样本训练数据,其中,所述正样本训练数据为用户隐私数据;根据所述正样本训练数据和所述初始负样本训练数据,训练获得第一分类模型;根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型,获得目标负样本训练数据;根据所述正样本训练数据和所述目标负样本训练数据,训练获得第二分类模型。
[0031]具体的,该分类模型训练方法可以在仅存在正样本训练数据的情况下,结合至少两种数据增强方法生成负样本训练数据,使得后续可以根据正样本训练数据以及、通过数据增强方法获得的负样本训练数据训练相应的分类模型,提高该分类模型的训练效果,使得该分类模型后续应用于隐私数据识别场景中时,可以快速且准确的识别数据仓库中的隐私数据。
附图说明
[0032]图1是本说明书一个实施例提供的一种分类模型训练方法的流程图;
[0033]图2是本说明书一个实施例提供的一种分类模型训练方法的处理过程流程图;
[0034]图3是本说明书一个实施例提供的一种分类模型处理方法的两阶段训练示意图;
[0035]图4是本说明书一个实施例提供的一种分类模型训练装置的结构示意图;
[0036]图5是本说明书一个实施例提供的一种数据处理方法的流程图;
[0037]图6是本说明书一个实施例提供的一种数据处理方法中分类模型的具体分类示意图;
[0038]图7是本说明书一个实施例提供的一种分类模型训练装置的结构示意图;
[0039]图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
[0040]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0041]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0042]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类模型训练方法,包括:获取正样本训练数据,并根据至少两种数据增强方法,对所述正样本训练数据进行数据增强,获得初始负样本训练数据,其中,所述正样本训练数据为用户隐私数据;根据所述正样本训练数据和所述初始负样本训练数据,训练获得第一分类模型;根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型,获得目标负样本训练数据;根据所述正样本训练数据和所述目标负样本训练数据,训练获得第二分类模型。2.根据权利要求1所述的分类模型训练方法,所述根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型,获得目标负样本训练数据,包括:确定所述至少两种数据增强方法中、每种数据增强方法对应的初始负样本训练数据;将所述每种增强方法对应的初始负样本训练数据,输入所述第一分类模型,获得所述每种数据增强方法对应的初始负样本训练数据的预测结果;根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,获得目标负样本训练数据。3.根据权利要求2所述的分类模型训练方法,所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,获得目标负样本训练数据,包括:根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,从所述至少两种数据增强方法中确定目标数据增强方法;根据所述目标数据增强方法对所述正样本训练数据进行数据增强,获得目标负样本训练数据。4.根据权利要求3所述的分类模型训练方法,所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,从所述至少两种数据增强方法中确定目标数据增强方法,包括:确定所述每种数据增强方法对应的初始负样本训练数据的预测结果,为第一目标预测结果的比例;在所述比例大于等于预设比例阈值的情况下,确定所述每种数据增强方法为目标数据增强方法。5.根据权利要求2所述的分类模型训练方法,所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,获得目标负样本训练数据,包括:根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,从所述初始负样本训练数据中确定目标负样本训练数据。6.根据权利要求5所述的分类模型训练方法,所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果,从所述初始负样本训练数据中确定目标负样本训练数据,包括:确定所述每种数据增强方法对应的初始负样本训练数据的预测结果,与第二目标预测结果匹配的初始负样本训练数据;从所述初始负样本训练数据中删除所述与第二目标预测结果匹配的初始负样本训练数据,将剩余的其他初始负样本训练数据作为目标负样本训练数据。7.根据权利要求1所述的分类模型训练方法,所述获取正样本训练数据,包括:
获取预设数据类型的样本训练数据作为正样本训练数据;或者从目标数据库中获取预设数据类型的样本训练数据作为正样本训练数据。8.根据权利要求1所述的分类模型训练方法,所述训练获得第二分类模型之后,还包括:获取正样本验证数据,并根据所述至少两种数据增强方法,对所述正样本验证数据进行数据...

【专利技术属性】
技术研发人员:鲍梦瑶刘佳伟章鹏张谦殷雪梅
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1