分类模型训练方法及装置制造方法及图纸

技术编号：34853954 阅读：20 留言：0更新日期：2022-09-08 07:54

本说明书实施例提供分类模型训练方法及装置，其中，该方法包括获取正样本训练数据，并根据至少两种数据增强方法，对正样本训练数据进行数据增强，获得初始负样本训练数据；根据正样本训练数据和初始负样本训练数据，训练获得第一分类模型；根据至少两种数据增强方法、初始负样本训练数据以及第一分类模型，获得目标负样本训练数据；根据正样本训练数据和目标负样本训练数据，训练获得第二分类模型。具体的，该方法可以根据正样本训练数据以及、通过数据增强方法获得的负样本训练数据训练相应的分类模型，提高该分类模型的训练效果，使得该分类模型后续应用于隐私数据识别场景中时，可以快速且准确的识别数据仓库中的隐私数据。可以快速且准确的识别数据仓库中的隐私数据。可以快速且准确的识别数据仓库中的隐私数据。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型训练方法及装置

[0001]本说明书实施例涉及计算机
，特别涉及一种分类模型训练方法。

技术介绍

[0002]随着信息化技术的发展和移动智能设备的普及，人们无时无刻不在产生数据，各大公司和机构也都收集、积累了大量的用户数据。其中，有不少数据都属于用户隐私数据(如证件号码等)。在最近几年，各大公司发生隐私数据泄密事件造成的影响和结果极为严重，严守数据安全是企业和机构的底线。而在做隐私数据保护工作前，第一步重要工作就是识别出哪些数据是隐私数据。对于一些大型的互联网公司或者大型机构，存储了大量的用户数据，如何从数以万计的数据表中识别出哪些数据字段是隐私数据已经成为一个比较棘手的问题。
[0003]现有技术中，通常基于深度模型进行隐私数据识别，但在隐私数据识别场景中，往往会出现只有正样本的情况，这无疑会使得训练获得的深度模型的预测效果大打折扣。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种分类模型训练方法。本说明书一个或者多个实施例同时涉及一种分类模型训练装置，一种数据处理方法，...

【技术保护点】

【技术特征摘要】
1.一种分类模型训练方法，包括：获取正样本训练数据，并根据至少两种数据增强方法，对所述正样本训练数据进行数据增强，获得初始负样本训练数据，其中，所述正样本训练数据为用户隐私数据；根据所述正样本训练数据和所述初始负样本训练数据，训练获得第一分类模型；根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型，获得目标负样本训练数据；根据所述正样本训练数据和所述目标负样本训练数据，训练获得第二分类模型。2.根据权利要求1所述的分类模型训练方法，所述根据所述至少两种数据增强方法、所述初始负样本训练数据以及所述第一分类模型，获得目标负样本训练数据，包括：确定所述至少两种数据增强方法中、每种数据增强方法对应的初始负样本训练数据；将所述每种增强方法对应的初始负样本训练数据，输入所述第一分类模型，获得所述每种数据增强方法对应的初始负样本训练数据的预测结果；根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，获得目标负样本训练数据。3.根据权利要求2所述的分类模型训练方法，所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，获得目标负样本训练数据，包括：根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，从所述至少两种数据增强方法中确定目标数据增强方法；根据所述目标数据增强方法对所述正样本训练数据进行数据增强，获得目标负样本训练数据。4.根据权利要求3所述的分类模型训练方法，所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，从所述至少两种数据增强方法中确定目标数据增强方法，包括：确定所述每种数据增强方法对应的初始负样本训练数据的预测结果，为第一目标预测结果的比例；在所述比例大于等于预设比例阈值的情况下，确定所述每种数据增强方法为目标数据增强方法。5.根据权利要求2所述的分类模型训练方法，所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，获得目标负样本训练数据，包括：根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，从所述初始负样本训练数据中确定目标负样本训练数据。6.根据权利要求5所述的分类模型训练方法，所述根据所述每种数据增强方法对应的初始负样本训练数据的预测结果，从所述初始负样本训练数据中确定目标负样本训练数据，包括：确定所述每种数据增强方法对应的初始负样本训练数据的预测结果，与第二目标预测结果匹配的初始负样本训练数据；从所述初始负样本训练数据中删除所述与第二目标预测结果匹配的初始负样本训练数据，将剩余的其他初始负样本训练数据作为目标负样本训练数据。7.根据权利要求1所述的分类模型训练方法，所述获取正样本训练数据，包括：
获取预设数据类型的样本训练数据作为正样本训练数据；或者从目标数据库中获取预设数据类型的样本训练数据作为正样本训练数据。8.根据权利要求1所述的分类模型训练方法，所述训练获得第二分类模型之后，还包括：获取正样本验证数据，并根据所述至少两种数据增强方法，对所述正样本验证数据进行数据...

【专利技术属性】
技术研发人员：鲍梦瑶，刘佳伟，章鹏，张谦，殷雪梅，
申请(专利权)人：蚂蚁区块链科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人