数据识别器训练、数据识别方法、装置、电子设备及介质制造方法及图纸

技术编号:35309080 阅读:15 留言:0更新日期:2022-10-22 13:00
本公开提供了一种数据识别器训练、数据识别方法、装置、电子设备及介质,涉及数据安全技术领域。该数据识别器训练方法包括:获取第一训练集,第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:调整所述多个类别的样本的数量,得到第二训练集,训练所述第二训练集,得到第二分类器;基于所述第一分类器和所述第二分类器,得到数据识别器。该训练方法加强了对小类别样本的学习效果,解决了由于样本稀少导致对小类别样本训练不足、识别准确率低的问题,能够在小类别样本不足的情况下,提高了数据识别器的拟合能力和准确率。力和准确率。力和准确率。

【技术实现步骤摘要】
数据识别器训练、数据识别方法、装置、电子设备及介质


[0001]本公开涉及数据安全
,具体而言,涉及一种数据识别器训练、数据识别方法、装置、电子设备及介质。

技术介绍

[0002]重要数据识别是企业数据资产管理和数据安全管控的基础,也是数据安全工作的重点难点所在。在企业生产环境中,需要对静态或流动数据进行识别,判断出是否为重要数据以及确定重要数据的分类分级。基于机器学习的智能识别是重要数据识别的重要手段和技术发展方向。利用重要数据样本集训练机器学习分类模型,将训练成熟的模型部署到数据安全管控平台,对静态或流动数据进行重要数据识别和分类。
[0003]然而,由于重要数据的特殊性,为防止数据泄露,某些类别的样本数据很难获取,导致这些类别的样本数据稀少,因此将这些样本数据称为小类别样本数据。由于稀少的样本数据,导致模型/分类器对这类重要数据学习不够,拟合和泛化能力不够,识别准确率低,容易造成分类错误,从而错检漏检重要数据。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例提供一种数据识别器训练、数据识别方法、装置、电子设备及介质,能够解决由于小类别样本稀少导致模型或分类器对小类别样本训练不足、识别准确率低的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种数据识别器训练方法,所述方法包括:获取第一训练集,所述第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;对所述第一训练集中所述多个类别的样本的分布多轮递归调整,直至所述多个类别的样本的分布均衡,将调整后的所述第一训练集作为第二训练集,得到多个第二训练集,分别训练所述多个第二训练集,得到多个第二分类器;基于所述第一分类器和所述多个第二分类器,得到数据识别器。
[0008]在本公开一些实施例中,所述获取第一训练集,包括:获取数据样本集;将所述数据样本集划分为第一训练集和第一测试集;所述第一训练集和所述第一测试集中均包括第一类别样本和至少一个第二类别样本,所述第一训练集中所述第一类别样本所占的比例小于所述至少一个第二类别样本所占的比例。
[0009]在本公开一些实施例中,所述对所述第一训练集中所述多个类别的样本的分布多轮递归调整,直至所述多个类别的样本的分布均衡,将调整后的所述第一训练集作为第二训练集,得到多个第二训练集,分别训练所述多个第二训练集,得到多个第二分类器,包括:
将所述第一训练集作为目标训练集、所述第一测试集作为目标测试集、所述第一分类器作为目标分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:利用所述目标测试集测试所述目标分类器,得到目标测试结果集;利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集;训练所述第二训练集,得到第二分类器;基于所述第二训练集和所述数据样本集,得到第二测试集;将所述第二训练集作为新的目标训练集、所述第二测试集作为新的目标测试集、所述第二分类器作为新的目标分类器。
[0010]在本公开一些实施例中,所述利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集,包括:利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集;或,利用所述目标测试结果集和所述数据样本集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集。
[0011]在本公开一些实施例中,所述利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集,包括:利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,得到第二训练集;
[0012]所述利用所述目标测试结果集和所述数据样本集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集,包括:利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,利用所述数据样本集,调整所述目标训练集中所述至少一个第二类别样本的数量;基于调整后的所述第一类别样本和调整后的所述至少一个第二类别样本,得到第二训练集。
[0013]在本公开一些实施例中,所述利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,包括:确定所述目标测试结果集中识别正确的第一类别样本和识别错误的第一类别样本;基于所述识别正确的第一类别样本,得到第一集合;基于所述识别错误的第一类别样本,得到第二集合;基于所述第一集合和所述第二集合,调整所述目标训练集中所述第一类别样本的数量。
[0014]在本公开一些实施例中,基于所述第一集合和所述第二集合,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集,包括:按照第一采样率从所述第一集合中进行采样,得到第一采样样本;按照第二采样率从所述第二集合中进行采样,得到第二采样样本;其中,所述第二采样率大于所述第一采样率;基于所述第一采样样本和所述第二采样样本,调整所述目标训练集中第一类别样本的数量,得到第二训练集。
[0015]在本公开一些实施例中,所述利用所述数据样本集,调整所述目标训练集中所述至少一个第二类别样本的数量,包括:对所述数据样本集中的至少一个第二类别样本进行采样,得到第三采样样本;基于所述第三采样样本,调整所述目标训练集中所述至少一个第二类别样本的数量。
[0016]根据本公开的另一个方面,提供一种数据识别方法,所述方法包括:获取待识别数据;将所述待识别数据输入预设的数据识别器中,获得多个分类结果,所述预设的数据识别器根据上述任一实施例所述的方法训练得到,所述数据识别器包括多个分类器,所述多个分类结果为所述多个分类器的分类结果;基于所述多个分类结果,确定所述待识别数据的识别结果。
[0017]根据本公开的又一个方面,提供一种数据识别器训练装置,包括:第一获取模块,
用于获取第一训练集,所述第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练模块,用于训练所述第一训练集,得到第一分类器;循环模块,用于对所述第一训练集中所述多个类别的样本的分布多轮递归调整,直至所述多个类别的样本的分布均衡,将调整后的所述第一训练集作为第二训练集,得到多个第二训练集,分别训练所述多个第二训练集,得到多个第二分类器;生成模块,用于基于所述第一分类器和所述多个第二分类器,得到数据识别器。
[0018]在本公开的一些实施例中,所述第一获取模块还用于:获取数据样本集;将所述数据样本集划分为第一训练集和第一测试集;所述第一训练集和所述第一测试集中均包括第一类别样本和至少一个第二类别样本,所述第一训练集中所述第一类别样本所占的比例小于所述至少一个第二类别样本所占的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据识别器训练方法,其特征在于,所述方法包括:获取第一训练集,所述第一训练集中分别包括多个类别的样本,所述多个类别的样本的分布不均衡;训练所述第一训练集,得到第一分类器;对所述第一训练集中所述多个类别的样本的分布多轮递归调整,直至所述多个类别的样本的分布均衡,将调整后的所述第一训练集作为第二训练集,得到多个第二训练集,分别训练所述多个第二训练集,得到多个第二分类器;基于所述第一分类器和所述多个第二分类器,得到数据识别器。2.根据权利要求1所述的方法,其特征在于,所述获取第一训练集,包括:获取数据样本集;将所述数据样本集划分为第一训练集和第一测试集;所述第一训练集和所述第一测试集中均包括第一类别样本和至少一个第二类别样本,所述第一训练集中所述第一类别样本所占的比例小于所述至少一个第二类别样本所占的比例。3.根据权利要求2所述的方法,其特征在于,所述对所述第一训练集中所述多个类别的样本的分布多轮递归调整,直至所述多个类别的样本的分布均衡,将调整后的所述第一训练集作为第二训练集,得到多个第二训练集,分别训练所述多个第二训练集,得到多个第二分类器,包括:将所述第一训练集作为目标训练集、所述第一测试集作为目标测试集、所述第一分类器作为目标分类器;循环执行如下迭代过程,直至所述多个类别的样本的分布均衡:利用所述目标测试集测试所述目标分类器,得到目标测试结果集;利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集;训练所述第二训练集,得到第二分类器;基于所述第二训练集和所述数据样本集,得到第二测试集;将所述第二训练集作为新的目标训练集、所述第二测试集作为新的目标测试集、所述第二分类器作为新的目标分类器。4.根据权利要求3所述的方法,其特征在于,所述利用所述目标测试结果集,调整所述目标训练集中所述多个类别的样本的数量,得到第二训练集,包括:利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,得到第二训练集。5.根据权利要求4所述的方法,其特征在于,所述利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,得到第二训练集,包括:利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量利用所述数据样本集,调整所述目标训练集中所述至少一个第二类别样本的数量;基于调整后的所述第一类别样本和调整后的所述至少一个第二类别样本,得到第二训练集。
6.根据权利要求4或5所述的方法,其特征在于,所述利用所述目标测试结果集中第一类别样本的识别结果,调整所述目标训练集中所述第一类别样本的数量,包括:确定所述目标测试结果集中识别正确的第一类别样本和识别错误的第一类别样本;基于所述识别正确的第一类别样本,得到第一集合;基于所述识别错误的...

【专利技术属性】
技术研发人员:汪少敏王铮任华杨迪马兆铭
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1