训练集的提纯方法、装置、设备以及存储介质制造方法及图纸

技术编号:31023108 阅读:16 留言:0更新日期:2021-11-30 03:17
本发明专利技术涉及人工智能领域,提供了一种训练集的提纯方法、装置、设备以及存储介质,其中,方法包括:获取原始训练集,将所述原始数据输入第一标签生成模型中,得到多个第二标签,将所述第一标签和所述第二标签进行一一比对,得到比对结果,对第一标签生成模型进行再训练,将第二数据集中对应的所述原始数据的部分,得到第三标签,得到比对结果,基于各比对结果构建训练集。从而使提取出来的训练集中的原始数据的第一标签正确率得到了提升,根据其构成的训练集使得最终的模型训练效果也更佳。训练集使得最终的模型训练效果也更佳。训练集使得最终的模型训练效果也更佳。

【技术实现步骤摘要】
训练集的提纯方法、装置、设备以及存储介质


[0001]本专利技术涉及人工智能领域,特别涉及一种训练集的提纯方法、装置、设备以及存储介质。

技术介绍

[0002]在模型的训练之前,需要收集对应的训练数据,对于一些需要计算得到的数据,如标签数据,传统的方法一般由业务人员进行人工计算,亦或者采用对应的标签生成模型生成,然而这两种方法得到的标签具有较大的误差,从而导致训练后的模型存在预测效果不佳的问题。

技术实现思路

[0003]本专利技术的主要目的为提供一种训练集的提纯方法、装置、设备以及存储介质,旨在解决传统方法得到的标签具有较大的误差的问题。
[0004]本专利技术提供了一种训练集的提纯方法,包括:
[0005]获取原始训练集;其中所述原始训练集包括多个原始数据,以及业务人员为各个所述原始数据打标的多个第一标签;
[0006]将各所述原始数据输入至预先训练的第一标签生成模型中,得到所述原始数据对应的多个第二标签;
[0007]将所述第一标签和所述第二标签进行一一比对,将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集,以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集;
[0008]将所述第一数据集输入所述第一标签生成模型中进行再训练,得到第二标签生成模型;
[0009]将所述第二数据集输入至所述第二标签生成模型中,得到各所述第二数据集中各原始数据的第三标签;
[0010]将各所述第二数据集中原始数据的第三标签与第一标签进行一一比对,将与所述第三标签比对一致的第一标签对应的原始数据确定为第二数据集,以及将与所述第三标签比对不一致的第一标签对应的原始数据确定为第四数据集;
[0011]基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集。
[0012]进一步地,所述将所述第一数据集输入所述第一标签生成模型中进行再训练,得到第二标签生成模型的步骤,包括:
[0013]将所述第一数据集按照预设的比例拆分为第一标签训练集和第一标签验证集;
[0014]将所述第一标签训练集输入至所述第一标签生成模型中进行再训练;其中,所述第一标签生成模型为朴素贝叶斯模型;
[0015]将再训练后的所述朴素贝叶斯模型通过所述第一标签验证集进行验证,得到所述
第二标签生成模型。
[0016]进一步地,所述基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集的步骤之后,还包括:
[0017]将所述第三数据集输入所述第二标签生成模型中进行再训练,得到第三标签生成模型;
[0018]将所述第四数据集中对应原始数据中的多个第一原始数据,输入至所述第三标签生成模型中,得到各所述第四数据集中各原始数据的的第四标签;
[0019]将所述第四数据集中的所述第四标签与第一标签进行一一比对,得到比对结果相同的第一标签以及对应的第一原始数据组成的第五数据集和比对结果不同的第一标签以及对应的第一原始数据组成的第六数据集;
[0020]将所述第五数据集中对应的第一标签以及对应的原始数据,加入至所述训练集中。
[0021]进一步地,所述将所述第一标签和所述第二标签进行一一比对,将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集,以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集的步骤,包括:
[0022]从所述第一标签生成模型中提取各个第二标签对应的概率;
[0023]根据公式计算各个所述第二标签所对应的置信度;其中,E表示所述置信度,n表示第二标签的数量,p
i
表示第i个第二标签的概率;
[0024]检测各所述置信度是否超过了第一预设置信度;
[0025]将超过了所述第一预设置信度所对应的第二标签与所述第一标签进行一一比对,得到比对结果相同的第一数据集以及比对结果不同的第二数据集,并将未超过所述预设置信度所对应的第二标签加入所述第二数据集。
[0026]进一步地,所述根据公式计算各个所述第二标签所对应的置信度的步骤之后,还包括:
[0027]根据各个置信度计算平均置信度;
[0028]判断所述平均置信度是否超过了第二预设置信度;
[0029]若是,则执行所述检测各所述置信度是否超过了第一预设置信度的步骤。
[0030]进一步地,所述获取原始训练集的步骤之后,还包括:
[0031]将属于同一维度的所述第一标签建立集合,得到对应的多个维度数据集;
[0032]根据公式计算每个第一标签的异常值;其中Z
ij
表示第j个所述维度数据集中的第i个第一标签的所述异常值,μ表示第j个所述维度数据集中各第一标签的平均值,且σ表示j个所述维度数据集的标准差,且x
ij
表示第j个所述维度数据集中第i个第一标签;
[0033]将|Z
ij
|>Z
thr
对应的第一标签提取出来,并将所述第一标签与所述第一标签对应的信息进行比对,其中Z
thr
为设定的参数值;
[0034]若比对结果为该第一标签错误,则基于所述第一标签的信息生成正确的第一标签并替换该第一标签。
[0035]本专利技术还提供了一种训练集的提纯装置,包括:
[0036]获取模块,用于获取原始训练集;其中所述原始训练集包括多个原始数据,以及业务人员为各个所述原始数据打标的多个第一标签;
[0037]第一输入模块,用于将各所述原始数据输入至预先训练的第一标签生成模型中,得到所述原始数据对应的多个第二标签;
[0038]第一比对模块,用于将所述第一标签和所述第二标签进行一一比对,将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集,以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集;
[0039]再训练模块,用于将所述第一数据集输入所述第一标签生成模型中进行再训练,得到第二标签生成模型;
[0040]第二输入模块,用于将所述第二数据集输入至所述第二标签生成模型中,得到各所述第二数据集中各原始数据的第三标签;
[0041]第二比对模块,用于将各所述第二数据集中原始数据的第三标签与第一标签进行一一比对,将与所述第三标签比对一致的第一标签对应的原始数据确定为第二数据集,以及将与所述第三标签比对不一致的第一标签对应的原始数据确定为第四数据集;
[0042]构建模块,用于基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集。
[0043]进一步地,所述再训练模块,包括:
[0044]拆分子模块,用于将所述第一数据集按照预设的比例拆分为第一标签训练集和第一标签验证集;
[0045]输入子模块,用于将所述第一标签训练集输入至所述第一标签生成模型中进行再训练;其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练集的提纯方法,其特征在于,包括:获取原始训练集;其中所述原始训练集包括多个原始数据,以及业务人员为各个所述原始数据打标的多个第一标签;将各所述原始数据输入至预先训练的第一标签生成模型中,得到所述原始数据对应的多个第二标签;将所述第一标签和所述第二标签进行一一比对,将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集,以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集;将所述第一数据集输入所述第一标签生成模型中进行再训练,得到第二标签生成模型;将所述第二数据集输入至所述第二标签生成模型中,得到各所述第二数据集中各原始数据的第三标签;将各所述第二数据集中原始数据的第三标签与第一标签进行一一比对,将与所述第三标签比对一致的第一标签对应的原始数据确定为第二数据集,以及将与所述第三标签比对不一致的第一标签对应的原始数据确定为第四数据集;基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集。2.如权利要求1所述的训练集的提纯方法,其特征在于,所述将所述第一数据集输入所述第一标签生成模型中进行再训练,得到第二标签生成模型的步骤,包括:将所述第一数据集按照预设的比例拆分为第一标签训练集和第一标签验证集;将所述第一标签训练集输入至所述第一标签生成模型中进行再训练;其中,所述第一标签生成模型为朴素贝叶斯模型;将再训练后的所述朴素贝叶斯模型通过所述第一标签验证集进行验证,得到所述第二标签生成模型。3.如权利要求1所述的训练集的提纯方法,其特征在于,所述基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集的步骤之后,还包括:将所述第三数据集输入所述第二标签生成模型中进行再训练,得到第三标签生成模型;将所述第四数据集中对应原始数据中的多个第一原始数据,输入至所述第三标签生成模型中,得到各所述第四数据集中各原始数据的的第四标签;将所述第四数据集中的所述第四标签与第一标签进行一一比对,将与所述第四标签比对一致的第一标签对应的原始数据确定为第五数据集,以及将与所述第四标签比对不一致的第一标签对应的原始数据确定为第六数据集;将所述第五数据集中对应的第一标签以及对应的原始数据,加入至所述训练集中。4.如权利要求1所述的训练集的提纯方法,其特征在于,所述将所述第一标签和所述第二标签进行一一比对,将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集,以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集的步骤,包括:
从所述第一标签生成模型中提取各个第二标签对应的概率;根据公式计算各个所述第二标签所对应的置信度;其中,E表示所述置信度,n表示第二标签的数量,p
i
表示第i个第二标签的概率;检测各所述置信度是否超过了第一预设置信度;将超过了所述第一预设置信度所对应的第二标签与所述第一标签进行一一比对,得到比对结果相同的第一数据集以及比对结果不同的第二数据集,并将未超过所述预设置信度所对应的第二标签加入所述第二数据集。5.如权利要求4所述的训练集的提纯方法,其...

【专利技术属性】
技术研发人员:沈越
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1