训练集的提纯方法、装置、设备以及存储介质制造方法及图纸

技术编号：31023108 阅读：16 留言：0更新日期：2021-11-30 03:17

本发明专利技术涉及人工智能领域，提供了一种训练集的提纯方法、装置、设备以及存储介质，其中，方法包括：获取原始训练集，将所述原始数据输入第一标签生成模型中，得到多个第二标签，将所述第一标签和所述第二标签进行一一比对，得到比对结果，对第一标签生成模型进行再训练，将第二数据集中对应的所述原始数据的部分，得到第三标签，得到比对结果，基于各比对结果构建训练集。从而使提取出来的训练集中的原始数据的第一标签正确率得到了提升，根据其构成的训练集使得最终的模型训练效果也更佳。训练集使得最终的模型训练效果也更佳。训练集使得最终的模型训练效果也更佳。

全部详细技术资料下载

【技术实现步骤摘要】
训练集的提纯方法、装置、设备以及存储介质

[0001]本专利技术涉及人工智能领域，特别涉及一种训练集的提纯方法、装置、设备以及存储介质。

技术介绍

[0002]在模型的训练之前，需要收集对应的训练数据，对于一些需要计算得到的数据，如标签数据，传统的方法一般由业务人员进行人工计算，亦或者采用对应的标签生成模型生成，然而这两种方法得到的标签具有较大的误差，从而导致训练后的模型存在预测效果不佳的问题。

技术实现思路

[0003]本专利技术的主要目的为提供一种训练集的提纯方法、装置、设备以及存储介质，旨在解决传统方法得到的标签具有较大的误差的问题。
[0004]本专利技术提供了一种训练集的提纯方法，包括：
[0005]获取原始训练集；其中所述原始训练集包括多个原始数据，以及业务人员为各个所述原始数据打标的多个第一标签；
[0006]将各所述原始数据输入至预先训练的第一标签生成模型中，得到所述原始数据对应的多个第二标签；
[0007]将所述第一标签和所述第二标签进行一一比对，将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集，以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集；
[0008]将所述第一数据集输入所述第一标签生成模型中进行再训练，得到第二标签生成模型；
[0009]将所述第二数据集输入至所述第二标签生成模型中，得到各所述第二数据集中各原始数据的第三标签；
[0010]将各所述第二数据集中原始数据的第三标签与第...

【技术保护点】

【技术特征摘要】
1.一种训练集的提纯方法，其特征在于，包括：获取原始训练集；其中所述原始训练集包括多个原始数据，以及业务人员为各个所述原始数据打标的多个第一标签；将各所述原始数据输入至预先训练的第一标签生成模型中，得到所述原始数据对应的多个第二标签；将所述第一标签和所述第二标签进行一一比对，将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集，以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集；将所述第一数据集输入所述第一标签生成模型中进行再训练，得到第二标签生成模型；将所述第二数据集输入至所述第二标签生成模型中，得到各所述第二数据集中各原始数据的第三标签；将各所述第二数据集中原始数据的第三标签与第一标签进行一一比对，将与所述第三标签比对一致的第一标签对应的原始数据确定为第二数据集，以及将与所述第三标签比对不一致的第一标签对应的原始数据确定为第四数据集；基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集。2.如权利要求1所述的训练集的提纯方法，其特征在于，所述将所述第一数据集输入所述第一标签生成模型中进行再训练，得到第二标签生成模型的步骤，包括：将所述第一数据集按照预设的比例拆分为第一标签训练集和第一标签验证集；将所述第一标签训练集输入至所述第一标签生成模型中进行再训练；其中，所述第一标签生成模型为朴素贝叶斯模型；将再训练后的所述朴素贝叶斯模型通过所述第一标签验证集进行验证，得到所述第二标签生成模型。3.如权利要求1所述的训练集的提纯方法，其特征在于，所述基于所述第三数据集和所述第一数据集中对应的第一标签以及对应的所述原始数据构建训练集的步骤之后，还包括：将所述第三数据集输入所述第二标签生成模型中进行再训练，得到第三标签生成模型；将所述第四数据集中对应原始数据中的多个第一原始数据，输入至所述第三标签生成模型中，得到各所述第四数据集中各原始数据的的第四标签；将所述第四数据集中的所述第四标签与第一标签进行一一比对，将与所述第四标签比对一致的第一标签对应的原始数据确定为第五数据集，以及将与所述第四标签比对不一致的第一标签对应的原始数据确定为第六数据集；将所述第五数据集中对应的第一标签以及对应的原始数据，加入至所述训练集中。4.如权利要求1所述的训练集的提纯方法，其特征在于，所述将所述第一标签和所述第二标签进行一一比对，将与所述第二标签比对一致的第一标签对应的原始数据确定为第一数据集，以及将与所述第二标签比对不一致的第一标签对应的原始数据确定为第二数据集的步骤，包括：
从所述第一标签生成模型中提取各个第二标签对应的概率；根据公式计算各个所述第二标签所对应的置信度；其中，E表示所述置信度，n表示第二标签的数量，p
i
表示第i个第二标签的概率；检测各所述置信度是否超过了第一预设置信度；将超过了所述第一预设置信度所对应的第二标签与所述第一标签进行一一比对，得到比对结果相同的第一数据集以及比对结果不同的第二数据集，并将未超过所述预设置信度所对应的第二标签加入所述第二数据集。5.如权利要求4所述的训练集的提纯方法，其...

【专利技术属性】
技术研发人员：沈越，
申请(专利权)人：平安普惠企业管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人