标签校正方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号：44485812 阅读：34 留言：0更新日期：2025-03-04 17:51

本申请涉及一种标签校正方法、装置、计算机设备和存储介质。方法包括：根据当前轮的样本数据集对基础分类模型进行模型训练，得到当前轮训练完成的目标模型；通过当前轮训练完成的目标模型预测当前轮的样本数据集中各个样本分别在各个类别标签下的预测概率；根据各样本分别在各类别标签下的预测概率和各样本的当前的标注标签，确定当前轮样本数据集中需要标签校正的目标样本、各目标样本的预估真实标签；将目标样本的当前的标注标签校正为预估真实标签，得到当前轮标签校正完成的样本数据集，作为更新的当前轮的样本数据集进入下一轮迭代，直至满足迭代停止条件，得到标签校正完成的目标样本数据集。采用本方法能够提高标签校正的通用性和泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别是涉及一种标签校正方法、装置、计算机设备和计算机可读存储介质。

技术介绍

1、在监督学习的模型训练中，需要使用带标签的样本数据对模型进行训练，这在分类任务中的应用非常广泛，比如：文本情感的分类、图像的分类、歌曲风格的分类等。然而，在实际应用中，样本的标签难免会出现误标注的问题，即，样本的标签有噪声，这给模型训练的准确性造成很大影响。因此，需要对样本的标签进行校正。

2、传统方法中，一般是针对特定类型的样本数据，专门制定特定的规则进行标签校正。比如：针对文本数据集，需要人为构造关联词表或匹配规则等。这种方法受主观因素影响很大，通用性和泛化性较差。

技术实现思路

1、本申请实施例提供了一种标签校正方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，可以提高标签校正的通用性和泛化性。

2、第一方面，本申请提供了一种标签校正方法。所述方法包括：

3、将待校正的初始样本数据集作为当前轮的样本数据集；

4、在每轮迭代中，根...

【技术保护点】

1.一种标签校正方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在每轮迭代中，根据当前轮的样本数据集对基础分类模型进行模型训练，得到当前轮训练完成的目标模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述在每轮迭代中，根据当前轮的样本数据集对基础分类模型进行模型训练，得到当前轮训练完成的目标模型，包括：

4.根据权利要求1所述的方法，其特征在于，在所述将所述目标样本的当前的标注标签校正为所述预估真实标签，得到当前轮标签校正完成的样本数据集之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根...

【技术特征摘要】

1.一种标签校正方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各所述样本分别在各所述类别标签下的预测概率，确定各所述样本的当前的标注标签的标签质量评分，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别针对每个所述样本，根据所述样本在当前的标注标签下的预测概率与所述当前的标注标签对应的概率门限值之间的差异，确定所述样本的当前的标注标签的标签质量评分，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据各所述样本分别在各所述类别标签下的预测概率和各所述样本的当前的标注标签，确定所述当前轮的样本数据集中需要进行标签校正的目标样本、以及各所述目标样本的预估真实标签，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各所述样本分别在各所述类别标签下的预测概率和各所述样本的当前的标注标签，确定所述当前轮的样本数据集中需要进行标签校正的目标样本，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据各所述样本分别在各所述类别标签下的预测概率，确定各所述样本的预测标签，包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求8所述的方法，其特征在于，所述根据各所述样本的预测标签和当前的标注标签，确定所述当前轮的样本数据集中需要进行标签校正的目标...

【专利技术属性】
技术研发人员：邓小龙，帅朝春，
申请(专利权)人：广东明创软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人