一种将分类任务中的标注结果转化为软标签的方法及装置制造方法及图纸

技术编号：43634231 阅读：24 留言：0更新日期：2024-12-13 12:34

本申请公开了一种将分类任务中的标注结果转化为软标签的方法及装置，该方法包括：将标注者在样本上目标类别的标注结果拓展至所有类别，得到条件置信度集，其中，条件置信度集为所有类别中具有离散置信度的标注结果的集合；构建条件置信度集服从的高斯分布，确定高斯分布上的各子区间对应的各类别的置信度的逻辑数值，其中，各类别的置信度的逻辑数值为从各子区间内采样得到的；对获取到样本上各类别的置信度的逻辑数值进行归一化，得到标注者在样本上标注的概率标签；通过聚合多个标注者在样本上的概率标签，获得样本的软标签。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习领域，更具体地，涉及一种将分类任务中的标注结果转化为软标签的方法及装置。

技术介绍

1、对于数据挖掘和机器学习任务，尤其是对于分类任务而言，用于训练模型的标签数据是至关重要的。要求人类标注者对样本进行打标签是一种常用的做法。人类会以多种方式表达自身不确定性，以分类任务为例，标注者往往被要求给出最可能的类别，同时要求给出置信度水平。当人类以离散分级的形式(例如，低、中、高)而非概率置信分数形式(例如，85％)表达自身置信度，将难以把标注者的标注信息转化为标注者在全部类别上的一个概率分布，进而形成样本上的软标签，提供给模型进行训练。若能将具有离散置信度的人类标注结果转化为软标签，将有助于可以处理标签的不确定性和模糊性，并有利于模型学习到更多信息。

2、当注释任务涉及主观判断时，离散的置信度水平可以更好地捕捉标注者对不确定性的主观感受。相比于概率置信度分数，离散置信度水平易于解释和使用，尽管它们比概率置信度分数更难以计算。然而，这种方式难以把标注者的标注信息转化为标注者在全部类别上的一个概率分布，以形成软标签，从...

【技术保护点】

1.一种将分类任务中的标注结果转化为软标签的方法，其特征在于，包括：

2.如权利要求1所述的将分类任务中的标注结果转化为软标签的方法，其特征在于，所述将标注者在样本上单个类别的标注结果拓展至所有类别，得到条件置信度集包括：

3.如权利要求1所述的将分类任务中的标注结果转化为软标签的方法，其特征在于，所述构建所述条件置信度集服从的高斯分布包括：

4.如权利要求1所述的将分类任务中的标注结果转化为软标签的方法，其特征在于，所述构建所述条件置信度集服从的高斯分布，确定所述高斯分布上的各子区间对应的各类别的置信度的逻辑数值包括：