众包标注数据的处理方法、处理装置、设备、介质及产品制造方法及图纸

技术编号:43918769 阅读:42 留言:0更新日期:2025-01-03 13:23
本申请提供了一种众包标注数据的处理方法、处理装置、设备、介质及产品,属于数据处理技术领域。该方法包括:基于预设的标签微调模型对待处理的第一众包标注数据进行处理,得到第二众包标注数据;针对当前迭代状态,基于前一迭代状态的多个目标标注簇和第二众包标注数据确定当前迭代状态的簇数,根据当前迭代状态的簇数确定当前迭代状态的多个初始标注簇,并剔除当前迭代状态的初始标注簇中的离群的第一标签,得到当前迭代状态的多个目标标注簇;在满足预设停止条件的情况下,根据最后一个迭代状态的多个目标标注簇和第二众包标注数据进行簇聚合,得到众包处理结果。根据本申请的实施例能够提高众包标注数据的准确性。

【技术实现步骤摘要】

本申请涉及数据处理,特别涉及一种众包标注数据的处理方法、众包标注数据的处理装置、电子设备、计算机可读存储介质以及计算机程序产品。


技术介绍

1、随着深度学习的不断发展,特别是大模型的出现,数据质量问题受到更多关注。众包标注作为获取数据的重要途径,具有低成本、速度快等特点。然而,由于标注者之间的认知水平或标注意图不一致,得到的标注结果中往往存在噪声,准确性可能无法满足使用需求。因此,如何对不同标注者的标注结果进行去噪处理以得到高质量的标注结果,成为众包标注领域中亟待解决的问题。


技术实现思路

1、本申请提供一种众包标注数据的处理方法、众包标注数据的处理装置、电子设备、计算机可读存储介质以及计算机程序产品,可以提高众包标注数据的准确性。

2、第一方面,本申请提供了一种众包标注数据的处理方法,该众包标注数据的处理方法包括:基于预设的标签微调模型对待处理的第一众包标注数据进行处理,得到第二众包标注数据,所述第一众包标注数据包括多个标注主体对目标对象进行标注得到的第一标签,所述第二众包标注数据包括与各个所述本文档来自技高网...

【技术保护点】

1.一种众包标注数据的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于前一迭代状态的多个目标标注簇和所述第二众包标注数据确定当前迭代状态的簇数,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据多个第一标签对的相似值进行连通分量分析,得到多个第一连通分量,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据前一迭代状态的多个目标标注簇和所述第二众包标注数据,确定各个第一标签对的相似值,包括:

5.根据权利要求4所述的方法,其特征在于,所述标签质量评估值通过公式1表征:

6.根...

【技术特征摘要】

1.一种众包标注数据的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于前一迭代状态的多个目标标注簇和所述第二众包标注数据确定当前迭代状态的簇数,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据多个第一标签对的相似值进行连通分量分析,得到多个第一连通分量,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据前一迭代状态的多个目标标注簇和所述第二众包标注数据,确定各个第一标签对的相似值,包括:

5.根据权利要求4所述的方法,其特征在于,所述标签质量评估值通过公式1表征:

6.根据权利要求2所述的方法,其特征在于,所述根据各个第一标签对应的标注主体信息对多个所述第一连通分量进行调整,得到多个第二连通分量,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据当前迭代状态...

【专利技术属性】
技术研发人员:司永浩陈昭郑立彬曹琛陈雷
申请(专利权)人:香港科技大学广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1