数据标签的确定方法、装置及存储介质制造方法及图纸

技术编号:37846055 阅读:14 留言:0更新日期:2023-06-14 22:30
本申请实施例公开了一种数据标签的确定方法及相关设备,可以提高众包的质量和稳定性。该方法包括:确定待进行标签标注的众包数据集中每个实例所对应的原始特征;将众包数据集中每个实例所对应的原始特征输入第一模型,以得到增强特征集,第一模型为对第一训练样本进行训练得到的,第一训练样本包括第一训练数据集的原始特征和N个众包工人对第一训练数据集进行标注得到的标签;将增强特征集和原始特征输入第二模型,得到众包数据集中每个实例的标签,第二模型为对第二训练样本进行训练得到的,第二训练样本包括第二训练数据集中每个实例所对应的增强特征集、第二训练数据集的原始特征和专家对第二训练数据集进行标注得到的标签。标签。标签。

【技术实现步骤摘要】
数据标签的确定方法、装置及存储介质


[0001]本申请涉及机器学习领域,尤其涉及一种数据标签的确定方法、装置及存储介质。

技术介绍

[0002]目前,人工智能的算法训练都需要建立在海量的数据之上,且带有标签的有监督学习算法的精确度要远高于没有标签的无监督学习算法。然而现实中获取的数据往往只含有特征而不带有标签,或带有的标签不能直接被机器读取,需要专业人士进行人工标注,这需要很高的人工成本。因此众包这个新兴的工作方式被越来越多的应用在数据标注领域。众包,简单来说就是通过一定手段低成本、大量招募普通工人来进行标注工作,期望通过数量来弥补质量的缺陷。众包的优势在于成本低廉,但缺点同样突出,即质量不可靠。针对众包的研究都是为了解决这个问题。
[0003]目前主要通过提高工人的工作质量和提高数据整合的质量,其中,提高工人的工作质量,通过事先设置的筛选机制,雇佣具有一定工作经验,工作质量较高的工人,并根据任务的难度、耗时等因素,合理设置报酬及时限,吸引合适的工人工作,交叉对同一实例进行标记,实时判断工人的工作质量,优胜劣汰等;提高数据整合的质量,通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据标签的确定方法,其特征在于,包括:确定待进行标签标注的众包数据集中每个实例所对应的原始特征;将所述众包数据集中每个实例所对应的原始特征输入第一模型,以得到所述众包数据集中每个实例所对应的增强特征集,所述第一模型为对第一训练样本进行训练得到的,所述第一训练样本包括第一训练数据集中每个实例所对应的原始特征和通过N个众包工人对所述第一训练数据集中每个实例进行标注得到的标签,其中,所述N为大于或等于1的整数;将所述增强特征集和所述众包数据集中每个实例所对应的原始特征输入第二模型,得到所述众包数据集中每个实例所对应的标签,所述第二模型为对第二训练样本进行训练得到的,所述第二训练样本包括通过所述第一模型确定的第二训练数据集中每个实例所对应的增强特征集、所述第二训练数据集中每个实例所对应的原始特征和通过专家对所述第二训练数据集中每个实例进行标注得到的标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练数据集;对所述训练数据集进行P次聚类,得到所述训练数据集所对应的聚类结果,其中,所述P为大于或等于1的整数;根据所述聚类结果确定所述训练数据集中每个实例的不确定度;根据所述训练数据集中每个实例的不确定度将所述训练数据集划分为所述第一训练数据集和所述第二训练数据集。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定训练样本,所述训练样本包括所述第一训练数据集中每个实例所对应的众包数据特征、通过所述N个众包工人对所述第一训练数据集中每个实例进行标注得到的第一标签、所述第二训练数据集中每个实例所对应的专家数据特征、通过专家对所述第二训练数据集中每个实例进行标注得到的第二标签;通过所述第一训练数据集中每个实例所对应的众包数据特征和所述第一标签进行模型训练,得到所述第一模型;通过所述第一模型对所述第二训练数据集中每个实例所对应的专家数据特征进行预测,得到所述第二训练数据集中每个实例所对应的增强特征集;通过所述第二训练数据集中每个实例所对应的增强特征集、所述第二训练数据集中每个实例所对应的专家数据特征和所述第二标签进行模型训练,得到所述第二模型。4.根据权利要求2所述的方法,其特征在于,所述对所述训练数据集进行聚类,得到所述训练数据集所对应的聚类结果包括:步骤1、将第一目标实例确定为初始聚类簇,所述目标实例为所述训练数据集中的任意一个实例;步骤2、从所述训练数据集中确定出与所述初始聚类簇距离最近的第一聚类簇和第二聚类簇;步骤3、将所述第一聚类簇和所述第二聚类簇进行合并;重复执行步骤1至步骤3,直至所述训练数据集被划分为预设个数的聚类簇,其中,所述预设个数的聚类簇为所述P次聚类中每次聚类所得到的聚类簇,且所述P次聚类中每次聚类时的预设个数不同;
将所述预设个数的聚类簇确定为所述聚类结果。5.根据权利要求2至4中任一项所述的方法,其特征在于,所述根据所述聚类结果确定所述训练数据集中每个实例的不确定度包括:通过如下公式确定所述训练数据集中每个实例的不确定度:其中,a
i
为实例x
i
的不确定度,所述实例x
i
为所述训练数据集中的任意一个实例,所述训练数据集被划分为{C1,C2,...,C
K
}个聚类簇,K为所述聚类结果中任意一个聚类结果中簇的个数,I为所述训练数据集中的实例个数,d(x
i
,x
j
)为所述实例x
i
和实例x
j

【专利技术属性】
技术研发人员:李易南
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1