System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据标注方法、装置、计算机设备和存储介质制造方法及图纸_技高网

数据标注方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:40582836 阅读:6 留言:0更新日期:2024-03-06 17:26
本申请涉及一种数据标注方法、装置、计算机设备、存储介质和计算机程序产品。所述方法涉及人工智能技术,包括:从待标注数据集中获取至少一个待标注数据,并确定至少两种候选类目;针对每个待标注数据,从至少两种候选类目中确定与所针对待标注数据相匹配的至少两种初步匹配类目;当初步匹配类目中包括参考类目,基于至少两种初步匹配类目对所针对待标注数据进行标注,得到所针对待标注数据的已标注数据;参考类目通过统计已标注数据集中的已标注数据确定;通过得到的各个已标注数据更新已标注数据集,并继续进行标注,直至针对待标注数据集中的待标注数据完成数据标注。采用本方法能够确保标注数据的类目分布均衡。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种数据标注方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着计算机技术的发展,包括机器人、语言识别、图像识别、自然语言处理和专家系统等研究在内的人工智能(artificial intelligence,ai)技术得到了广泛应用。基于人工智能技术构建的数据分类、目标检测、意图识别、语义理解等计算机任务可以有效提高对应任务的处理效率和准确率。

2、在构建计算机任务时往往需要大量标注的样本数据来实现模型学习,以通过模型实现预期的计算机任务。然而,针对样本数据标注时容易出现不同类目下样本数据量差距过大的问题,导致标注的样本数据类目分布失衡,影响数据训练效果。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够确保标注数据的类目分布均衡的数据标注方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种数据标注方法。所述方法包括:

3、从待标注数据集中获取至少一个待标注数据,并确定至少两种候选类目;

4、针对至少一个待标注数据中的每个待标注数据,从至少两种候选类目中确定与所针对待标注数据相匹配的至少两种初步匹配类目;

5、当至少两种初步匹配类目中包括参考类目,基于至少两种初步匹配类目对所针对待标注数据进行标注,得到所针对待标注数据的已标注数据;参考类目,是通过统计已标注数据集中的已标注数据确定的;

6、通过至少一个待标注数据各自的已标注数据更新已标注数据集,并继续对待标注数据集中的待标注数据进行标注,直至针对待标注数据集中的待标注数据完成数据标注。

7、第二方面,本申请还提供了一种数据标注装置。所述装置包括:

8、数据获取模块,用于从待标注数据集中获取至少一个待标注数据,并确定至少两种候选类目;

9、初步匹配模块,用于针对至少一个待标注数据中的每个待标注数据,从至少两种候选类目中确定与所针对待标注数据相匹配的至少两种初步匹配类目;

10、标注触发模块,用于当至少两种初步匹配类目中包括参考类目,基于至少两种初步匹配类目对所针对待标注数据进行标注,得到所针对待标注数据的已标注数据;参考类目,是通过统计已标注数据集中的已标注数据确定的;

11、数据集更新模块,用于通过至少一个待标注数据各自的已标注数据更新已标注数据集,并继续对待标注数据集中的待标注数据进行标注,直至针对待标注数据集中的待标注数据完成数据标注。

12、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以上数据标注方法的步骤。

13、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上数据标注方法的步骤。

14、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以上数据标注方法的步骤。

15、上述数据标注方法、装置、计算机设备、存储介质和计算机程序产品,对于从待标注数据集中获取的每个待标注数据,在该待标注数据相匹配的至少两种初步匹配类目中包括通过统计已标注数据集中的已标注数据所确定的参考类目时,基于至少两种初步匹配类目针对该待标注数据进行标注,得到该待标注数据对应的已标注数据,通过各个待标注数据各自的已标注数据更新已标注数据集,并继续对待标注数据集中的待标注数据进行标注直至完成数据标注。在待标注数据相匹配的至少两种初步匹配类目中包括参考类目时,基于至少两种初步匹配类目针对待标注数据进行标注,可以利用通过统计已标注数据集中的已标注数据得到的参考类目对待标注数据的标注进行调节,并根据已标注数据更新已标注数据集后迭代进行多次标注,能够调整不同类目下所标注数据的数据量,从而确保标注数据的类目分布均衡,以增强基于标注数据的训练效果。

本文档来自技高网...

【技术保护点】

1.一种数据标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述当所述至少两种初步匹配类目中包括参考类目,基于所述至少两种初步匹配类目对所述所针对待标注数据进行标注,得到所述所针对待标注数据的已标注数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述已标注数据集中标注为所述参考类目的已标注数据的统计参数满足少数类目判定条件;

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述从所述至少两种候选类目中确定与所述所针对待标注数据相匹配的至少两种初步匹配类目,包括:

6.根据权利要求5所述的方法,其特征在于,所述所针对待标注数据包括待标注文本;所述将所述所针对待标注数据分别与所述至少两种候选类目进行匹配,得到所述至少两种候选类目分别对应的匹配结果,包括:

7.根据权利要求6所述的方法,其特征在于,所述获取文本匹配模型,包括:

8.根据权利要求5所述的方法,其特征在于,所述根据所述至少两种候选类目分别对应的匹配结果对所述至少两种候选类目进行筛选,得到与所述所针对待标注数据相匹配的至少两种初步匹配类目,包括:

9.根据权利要求1所述的方法,其特征在于,所述基于所述至少两种初步匹配类目对所述所针对待标注数据进行标注,得到所述所针对待标注数据的已标注数据,包括:

10.根据权利要求9所述的方法,其特征在于,所述获取数据标注模型和标注提示词,包括:

11.根据权利要求10所述的方法,其特征在于,所述当所述样本标注结果与所述标注数据样本的类目标签相匹配,根据所述候选标注模型得到数据标注模型,并根据所述候选提示词得到标注提示词,包括:

12.根据权利要求9所述的方法,其特征在于,所述基于所述标注结果得到所述所针对待标注数据的已标注数据,包括:

13.根据权利要求1至12任意一项所述的方法,其特征在于,所述通过所述至少一个待标注数据各自的已标注数据更新所述已标注数据集,并继续对所述待标注数据集中的待标注数据进行标注,直至针对所述待标注数据集中的待标注数据完成数据标注,包括:

14.一种数据标注装置,其特征在于,所述装置包括:

15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

17.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种数据标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述当所述至少两种初步匹配类目中包括参考类目,基于所述至少两种初步匹配类目对所述所针对待标注数据进行标注,得到所述所针对待标注数据的已标注数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述已标注数据集中标注为所述参考类目的已标注数据的统计参数满足少数类目判定条件;

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述从所述至少两种候选类目中确定与所述所针对待标注数据相匹配的至少两种初步匹配类目,包括:

6.根据权利要求5所述的方法,其特征在于,所述所针对待标注数据包括待标注文本;所述将所述所针对待标注数据分别与所述至少两种候选类目进行匹配,得到所述至少两种候选类目分别对应的匹配结果,包括:

7.根据权利要求6所述的方法,其特征在于,所述获取文本匹配模型,包括:

8.根据权利要求5所述的方法,其特征在于,所述根据所述至少两种候选类目分别对应的匹配结果对所述至少两种候选类目进行筛选,得到与所述所针对待标注数据相匹配的至少两种初步匹配类目,包括:

9.根据权利要求1所述的方法,其特征在于,所述基于所述至少两种初步匹配类目对所述所针对待标注数据进行标注,得到所述所针...

【专利技术属性】
技术研发人员:王继天冯帅周梦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1