数据标注方法及装置制造方法及图纸

技术编号:27583171 阅读:15 留言:0更新日期:2021-03-09 22:41
本发明专利技术公开了一种数据标注方法及装置,该方法包括:将待标注数据集中的每一数据分别输入K个标注模型,针对每一数据均得到K个标签,其中,K个标注模型分别通过K个子训练集训练获得,K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得,K为大于1的整数;基于标签的置信度将标签对应数据分为不同混淆程度的样本,其中,置信度为针对每一数据得到的K个标签的一致程度;在预设阶段中,依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签。本发明专利技术的技术方案将不同的混淆程度的样本分别通过训练的K个标注模型相互对比校验,以自动对不同混淆程度的样本进行标注,大大节省了人力和时间成本。大大节省了人力和时间成本。大大节省了人力和时间成本。

【技术实现步骤摘要】
数据标注方法及装置


[0001]本专利技术涉及人工智能
,具体而言,涉及一种数据标注方法及装置。

技术介绍

[0002]随着科学技术的飞速发展,人工智能已经成为了人们关注的焦点之一。在大数据等技术进步的支持下,人工智能已在数据分析、图像识别、智能家居、自动驾驶等领域展现了丰硕的成果。人工智能技术以海量数据为驱动、以深度学习算法为核心,使机器初步具备人类基本的视觉和听觉能力,并可能胜任相对复杂的脑力劳动。而由于深度学习算法中对大量数据的需求,因此,对海量数据的标注成为了市场的迫切需求。
[0003]现有的数据标注方式之一通常采用人工标注的方式,然而该人工标注的方式耗时比较长,并且容易受到标注人的主观因素影响,导致标注精度不高。
[0004]另外,现有还有一种基于训练好的模型对数据进行标注的方式,然而,该训练好的模型依赖于大量的样本进行训练,对于标注模型来说,其标注的准确程度完全和样本的数量及样本的质量决定。因此,如何寻找一种耗时较少、且准确率较高的自动标注方式是一个急需解决的问题。

技术实现思路

[0005]鉴于上述问题,本专利技术实施例的目的在于提供一种数据标注方法及装置,以解决现有技术的不足。
[0006]根据本专利技术的一个实施方式,提供一种数据标注方法,该方法包括:将待标注数据集中的每一数据分别输入K个标注模型,针对每一数据均得到K个标签,其中,所述K个标注模型分别通过K个子训练集训练获得,所述K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得,K为大于1的整数;基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本;在预设阶段中,依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签。
[0007]在上述的数据标注方法中,所述总训练集中包含第一预设数量的已标注的样本。
[0008]在上述的数据标注方法中,所述不同混淆程度的样本包括简单样本、易混淆样本及困难样本;所述基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本包括:将K个标签均一致的数据确定为简单样本;在K个标签中有M个标签一致的数据为易混淆样本,在K个标签中有N个标签不一致的数据为困难样本,M、N均为小于K的正整数。
[0009]在上述的数据标注方法中,所述预设阶段包括第一阶段,所述依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签包括:将简单样本中标注正确的标签加入到第一样本集,标注错误的标签加入到第二样本集;
将所述第一样本集添加到所述总训练集中,并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第一预设阈值停止执行;响应于用户操作将最后一次执行后得到的所述第二样本集、易混淆样本及困难样本进行标注,得到所述待标注数据集中每一数据的标签。
[0010]在上述的数据标注方法中,所述预设阶段包括第一阶段和第二阶段,所述依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签包括:将简单样本中标注正确的标签加入到第一样本集,标注错误的标签加入到第二样本集;将所述第一样本集添加到所述总训练集中,并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第一预设阈值停止执行;针对最后一次执行后得到的所述第二样本集中每一样本,送入到最后一次执行后得到的K个标注模型中分别得到K个标签;针对所述标签将简单样本及易混淆样本中标注正确的标签加入到第三样本集,标注错误的标签加入到第四样本集;将所述第三样本集添加到所述总训练集中,并重复执行将所述第三样本集添加到所述总训练集中的步骤及将所述第三样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第二预设阈值停止执行;响应于用户操作将最后一次执行后得到的所述第四样本集及困难样本进行标注,得到所述待标注数据集中每一数据的标签。
[0011]在上述的数据标注方法中,所述预设阶段包括第一阶段、第二阶段和第三阶段,所述依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签包括:将简单样本中标注正确的标签加入到第一样本集,标注错误的标签加入到第二样本集;将所述第一样本集添加到所述总训练集中,并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤直至执行次数达到第一预设阈值停止执行;针对最后一次执行后得到的所述第二样本集中每一样本,送入到最后一次执行后得到的K个标注模型中分别得到K个标签;针对所述标签将简单样本及易混淆样本中标注正确的标签加入到第三样本集,标注错误的标签加入到第四样本集;将所述第三样本集添加到所述总训练集中,并重复执行将所述第三样本集添加到所述总训练集中的步骤及将所述第三样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第二预设阈值停止执行;针对最后一次执行后得到的所述第四样本集中的每一样本送入到最后一次执行后得到的K个标注模型中分别得到K个标签;针对所述第四样本集中的每一样本,将置信度最高的标签作为该样本的标签,得到待标注数据集中每一数据的标签。
[0012]在上述的数据标注方法中,所述针对所述第四样本集中的每一样本,将置信度最高的标签作为该样本的标签之后还包括:响应于用户操作对所述第四样本集中每一样本的标签进行核验,使该第四样本集中所有样本的标签均标注正确后得到待标注数据集中每一数据的标签。
[0013]在上述的数据标注方法中,所述第一预设阈值、所述第二预设阈值及所述第三预设阈值均相同。
[0014]在上述的数据标注方法中,所述K个标注模型为相同的模型。
[0015]根据本专利技术的另一个实施方式,提供一种数据标注装置,该装置包括:输入模块,用于将待标注数据集中的每一数据分别输入K个标注模型,针对每一数据均得到K个标签,其中,所述K个标注模型分别通过K个子训练集训练获得,所述K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得,K为大于1的整数;样本确定模块,用于基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本;标注模块,用于在预设阶段中,依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签。
[0016]根据本专利技术的再一个实施方式,提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的数据标注方法。
[0017]根据本专利技术的又一个实施方式,提供一种计算机可读存储介质,其存储有所述电子设备中所用的所述计算机程序。
[0018]本公开的实施例提供的技术方案可以包括如下有益效果:本专利技术中一种数据标注方法及装置,通过对总训练集中的所有样本进行K次又放回的随机采样得到K个子训练集,通过K各子训练集来训练K个标注模型,通过K个标注模型进行校验比较来对数据进行标注;将待标注数据集中的每一数据分别通过K个标注模型进行标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,该方法包括:将待标注数据集中的每一数据分别输入K个标注模型,针对每一数据均得到K个标签,其中,所述K个标注模型分别通过K个子训练集训练获得,所述K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得,K为大于1的整数;基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本;在预设阶段中,依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签。2.根据权利要求1所述的数据标注方法,其特征在于,所述总训练集中包含第一预设数量的已标注的样本。3.根据权利要求1所述的数据标注方法,其特征在于,所述不同混淆程度的样本包括简单样本、易混淆样本及困难样本;所述基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本包括:将K个标签均一致的数据确定为简单样本;在K个标签中有M个标签一致的数据为易混淆样本,在K个标签中有N个标签不一致的数据为困难样本,M、N均为小于K的正整数。4.根据权利要求3所述的数据标注方法,其特征在于,所述预设阶段包括第一阶段,所述依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签包括:将简单样本中标注正确的标签加入到第一样本集,标注错误的标签加入到第二样本集;将所述第一样本集添加到所述总训练集中,并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第一预设阈值停止执行;响应于用户操作将最后一次执行后得到的所述第二样本集、易混淆样本及困难样本进行标注,得到所述待标注数据集中每一数据的标签。5.根据权利要求3所述的数据标注方法,其特征在于,所述预设阶段包括第一阶段和第二阶段,所述依次对不同混淆程度的样本进行标注,得到待标注数据集中每一数据的标签包括:将简单样本中标注正确的标签加入到第一样本集,标注错误的标签加入到第二样本集;将所述第一样本集添加到所述总训练集中,并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤,直至执行次数达到第一预设阈值停止执行;针对最后一次执行后得到的所述第二样本集中每一样本,送入到最后一次执行后得到的K个标注模型中分别得到K个标签;针对所述标签将简单样本及易混淆样本中标注正确的标签加入到第三样本集,标注错误的标签加入到第四样本集;将所述第三样本集添加到所述总训练集中,并重复执行将所述第三样本集添加到所述总训练集中的步骤及将所述第三样本集添加到所述总训练集中的步骤...

【专利技术属性】
技术研发人员:程会云史明王西颖
申请(专利权)人:南京爱奇艺智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1