数据标注方法及装置制造方法及图纸

技术编号：27583171 阅读：15 留言：0更新日期：2021-03-09 22:41

本发明专利技术公开了一种数据标注方法及装置，该方法包括：将待标注数据集中的每一数据分别输入K个标注模型，针对每一数据均得到K个标签，其中，K个标注模型分别通过K个子训练集训练获得，K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得，K为大于1的整数；基于标签的置信度将标签对应数据分为不同混淆程度的样本，其中，置信度为针对每一数据得到的K个标签的一致程度；在预设阶段中，依次对不同混淆程度的样本进行标注，得到待标注数据集中每一数据的标签。本发明专利技术的技术方案将不同的混淆程度的样本分别通过训练的K个标注模型相互对比校验，以自动对不同混淆程度的样本进行标注，大大节省了人力和时间成本。大大节省了人力和时间成本。大大节省了人力和时间成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据标注方法及装置

[0001]本专利技术涉及人工智能
，具体而言，涉及一种数据标注方法及装置。

技术介绍

[0002]随着科学技术的飞速发展，人工智能已经成为了人们关注的焦点之一。在大数据等技术进步的支持下，人工智能已在数据分析、图像识别、智能家居、自动驾驶等领域展现了丰硕的成果。人工智能技术以海量数据为驱动、以深度学习算法为核心，使机器初步具备人类基本的视觉和听觉能力，并可能胜任相对复杂的脑力劳动。而由于深度学习算法中对大量数据的需求，因此，对海量数据的标注成为了市场的迫切需求。
[0003]现有的数据标注方式之一通常采用人工标注的方式，然而该人工标注的方式耗时比较长，并且容易受到标注人的主观因素影响，导致标注精度不高。
[0004]另外，现有还有一种基于训练好的模型对数据进行标注的方式，然而，该训练好的模型依赖于大量的样本进行训练，对于标注模型来说，其标注的准确程度完全和样本的数量及样本的质量决定。因此，如何寻找一种耗时较少、且准确率较高的自动标注方式是一个急需解决的问题。

技术实现思路

[0005]鉴于上述问题，本专利技术实施例的目的在于提供一种数据标注方法及装置，以解决现有技术的不足。
[0006]根据本专利技术的一个实施方式，提供一种数据标注方法，该方法包括：将待标注数据集中的每一数据分别输入K个标注模型，针对每一数据均得到K个标签，其中，所述K个标注模型分别通过K个子训练集训练获得，所述K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得，K为大于...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法，其特征在于，该方法包括：将待标注数据集中的每一数据分别输入K个标注模型，针对每一数据均得到K个标签，其中，所述K个标注模型分别通过K个子训练集训练获得，所述K个子训练集是通过对总训练集中样本进行K次有放回的随机采样获得，K为大于1的整数；基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本；在预设阶段中，依次对不同混淆程度的样本进行标注，得到待标注数据集中每一数据的标签。2.根据权利要求1所述的数据标注方法，其特征在于，所述总训练集中包含第一预设数量的已标注的样本。3.根据权利要求1所述的数据标注方法，其特征在于，所述不同混淆程度的样本包括简单样本、易混淆样本及困难样本；所述基于标签的一致程度将所述标签对应数据分为不同混淆程度的样本包括：将K个标签均一致的数据确定为简单样本；在K个标签中有M个标签一致的数据为易混淆样本，在K个标签中有N个标签不一致的数据为困难样本，M、N均为小于K的正整数。4.根据权利要求3所述的数据标注方法，其特征在于，所述预设阶段包括第一阶段，所述依次对不同混淆程度的样本进行标注，得到待标注数据集中每一数据的标签包括：将简单样本中标注正确的标签加入到第一样本集，标注错误的标签加入到第二样本集；将所述第一样本集添加到所述总训练集中，并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤，直至执行次数达到第一预设阈值停止执行；响应于用户操作将最后一次执行后得到的所述第二样本集、易混淆样本及困难样本进行标注，得到所述待标注数据集中每一数据的标签。5.根据权利要求3所述的数据标注方法，其特征在于，所述预设阶段包括第一阶段和第二阶段，所述依次对不同混淆程度的样本进行标注，得到待标注数据集中每一数据的标签包括：将简单样本中标注正确的标签加入到第一样本集，标注错误的标签加入到第二样本集；将所述第一样本集添加到所述总训练集中，并重复执行将所述第一样本集添加到所述总训练集中的步骤及将所述第一样本集添加到所述总训练集中的步骤之前的所有步骤，直至执行次数达到第一预设阈值停止执行；针对最后一次执行后得到的所述第二样本集中每一样本，送入到最后一次执行后得到的K个标注模型中分别得到K个标签；针对所述标签将简单样本及易混淆样本中标注正确的标签加入到第三样本集，标注错误的标签加入到第四样本集；将所述第三样本集添加到所述总训练集中，并重复执行将所述第三样本集添加到所述总训练集中的步骤及将所述第三样本集添加到所述总训练集中的步骤...

【专利技术属性】
技术研发人员：程会云，史明，王西颖，
申请(专利权)人：南京爱奇艺智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人