数据标注方法及装置制造方法及图纸

技术编号:29527765 阅读:20 留言:0更新日期:2021-08-03 15:14
本发明专利技术公开了一种数据标注方法及装置,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱和伪标签数据信息;对伪标签数据信息进行校验标注;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本发明专利技术可以大幅减少人工标注成本,并提高数据标注效率。

【技术实现步骤摘要】
数据标注方法及装置
本专利技术涉及人工智能
,尤其涉及数据标注方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前,人工智能算法训练需要大量的数据标注,传统的数据标注方法包含纯人工的标注方案以及基于监督学习算法+人工标注的半自动标注方案。纯人工的手工标注方案标注精度最高,但是存在人力成本高、效率低的劣势,人力成本高导致数据标注不具备大规模推广能力,效率低导致人工数据标注难以满足算法快速迭代的需求。基于监督学习算法+人工标注的半自动方案包括6个步骤,技术流程图如图1所示:1、人工数据标注(算法模型冷启动):用人工标注的方式对原始数据进行标注,得到算法冷启动需要的训练数据集;2、监督学习算法模型训练:基于标注好的训练数据集+神经网络算法模型进行模型训练,得到初版本的监督学习算法模型;3、算法自动标注:基于训练好的算法模型对新的未标注的数据进行自动标注,生成自动标注结果;4、人工校验&人工标注:基于人工校验的方式对于算法自动标注的数据进行校验,将错误标注的数据进行修正,对于算法无法自动标注的数据(算法未识别到的数据)进行人工补充标注;5、全标签数据集:数据标注的最终结果;6、模型迭代:基于全标签数据集重新训练算法模型,实现模型迭代。该基于监督学习算法+人工标注的半自动方案在一些基础任务上可以做到一定程度的自动化标注,节省了部分人力成本并提高了效率,但是此类技术方案具有以下3个缺陷:1)初版本算法模型成本高、效率低:监督学习算法的冷启动(初始神经网络模型)需要原始训练数据集,而原始训练数据集只能通过人工标注,这就需要大量的人工数据标注,冷启动成本高效率低;2)算法模型迭代有效率低:监督学习算法能够自动标注的数据都是模型能够识别的简单场景数据,而模型迭代则需要模型无法正确识别的困难场景数据,对于算法改进需要的困难数据无法进行自动标注,因此自动标注出来的数据对于模型迭代作用很小甚至无作用;3)算法模型泛化率差:算法模型是在训练集的数据分布中学习得到,绝大多数情况下没有场景泛化机制(例如域迁移机制),因此如果待标注数据特征分布不在训练数据集分布内,算法模型的识别效果会大幅降低,即监督学习算法对于训练数据覆盖不到的场景识别效果会大幅降低(例如场景的变化以及摄像头角度的大幅变化),场景泛化能力较差。
技术实现思路
本专利技术实施例提供一种数据标注方法,用以现有技术中人工数据标注具有成本高、效率低的劣势,该方法包括:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据;基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本专利技术实施例还提供一种数据标注装置,用以现有技术中人工数据标注具有成本高、效率低的劣势,该装置包括:无监督冷启动标注模块,用于利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;弱监督预标注模块,用于对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法、弱标签数据信息和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;半监督精标模块,用于对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;校验和补充模块,用于对精品数据集进行数据补充,获得全标签数据集;模型迭代模块,用于利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据标注方法。本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述数据标注方法的步骤。本专利技术实施例中,与现有技术中数据标注采用人工数据标注,导致成本高、效率低、场景泛化能力较差的技术方案相比,通过利用无监督学习算法进行冷启动,对修正后的弱标签数据信息进行初级分类,生成弱标签数据信息和伪标签数据信息;对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法,可以大幅减少人工标注成本,并提高数据标注效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为基于监督学习算法+人工标注的数据标注技术流程图;图2为本专利技术实施例中数据标注方法流程图;图3为本专利技术实施例中基于无监督、弱监督和半监督的高效半自动数据标注方法流程图;图4为本专利技术实施例中无监督冷启动标注步骤图;图5为本专利技术实施例中无监督冷启动标注步骤的效果示意图;图6为本专利技术实施例中弱监督预标注步骤的效果示意图;图7为本专利技术实施例中半监督精标步骤图;图8为本专利技术实施例中半监督精标步骤的效果示意图;图9为本专利技术实施例中精品数据集补充步骤图;图10为本专利技术实施例中数据标注装置结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。相关术语解释无监督:基于无标注的原始训练数据解决模式识别中的各种问题。弱监督:基于少数带标注的训练数据和大量弱标注数据解决模式识别中的各种问题。半监督:基于少数带标注的训练数据和大量未标注数据解决模式识别中的各种问题。<本文档来自技高网
...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;/n对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;/n对预设数量的弱标签数据信息进行标注,获得部分已标注数据;/n基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;/n对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;/n对精品数据集进行数据补充,获得全标签数据集;/n利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;
对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;
对预设数量的弱标签数据信息进行标注,获得部分已标注数据;
基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;
对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;
对精品数据集进行数据补充,获得全标签数据集;
利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。


2.如权利要求1所述的数据标注方法,其特征在于,对预标注结果进行半监督学习算法的样本筛选,获得精品数据集,包括:
对预标注结果进行校验,若校验出存在标注偏差大的数据,则去除标注偏差大的数据中的相似数据,对剩余的标注偏差大的数据进行修正;若校验出存在标注偏差小或无偏差的数据,则保留;
对校验后的预标注结果进行特征提取,获得特征提取结果;
对特征提取结果进行特征权重计算,获得特征提取结果的特征权重;
对所述特征提取结果的特征权重进行排序,获得排序在预设数量之前的特征提取结果;
由所述特征提取结果形成精品数据集。


3.如权利要求1所述的数据标注方法,其特征在于,对精品数据集进行数据补充,获得全标签数据集,包括:
确定精品数据集的分布特性;
获取与精品数据集的分布特性存在差异的数据进行标注;
将标注后的数据补入精品数据集,获得全标签数据集。


4.如权利要求1所述的数据标注方法,其特征在于,还包括:
在对一个域的数据进行标注时,将其他域的信息迁移至相应域中。


5.一种数据标注装置,其特征在于,包括:
无监督冷启动标注模块,用于利用无监督学习算法进行冷启动,对修正后的弱标签数据信息进行初级分类,生成弱标签数据信息;
弱监督预标注模...

【专利技术属性】
技术研发人员:郑继龙齐红威何鸿凌肖永红
申请(专利权)人:数据堂北京科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1