基于人机协同学习的数据标注方法技术

技术编号:19594094 阅读:26 留言:0更新日期:2018-11-28 05:07
本发明专利技术涉及一种基于人机协同学习的数据标注方法,其包括:1、由领域专家制定分类标准和标注规范,并给出样例作为金标数据;2、以金标数据作为聚类的中心点对数据进行聚类处理,选出银标数据来训练标注人员,利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注;3、利用金标数据和银标数据作为训练集对未分类的数据进行分类,得到的置信度高的数据可直接采用,并将其加入训练数据集重新训练分类器;4、从待标注数据集中选取出最值得标注的数据,分发给标注人员进行标注,将得到的标注结果加入训练集重新训练分类器;迭代步骤3和4,直至分类器的精度达到预设的阈值。本发明专利技术能够有效降低人工标注的成本,同时保证标注的高质量。

【技术实现步骤摘要】
基于人机协同学习的数据标注方法
本专利技术涉及数据处理
,尤其涉及一种基于人机协同学习的数据标注方法。
技术介绍
随着大数据时代的来临,人工智能和机器学习飞速发展,对于数据集的需求也越来越迫切,需要对海量数据进行快速的标注。其中,通过专家标注的数据称之为黄金标准数据,简称为金标数据。专家标注数据的优点在于标注质量非常高,缺点则在于标注效率较低,数据量太少,标注的成本太高。另一种通过众包标注方法标注的数据称为银标数据,它的优点在于成本相对较低,标注效率较高,缺点则是标注质量参差不齐。机器学习作为人工智能的一个重要研究方向目前面临着的现实情况是:未知分类标签的数据众多,并且容易获得,而已知分类标签的数据数目稀少,难于获得。研究表明,对于训练样例的精确标记不但需要该领域中大量的标注者参与,并且标记样例花费的时间是其获取时间的10倍以上。一般采用的数据集标注方法有传统手工标注、机器学习标注以及众包标注。在这些方法中:传统的手工标注方法:一般由领域专家负责,标注质量较高,但是需要耗费大量的人力物力财力,标注速度较慢。机器学习标注方法:利用支持向量机、朴素贝叶斯等有监督的机器学习算法,标注速度快,但是需要大量的金标数据来训练分类器,否则质量得不到保障;众包标注方法:标注成本低,速度快,但是由于众包平台本身开放自由的工作组织模式,平台中参与众包标注任务的标注者来源不同,标注者的工作目的及动机多样,标注者具备的技能参差不齐,部分标注者没有认真地完成工作,所提交的标签不准确,质量不高。现有的与数据标注相关的技术方案包括:1、以众包理论为基础,针对标注任务,制定各项任务的标注体系和标注规范,然后随机抽取样本让领域专家进行标注。然而,该方案对专家的依赖度太高,大量数据需要专家进行复核,工作量太大;并且标注的样本的是随机抽取的,在类型较多的情况下,很难做到均匀分布,对于样本数据较少的类型很难得到精度较高的分类。2、利用领域专家标注的金标数据和标注规则对普通标注人员进行培训,让普通标注人员也能充当领域专家的角色,以此来减轻领域专家的工作量。该方案对金标数据的依赖度太高,需要大量的金标数据和相应的专家来训练标注人员,通过培养领域专家的方式来提高标注效率,但方案1的问题不能得到根本解决。3、在多分类问题或垂直领域的多层分类问题上,普遍的标注方法是在标注的时候直接一次性就将所有标签标注完毕。多分类或多层分类问题对于标注数量的要求非常大,并且在解决多层分类问题的时候往往需要一次性就标注多个标签,而对于普通标注人员来说无疑是非常痛苦的,因为他们并不是领域专家,他们在经过简单培训后相对更擅长做的是二分类问题,即进行“是”和“否”的判断。因此,该方案存在对普通标注人员要求过高,并且标注效率不高的不足。4、针对多分类问题,在采集数据的时候就有意识的采集不同类型的数据,分别进行标注。然而,在多数情况下,随着分类的层数加深和类别加多,导致很多类型无法取到足够的样本数据进行标注,在这种训练数据不足的情况下,很难得到一个高精度的分类器。综上所述,如何以较少的人力投入来得到较高质量和数量的标注数据成为了目前亟待解决的问题。
技术实现思路
针对现有技术之不足,本专利技术提出了一种基于人机协同学习的数据标注方法,其包括以下步骤:步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据;步骤2:以所述金标数据作为聚类的中心点对数据进行聚类处理,选出与所述金标数据相似度不低于90%的数据作为银标数据来训练标注人员,然后利用所述金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习;步骤3:利用所述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度不低于90%的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度低于90%的数据则放回待标注数据集中;步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,C=argmaxP(C|I,w)然后将得到的标注结果加入训练集重新训练分类器;步骤5:不断迭代步骤3和4,当分类器的精度达到预设的阈值后则开始进行下一分类器的训练。根据一个优选实施方式,在步骤3中,从分类得到的置信度不低于90%的结果(第一新数据集)中抽取部分置信度高于95%的数据反向考核标注人员。本专利技术具有以下有益效果:本专利技术设计了一种人机协同学习进行数据标注的方法,可以非常有效地减少领域专家的参与度,在某些垂直领域甚至可以实现领域专家零参与。其次通过人机协同学习,相比传统的众包方式而言,大大地减少了需要标注的数量,并且标注的质量也得到了较高的保证。同时使分类算法的开发进度和标注进度之间合理高效的配合,大幅缩短开发周期,降低了人工标注的成本,减少了资源的浪费。附图说明图1示出了本专利技术的方法流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。如图1所示,本专利技术的基于人机协同学习的数据标注方法包括以下步骤:步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据。步骤2:以领域专家给出的样例(金标数据)作为聚类的中心点对数据进行聚类处理。选出相似度非常接近的数据作为银标数据来训练标注人员,然后利用金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习。前述相似度非常接近的数据通常是指与金标数据相似度不低于80%的数据,该指标可以根据各个垂直领域的实际情况进行调整。步骤3:利用前述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度高的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度不高的数据则放回待标注数据集中。前述置信度高的数据通常是指置信度不低于90%的数据,置信度不高的数据通常是指置信度低于90%的数据,该指标可以根据各个垂直领域的具体情况进行调整。具体地,对未分类的数据I进行分类,得到的置信度高的数据的集合称作第一新数据集。步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,C=argmaxP(C|I,w)然后将得到的标注结果加入训练集重新训练分类器。前述“标注结果”是指经过合格的(即,前述步骤中考核通过的)标注人员众包标注后得到的数据,其数据的集合构成了第二新数据集。同样地,还能够将第二新数据集加入训练数据集重新训练分类器。步骤5:不断迭代步骤3和4,当分类器的精度达到一定阈值后则开始进行下一分类器的训练。这样,通过前述步骤得到的高精度的分类器就能够实现高效率、高精度的数据分类和标注。优选地,在步骤3中,还从第一新数据集中抽取少量置信度非常高的数据反向考核标注人员。前述置信度非常高的数据通常是指置信度高于95%的数据。通过这种方式实现了低成本、高互动性地对于标注人员的考核,能够有效地保证标注质量。对于标注人员来说,使用少量金标数据来启动本文档来自技高网
...

【技术保护点】
1.一种基于人机协同学习的数据标注方法,其特征在于,包括以下步骤:步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据;步骤2:以所述金标数据作为聚类的中心点对数据进行聚类处理,选出与所述金标数据相似度不低于90%的数据作为银标数据来训练标注人员,然后利用所述金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习;步骤3:利用所述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度不低于90%的数据可以直接采用,并且将其加入训练数据集重新训练分类器,得到分类器的模型参数w;对于置信度低于90%的数据则放回待标注数据集中;步骤4:利用主动学习理论,从待标注数据集中选取出最值得标注的数据C,分发给标注人员进行标注,其中,C=argmaxP(C|I,w)然后将得到的标注结果加入训练集重新训练分类器;步骤5:不断迭代步骤3和4,当分类器的精度达到预设的阈值后则开始进行下一分类器的训练。

【技术特征摘要】
1.一种基于人机协同学习的数据标注方法,其特征在于,包括以下步骤:步骤1:由领域专家制定分类标准和标注规范,并针对每一个类别都给出样例作为金标数据;步骤2:以所述金标数据作为聚类的中心点对数据进行聚类处理,选出与所述金标数据相似度不低于90%的数据作为银标数据来训练标注人员,然后利用所述金标数据对标注人员进行测试,测试通过即可进行下一步的标注,否则继续进行标注规则的学习;步骤3:利用所述金标数据和银标数据作为训练集,对未分类的数据I进行分类,得到的置信度不低于90%的数据可以直接采用,并且将其加入...

【专利技术属性】
技术研发人员:冯翱高正杰吴锡
申请(专利权)人:成都信息工程大学成都智睿通拓科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1