一种基于群智的语料库数据标注方法及系统技术方案

技术编号:19543695 阅读:33 留言:0更新日期:2018-11-24 20:36
一种基于群智的语料库数据标注方法,用户录入待标注数据,同时初始化标注模型和标注数据生成器,标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据,标注模型在研发过程生成,标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据,同时,本发明专利技术基于该数据标注方法,提出了一种基于群智的语料库数据标注系统,本发明专利技术提出的标注方法及系统可以将开发过程和标注过程结合起来,可以显著的缩短研发周期和标注周期,提升标注数据的准确率。

A Method and System of Corpus Data Annotation Based on Cluster Intelligence

A corpus data annotation method based on swarm intelligence is proposed. Users input the data to be annotated, and initialize the annotation model and the annotation data generator. The annotation data generator generates annotation data for annotators to extract a certain amount of data from the data to be annotated and the annotated data. The annotation model is generated in the development process. The annotation model is trained iteratively according to the annotated data, and then automatically annotates the annotated data to generate the automatic annotated data of the annotated model. The annotator annotates or confirms the annotated data and saves the annotated data. At the same time, based on the data annotation method, the present invention proposes a corpus number based on group intelligence. According to the tagging system, the tagging method and system proposed by the invention can combine the development process with the tagging process, significantly shorten the research and development cycle and the tagging cycle, and improve the accuracy of tagging data.

【技术实现步骤摘要】
一种基于群智的语料库数据标注方法及系统
本专利技术专利涉及一种语料库标注领域,尤其是一种基于群智的语料库数据标注方法及系统。
技术介绍
在互联网和人工智能迅速发展的今天,数据的标注需求变得越来越迫切。面对数据的标注需求,现有的标注方法采用word、excel等文本形式,或者开发专门的web网页系统用于组织标注语料。再由标注人员对文本形式或者web网页形式的语料进行标注。现有的标注方法的问题在于:标注人员各自为政,各自标注各自的数据,标注人员之间也存在标注标准差异;标注和研发过程相互独立,无法协同开发;对于标注人员出现的标注错误,要么无法改正,要么只能进行二次标注进行改正。以上问题限制了标注工作以及研发的效率和质量。
技术实现思路
为了解决传统标注方法的不足,本专利技术提出了基于群智的语料库数据标注方法及系统。本方法及系统将各个各自为政的标注人员联合起来,协同标注,并将研发过程和标注过程统一起来,提供标注效率和质量。为达到上述目的,本专利技术采用的技术方案是:一种基于群智的语料库数据标注方法,包括如下步骤:步骤1、用户录入待标注数据,同时初始化标注模型和标注数据生成器;步骤2、标注数据生成本文档来自技高网...

【技术保护点】
1.一种基于群智的语料库数据标注方法,其特征在于,包括如下步骤:步骤1、用户录入待标注数据,同时初始化标注模型和标注数据生成器;步骤2、标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据;步骤3、标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据。其中,所述标注模型在研发过程生成,用于对标注数据进行标注。

【技术特征摘要】
1.一种基于群智的语料库数据标注方法,其特征在于,包括如下步骤:步骤1、用户录入待标注数据,同时初始化标注模型和标注数据生成器;步骤2、标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据;步骤3、标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据。其中,所述标注模型在研发过程生成,用于对标注数据进行标注。2.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述标注模型的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。3.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述待标注数据包括标注模型自动标注数据和未标注空白数据。4.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述标注数据生成器为标注人员生成标注数据,所述标注数据由标注模型自动标注数据、未标注空白数据和已标注数据组成。5.根据权利要求1-4任一项所述的基于群智的语料库数据标注方法,其特征在于,如果所述标注数据为未标注空白数据,标注人员需要进行标注;如果所述标注数据为标注模型自动标注数据或已标注数据,判定是否标注正确,如果标注正确,标注人员只需要进行确认即可,如果...

【专利技术属性】
技术研发人员:肖中华
申请(专利权)人:深圳勇艺达机器人有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1