语料标注方法和装置制造方法及图纸

技术编号:20991995 阅读:17 留言:0更新日期:2019-04-29 22:08
本发明专利技术公开了一种语料标注方法和装置。其中,该方法包括:检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。本发明专利技术解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。

Method and device of corpus annotation

The invention discloses a corpus annotation method and device. Among them, the method includes: detecting the text selection operation for annotated sentences; determining the label corresponding to the selected text after the end of the text selection operation; displaying the label corresponding to the selected text outside the node of the sentences to be annotated; and locating the position information of the sentences to be annotated with the label corresponding to the selected text and selecting the text in the sentences to be annotated. The location information in the sub-database is stored in the preset database. The invention solves the technical problem of repeatedly calculating the position of a sentence when inserting the annotation result into a sentence or displaying it at the end of a sentence in the prior art.

【技术实现步骤摘要】
语料标注方法和装置
本专利技术涉及计算机互联网领域,具体而言,涉及一种语料标注方法和装置。
技术介绍
在现在的大数据时代,数据无疑是所有大数据生存的根基,而如何有效而快速的收集数据则是大数据团队的竞争优势,在收集数据的过程中,可能会需要对语料进行标注。现有技术中已经有的关于语料标注的具体展现方案主要针对情感标注,主要包括两种方式,第一种方式是直接将打标注的结果存入数据库并将标注结果展示在句子末尾,第二种方式是直接打乱句子结构,将标注的结果直接插入句子中,并且存入数据库中的是被插入结果的句子以及打标注的句子起始位置;在对句子进行标注的时候,往往会需要对句子进行二次标注、三次标注等多次标注,例如,如果需要在句子中进行二次标注,采用上述两种方式时,由于句子结尾或者句中插入有标注结果,因此一次标注后句子的起始位置不是原始句子的起始位置,为了准确的知道二次标注在原始句子中的位置,需要去掉句子中的一次标注的结果,也就是说,由于存入数据库的句子都加入了存有结果的标签,因此句子的结构发生了变化,如果一句话内需要打标注的词语较多,每次想要获取打标注的真正位置,都必须经过计算,去掉之前标注的标注结果,因此会导致重复计算位置,耗费时间又耗费性能。针对上述现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语料标注方法和装置,以至少解决现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。根据本专利技术实施例的一个方面,提供了一种语料标注方法,包括:检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。根据本专利技术实施例的另一方面,还提供了一种语料标注装置,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。根据本专利技术实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述语料标注方法。根据本专利技术实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述语料标注方法。根据本专利技术实施例的另一方面,还提供了一种终端,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;处理器,处理器运行程序,其中,程序运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。根据本专利技术实施例的另一方面,还提供了一种终端,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;存储介质,用于存储程序,其中,程序在运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。在本专利技术实施例中,通过检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中,达到了对语料进行标注的目的,并且由于在待标注句子的节点以外的位置显示标注有选择文本对应的标签的待标注句子,不会影响句子结构,因此对句子多次标注标签的时候,每次在将选择文本在待标注句子中的位置信息存储在预设数据库中时,不需要去除上一次标注的结果,从而实现了减少重复计算、提高句子的语料标注速度和标注结果的准确率的技术效果,进而解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种语料标注方法的示意图;图2是根据本专利技术实施例的一种可选的语料标注方法的示意图;图3是根据本专利技术实施例的一种可选的语料标注方法的示意图;以及图4是根据本专利技术实施例的一种语料标注装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种语料标注方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的语料标注方法,如图1所示,该方法包括如下步骤:步骤S102,检测对待标注句子的文本选择操作。具体的,可以预先构建语料标注平台,检测对待标注句子的文本选择操作的过程可以在语料标注平台上实现,并显示在页面上,其中,对待标注句子的文本选择操作可以由鼠标实现。步骤S104,在文本选择操作结束得到选择文本后,确定选择文本对应的标签。具体的,在得到选择文本后,可以根据选择文本的具体内容,确定选择文本对应的标签,其中,确定的过程可以是用户自主确定的过程,也可以是提供一些可选的标签供用户进行选择,标签可以是基于情感标注的标签,也可以是基于命名实体类别标注的标签。步骤S106,在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息本文档来自技高网
...

【技术保护点】
1.一种语料标注方法,其特征在于,包括:检测对待标注句子的文本选择操作;在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。

【技术特征摘要】
1.一种语料标注方法,其特征在于,包括:检测对待标注句子的文本选择操作;在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。2.根据权利要求1所述的方法,其特征在于,检测对待标注句子的文本选择操作之前,所述方法还包括:获取待标注文本;对所述待标注文本进行分句操作,得到至少一个所述待标注句子。3.根据权利要求1所述的方法,其特征在于,在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签包括:在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框;根据对所述预设标签的选择结果,确定所述选择文本对应的标签。4.根据权利要求3所述的方法,其特征在于,在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框包括:在所述文本选择操作结束得到所述选择文本后,根据所述选择文本的位置信息,计算所述标签选择框的显示位置;在所述显示位置显示所述标签选择框。5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述标签为命名实体类别标签。6.一种语料标注装置,其特征在于,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;处理模块,用于在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标...

【专利技术属性】
技术研发人员:杜志娟
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1