The invention discloses a corpus annotation method and device. Among them, the method includes: detecting the text selection operation for annotated sentences; determining the label corresponding to the selected text after the end of the text selection operation; displaying the label corresponding to the selected text outside the node of the sentences to be annotated; and locating the position information of the sentences to be annotated with the label corresponding to the selected text and selecting the text in the sentences to be annotated. The location information in the sub-database is stored in the preset database. The invention solves the technical problem of repeatedly calculating the position of a sentence when inserting the annotation result into a sentence or displaying it at the end of a sentence in the prior art.
【技术实现步骤摘要】
语料标注方法和装置
本专利技术涉及计算机互联网领域,具体而言,涉及一种语料标注方法和装置。
技术介绍
在现在的大数据时代,数据无疑是所有大数据生存的根基,而如何有效而快速的收集数据则是大数据团队的竞争优势,在收集数据的过程中,可能会需要对语料进行标注。现有技术中已经有的关于语料标注的具体展现方案主要针对情感标注,主要包括两种方式,第一种方式是直接将打标注的结果存入数据库并将标注结果展示在句子末尾,第二种方式是直接打乱句子结构,将标注的结果直接插入句子中,并且存入数据库中的是被插入结果的句子以及打标注的句子起始位置;在对句子进行标注的时候,往往会需要对句子进行二次标注、三次标注等多次标注,例如,如果需要在句子中进行二次标注,采用上述两种方式时,由于句子结尾或者句中插入有标注结果,因此一次标注后句子的起始位置不是原始句子的起始位置,为了准确的知道二次标注在原始句子中的位置,需要去掉句子中的一次标注的结果,也就是说,由于存入数据库的句子都加入了存有结果的标签,因此句子的结构发生了变化,如果一句话内需要打标注的词语较多,每次想要获取打标注的真正位置,都必须经过计算,去掉之前标注的标注结果,因此会导致重复计算位置,耗费时间又耗费性能。针对上述现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语料标注方法和装置,以至少解决现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。根据本专利技术实施例的一个方面 ...
【技术保护点】
1.一种语料标注方法,其特征在于,包括:检测对待标注句子的文本选择操作;在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。
【技术特征摘要】
1.一种语料标注方法,其特征在于,包括:检测对待标注句子的文本选择操作;在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。2.根据权利要求1所述的方法,其特征在于,检测对待标注句子的文本选择操作之前,所述方法还包括:获取待标注文本;对所述待标注文本进行分句操作,得到至少一个所述待标注句子。3.根据权利要求1所述的方法,其特征在于,在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签包括:在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框;根据对所述预设标签的选择结果,确定所述选择文本对应的标签。4.根据权利要求3所述的方法,其特征在于,在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框包括:在所述文本选择操作结束得到所述选择文本后,根据所述选择文本的位置信息,计算所述标签选择框的显示位置;在所述显示位置显示所述标签选择框。5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述标签为命名实体类别标签。6.一种语料标注装置,其特征在于,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;处理模块,用于在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标...
【专利技术属性】
技术研发人员:杜志娟,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。