在线人工中文文本标注系统技术方案

技术编号:23162002 阅读:70 留言:0更新日期:2020-01-21 22:02
本发明专利技术属于文本标注领域,具体涉及一种在线人工中文文本标注系统,旨在解决现有人工中文文本标注系统无法实现多人协作标注的问题。本发明专利技术系统包括:服务器、第一、二客户端;第一、二客户端分别与服务器相连;服务器包括数据库;第一客户端包括管理模块;第二客户端包括标注、重分词、切换模块;管理模块配置为拆分标注文本,并上传数据库;数据库配置为根据分配指令将标注项目与标注用户关联;标注模块配置为对标注项目中的语句进行标注;重分词模块配置为依据输入指令对标注项目的语句进行重新分词;切换模块配置为对标注、重分词模块工作状态的切换。本发明专利技术实现了多人协作标注,并提高了文本标注的准确率和效率。

【技术实现步骤摘要】
在线人工中文文本标注系统
本专利技术属于文本标注领域,具体涉及一种在线人工中文文本标注系统。
技术介绍
随着人工智能和自然语言处理技术的迅速发展,人们越来越多的将其应用到教育、医疗、科研、商业等领域。基于机器学习的自然语言处理技术通常需要高质量的人工标注过的数据用于模型训练,但现阶段已标注的中文语料库非常少,而且大部分语料库的数据规模与质量根本满足不了高质量的业务模型的需求。我们常常需要人工制作标注过的中文语料库。传统人工标注语句的工具常为文本编辑器,例如Notepad++、VisualStudioCode、Notepad等工具,这些编辑器设计的初衷主要是为了文本保存、编辑,及代码浏览、添加、修改等,用这些编辑器做标注常常非常耗时且容易出错。例如在中文实体标注中,常常需要定位当前所要标注的句子并且找到需要标注的词语,在这过程中标注人员很有可能会漏掉部分需要标注的词语或者句子。另外,标注人员在标注过程中常常需要对正在标注的内容进行切换,一般是通过拖动文本浏览器的滚动条或者打开文件完成,此过程消耗时间较多并且容易造成标注人员的疲劳。现在一些单机版的标注软件相对于文本编辑器,提高了标注的效率与准确度,并可以实现一些项目管理的功能。但只适合于小团队:即1到2位标注人员协作完成,对于需要十几人甚至更多的标注人员的团队协作并不能胜任。例如,在标注过程中,需要共同标注一条语句,由于单机版的标注程序不能联网,实现此功能需要把两人标注的文本拷贝到同一电脑上比对,或者在标注的过程中若发现分词错误,无法直接进行修改。因此,本专利技术提出了在线人工中文文本标注系统。
技术实现思路
为了解决现有技术中的上述问题,即为了解决现有人工中文文本标注系统无法实现多人共同协作标注的问题,本专利技术第一方面,提出了一种在线人工中文文本标注系统,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。在一些优选的实施方式中,所述标注模块中“依据输入的标注指令对标注项目中的语句进行标注”,其方法为:依据输入的标注指令,得到所述语句中各词语对应的标注标签;所述语句为已分词的语句,其包括一个或多个词语。在一些优选的实施方式中,所述输入的标注指令为基于JavaScript的键盘响应功能设置的标注标签对应的键盘输入指令。在一些优选的实施方式中,所述标注模块还配置为各第二客户端通过预设的切换指令对其对应的标注项目中的语句或者语句中的词语进行切换。在一些优选的实施方式中,所述标注模块还配置为获取所有的标注标签并进行显示。在一些优选的实施方式中,所述重分词模块中“依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句”其方法为:通过输入指令重新选取标注项目的语句中两个汉字之间的复选框,并根据选取结果重新组合词序列,得到重新分词后的语句。在一些优选的实施方式中,所述数据库为关系型数据库,其存储的数据包括:用户信息、标注语句信息、用户标注信息、项目信息。在一些优选的实施方式中,所述用户信息包括用户id、用户名、密码、用户类型;所述标注语句信息包括语句id、语句文本、分词标识、初始标注、项目id;所述用户标注信息包括用户id、语句id、分词标识、用户标注;所述项目信息包括项目id、对此项目有访问权限的用户id。在一些优选的实施方式中,还配置为根据所述第一客户端的输入指令生成数据库语句进行添加标注用户、删除标注用户、查询标注用户对应标注项目的进度、删除标注项目以及修改标注项目的访问权限。在一些优选的实施方式中,所述第一客户端、第二客户端各模块对应的页面为HTML网页,若所述HTML网页与所述服务器进行交互,则通过Ajax请求访问所述服务器并返回请求处理结果;否则通过jQuery框架处理HTML网页内的动态交互。在一些优选的实施方式中,在所述标注模块中,当所述第二客户端访问其对应的标注项目时,所述服务器将所述数据库中该标注项目中所有的语句缓存至该客户端的内存。在一些优选的实施方式中,若所述服务器的数据库中同一语句的标注结果和/或分词结果有多个,则根据所述标注用户的优先级对所述语句的标注结果和/或分词结果进行校准。本专利技术的有益效果:本专利技术实现了多人协作标注,并提高了文本标注的准确率和效率。本专利技术通过在线人工中文文本标注系统,对同一语句采用多用户独立进行标注和分词,并在线校准差异,实现了多人协作标注。本专利技术在标注模块,提供了通过预设的标注指令快速获取标注项目的语句中各词语的标注标签,并根据切换指令实现标注项目中的语句或语句中的词语快速切换、获取所有标注标签及其对应的设定的标注指令显示在当前标注页面上等功能,节省了标注时间与标注人员的精力,提高了标注的效率。在重分词模块,通过选取复选框的方式,重新组合词序列,可以实现分词修改,修改分词后重新进行标注,提高了文本标注的准确率。同时本专利技术加入了管理模块,方便在线实时对标注项目和标注用户的统一管理。附图说明通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。图1是本专利技术一种实施例的在线人工中文文本标注系统的客户端的功能架构的示例图;图2是本专利技术一种实施例的在线人工中文文本标注系统的系统架构的示例图;图3是本专利技术一种实施例的标注用户界面的示例图;图4是本专利技术一种实施例的管理员用户界面的示例图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分本文档来自技高网
...

【技术保护点】
1.一种在线人工中文文本标注系统,其特征在于,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;/n所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;/n所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;/n所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;/n所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;/n所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。/n

【技术特征摘要】
1.一种在线人工中文文本标注系统,其特征在于,该标注系统包括服务器、一个或多个第一客户端以及一个或多个第二客户端;所述第一客户端、所述第二客户端分别与所述服务器相连,所述服务器包括数据库;所述第一客户端包括管理模块;所述第二客户端包括标注模块、重分词模块、切换模块;
所述管理模块,配置为获取待标注文本,并依据输入的拆分指令将所述待标注文本拆分为多个待标注项目;将由多个标注项目构成的待标注文本上传至所述数据库;所述待标注项目包括一条或多条分词后的语句;
所述数据库,配置为存储由多个标注项目构成的待标注文本;依据所述第一客户端和/或所述第二客户端输入的任务分配指令将标注项目与标注用户关联;
所述标注模块,配置为从所述数据库获取相应标注用户对应的标注项目,依据输入的标注指令对标注项目中的语句进行标注;将标注后的标注项目发送至所述数据库;
所述重分词模块,配置为依据输入指令对标注项目的语句进行重新分词,获取由新的组合词序列的语句;
所述切换模块,配置为对所获取的待标注项目进行标注模块工作状态、重分词模块工作状态的切换。


2.根据权利要求1所述的在线人工中文文本标注系统,其特征在于,所述标注模块中“依据输入的标注指令对标注项目中的语句进行标注”,其方法为:依据输入的标注指令,得到所述语句中各词语对应的标注标签;所述语句为已分词的语句,其包括一个或多个词语。


3.根据权利要求2所述的在线人工中文文本标注系统,其特征在于,所述输入的标注指令为基于JavaScript的键盘响应功能设置的标注标签对应的键盘输入指令。


4.根据权利要求1所述的在线人工中文文本标注系统,其特征在于,所述标注模块还配置为各第二客户端通过预设的切换指令对其对应的标注项目中的语句或者语句中的词语进行切换。


5.根据权利要求2所述的在线人工中文文本标注系统,其特征在于,所述标注模块还配置为获取所有的标注标签并进行显示。


6....

【专利技术属性】
技术研发人员:罗冠吴超尘胡卫明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1