一种面向共指关系的手动文本标注工具及方法技术

技术编号:27603415 阅读:97 留言:0更新日期:2021-03-10 10:26
本发明专利技术公开了一种面向共指关系的手动文本标注工具及方法,该工具包括存储模块和标注模块,存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户操作指令在操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。本发明专利技术可一次性实现跨文档的共指标注,无需先标注文档内共指信息,再聚合文档间共指信息,提高了效率。率。率。

【技术实现步骤摘要】
一种面向共指关系的手动文本标注工具及方法


[0001]本专利技术涉及文本标注
,特别涉及一种面向共指关系的手动文本标注工具及方法。

技术介绍

[0002]“共指消解”任务,就是输入文本,输出文本中哪些“指称”是共指的。如果输入单个文本,就是文档内共指消解,如果输入多个文档,就是文档间(跨文档)共指消解。后者显然更难。“消解”一词本意指把同一个“实例”的不同“指称”统一起来,消融歧义。例如有两句话,“时任美国总统将于下周访华”,“当地媒体参加发布会并采访了甲总统”。如果根据上下文知道“时任美国总统”就是“甲总统”,说的是同一个人,那么说“时任美国总统”和“甲总统”这两个短语是“共指”的,这两个短语被称为“指称”,它们都“指向”真实的甲这个人,这个人是指称指向的“实例”。由于上例中的总统是一个实体,所以称为“实体共指”。类似的还有“事件共指”。
[0003]共指消解技术兴起较早,但是跨文档的同时消解实体共指和事件共指的技术是近年才发展起来的,特别是针对中文的此种技术。制约此种技术发展的一个重要因素就是缺少标注语料。基于深度学习的共指消解模型必须有足够的标注语料来用于训练,但是目前并没有合适的语料。因此就需要“共指语料标注工具”来辅助标注新的语料。
[0004]共指语料标注工具,即标注语料文本中共指关系的标注工具。目前使用比较广泛的是CAT+CROMER,该工具其实是两个工具的组合,标注者需要先用 CAT标注每一篇文档(CAT是文档内共指标注工具),然后用CROMER把不同文档内的共指标注合并起来,实现文档间共指的标注。CAT+CROMER的大致流程为:文档1,2是讲苹果种植的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。文档3是讲乔布斯的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。但这是3个不同的苹果实例。所以用户需要利用CROMER识别文档间实例的这种差异和联系,把水果苹果和苹果公司区分开,把真正的水果苹果合并。但这种先文档内后文档间的标注方式显然降低了标注效率。

技术实现思路

[0005]本专利技术提供了一种面向共指关系的手动文本标注工具及方法,以解决现有的标注工具先文档内后文档间的标注方式降低了标注效率的技术问题。
[0006]为解决上述技术问题,本专利技术提供了如下技术方案:
[0007]一方面,本专利技术提供一种面向共指关系的手动文本标注工具,该工具包括:
[0008]存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
[0009]标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指
称确定对应的当前节点,并为当前节点确定对应的实例。
[0010]进一步地,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,
[0011]所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构;
[0012]所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;
[0013]所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;
[0014]所述第五操作单元用于展示所有实例;当用户选择一个实例后,被选择的实例被认定为当前实例;
[0015]所述第四操作单元用于显示当前实例对应的实例标注信息。
[0016]进一步地,所述第二操作单元还用于:
[0017]当用户在文本内容中选择一个指称后,将用户选择的当前指称高亮显示。
[0018]进一步地,所述第三操作单元为当前指称确定对应的当前节点,包括:
[0019]若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;
[0020]若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元根据用户的新建节点指令为当前指称创建对应的节点作为当前节点。
[0021]进一步地,所述第三操作单元还用于:
[0022]接收用户输入的编辑节点指令,并根据所述编辑节点指令修改当前节点的节点标注信息,变更当前节点所指向的实例。
[0023]进一步地,所述第五操作单元还用于:
[0024]接收用户的新建实例指令,并根据所述新建实例指令新建一个实例。
[0025]进一步地,所述第四操作单元还用于:
[0026]接收用户输入的编辑实例指令,并根据所述编辑实例指令修改当前实例的实例标注信息,变更指向当前实例的节点。
[0027]另一方面,本专利技术还提供一种基于上述的面向共指关系的手动文本标注工具实现的面向共指关系的手动文本标注方法,该方法包括:
[0028]通过存储模块存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;
[0029]通过标注模块以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例,以实现文本标注。
[0030]本专利技术提供的技术方案带来的有益效果至少包括:
[0031]本专利技术提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。
按钮后,再在第五操作单元所显示的实例中选择一个实例即可将当前节点指向所选择的实例;从而实现当前节点所指向实例的变更。
[0048]所述第四操作单元还包括“编辑相关节点”按钮,当用户点击“编辑相关节点”按钮后,再在第二操作单元显示的文本内容中选择一段文字,即可将选择的文字作为一个节点指向当前实例,从而实现指向当前实例的节点的变更。
[0049]综上,本实施例提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。可以一次性实现跨文档的共指标注,从而有效提高了文本标注效率。
[0050]此外,需要说明的是,本专利技术可提供为方法、装置或计算机程序产品。因此,本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向共指关系的手动文本标注工具,其特征在于,所述工具包括:存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。2.如权利要求1所述的面向共指关系的手动文本标注工具,其特征在于,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构;所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;所述第五操作单元用于展示所有实例;当用户选择一个实例后,被选择的实例被认定为当前实例;所述第四操作单元用于显示当前实例对应的实例标注信息。3.如权利要求2所述的面向共指关系的手动文本标注工具,其特征在于,所述第二操作单元还用于:当用户在文本内容中选择一个指称后,将用户选择的当前指称高亮显示。4.如权利要求2所述的面向共指关系的手动文本标注工具,其特征在于,所述第三操作单元为当前指称确定对应...

【专利技术属性】
技术研发人员:宁焕生徐阳万月亮魏大为
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1