一种实体标注方法和电子设备技术

技术编号:37260464 阅读:15 留言:0更新日期:2023-04-20 23:35
一种实体标注方法和电子设备。在该方法中,通过命名实体识别模型来智能辅助标注工程师进行实体标注,在降低人工标注工作量从而提高标注效率的同时,提升了实体标注的准确性。提升了实体标注的准确性。提升了实体标注的准确性。

【技术实现步骤摘要】
一种实体标注方法和电子设备


[0001]本申请涉及人工智能领域,尤其涉及一种实体标注方法和电子设备。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理(Natural Language Processing,NLP)领域中一项基础的信息抽取任务,也是热点的研究方向之一。NER往往是关系抽取、知识图谱、问答系统等其他诸多NLP任务的基础。命名实体识别任务是指从给定的一个非结构化的文本中识别出其中的命名实体,并对实体进行分类,比如从非结构化的文本中识别出时间、人名、地名、机构名等类型的实体。
[0003]在相关技术中,大部分实体标注系统都是用户通过拖拽的方式给文本中某段序列添加对应的预定义实体类别标签。
[0004]当遇上文本长度特别长的文本时,需要耗费大量时间进行实体标注。过多的实体容易造成用户主观判断前后矛盾,且长时间重复性操作用户也容易出现误操作,从而导致错误标记情况频繁。

技术实现思路

[0005]本申请提供了一种实体标注方法和电子设备,用于提高实体标注的效率与准确性。
[0006]第一方面,本申请提供了一种实体标注方法,包括:确定用户对当前标注项目中还未标注部分中的第一文本进行了第一实体标注;使用训练过的实体命名识别模型识别第一关联文本对应的是第二实体标注,该第一关联文本包括该第一文本中部分或全部内容;在确定该第二实体标注与该第一实体标注不相同、或该第一关联文本与该第一文本不相同的情况下,提醒用户是否标记错误;在接收到用户确定自己标记错误的指令的情况下,将对该第一文本的该第一实体标注更新对该第一关联文本的第二实体标注;在接收到用户确定自己标记正确的指令或超出预设时长未接收到指令的情况下,保持对该第一文本的该第一实体标注并停止提醒。
[0007]结合第一方面的一些实施例,在一些实施例中,该确定用户对当前标注项目中还未标注部分中的第一文本进行了第一实体标注的步骤之前,该方法还包括:接收用户指定的训练文本范围,该训练文本范围包括当前标注项目中已标注部分的内容;使用训练文本范围中的原始文本与相应的已完成标注的文本作为训练数据,训练该命名实体识别模型。
[0008]结合第一方面的一些实施例,在一些实施例中,该使用训练文本范围中的原始文本与相应的已完成标注的文本作为训练数据,训练该命名实体识别模型的步骤之前,该方法还包括:确定用户选定的命名实体识别模型。
[0009]结合第一方面的一些实施例,在一些实施例中,该方法还可以包括:在确定用户选定第二文本并选择智能标签进行标注的情况下,使用训练过的该命名实体识别模型对该第二文本中的各实体进行标注。
[0010]结合第一方面的一些实施例,在一些实施例中,该方法还包括:响应于用户的第二操作,接收预标注指令,该预标注指令中包括该当前标注项目中待预标注的文本范围;使用训练过的该命名实体识别模型对该待预标注的文本范围中的第二文本进行标注,得到预标注的第二文本;接收对该预标注的第二文本中实体标注的修改,得到完成标注的第二文本。
[0011]结合第一方面的一些实施例,在一些实施例中,该使用训练过的该命名实体识别模型对该待预标注的文本范围中的第二文本进行标注,得到预标注的第二文本,具体包括:使用第一命名实体识别模型对该待预标注的文本范围中的第二文本进行标注,将标注标记以第一颜色显示;该第一命名实体识别模型为预训练的未使用该训练文本范围中的文本训练的命名实体识别模型;使用第二命名实体识别模型对该待预标注的文本范围中的第二文本进行标注,将与该第一命名实体识别模型识别结果不同的实体的标注标记以第二颜色显示;该第二颜色与该第一颜色不同;将以第一颜色和第二颜色显示标注标记的第二文本确定为该预标注的第二文本。
[0012]结合第一方面的一些实施例,在一些实施例中,该方法还包括:响应于用户的第三操作,启动联动标注功能;在确定用户将第四文本标注为第一实体类型的情况下,使用训练过的该命名实体识别模型确定待标注的文本中与该第四文本的相关度高高于预设相关阈值的相关文本集合;将该相关文本集合中各文本的实体类型均标注为该第一实体类型。
[0013]结合第一方面的一些实施例,在一些实施例中,该方法还包括:在确定用户将标注为该第一实体类型的第四文本的实体边界从第一边界调整为第二边界的情况下,将标注为该第一实体类型的相关文本集合的各文本的实体边界进行相应调整。
[0014]第二方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
[0015]第三方面,本申请实施例提供一种计算机可读存储介质,包括指令,当上述指令在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
[0016]本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:1、由于使用实体命名识别模型对工程师的实体标注进行实时辅助,对人工标注的实体与模型识别的实体不一致的,及时提醒并基于用户选择自动更正,节省了标注工程师在进行大量标注时需要消耗的心力,让工程师可以放心的快速标注,在极大的提升了实体标注的效率的同时提高了实体标注的准确率。
[0017]2、可以直接采用当前标注项目中已标注部分的内容对命名实体识别模型进行实时训练,从而使得命名实体识别模型更符合当前标注项目的实体识别需求,极大的提升了实体识别的准确性。
[0018]3、在对标注出一个实体后,电子设备自动标注出文章中与该实体相关性高的其他实体,实现了对实体的联动标注。由于是用户标注后的联动标注,不仅相比实体识别模型自动进行的预标注更准确,而且减少了用户需要进行的标注操作,提升了实体标注的效率。
附图说明
[0019]图1是本申请实施例中实体标注方法的一个应用场景示意图;图2是使用相关技术中实体标注方案的一个示例性场景示意图;图3A至图3C是使用本申请实施例中实体标注方法的几个示例性场景示意图;图4是本申请实施例提供的电子设备100的示例性结构示意图;图5是本申请实施例中实体标注方法的一个流程示意图;图6是本申请实施例中实时训练实体命名识别模型的理解示意图;图7是本申请实施例中实体标注方法的另一个流程示意图。
具体实施方式
[0020]本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。
[0021]以下,术语“第一”、“第二”仅用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体标注方法,其特征在于,包括:确定用户对当前标注项目中还未标注部分中的第一文本进行了第一实体标注;使用训练过的实体命名识别模型识别第一关联文本对应的是第二实体标注,所述第一关联文本包括所述第一文本中部分或全部内容;在确定所述第二实体标注与所述第一实体标注不相同、或所述第一关联文本与所述第一文本不相同的情况下,提醒用户是否标记错误;在接收到用户确定自己标记错误的指令的情况下,将对所述第一文本的所述第一实体标注更新对所述第一关联文本的第二实体标注;在接收到用户确定自己标记正确的指令或超出预设时长未接收到指令的情况下,保持对所述第一文本的所述第一实体标注并停止提醒。2.根据权利要求1所述的方法,其特征在于,所述确定用户对当前标注项目中还未标注部分中的第一文本进行了第一实体标注的步骤之前,所述方法还包括:接收用户指定的训练文本范围,所述训练文本范围包括当前标注项目中已标注部分的内容;使用训练文本范围中的原始文本与相应的已完成标注的文本作为训练数据,训练所述命名实体识别模型。3.根据权利要求2所述的方法,其特征在于,所述使用训练文本范围中的原始文本与相应的已完成标注的文本作为训练数据,训练所述命名实体识别模型的步骤之前,所述方法还包括:确定用户选定的命名实体识别模型。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还可以包括:在确定用户选定第二文本并选择智能标签进行标注的情况下,使用训练过的所述命名实体识别模型对所述第二文本中的各实体进行标注。5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:响应于用户的第二操作,接收预标注指令,该预标注指令中包括所述当前标注项目中待预标注的文本范围;使用训练过的所述命名实体识别模型对所述待预标注的文本范围中的第二文本进行标注,得到预标注的第二文本;接收对所述预标注的第二文本中实体标注的修改,得到完成标注的第二文本。6.根...

【专利技术属性】
技术研发人员:曾思亮蔡子哲包智
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1