命名实体识别方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号:35158600 阅读:16 留言:0更新日期:2022-10-12 17:16
本公开实施例公开了一种命名实体识别方法、装置、电子设备、介质及程序产品。所述命名实体识别方法包括:利用条件随机场模型对待识别文本进行实体标注,得到待识别文本的实体标注结果;所述实体标注结果至少包括观测到的节点、隐状态节点和不合法节点;在基于实体标注结果得到的节点路径中选择概率最大的一条节点路径作为命名实体的标注树,所述节点路径包括观测到的节点和隐状态节点;将所述标注树中的观测到的节点识别为实体。的观测到的节点识别为实体。的观测到的节点识别为实体。

【技术实现步骤摘要】
命名实体识别方法、装置、电子设备、介质及程序产品


[0001]本公开涉及命名实体识别
,具体涉及一种命名实体识别方法、装置、电子设备、介质及程序产品。

技术介绍

[0002]命名实体识别指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。嵌套命名实体识别(Nested Named Entity Recognition)是命名实体识别中的一类任务,指需要识别的命名实体中存在文本嵌套的情况。嵌套命名实体在文本处理的多种场景下均有出现,在医疗文本中出现尤其频繁,比如文本“肝癌检查”是一项检查,其中“肝癌”是一种癌症,“肝”是一种人体器官,“癌”是一种疾病类型。准确识别上述所有可能的实体,有助于下游的文本分析任务。然而,当前大多命名实体识别方法只能应用于非嵌套的命名实体识别场景,严重地影响了信息抽取的效果。

技术实现思路

[0003]为了解决相关技术中的问题,本公开实施例提供一种命名实体识别方法、装置、电子设备、介质及程序产品。
[0004]第一方面,本公开实施例中提供了一种命名实体识别方法。
[0005]具体地,所述命名实体识别方法,包括:
[0006]利用条件随机场模型对待识别文本进行实体标注,得到待识别文本的实体标注结果;所述实体标注结果至少包括观测到的节点、隐状态节点和不合法节点;
[0007]在基于实体标注结果得到的节点路径中选择概率最大的一条节点路径作为命名实体的标注树,所述节点路径包括观测到的节点和隐状态节点;
[0008]将所述标注树中的观测到的节点识别为实体。
[0009]结合第一方面,本公开在第一方面的第一种实现方式中,所述条件随机场模型通过如下方式进行训练:
[0010]获取训练文本和所述训练文本的实体标注结果;
[0011]根据所述训练文本的实体标注结果,获取所述训练文本的节点路径;
[0012]使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型。
[0013]结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型,包括:
[0014]以最大化所述多个训练文本各自对应的节点路径的总概率为目标,训练所述条件随机场模型。
[0015]结合第一方面,本公开在第一方面的第三种实现方式中:
[0016]所述节点路径是二叉树;
[0017]所述节点路径的叶子节点对应于所述文本中的各个字;
[0018]所述节点路径的节点对应于所述文本中的文本片段;
[0019]所述节点路径的节点对应的文本片段包含所述节点的子节点对应的文本片段。
[0020]结合第一方面,本公开在第一方面的第四种实现方式中,其中:
[0021]所述观测到的节点分别与被标注的文本中属于实体的各个文本片段相对应。
[0022]结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述观测到的节点是多个子类节点之一,每个子类节点对应于相应的一种实体类型。
[0023]结合第一方面,本公开在第一方面的第六种实现方式中,所述不合法节点分别与被标注的文本中不属于实体并且与属于实体的文本片段重叠但不嵌套的各个文本片段相对应。
[0024]结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述隐状态的节点是能够与所述观测到的节点一起构成二叉树的节点。
[0025]第二方面,本公开实施例中提供了一种命名实体识别装置。
[0026]具体地,所述命名实体识别装置,包括:
[0027]标注模块,被配置为利用条件随机场模型对待识别文本进行实体标注,得到待识别文本的实体标注结果;所述实体标注结果至少包括观测到的节点、隐状态节点和不合法节点;
[0028]选择模块,被配置为在基于实体标注结果得到的节点路径中选择概率最大的一条节点路径作为命名实体的标注树,所述节点路径包括观测到的节点和隐状态节点;
[0029]识别模块,被配置为将所述标注树中的观测到的节点识别为实体。
[0030]结合第二方面,本公开在第二方面的第一种实现方式中,所述条件随机场模型通过如下方式进行训练:
[0031]获取训练文本和所述训练文本的实体标注结果;
[0032]根据所述训练文本的实体标注结果,获取所述训练文本的节点路径;
[0033]使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型。
[0034]结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型,包括:
[0035]以最大化所述多个训练文本各自对应的节点路径的总概率为目标,训练所述条件随机场模型。
[0036]结合第二方面,本公开在第二方面的第三种实现方式中:
[0037]所述节点路径是二叉树;
[0038]所述节点路径的叶子节点对应于所述文本中的各个字;
[0039]所述节点路径的节点对应于所述文本中的文本片段;
[0040]所述节点路径的节点对应的文本片段包含所述节点的子节点对应的文本片段。
[0041]结合第二方面,本公开在第二方面的第四种实现方式中,其中:
[0042]所述观测到的节点分别与被标注的文本中属于实体的各个文本片段相对应。
[0043]结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述
观测到的节点是多个子类节点之一,每个子类节点对应于相应的一种实体类型。
[0044]结合第二方面,本公开在第二方面的第六种实现方式中,所述不合法节点分别与被标注的文本中不属于实体并且与属于实体的文本片段重叠但不嵌套的各个文本片段相对应。
[0045]结合第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述隐状态的节点是能够与所述观测到的节点一起构成二叉树的节点。
[0046]第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面至第一方面的第七种实现方式中任一项所述的方法。
[0047]第四方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面至第一方面的第七种实现方式中所述的方法。
[0048]第五方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面至第一方面的第七种实现方式中所述的方法步骤。
[0049]根据本公开实施例提供的技术方案,提供了一种命名实体识别方法,包括:利用条件随机场模型对待识别文本进行实体标注,得到待识别文本的实体标注结果;所述实体标注结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,包括:利用条件随机场模型对待识别文本进行实体标注,得到待识别文本的实体标注结果;所述实体标注结果至少包括观测到的节点、隐状态节点和不合法节点;在基于实体标注结果得到的节点路径中选择概率最大的一条节点路径作为命名实体的标注树,所述节点路径包括观测到的节点和隐状态节点;将所述标注树中的观测到的节点识别为实体。2.根据权利要求1所述的方法,所述条件随机场模型通过如下方式进行训练:获取训练文本和所述训练文本的实体标注结果;根据所述训练文本的实体标注结果,获取所述训练文本的节点路径;使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型。3.根据权利要求2所述的方法,其中,所述使用多个训练文本和所述多个训练文本各自对应的节点路径训练所述条件随机场模型,包括:以最大化所述多个训练文本各自对应的节点路径的总概率为目标,训练所述条件随机场模型。4.根据权利要求1所述的方法,其中:所述节点路径是二叉树;所述节点路径的叶子节点对应于所述文本中的各个字;所述节点路径的节点对应于所述文本中的文本片段;所述节点路径的节点对应的文本片段包含所述节点的子节点对应的文本片段。5.根据权利要求1所述的方法,其中:所述观测到的节点分别与被标注的文本中属于实体的各个文本片段相对应。6.根据权利要求5所述的方法,其中,所述观测到的节点是多个子类节点...

【专利技术属性】
技术研发人员:谭传奇符尧陈漠沙黄松芳
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1