命名实体识别方法、装置、设备及介质制造方法及图纸

技术编号:35671205 阅读:20 留言:0更新日期:2022-11-23 14:06
本公开实施例涉及一种命名实体识别方法、装置、设备及介质,该方法通过获取待处理的文本;对文本进行序列标注,获得文本中非连续命名实体的非连续片段标签和共用片段标签;根据非连续命名实体的非连续片段标签以及共用片段标签,获得文本中的非连续命名实体。解决了相关技术无法识别或者无法准确识别非连续命名实体的问题,提高了命名实体识别的全面性和准确性,并且识别过程不需要人工参与,能够有效节省人力成本,提高识别效率。提高识别效率。提高识别效率。

【技术实现步骤摘要】
命名实体识别方法、装置、设备及介质


[0001]本公开实施例涉及命名实体识别
,尤其涉及一种命名实体识别方法、装置、设备及介质。

技术介绍

[0002]命名实体是指文本中具有特定意义的实体,比如药品说明书中涉及到的疾病、症状、药物等。命名实体包括连续命名实体和非连续命名实体,其中,连续命名实体是指由连续片段组成的命名实体,比如,在文本“患者四肢发麻”中“四肢发麻”是表症状的命名实体,其中,“四肢”和“发麻”在文本中是连续的片段,因此“四肢发麻”可以称为连续命名实体。非连续命名实体是指由非连续片段组成的命名实体,比如,在文本“患者头部、四肢发麻”中,“头部发麻”和“四肢发麻”均为表症状的命名实体,而“头部”和“发麻”在文本中是非连续的片段,因此“头部发麻”可以称为非连续命名实体。
[0003]目前相关技术提供的命名实体识别(Named Entity Recognition,简称NER)技术,只能从文本中识别出连续命名实体,而无法识别或者无法准确识别非连续命名实体,因此,如何从文本中准确的识别出非连续命名实体是本领域技术人员需要解决的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种命名实体识别方法、装置、设备及介质。
[0005]本公开实施例的第一方面提供了一种命名实体识别方法,该方法包括:获取待处理的文本;对文本进行序列标注,获得文本中非连续命名实体的非连续片段标签和共用片段标签;根据非连续命名实体的非连续片段标签以及共用片段标签,获得文本中的非连续命名实体,其中,非连续命名实体是指由非连续片段组成的命名实体。
[0006]本公开实施例的第二方面提供了一种命名实体识别装置,该装置包括:
[0007]获取模块,用于获取待处理的文本;
[0008]标注模块,用于对获取到的文本进行序列标注,获得文本中非连续命名实体的非连续片段标签和共用片段标签;
[0009]识别模块,用于根据非连续命名实体的非连续片段标签以及共用片段标签,获得文本中的非连续命名实体;
[0010]其中,非连续命名实体是指由非连续片段组成的命名实体。
[0011]本公开实施例的第三方面提供了一种计算机设备,该计算机设备包括存储器和处理器,其中存储器中存储有计算机程序,当该计算机程序被处理器执行时,处理器执行上述第一方面的方法。
[0012]本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,处理器执行上述第一方面的方法。
[0013]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0014]本公开实施例,通过获取待处理的文本;对文本进行序列标注,获得文本中非连续命名实体的非连续片段标签和共用片段标签;根据非连续命名实体的非连续片段标签以及共用片段标签,获得文本中的非连续命名实体。解决了相关技术无法或无法准确识别非连续命名实体的问题,识别过程不需要人工参与,能够有效节省人力成本,提高识别效率。
附图说明
[0015]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0016]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本公开实施例提供的一种命名实体识别场景的示意图;
[0018]图2是本公开实施例提供的一种命名实体识别方法的流程图;
[0019]图3是本公开实施例提供的一种标注方法的示意图;
[0020]图4是本公开实施例提供的一种识别模型的训练方法的流程图;
[0021]图5是本公开实施例提供的一种医药知识图谱生成方法的流程图;
[0022]图6是本公开实施例提供的一种命名实体识别装置的结构示意图;
[0023]图7是本公开实施例提供的一种模型处理装置的结构示意图;
[0024]图8是本公开实施例提供的一种医药知识图谱生成装置的结构示意图。
具体实施方式
[0025]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0027]相关技术提供的命名实体识别方法主要有两种,以医药知识图谱构建为例:
[0028]一种方法是,基于医学专家人工整理药品说明书中的连续命名实体和非连续命名实体,然后再基于整理出的连续命名实体和非连续命名实体建立医药知识图谱。这种方式对人力资源的消耗比较大,且效率低。
[0029]另一种方法是,基于预先训练的模型对药品说明书中的连续命名实体进行识别,再基于后处理规则或者关系提取式,从药品说明书中提取得到非连续命名实体。比如,对于“头部、四肢发麻”这个文本,一种可能的标注方法是将文本中的“头部”、“四肢”标注为身体部位,“发麻”标注为症状,后处理规则比如可以构建成“身体部位”+“症状”;关系提取式比如可以定义为(“头部”,“发麻”)和(“四肢”,“发麻”)这样的关系。但是基于后处理规则和关系提取式的方法无法覆盖所有的情况,容易造成误命中,并且如果将后处理规则或关系提取式嵌入模型会使得模型变得庞大复杂,不利于模型的小型化。
[0030]针对相关技术存在的上述技术问题,本公开实施例提供了一种命名实体的识别方
案。该方案可以对非连续命名实体中的非连续片段以及非连续命名实体和其他命名实体共用的共用片段进行标注,然后根据标注得到的非连续片段标签和共用片段标签,获得非连续命名实体。本公开实施例提供的方案解决了相关技术无法识别或者无法准确识别非连续命名实体的问题,节约了人力成本,提高了识别效率。
[0031]示例的,图1是本公开实施例提供的一种命名实体识别场景的示意图。如图1所示,该场景包括文本收集设备11和计算机设备12。
[0032]具体的,图1中的文本收集设备11可以被具体为一种具有文本采集和/或存储能力的设备,比如U盘、手机、电脑、扫描仪等。计算机设备12可以被具体为一种具备计算和处理能力的设备,比如服务器或者数据处理集群中的一个处理节点等。在图1中,文本收集设备11和计算机设备12可以通过有线或者无线的方式进行数据传输。
[0033]文本收集设备11可以用于从网络、数据库、可读存储介质、终端设备等途径中采集待处理的文本(比如药品的说明书、诊断书、病例等,但不局限于这里列举的文本)。文本收集设备11采集文本的方式至少包括如下方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:获取待处理的文本;对所述文本进行序列标注,获得所述文本中非连续命名实体的非连续片段标签和共用片段标签;根据所述非连续命名实体的非连续片段标签以及共用片段标签,获得所述文本中的非连续命名实体;其中,所述非连续命名实体是指由非连续片段组成的命名实体。2.根据权利要求1所述的方法,其特征在于,所述获得所述文本中非连续命名实体的非连续片段标签和共用片段标签,包括:基于预设的第一标签对所述非连续片段中的首字符进行标注;基于预设的第二标签对所述非连续片段中的其他字符进行标注;基于预设的第三标签对所述共用片段中的首字符进行标注;基于预设的第四标签对所述共用片段中的其他字符进行标注。3.根据权利要求2所述的方法,其特征在于:所述第一标签为开始标签加非连续片段标签;所述第二标签为中间标签加非连续片段标签;所述第三标签为开始标签加共用片段标签;所述第四标签为中间标签加共用片段标签。4.根据权利要求1所述的方法,其特征在于,所述根据所述非连续命名实体的非连续片段标签以及共用片段标签,获得所述文本中的非连续命名实体,包括:将所述非连续片段标签所标识的字符与所述共用片段标签所标识的字符组成非连续命名实体。5.一种命名实体识别装置,其特征在于,包括:获取模块,用于获取待处理的文本;标注模块,用于对所述文本进行序列标注,获得所述文本中非连续命名实体的非连续片段标签和共用...

【专利技术属性】
技术研发人员:陈漠沙谭传奇黄松芳
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1