命名实体识别方法、装置、设备及介质制造方法及图纸

技术编号：35671205 阅读：20 留言：0更新日期：2022-11-23 14:06

本公开实施例涉及一种命名实体识别方法、装置、设备及介质，该方法通过获取待处理的文本；对文本进行序列标注，获得文本中非连续命名实体的非连续片段标签和共用片段标签；根据非连续命名实体的非连续片段标签以及共用片段标签，获得文本中的非连续命名实体。解决了相关技术无法识别或者无法准确识别非连续命名实体的问题，提高了命名实体识别的全面性和准确性，并且识别过程不需要人工参与，能够有效节省人力成本，提高识别效率。提高识别效率。提高识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别方法、装置、设备及介质

[0001]本公开实施例涉及命名实体识别
，尤其涉及一种命名实体识别方法、装置、设备及介质。

技术介绍

[0002]命名实体是指文本中具有特定意义的实体，比如药品说明书中涉及到的疾病、症状、药物等。命名实体包括连续命名实体和非连续命名实体，其中，连续命名实体是指由连续片段组成的命名实体，比如，在文本“患者四肢发麻”中“四肢发麻”是表症状的命名实体，其中，“四肢”和“发麻”在文本中是连续的片段，因此“四肢发麻”可以称为连续命名实体。非连续命名实体是指由非连续片段组成的命名实体，比如，在文本“患者头部、四肢发麻”中，“头部发麻”和“四肢发麻”均为表症状的命名实体，而“头部”和“发麻”在文本中是非连续的片段，因此“头部发麻”可以称为非连续命名实体。
[0003]目前相关技术提供的命名实体识别(Named Entity Recognition，简称NER)技术，只能从文本中识别出连续命名实体，而无法识别或者无法准确识别非连续命名实体，因此，如何从文本中准确的识别出非连续命名实体是本领域技术人员需要解决的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种命名实体识别方法、装置、设备及介质。
[0005]本公开实施例的第一方面提供了一种命名实体识别方法，该方法包括：获取待处理的文本；对文本进行序列标注，获得文本中非连续命名实体的非连续片段标签和共用片段标签；根据非连续命名实体的非连续片段标签以及共用...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括：获取待处理的文本；对所述文本进行序列标注，获得所述文本中非连续命名实体的非连续片段标签和共用片段标签；根据所述非连续命名实体的非连续片段标签以及共用片段标签，获得所述文本中的非连续命名实体；其中，所述非连续命名实体是指由非连续片段组成的命名实体。2.根据权利要求1所述的方法，其特征在于，所述获得所述文本中非连续命名实体的非连续片段标签和共用片段标签，包括：基于预设的第一标签对所述非连续片段中的首字符进行标注；基于预设的第二标签对所述非连续片段中的其他字符进行标注；基于预设的第三标签对所述共用片段中的首字符进行标注；基于预设的第四标签对所述共用片段中的其他字符进行标注。3.根据权利要求2所述的方法，其特征在于：所述第一标签为开始标签加非连续片段标签；所述第二标签为中间标签加非连续片段标签；所述第三标签为开始标签加共用片段标签；所述第四标签为中间标签加共用片段标签。4.根据权利要求1所述的方法，其特征在于，所述根据所述非连续命名实体的非连续片段标签以及共用片段标签，获得所述文本中的非连续命名实体，包括：将所述非连续片段标签所标识的字符与所述共用片段标签所标识的字符组成非连续命名实体。5.一种命名实体识别装置，其特征在于，包括：获取模块，用于获取待处理的文本；标注模块，用于对所述文本进行序列标注，获得所述文本中非连续命名实体的非连续片段标签和共用...

【专利技术属性】
技术研发人员：陈漠沙，谭传奇，黄松芳，
申请(专利权)人：阿里巴巴新加坡控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人