命名实体的识别方法、装置、设备及存储介质制造方法及图纸

技术编号：32805575 阅读：13 留言：0更新日期：2022-03-26 19:57

本公开实施例涉及一种命名实体的识别方法、装置、设备及存储介质，其中，该方法通过获取待处理的第一文本，基于第一文本，搜索获得多个与第一文本内容相关的第二文本，从多个第二文本中确定出至少一个第二文本作为第一文本的上下文，基于上下文识别第一文本中的命名实体。由于第二文本是基于第一文本搜索得到的相关文本，通过将第二文本作为第一文本的上下文对第一文本进行命名实体识别，使得命名实体识别的语义信息得到大幅增强，进而提升了命名实体识别的准确率。实体识别的准确率。实体识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体的识别方法、装置、设备及存储介质

[0001]本公开实施例涉及命名实体识别
，尤其涉及一种命名实体的识别方法、装置、设备及存储介质。

技术介绍

[0002]命名实体是指文本中具有特定意义的实体，比如，组织名，人名，产品名等。目前相关技术可以通过命名实体识别(Named EntityRecognition，简称NER)技术识别出文本中包括的命名实体，但是该技术在输入文本较短或者输入文本没有上下文的情况下准确率较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种命名实体的识别方法、装置、设备及存储介质。
[0004]本公开实施例的第一方面提供了一种命名实体的识别方法，包括：
[0005]获取待处理的第一文本；
[0006]基于所述第一文本，搜索获得多个与所述第一文本内容相关的第二文本；
[0007]从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文；
[0008]基于所述上下文识别所述第一文本中的命名实体。
[0009]本公开实施例的第二方面提供了一种命名实体的识别装置，包括：
[0010]获取模块，用于获取待处理的第一文本；
[0011]搜索模块，用于基于所述第一文本，搜索获得多个与所述第一文本内容相关的第二文本；
[0012]确定模块，用于从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文；
[0013]识...

【技术保护点】

【技术特征摘要】
1.一种命名实体的识别方法，其特征在于，包括：获取待处理的第一文本；基于所述第一文本，搜索获得多个与所述第一文本内容相关的第二文本；从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文；基于所述上下文识别所述第一文本中的命名实体。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本，搜索获得多个与所述第一文本内容相关的第二文本，包括：以所述第一文本中的至少部分内容作为搜索关键词，搜索与所述第一文本内容相关的文本；从搜索结果中确定预设数量的文本作为第二文本。3.根据权利要求2所述的方法，其特征在于，所述从搜索结果中确定预设数量的文本作为第二文本，包括：从搜索结果中确定出排序高于第一预设阈值的文本作为第二文本。4.根据权利要求1所述的方法，其特征在于，所述从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文，包括：确定各第二文本与所述第一文本之间的语义相关度；基于所述语义相关度对搜索获得的多个所述第二文本进行排序；将排序高于第二预设阈值的第二文本确定为所述第一文本的上下文。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述基于所述上下文识别所述第一文本中的命名实体，包括：对所述第一文本和所述上下文进行拼接处理，得到拼接文本；对所述拼接文本进行实体识别，得到所述第一文本...

【专利技术属性】
技术研发人员：王新宇，蒋勇，王涛，阮巴赫，黄忠强，黄非，屠可伟，
申请(专利权)人：上海科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人