命名实体的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:32805575 阅读:13 留言:0更新日期:2022-03-26 19:57
本公开实施例涉及一种命名实体的识别方法、装置、设备及存储介质,其中,该方法通过获取待处理的第一文本,基于第一文本,搜索获得多个与第一文本内容相关的第二文本,从多个第二文本中确定出至少一个第二文本作为第一文本的上下文,基于上下文识别第一文本中的命名实体。由于第二文本是基于第一文本搜索得到的相关文本,通过将第二文本作为第一文本的上下文对第一文本进行命名实体识别,使得命名实体识别的语义信息得到大幅增强,进而提升了命名实体识别的准确率。实体识别的准确率。实体识别的准确率。

【技术实现步骤摘要】
命名实体的识别方法、装置、设备及存储介质


[0001]本公开实施例涉及命名实体识别
,尤其涉及一种命名实 体的识别方法、装置、设备及存储介质。

技术介绍

[0002]命名实体是指文本中具有特定意义的实体,比如,组织名,人名, 产品名等。目前相关技术可以通过命名实体识别(Named EntityRecognition,简称NER)技术识别出文本中包括的命名实体,但是该 技术在输入文本较短或者输入文本没有上下文的情况下准确率较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公 开实施例提供了一种命名实体的识别方法、装置、设备及存储介质。
[0004]本公开实施例的第一方面提供了一种命名实体的识别方法,包括:
[0005]获取待处理的第一文本;
[0006]基于所述第一文本,搜索获得多个与所述第一文本内容相关的第 二文本;
[0007]从所述多个第二文本中确定出至少一个第二文本作为所述第一文 本的上下文;
[0008]基于所述上下文识别所述第一文本中的命名实体。
[0009]本公开实施例的第二方面提供了一种命名实体的识别装置,包括:
[0010]获取模块,用于获取待处理的第一文本;
[0011]搜索模块,用于基于所述第一文本,搜索获得多个与所述第一文 本内容相关的第二文本;
[0012]确定模块,用于从所述多个第二文本中确定出至少一个第二文本 作为所述第一文本的上下文;
[0013]识别模块,用于基于所述上下文识别所述第一文本中的命名实体。
[0014]本公开实施例的第三方面提供了一种计算机设备,该计算机设备 包括存储器和处理器,其中,存储器中存储有计算机程序,当该计算 机程序被处理器执行时,可以实现上述第一方面的方法。
[0015]本公开实施例的第四方面提供了一种计算机可读存储介质,该存 储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以 实现上述第一方面的方法。
[0016]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0017]本公开实施例,通过获取待处理的第一文本,基于第一文本,搜 索获得多个与第一文本内容相关的第二文本,从多个第二文本中确定 出至少一个第二文本作为第一文本的上下文,基于上下文识别第一文 本中的命名实体。由于第二文本是基于第一文本搜索得到的相关文本, 通过将第二文本作为第一文本的上下文对第一文本进行命名实体识 别,使得命名实体识别的语义信息得到大幅增强,进而提升了命名实 体识别的准确率。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0019]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
[0020]图1是本公开实施例提供的一种命名实体的识别场景的示意图;
[0021]图2是本公开实施例提供的一种命名实体的识别方法的流程图;
[0022]图3是本公开实施例提供的另一种命名实体的识别方法的流程图;
[0023]图4是本公开实施例提供的一种命名实体的识别的示意图;
[0024]图5是本公开实施例提供的一种命名实体识别模型的示意图;
[0025]图6是本公开实施例提供的一种命名实体的识别装置的结构示意 图;
[0026]图7是本公开实施例中的一种计算机设备的结构示意图。
具体实施方式
[0027]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将 对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下, 本公开的实施例及实施例中的特征可以相互组合。
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但 本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书 中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0029]在相关技术中,可以通过命名实体识别技术识别出文本中包括的 命名实体,例如在信息搜索的任务场景,用户输入句子,网站需要快 速检索出用户想要搜索的内容主题,而命名实体识别是其中最相关的 一个模块,可以提取出句子中的多个关键词所表示的类别关系,进而 得到用户需求。相关技术针对句子的输入,通常可以先对句子进行分 词,分词后使用预训练好的模型进行词向量提取,提取后进行一些后 续处理即可作为词特征进行表示,随后使用任务模型对给定词特征和 具体任务进行训练,与此同时微调训练好的语言模型,两者同时进行 训练,直到收敛为止,但是这种方式由于输入语句的内容有限,往往 会存在准确率比较低的问题。在另一种方案中,相关技术还可以在有 文档级别的上下文的情况下,采用与上述方案相同的训练方式,将输 入句子和文档同时输入到模型中来提取句子的词特征,此时语料充足, 词特征效果更强,但是这种方法必须在文档中进行,现实场景中有很 多情况下文档信息不存在,例如在用户的搜索查询(query)、推文、 简短评论等场景中都没有可用的上下文,这种情况下实体识别的准确 率较低。
[0030]针对相关技术在命名实体识别的准确率方面存在的缺陷,本公开 实施例提供了一种新的命名实体的识别方案,示例性的,图1是本公 开实施例提供的一种命名实体的识别场景的示意图,如图1所示,计 算机设备可以获取待处理的第一文本,基于第一文本,搜索获得多个 与第一文本内容相关的第二文本,从多个第二文本中确定出至少一个 第二文本作为第一文本的上下文,之后可以基于上下文识别第一文本 中的命名实体。
[0031]当没有可用的上下文的情况下,在注释不明确的命名实体时通常 可以依靠领域
知识来消除歧义,这类知识通常可以通过搜索引擎找到; 此外,当不确定某个实体时,也可以通过搜索引擎查找相关知识,因 此,命名实体识别的过程可以从上述搜索过程中受益。在本方案中, 由于第二文本是基于第一文本搜索得到的相关文本,通过将第二文本 作为第一文本的上下文对第一文本进行命名实体识别,使得命名实体 识别的语义信息得到大幅增强,进而提升了命名实体识别的准确率, 与仅基于第一文本的原始输入视角相比,通过共同建模第一文本及其 检索到的外部上下文的输入视角所计算的词特征表示可以显著提高命 名实体识别的性能和准确率。
[0032]本专利技术实施例的命名实体模型为术语识别模型的一种,该术语识 别模型可以应用于多种术语识别场景中,例如,可以利用该术语识别 模型对电商领域中的用户数据(例如商品评论信息、与商家的沟通信 息、与电商客服的沟通信息等)进行商品名称识别,也可以利用该术 语识别模型对音乐、电影售票等领域中的数据(例如歌词、用户评论、 电影简介等)进行人名识别,还可以利用该术语识别模型对医疗领域 中的数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体的识别方法,其特征在于,包括:获取待处理的第一文本;基于所述第一文本,搜索获得多个与所述第一文本内容相关的第二文本;从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文;基于所述上下文识别所述第一文本中的命名实体。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本,搜索获得多个与所述第一文本内容相关的第二文本,包括:以所述第一文本中的至少部分内容作为搜索关键词,搜索与所述第一文本内容相关的文本;从搜索结果中确定预设数量的文本作为第二文本。3.根据权利要求2所述的方法,其特征在于,所述从搜索结果中确定预设数量的文本作为第二文本,包括:从搜索结果中确定出排序高于第一预设阈值的文本作为第二文本。4.根据权利要求1所述的方法,其特征在于,所述从所述多个第二文本中确定出至少一个第二文本作为所述第一文本的上下文,包括:确定各第二文本与所述第一文本之间的语义相关度;基于所述语义相关度对搜索获得的多个所述第二文本进行排序;将排序高于第二预设阈值的第二文本确定为所述第一文本的上下文。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述基于所述上下文识别所述第一文本中的命名实体,包括:对所述第一文本和所述上下文进行拼接处理,得到拼接文本;对所述拼接文本进行实体识别,得到所述第一文本...

【专利技术属性】
技术研发人员:王新宇蒋勇王涛阮巴赫黄忠强黄非屠可伟
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1