命名实体识别方法和命名实体识别装置制造方法及图纸

技术编号:33066747 阅读:11 留言:0更新日期:2022-04-15 09:57
本申请公开了一种命名实体识别方法和命名实体识别装置。所述命名实体识别方法,包括:解析所述输入文本,获得所述输入文本对应的多个候选依存树结构;从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构;将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型,获得所述输入文本对应的命名实体序列。获得所述输入文本对应的命名实体序列。获得所述输入文本对应的命名实体序列。

【技术实现步骤摘要】
命名实体识别方法和命名实体识别装置


[0001]本申请涉及机器学习领域,特别是涉及一种命名实体识别方法和命名实体识别装置。

技术介绍

[0002]命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]命名实体识别(named entity recognition)在实际场景中运用广泛,但是目前大部分的标注数据存在于英文中文以及其他常见的语言中,部分语言本专利技术实施例只有少量的命名实体标注,导致训练出来的模型效果不尽人意。
[0004]此外,命名实体识别(NER)需要大量的注释数据才能实现最先进的性能。实际上,对于电子商务域等新域中的低资源语言或数据集来说,为命名实体识别(NER)数据集提供如此大量的注释是具有挑战性的。在没有某些域知识的情况下注释这些数据并非易事。
[0005]前人的研究工作中展示了语言学上的依存树结构(dependency tree structure)对提高命名实体识别效果有着显著的作用,尤其是在一些训练数据相对比较少的数据上。但是在这一方式存在以下问题:
[0006]1,依存树结构依赖于大量的依存项标注,实际使用中针对新的语言、领域,通常没有可用于命名实体识别数据集的依存项标注。/>[0007]2,依存树结构对提高命名实体识别的效果,仅仅是针对特定依存树的特定语言或者域,如果迁移到其语言或域中,则识别性能下降很多。
[0008]3,针对目标语言,如果从外部解析器中获取目标语言的依存树,再进行命名实体识别,则这样的分步模型很容易遭受级联错误,导致命名实体识别性能低于最佳甚至有害。

技术实现思路

[0009]鉴于上述问题,本专利技术一实施例提出一种命名实体识别方法和命名实体识别装置,以解决现有技术存在的问题。
[0010]为了解决上述问题,本申请一实施例公开一种命名实体识别方法,用于对包含至少两个词的输入文本进行命名实体识别,所述方法包括如下步骤:
[0011]解析所述输入文本,获得所述输入文本对应的多个候选依存树结构;
[0012]从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构;
[0013]将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件,获得所述输入文本对应的命名实体序列。
[0014]为了解决上述问题,本申请一实施例公开一种命名实体识别装置,包括:
[0015]解析模块,用于解析所述输入文本,获得所述输入文本对应的多个候选依存树结构;
[0016]目标依存树获取模块,用于从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构;
[0017]命名实体序列获取模块,用于将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件,获得所述输入文本对应的命名实体序列。
[0018]为了解决上述问题,本申请一实施例还公开一种电子装置,该电子装置包括:
[0019]存储器,用于存储计算机可读程序;
[0020]处理器,当所述处理器读取所述存储器中的计算机可读程序时,所述电子装置执行如下操作:
[0021]解析所述输入文本,获得所述输入文本对应的多个候选依存树结构;
[0022]从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构;
[0023]将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件,获得所述输入文本对应的命名实体序列。
[0024]为了解决上述问题,本申请一实施例还公开一种终端设备,包括:
[0025]一个或多个处理器;和
[0026]其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行上述的方法。
[0027]本申请一实施例还公开一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得终端设备执行上述的方法。
[0028]由上述可知,本申请实施例提出的命名实体识别方法和装置,至少包括以下优点:
[0029]本专利技术实施例提出的命名实体识别方法和装置,通过通用依存树库中的依存树数据对本专利技术提出的命名实体识别模型进行训练,将依存树作为潜在的变量,训练出基于依存树的命名实体识别模型组件,再将输入文本输入该命名实体识别模型组件,获得命名实体识别标注序列。在低资源的命名实体标注中,本专利技术命名实体识别标注准确性高,对传统的命名实体识别模型有显著的改善,不需要大量的标注即可训练性能优越的命名实体识别模型组件。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本申请第一实施例的命名实体序列模型的示意图。
[0032]图2是本申请第一实施例的命名实体识别方法的流程图。
[0033]图3是本申请第二实施例的命名实体识别方法的流程图。
[0034]图4是本申请第二实施例的步骤S101的子步骤的流程图。
[0035]图5是本申请第三实施例的命名实体识别装置的方框图。
[0036]图6是本申请第三实施例的命名实体识别装置的方框图。
[0037]图7示意性地示出了用于执行根据本专利技术的方法的终端设备的框图;以及
[0038]图8示意性地示出了用于保持或者携带实现根据本专利技术的方法的程序代码的存储单元。
具体实施方式
[0039]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
[0040]第一实施例
[0041]命名实体识别(NER)可以广泛应用于人名识别、地名识别、地址识别、机构名称识别、专有名词、新零售、旅游等各种领域。是指识别文本中具有特定意义的实体。例如,命名实体识别模型组件可以从各种文本例如“浙江省杭州市西湖区”、“我爱科学”、“地球围绕着太阳转动”等文本中识别出实体,用于后续使用。
[0042]图1所示为本专利技术的一实施例的命名实体识别模型组件的示意图。如图1所示,该基于依存树的命名实体识别模型组件30主要包含两部分模型,一部分是依存关系解析器10,一部分是用于标注的命名实体识别模型20。所述依存关系解析器10可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,用于对包含至少两个词的输入文本进行命名实体识别,其特征在于,所述方法包括:解析所述输入文本,获得所述输入文本对应的多个候选依存树结构;从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构;将所述输入文本和所述输入文本对应的目标依存树结构输入命名实体识别模型组件,获得所述输入文本对应的命名实体序列。2.根据权利要求1所述的命名实体识别方法,其特征在于,所述解析所述输入文本,获得所述输入文本对应的多个候选依存树结构的步骤包括:获得所述输入文本对应的词嵌入信息和上下文表示信息;根据所述词嵌入信息和所述上下文表示信息获得输入文本对应的词表示信息;将所述词表示信息输入依存关系解析器,获取多个候选依存树;其中,所述多个候选依存树分别对应依存性边际评分。3.根据权利要求2所述的命名实体识别方法,其特征在于,所述将所述词表示信息输入依存关系解析器,获取多个候选依存树的步骤中,所述依存关系解析器包括潜在的Biaffine依存树解析器。4.根据权利要求1所述的命名实体识别方法,其特征在于,所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤,包括:根据所述多个候选依存树分别对应的所述依存性边际评分,获得所述输入文本对应的目标依存树结构。5.根据权利要求1所述的命名实体识别方法,其特征在于,所述解析所述输入文本,获得所述输入文本对应的多个候选依存树结构的步骤通过依存关系解析器执行,所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤之前,所述方法还包括:利用通用依存树数据训练依存关系解析器。6.根据权利要求1所述的命名实体识别方法,其特征在于,所述解析所述输入文本,获得所述输入文本对应的多个候选依存树结构的步骤通过依存关系解析器执行,所述从所获得的多个候选依存树结构中利用推断的方式获得所述输入文本对应的目标依存树结构的步骤之前,所述方法还包括:利用通用依存树数据和命名实体识别数据,在多任务学习环境中同时训练依存关系解析器和所述命名实体识别组件包含的命名实体识别模型。7.根据权利要求5或6所述的命名实体识别方法,其特征在于,所述通用依存树数据包括文本和依存树结构的对应关系数据。8.根据权利要求7所述的命名实体识别方法,其特征在于,所述利用通用依存树数据训练所述依存关系解析器的步骤,包括:将所述通用依存树数据和所述依存关系解析器的损失数据输入所述依存关系解析器,训练所述依存关系解析器。9.一种命名实体识别装置,其特征在于,包括:解析模块,用于解析所...

【专利技术属性】
技术研发人员:揭展明邴立东
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1