命名实体提取方法与装置以及电子设备制造方法及图纸

技术编号:33133137 阅读:12 留言:0更新日期:2022-04-17 00:54
本申请提供一种命名实体提取方法与装置以及电子设备。所述方法包括:首先通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列。根据所述目标标签序列,从所述令牌序列中提取每个命名实体。其中,目标标签序列对于命名实体前后的边界字符进行有区别的标注,显著提高了命名实体的区分度,使得命名实体识别的结果更加准确。使得命名实体识别的结果更加准确。使得命名实体识别的结果更加准确。

【技术实现步骤摘要】
命名实体提取方法与装置以及电子设备


[0001]本申请涉及数据识别
,尤其涉及一种命名实体提取方法与装置以及电子设备。

技术介绍

[0002]命名实体识别旨在识别自然语言文本中具有特定含义的实体的边界和类型,主要包括人名、地名、机构名、专有名词等。令牌(token)是文本的基本单位,通常指英文中的单词或中文中的字符。在机器学习中,文本被视为令牌序列,命名实体识别的任务转化为序列标注任务,即给序列中的每个令牌进行标注,打上标签。标注方案对命名实体识别的性能有很大的影响。相关的命名实体识别方案中对于标注方案都将非实体标记视为相同,并忽略这些标记之间的差异。

技术实现思路

[0003]有鉴于此,本申请的目的在于提出一种命名实体提取方法与装置以及电子设备。
[0004]基于上述目的,本申请提供了
[0005]一种命名实体提取方法,其特征在于,包括:
[0006]通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
[0007]根据所述目标标签序列,从所述令牌序列中提取每个命名实体,
[0008]其中,对所述令牌序列进行标注以得到所述目标标签序列包括:
[0009]按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
[0010]对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:
[0011]响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
[0012]响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
[0013]进一步的,所述操作还包括:
[0014]响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记。
[0015]进一步的,所述操作还包括:
[0016]响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记。
[0017]进一步的,所述将该第二类标签更改为第一类边界标记包括:
[0018]获取该第二类标签的后一标签中包含的第一实体类型标识符;
[0019]将该第二类标签更改为包含所述第一实体类型标识符的所述第一类边界标记,
[0020]所述将该第二类标签更改为第二类边界标记包括:
[0021]获取该第二类标签的前一标签中包含的第二实体类型标识符;
[0022]将该第二类标签更改为包含所述第二实体类型标识符的所述第二类边界标记。
[0023]进一步的,响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记,包括:
[0024]获取该第二类标签的前一标签中包含的第三实体类型标识符;
[0025]将该第二类标签更改为包含所述第三实体类型标识符的所述第二类边界标记。
[0026]进一步的,响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记,包括:
[0027]获取该第二类标签的后一标签中包含的第四实体类型标识符;
[0028]将该第二类标签更改为包含所述第四实体类型标识符的所述第一类边界标记。
[0029]进一步的,所述命名实体识别模型包括预训练语言模型和标签解码器;
[0030]识别出所述自然语言文本中的所述第一类令牌和所述第二类令牌以将所述自然语言文本转换成所述令牌序列包括:通过所述预训练语言模型,将所述自然语言文本转换为令牌表示,并识别出所述令牌表示中的所述第一类令牌和所述第二类令牌,以得到所述令牌序列;
[0031]按照从前到后的顺序对所述令牌序列进行标注包括:通过所述标签解码器,按照从前到后的顺序对所述令牌序列进行标注。
[0032]进一步的,所述标签解码器包括条件随机场CRF模型。
[0033]基于同一构思,本申请还提供了一种命名实体提取装置,包括:
[0034]标注模块,用于通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
[0035]提取模块,用于根据所述目标标签序列,从所述令牌序列中提取每个命名实体,
[0036]其中,所述标注模块被配置成:
[0037]按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
[0038]对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:
[0039]响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
[0040]响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
[0041]基于同一构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任一项所述的方法。
[0042]从上面所述可以看出,本申请提供的命名实体提取方法与装置以及电子设备,首
先通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列。根据所述目标标签序列,从所述令牌序列中提取每个命名实体。其中,目标标签序列对于命名实体前后的边界字符进行有区别的标注,显著提高了命名实体的区分度,使得命名实体识别的结果更加准确。
附图说明
[0043]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本申请实施例的命名实体提取方法流程示意图;
[0045]图2为本申请实施例的命名实体提取装置示意图;
[0046]图3为本申请实施例的电子设备结构示意图。
具体实施方式
[0047]为使本申请的目的、技术方案和优点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体提取方法,其特征在于,包括:通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;根据所述目标标签序列,从所述令牌序列中提取每个命名实体,其中,对所述令牌序列进行标注以得到所述目标标签序列包括:按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。2.根据权利要求1所述的方法,其特征在于,所述操作还包括:响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记。3.根据权利要求1所述的方法,其特征在于,所述操作还包括:响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记。4.根据权利要求1所述的方法,其特征在于,所述将该第二类标签更改为第一类边界标记包括:获取该第二类标签的后一标签中包含的第一实体类型标识符;将该第二类标签更改为包含所述第一实体类型标识符的所述第一类边界标记,所述将该第二类标签更改为第二类边界标记包括:获取该第二类标签的前一标签中包含的第二实体类型标识符;将该第二类标签更改为包含所述第二实体类型标识符的所述第二类边界标记。5.根据权利要求2所述的方法,其特征在于,响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记,包括:获取该第二类标签的前一标签中包含的第三实体类型标识符;将该第二类标签更改为包含所述第三实体类型标识符的所述第二类边界标记。6.根据权利要求3所...

【专利技术属性】
技术研发人员:郭延明刘盼雷军魏迎梅谢毓湘王翔汉
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1