一种特定领域命名实体识别方法技术

技术编号:33046374 阅读:16 留言:0更新日期:2022-04-15 09:30
本发明专利技术公开了一种特定领域命名实体识别方法,包括以下步骤:步骤一,获取领域知识库,使用短语挖掘对文本语料进行高质量领域词表构建,补充现有知识库内容;步骤二,采用远程监督,将文本语料对齐领域知识库内容进行实体类型的自动标注;步骤三,构建与训练命名实体识别模型,完成特定领域文本中细粒度命名实体的识别与提取。本发明专利技术所公开的方法,基于远程监督获取特定领域标注语料,将命名实体识别任务分为候选实体获取与候选实体类型判断两个阶段,充分利用领域知识库中实体的边界信息与实体的类别信息,弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点,并且在一定程度上避免因细粒度实体类型数量多所产生的实体识别效果一般的问题,从而提高了命名实体识别的性能。体识别的性能。体识别的性能。

【技术实现步骤摘要】
一种特定领域命名实体识别方法


[0001]本专利技术涉及自然语言处理领域,具体涉及一种特定领域命名实体识别方法。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的基本任务之一,识别文本中具有特定意义实体。在特定领域中,如医疗、军事等,因缺乏大规模的标注数据集完成深度学习模型的训练,很难将其直接应用。
[0003]当前针对匮乏资源命名实体识别问题主要采用迁移学习、远程监督方法。迁移学习利用领域相似性,在领域之间进行数据共享和模型共建,利用无监督模式通过降低统计学习的期望误差来对未标记样本进行优化选择,有效减少标注数据的工作量;远程监督利用外部知识库和本体库来补充标注实体,将文本序列与知识库词典中的条目进行匹配,自动为带有命名实体类别的大量原始语料添加标签。以上方法可以较好地解决匮乏资源命名实体识别问题,在特定领域中,远程监督所需的外部知识库相较于迁移学习中相似领域的判定及其标注数据的获取较易进行,但在具有大量实体类型的特定领域文本数据上,现有远程监督模型方法对于类别信息默认为互相独立的去分类,存在命名实体识别效果一般的问题。
[0004]本专利技术所提出的一种特定领域命名实体识别方法,充分利用领域知识库中实体的边界信息与实体的类别信息,采用两阶段方式,将命名实体识别分为候选实体获取与候选实体类型判断,引入线性映射函数和相似度计算,充分发挥实体类别间的层级和语义相关的特点,弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点,并且在一定程度上避免因细粒度实体类型数量多所产生的命名实体识别效果一般的问题,从而提高了命名实体识别的性能,取得了很好的效果。

技术实现思路

[0005](1)要解决的技术问题
[0006]在实现特定领域的命名实体识别时仍存在以下难点问题:缺乏足够多的标注数据,人工标注的成本很高,需要耗费大量的时间以及精力,实体标注难度大;相较于通用领域的命名实体识别任务中的实体类别,特定领域存在实体类型层次多,实体类型粒度细,实体类型数量多,导致命名实体识别效果一般的问题。
[0007](2)技术方案
[0008]为解决以上技术问题,本专利技术提供了一种特定领域命名实体识别方法,其主要特征在于,包括以下步骤:
[0009]步骤一:获取领域知识库,使用短语挖掘对文本语料进行高质量短语词表构建,补充现有特定领域知识库的内容。
[0010]步骤二:采用远程监督方法对文本语料进行标注,将领域知识库中实体所对应的类型作为该实体在文本中的类型。
[0011]步骤三:构建特定领域细粒度命名实体识别模型,将标注好的文本语料分为训练集、验证集与测试集,对模型进行训练,最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。
[0012]所述特定领域细粒度命名实体识别模型包含两阶段:候选实体获取与候选实体类型判断。候选实体获取阶段获取实体边界信息,从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化;双向长短记忆网络完成文本全局上下文特征;逻辑回归分类层完成候选实体边界的判断。
[0013]实体类型判断阶段由长短记忆网络和双向长短记忆网络组成的特征表示层完成候选实体及其上下文语义环境的特征获取;线性映射函数和计算公式组成的相似度计算层完成候选实体与实体类型集合间的相似度获取;最后采用递归搜索实现候选实体对应类型的选择与输出。
[0014]线性映射函数φ
M
与φ
L
的具体定义为:
[0015][0016][0017][0018]相似度计算函数s具体定义为:
[0019][0020]式中:表示候选实体特征表示向量的实数空间,表示类型标签表示初始向量的实数空间,表示二者嵌入的实数空间。U和V分别是特征表示和类型标签的投影矩阵,f
i
为第i个候选实体的特征表示,为第i个候选实体所对应类型标签的独热向量编码表示。
[0021](3)有益效果
[0022]本专利技术的上述技术方案充分利用知识库中实体的边界信息与实体的类别信息,解决特定领域命名实体识别任务中缺乏足够多的标注数据,人工标注的成本很高,需要耗费大量时间的问题,挖掘出实体类型之间存在的语义关系,有效地提升了特定领域的命名实体识别效果。
附图说明
[0023]图1为本专利技术的操作流程图。
[0024]图2为本专利技术的网络结构图。
[0025]图3为本专利技术的作战想定命名实体识别模型训练测试流程。
[0026]图4为特征表示层的结构图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于
本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0029](1)参照图1所示,本实施方式提供了一种特定领域命名实体识别方法,其主要步骤如下:
[0030]a)对文本进行预处理生成文本语料,基于有限状态机进行英文词串的获取,即合并相邻的英文字母、空格以及符号。最终将以句子为单位的文本信息分离为中文单字和英文词串的形式。
[0031]b)基于开源的领域知识库构建知识库,将其整理为二元组形式:实体类型和实体名称。
[0032]c)根据文本内容统计获取高频词语,由高到底排序。通过字符串匹配计算出的n

grams的原始频率获取短语集合,集合中与知识库可以完全匹配的字符串作为正样本,剩余的作为负样本。然后结合词性信息进行短语边界的优化,通过给生成短语进行打分,当其满足预先设定的阈值时,加入高质量领域词典。
[0033]d)基于远程监督使用知识库中对应的实体类型对语料库中出现的对应实体进行自动标注。在具体标注过程中,只有同时未被知识库词典和高质量领域词典匹配的部分才被标记为非实体。
[0034]e)将标注好的特定领域数据集输入命名实体识别模型,训练模型。命名实体识别模型由候选实体获取、实体类型判断两个阶段组成。最后使用训练好的模型进行特定领域中的细粒度命名实体的识别与提取。
[0035](2)参照图2所示,本专利技术所提出的用于命名实体识别的深度学习模型由嵌入层

、BiLSTM层

、候选实体边界输出层

、特征表示层

、相似度计算层

以及命名实体类型输出层

组成。
[0036]嵌入层

采用GloVe词向量模型以无监督的方式将分离为中文单字和英文词串的句子原始文本转化为向量形式,捕捉词的语义信息。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特定领域命名实体识别方法,主要包括以下步骤:(1)获取领域知识库,使用短语挖掘对文本语料进行高质量短语词表构建,补充现有特定领域知识库的内容。(2)采用远程监督方法对文本语料进行标注,将领域知识库中实体所对应的类型作为该实体在文本中的类型。(3)构建特定领域细粒度命名实体识别模型,将标注好的文本语料分为训练集、验证集与测试集,对模型进行训练,最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。2.根据权利要求1所述的一种特定领域命名实体识别模型,其特征在于:模型分为两个阶段,分别为候选实体获取与实体类型判断,通过引入命名实体类型标签的语义相关性,完成特定领域中细粒度命名实体类型的筛选。候选实体获取阶段获取实体边界信息,从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化;双向长...

【专利技术属性】
技术研发人员:宋晓李晓庆崔勇周军华
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1