一种特定领域命名实体识别方法技术

技术编号：33046374 阅读：16 留言：0更新日期：2022-04-15 09:30

本发明专利技术公开了一种特定领域命名实体识别方法，包括以下步骤：步骤一，获取领域知识库，使用短语挖掘对文本语料进行高质量领域词表构建，补充现有知识库内容；步骤二，采用远程监督，将文本语料对齐领域知识库内容进行实体类型的自动标注；步骤三，构建与训练命名实体识别模型，完成特定领域文本中细粒度命名实体的识别与提取。本发明专利技术所公开的方法，基于远程监督获取特定领域标注语料，将命名实体识别任务分为候选实体获取与候选实体类型判断两个阶段，充分利用领域知识库中实体的边界信息与实体的类别信息，弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点，并且在一定程度上避免因细粒度实体类型数量多所产生的实体识别效果一般的问题，从而提高了命名实体识别的性能。体识别的性能。体识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种特定领域命名实体识别方法

[0001]本专利技术涉及自然语言处理领域，具体涉及一种特定领域命名实体识别方法。

技术介绍

[0002]命名实体识别(Named Entity Recognition，NER)是自然语言处理领域的基本任务之一，识别文本中具有特定意义实体。在特定领域中，如医疗、军事等，因缺乏大规模的标注数据集完成深度学习模型的训练，很难将其直接应用。
[0003]当前针对匮乏资源命名实体识别问题主要采用迁移学习、远程监督方法。迁移学习利用领域相似性，在领域之间进行数据共享和模型共建，利用无监督模式通过降低统计学习的期望误差来对未标记样本进行优化选择，有效减少标注数据的工作量；远程监督利用外部知识库和本体库来补充标注实体，将文本序列与知识库词典中的条目进行匹配，自动为带有命名实体类别的大量原始语料添加标签。以上方法可以较好地解决匮乏资源命名实体识别问题，在特定领域中，远程监督所需的外部知识库相较于迁移学习中相似领域的判定及其标注数据的获取较易进行，但在具有大量实体类型的特定领域文本数据上，现有远程监督模型方法对于类别信息默认为互相独立的去分类，存在命名实体识别效果一般的问题。
[0004]本专利技术所提出的一种特定领域命名实体识别方法，充分利用领域知识库中实体的边界信息与实体的类别信息，采用两阶段方式，将命名实体识别分为候选实体获取与候选实体类型判断，引入线性映射函数和相似度计算，充分发挥实体类别间的层级和语义相关的特点，弥补了在特定领域上缺乏足够多的标注数据且人工标注成本高的缺点，并且在...

【技术保护点】

【技术特征摘要】
1.一种特定领域命名实体识别方法，主要包括以下步骤：(1)获取领域知识库，使用短语挖掘对文本语料进行高质量短语词表构建，补充现有特定领域知识库的内容。(2)采用远程监督方法对文本语料进行标注，将领域知识库中实体所对应的类型作为该实体在文本中的类型。(3)构建特定领域细粒度命名实体识别模型，将标注好的文本语料分为训练集、验证集与测试集，对模型进行训练，最后使用训练好的模型获取文本中细粒度实体类型的实体集合获取。2.根据权利要求1所述的一种特定领域命名实体识别模型，其特征在于：模型分为两个阶段，分别为候选实体获取与实体类型判断，通过引入命名实体类型标签的语义相关性，完成特定领域中细粒度命名实体类型的筛选。候选实体获取阶段获取实体边界信息，从而获取候选实体。主要包含预训练编码层完成文本语料中原始字、词向量形式的转化；双向长...

【专利技术属性】
技术研发人员：宋晓，李晓庆，崔勇，周军华，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人