一种实体边界类别解耦的少样本命名实体识别方法与系统技术方案

技术编号：27772782 阅读：63 留言：0更新日期：2021-03-23 12:56

本发明专利技术涉及一种实体边界类别解耦的少样本命名实体识别方法及系统，其方法包括步骤：S1、通过共享的词嵌入层，将句子中的单词映射为词嵌入向量；S2、通过双向长短期记忆网络提取出特征向量；S3、利用边界检测模块获取查询集实体边界标签预测结果，并提取出实体块；S4、基于原型网络获取实体块类别原型表示；S5、进行度量计算，根据度量结果进行分类，获取查询集实体块在各类别上的概率分布；S6、联合训练模型；S7、完成少样本命名实体识别。本发明专利技术通过实体边界检测获取实体块表示，基于原型网络使用支持集少量样本计算类别原型，实现了获取类别区分能力更强的原型网络类别原型表示，提高了少样本命名实体识别任务的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体边界类别解耦的少样本命名实体识别方法与系统
本专利技术涉及自然语言处理
，尤其涉及一种实体边界类别解耦的少样本命名实体识别方法与系统。
技术介绍
命名实体识别是自然语言处理领域中一个重要的基础任务。其主要目标是抽取文本语句中相应的实体描述并将其分类为对应实体类别比如人名，地名，组织等，这些词可以是独立的单个词也可以是多个词。因此，命名实体识别常被视为序列标注任务，这个任务也用于大量信息抽取框架、基于目标的对话系统的核心组成模块，具有极高的社会经济价值。当拥有大量标注数据时，命名实体识别任务可以以较高的标注质量完成。现有的用于测试新的命名实体识别模型的基准及比如CoNLL-2003和Ontonotes数据集，这两个数据集均包含大量数据来实现在有监督的设定下训练神经网络结构。然而，在实际应用中，特别是一些少资源领域和少资源语言中，这样拥有丰富标注数据量的数据集通常是无法获得的，训练样本需要大量的人工进行标注，这需要耗费时间以及财力。此外即使我们拥有足够的标注数据量，也无法避免数据集中存在一些稀缺实体，由于出现频率过低而无法利用神经网络在文本中准确识别实体。为了降低模型对大量数据的依赖，近年来有一些基于少样本学习的命名实体识别工作，少样本学习的相关技术可以训练能借鉴源领域的先验知识并利用少量标注样本快速迁移至新领域的模型。现有的方法都是对单个词与边界信息和类别信息耦合在一起的类别表示使用基于相似性度量的少样本学习方法进行分类。但这一类的方法由于单个词的语义松散，歧义性强，又在特征空间中不同类别...

【技术保护点】
1.一种实体边界类别解耦的少样本命名实体识别方法，其特征在于，包括以下步骤：/nS1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集，通过共享的词嵌入层，将支持集和查询集中的句子中的单词映射为词嵌入向量；/nS2、以句子为单位，分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中，通过双向长短期记忆网络提取出特征向量表示；/nS3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果，并根据实体边界标签预测结果提取出实体块表示；/nS4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示；/nS5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算，根据度量结果进行分类，利用欧氏距离作为距离度量函数dist，利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布；/nS6、分别计算边界检测分类损失和实体块类别分类损失，联合训练并采用随机...

【技术特征摘要】
1.一种实体边界类别解耦的少样本命名实体识别方法，其特征在于，包括以下步骤：
S1、利用标注出命名实体且切分支持集和查询集的源领域和目标领域数据集，通过共享的词嵌入层，将支持集和查询集中的句子中的单词映射为词嵌入向量；
S2、以句子为单位，分别将支持集和查询集中句子对应的词嵌入向量输入到双向长短期记忆网络中，通过双向长短期记忆网络提取出特征向量表示；
S3、将查询集中双向长短期记忆网络提取得到的特征向量表示输入到由全连接层构成的边界检测模块获取查询集实体边界标签预测结果，并根据实体边界标签预测结果提取出实体块表示；
S4、将支持集中句子通过双向长短期记忆网络提取得到的特征向量表示根据其位置边界标签和类别标签基于原型网络获取各类别的实体块类别原型表示；
S5、将查询集中获取的所有实体块表示和支持集中获取的所有实体块类别原型表示进行度量计算，根据度量结果进行分类，利用欧氏距离作为距离度量函数dist，利用softmax层通过计算实体块表示与嵌入空间中的原型之间的距离获取查询集实体块表示在各类别上的概率分布；
S6、分别计算边界检测分类损失和实体块类别分类损失，联合训练并采用随机梯度下降算法训练模型；
S7、获取训练模型后，输入目标领域支持集和查询集，输出目标领域查询集预测标签，完成目标领域的少样本命名实体识别。

2.根据权利要求1所述的少样本命名实体识别方法，其特征在于，步骤S1中获取词嵌入向量的具体步骤如下：
S11、切分支持集和查询集的源领域和目标领域数据集，分别构造N类别单样本和N类别多样本的批训练数据，其中，N类别单样本为支持集中包含N种类别的命名实体，且每个类别至少有一个支持实例；
S12、将支持集和查询集中的句子x＝(x1，x2，...，xn)中的所有单词映射获取的词嵌入向量表示为：

其中，xi为第i个单词在词库中对应的索引，ew为词级别的特征编码器encoder，ew(xi)为将单词映射到对应预训练的词嵌入向量；ec为字符级别的特征编码器encoder；ec(xi)为将单词内的所有字符映射到对应的字符嵌入向量；LSTM(ec(xi))为将获取的字符嵌入向量通过双向长短期记忆网络进行循环操作得到该单词字符级别的向量表示；代表向量拼接。

3.根据权利要求2所述的少样本命名实体识别方法，其特征在于，预训练的词嵌入向量采用的是GloVe预训练的词向量；字符嵌入向量采用的是随机初始化的方法。

4.根据权利要求1所述的少样本命名实体识别方法，其特征在于，步骤S2中获取特征向量表示的具体步骤如下：
S21、通过双向长短期记忆网络提取句子的特征向量表示：

其中，vi为第i个单词的词嵌入向量；为前向双向长短期记忆网络提取出来的特征向量表示；为后向双向长短期记忆网络提取出来的特征向量表示；为前向双向长短期记忆网络第i-1个隐藏状态；为后向双向长短期记忆网络第i+1个隐藏状态；hi为双向长短期记忆网络第i个隐藏状态；代表向量拼接；
S22、分别获取支持集和查询集中句子级别的特征隐向量，其表示为：
H＝{h1，h2，...，ht}
其中，t为支持集和查询集中句子中的单词数量；H为句子的隐藏状态集合；ht为句子第t个单词所对应的隐藏状态，

5.根据权利要求1所述的少样本命名实体识别方法，其特征在于，步骤S3中的获取查询集实体边界标签预测结果及提取实体块表示的具体步骤如下：
S31、将特征向量表示输入全连接层分类器，利用softmax层获取每个单词的位置边界标签的概率分布，计算公式表示为：

其中，hi为特征向量表示，
yB＝{y1，y2，...，yn}
其中，yB为位置边界标签集合；n为句子中单词数量；yn为第n个单词所预测标签值；
MLP层为线性全连接层分类器，包含参数矩阵通过线性全连接层分类器之后获取位置边界标签概率分...

【专利技术属性】
技术研发人员：蔡毅，陈晓峰，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人