一种多任务中文实体命名识别方法技术

技术编号：32461292 阅读：16 留言：0更新日期：2022-02-26 08:50

本发明专利技术公开了一种多任务中文实体命名识别方法，包括以下步骤：(1)首先对数据进行预处理，划分数据集并进行标注任务设置；(2)通过BERT对输入的主任务数据和辅任务进行特征抽取；(3)对于主任务和辅任务分别采用双层的包括输入、隐藏和输出的LSTM神经网络模型对词向量进行分类训练；(4)将辅任务和主任务的训练好的隐藏层信息经过注意力机制层进行全连接(5)最后经过CRF层考虑了序列中的全局标签信息，输出最优的标签序列；(6)通过验证集对训练好的模型进行性能评估。本发明专利技术能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识，有效的缓解了人工抽取信息耗时耗力的问题，对进一步文本挖掘工作的具有重要意义。义。义。

全部详细技术资料下载

【技术实现步骤摘要】
一种多任务中文实体命名识别方法

[0001]本专利技术涉及文本挖掘
，具体涉及一种多任务中文实体命名识别方法。

技术介绍

[0002]如今，对于英文文本的实体命名识别问题，已经被广泛研究。然而，中文NER仍然面临中文分词等挑战，往往很难定义一个词的构成。过去的中文NER任务，往往采用循环神经网络(RNN)提高模型在实体分类任务上的性能，但是RNN在长距离训练过程中存在梯度消失和梯度爆炸问题，长短期记忆模型(LSTM)，能够在更长序列中有更好的表现，并为RNN中的LSTM单元提出一个简单的调整技巧能够显著减少过拟合现象。双向长短期记忆网络(Bidirectional Long Short
‑
Term Memory,BiLSTM)和条件随机场(CRF)结合的神经网络模型，将其用于NER或者词性标注，效果比单纯的CRF或者BiLSTM效果都要好，这种双向结构能够获取上下文的序列信息,因此在命名实体识别等任务中得到相当广泛的应用。
[0003]由于中文命名实体识别的实体边界难以划分，存在分词错误、词表外(OOV)等问题，BILSTM作为特征抽取器效果并不理想。对于词向量的预训练，都是基于词、字符的特征提取，忽略了词在上下文的相关信息，提取的是一种不包含上下文语境的静态词向量，因此也导致了模型有关实体识别能力的下降。BERT预训练模型可以很好的解决上述问题，它是一个基于微调的多层双向Transformer编码器。BERT可以进一步提高了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关

【技术保护点】

【技术特征摘要】
1.一种多任务中文实体命名识别方法，其特征在于，包括以下步骤：步骤一，获取至少两个不同的已标注中文语句数据集，并进行预处理；步骤二，构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT
‑‑
BiLSTM
‑
CRF网络结构，其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构，且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层；步骤三，通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取，获取词向量；步骤四，将得到的词向量输入到双层长短期记忆网络层BiLSTM中，以通过包括遗忘门，记忆门和输出门在内的神经网络层来对词向量进行信息提取；步骤五，让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层，其中注意力网络结合不同学习率来对两个结果进行全连接，再将隐藏层的输出结果输入到条件随机场层CRF，最后由CRF层约束，输出最优标签序列；步骤六，重复步骤三
‑
五，并对模型超参数进行调整以得到最优参数从而完成模型训练，然后将待识别的数据集输入到模型中以进行识别。2.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤一中，预处理包括对数据集中的句子进行长度统一化处理。3.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤一中，中文语句数据集是采用以下方式对数据集中的实体进行标注：当命名实体由一个字描述时，标记为Begin
‑
named entity；当命名实体由超过一个字的词语描述时，以Begin
‑
named entity标记开头的字，其他字标记成In
‑
named entity；非命名实体的字词都标注成Out。4.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤三中，进行特征抽取包括以下步骤：对于数据集中的句子，首先通过分词处理得到分词文本序列，然后对分词序列的部分词进行全词Mask；然后再用特殊标记[CLS]标记序列即一个句子的开头，用特殊标记[SEP]标记序列的结尾；从而得到由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding，此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取，最后得到包含上下文语义特征的序列向量(x1,x2,...,x
n
)。5.根据权利要求4所述的一种多任务中文实体命名识别方法，其特征在于，对分词序列的部分词进行全词Mask，是指对分词序列中预设比例的词执行以下处理：将预设比例中80％的词替换成空白；10％的词替换成任意一个其他词；10％的词不变化。6.根据权利要求1所述的一种多任务中文实体命名识别方法，其特征在于，所述的步骤四中，进行信息提取包括：通过对网络中细胞状态中信息遗忘和记忆新的信息，使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中双层长短期记忆网络层中的遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f，记忆门i和输出门o来控制：
遗忘门公式为：f
t
＝σ(W
f
·
[h
t
‑1,x
t
]+b
f
)其中σ是Sigmoid激活函数，W是权重矩...

【专利技术属性】
技术研发人员：唐小勇，黄勇，许佳豪，王仕果，章登勇，张经宇，
申请(专利权)人：长沙理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人