一种多任务中文实体命名识别方法技术

技术编号:32461292 阅读:16 留言:0更新日期:2022-02-26 08:50
本发明专利技术公开了一种多任务中文实体命名识别方法,包括以下步骤:(1)首先对数据进行预处理,划分数据集并进行标注任务设置;(2)通过BERT对输入的主任务数据和辅任务进行特征抽取;(3)对于主任务和辅任务分别采用双层的包括输入、隐藏和输出的LSTM神经网络模型对词向量进行分类训练;(4)将辅任务和主任务的训练好的隐藏层信息经过注意力机制层进行全连接(5)最后经过CRF层考虑了序列中的全局标签信息,输出最优的标签序列;(6)通过验证集对训练好的模型进行性能评估。本发明专利技术能够帮助研究者在海量的中文文本数据中高效地获取有价值的信息和知识,有效的缓解了人工抽取信息耗时耗力的问题,对进一步文本挖掘工作的具有重要意义。义。义。

【技术实现步骤摘要】
一种多任务中文实体命名识别方法


[0001]本专利技术涉及文本挖掘
,具体涉及一种多任务中文实体命名识别方法。

技术介绍

[0002]如今,对于英文文本的实体命名识别问题,已经被广泛研究。然而,中文NER仍然面临中文分词等挑战,往往很难定义一个词的构成。过去的中文NER任务,往往采用循环神经网络(RNN)提高模型在实体分类任务上的性能,但是RNN在长距离训练过程中存在梯度消失和梯度爆炸问题,长短期记忆模型(LSTM),能够在更长序列中有更好的表现,并为RNN中的LSTM单元提出一个简单的调整技巧能够显著减少过拟合现象。双向长短期记忆网络(Bidirectional Long Short

Term Memory,BiLSTM)和条件随机场(CRF)结合的神经网络模型,将其用于NER或者词性标注,效果比单纯的CRF或者BiLSTM效果都要好,这种双向结构能够获取上下文的序列信息,因此在命名实体识别等任务中得到相当广泛的应用。
[0003]由于中文命名实体识别的实体边界难以划分,存在分词错误、词表外(OOV)等问题,BILSTM作为特征抽取器效果并不理想。对于词向量的预训练,都是基于词、字符的特征提取,忽略了词在上下文的相关信息,提取的是一种不包含上下文语境的静态词向量,因此也导致了模型有关实体识别能力的下降。BERT预训练模型可以很好的解决上述问题,它是一个基于微调的多层双向Transformer编码器。BERT可以进一步提高了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,结合了上下文的语境和语义信息,从而提高模型的实体识别能力。
[0004]为了进一步提高NER模型的性能,研究人员继续提出各种尝试,例如将各种最新方法集成到现有工具中,以提高模型性能,然而,如何在现有方法的基础上进一步提高NER系统的性能,特别是在数据集有限的情况下,如何进一步提高NER的性能仍是一个值得研究的领域。
[0005]多任务学习(MTL)就是研究方向之一,它通过使用多个相关标记数据集来训练目标模型,从而提高模型在单个数据集上的性能。由于相关数据集可能包含有效的辅助信息,有助于模型在联合训练后更有效地解决单个数据集的任务。

技术实现思路

[0006]本专利技术要解决的技术问题是,克服现有技术存在的上述缺陷,提供一种提高实体标准水平的高可用性、高效率的一种基于BERT和BiLSTM

AM

CRF的多任务中文实体命名识别方法,模型通过训练集来拟合数据样本,通过验证集调整模型的超参数,在测试集评估模最终模型的泛化能力。
[0007]为了实现上述技术目的,本专利技术的技术方案是,
[0008]一种多任务中文实体命名识别方法,包括以下步骤:
[0009]步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;
[0010]步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏
层和条件随机场层的BERT
‑‑
BiLSTM

CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;
[0011]步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;
[0012]步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;
[0013]步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;
[0014]步骤六,重复步骤三

五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。
[0015]所述的一种多任务中文实体命名识别方法,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。
[0016]所述的一种多任务中文实体命名识别方法,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin

named entity;当命名实体由超过一个字的词语描述时,以Begin

named entity标记开头的字,其他字标记成In

named entity;非命名实体的字词都标注成Out。
[0017]根据权利要求1所述的一种多任务中文实体命名识别方法,所述的步骤三中,进行特征抽取包括以下步骤:
[0018]对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,x
n
)。
[0019]所述的一种多任务中文实体命名识别方法,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。
[0020]所述的一种多任务中文实体命名识别方法,所述的步骤四中,进行信息提取包括:
[0021]通过对网络中细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中双层长短期记忆网络层中的遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f,记忆门i和输出门o来控制:
[0022]遗忘门公式为:
[0023]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
[0024]其中σ是Sigmoid激活函数,W是权重矩阵,b是偏置向量,h是隐藏层状态,x是输入的词向量,下标t表示t时刻,下标f表示遗忘门下的相应参数;
[0025]然后计算记忆门以选择重要信息:
[0026]输入:前一时刻的隐层状态h
t
‑1,偏移量b
[0027]输出:记忆门的值i
t
,临时细胞状态
[0028]i
t
=σ(W
f
·
[h
t
...

【技术保护点】

【技术特征摘要】
1.一种多任务中文实体命名识别方法,其特征在于,包括以下步骤:步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT
‑‑
BiLSTM

CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;步骤六,重复步骤三

五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。2.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。3.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin

named entity;当命名实体由超过一个字的词语描述时,以Begin

named entity标记开头的字,其他字标记成In

named entity;非命名实体的字词都标注成Out。4.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤三中,进行特征抽取包括以下步骤:对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,x
n
)。5.根据权利要求4所述的一种多任务中文实体命名识别方法,其特征在于,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。6.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤四中,进行信息提取包括:通过对网络中细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中双层长短期记忆网络层中的遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f,记忆门i和输出门o来控制:
遗忘门公式为:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)其中σ是Sigmoid激活函数,W是权重矩...

【专利技术属性】
技术研发人员:唐小勇黄勇许佳豪王仕果章登勇张经宇
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1