【技术实现步骤摘要】
一种基于多任务学习的命名实体识别方法及系统
[0001]本专利技术涉及模型识别
,具体涉及一种基于多任务学习的命名实体识别方法及系统。
技术介绍
[0002]随着互联网技术的发展,网络中诞生了大量的文本数据,在众多数据挖掘技术中,知识图谱近年来发展迅速,知识图谱包括命名实体识别和关系抽取等关键环节。
[0003]在早期的研究中,一般利用专家规则与专家字典相结合的方法,进行实体抽取。专家词典是基于特定场景由专家给出相应的词典,并基于此进行知识匹配。专家规则指的是运用一些特定的简单规则,如组合词规则等,进行匹配。这种方法操作简单易于实现,但针对复杂的场景难以覆盖全面,且对新兴实体识别困难。近年来随着深度学习的发展,以LSTM+BERT+CRF的方法逐渐成为命名实体识别技术的主流,该技术在标注环节存在大量重复工作,且在模型训练环节效率较低。
技术实现思路
[0004]因此,本专利技术为了解决现有的命名实体识别方法效率低问题,提供一种基于多任务学习的命名实体识别方法及系统,可以提高命名实体的识别效率。< ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多任务学习的命名实体识别方法,其特征在于,包括:对命名实体进行位置和类别标注,生成包含命名实体起始位置值和类别的二元组作为标注数据,其中起始位置值表征命名实体的起始位置和实体长度,类别表征位置长度为该起始位置值的文本所属实体类别;将附有所述标注数据的命名实体按照预设长度的句子,输入到神经网络模型进行多任务识别训练,得到训练好的模型作为命名实体识别模型;将待识别的命名实体按照预设长度的句子,输入到所述命名实体识别模型中,得到各个命名实体对应的起始位置值和实体类别的预测结果。2.根据权利要求1所述的基于多任务学习的命名实体识别方法,其特征在于,所述命名实体识别模型,包括:输入层、特征提取层、由起始位置预测层和实体分类预测层组成的多任务学习层、预测结果输出层,其中:特征提取层对输入层输入的数据进行特征提取得到特征向量,所述特征向量分别进入起始位置预测层和实体分类预测层得到对应的预测概率,通过输出层输出命名实体起始位置值和实体类别的预测结果。3.根据权利要求2所述的基于多任务学习的命名实体识别方法,其特征在于,所述特征抽取层包括依次连接的嵌入层和串行的多个Transformer层,所述嵌入层用于对输入层输入的文本进行重编码及向量化,嵌入层的输出向量包括:经过映射得到的字向量E
token
,其基于字的ID通过查询矩阵得到,以及字所在词在训练文本中的重要性E
weigt
,其通过至少一种重要性排序算法求解得到,则嵌入层的输出向量E
embedding
=E
token
+E
weigt
;Transformer层采用多头自注意力机制采用Relu激活函数对E
embedding
进行特征提取得到特征向量E。4.根据权利要求3所述的基于多任务学习的命名实体识别方法,其特征在于,所述字所在词在训练文本中的重要性由重要性排序算法TFIDF和PageRank求解,得到E
weight
=[w
tfidf
,w
pagerank
]。5.根据权利要求3或4所述的基于多任务学习的命名实体识别方法,其特征在于,所述特征向量分别进入起始位置预测层和实体分类预测层得到对应的预测概率过程,包括:对于每个命名实体的起始位置值的预测任务经过两个全连接层,一个在全连接层后接一个Sigmoid函数,代表是否为实体起始位置的预测概率P
label
,另一个经过全连接层后接入一个Softmax函数,得到每种类别可能的个数概率P
start
,最终经过argmax函数得到概率最大的预测值代表实体的字符个数;对于每个字符的实体类别预测任务,经过一个全连接层和Softmax函数,最终通过argmax函数得到概率最大的类别预测。6.根据权利要求5所述的基于多任务学习的命名实体识别方法,其特征在于,分别构建所述起始位置值预测任务和实体类别预测任务的损失函数,并将两者进行加权求和得到所述命名实体识别模型整体的损失函数。7.根据权利要求6所述的基于多任务学习的命名实体识别方法,其特征在于,所述起始位置值预测任务的损失函数loss
技术研发人员:郑勤华,杜君磊,王怀波,郭利明,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。