基于多特征嵌入的中文命名实体识别方法及系统技术方案

技术编号:39745535 阅读:23 留言:0更新日期:2023-12-17 23:44
本发明专利技术公开了一种基于多特征嵌入的中文命名实体识别方法,包括:使用

【技术实现步骤摘要】
基于多特征嵌入的中文命名实体识别方法及系统


[0001]本专利技术涉及命名实体识别
,特别是一种基于多特征嵌入的中文命名实体识别方法及系统


技术介绍

[0002]命名实体识别是自然语言处理领域中的重要子任务之一,它可以从非结构化或结构化文本中提取有用信息

命名实体包括人名

地名

机构名等等,这些实体对于其他自然语言处理任务具有重要价值,例如关系抽取

实体链接

知识图谱

智能问答等等

然而,中文命名实体识别起步较晚,且中文与英文的差异性导致英文命名实体识别的方法难以迁移到中文研究中,这主要体现在以下几个方面

第一,中文文本中没有像英文文本那样的空格作为分隔符,因此确定分词边界比较困难

例如,“南京市长江大桥”这个实体既可以理解为南京市市长的名字叫江大桥,也可以理解为南京市的长江大桥

第二,汉字的语义会随时间和场合等发生变化,这增加了中文命名实体识别的复杂性

例如,“张三现在在中国建设银行”文本中的实体“中国建设银行”在描述张三所在位置时应该标记为地点
(LOC)
,但在描述张三在职情况时应该标记为组织机构
(ORG)。
第三,随着互联网的快速发展,网络文本大量涌现,汉字使用更加个性化和随意化,这也增加了中文命名实体识别的难度

针对这些难点,为正确标记实体,需结合上下文语境,使字符包含更多的上下文信息,通用领域方法中在基于字符表示的
CNER
模型上引入预训练模型,可以捕捉更丰富的语义信息,但未考虑到汉字本身固有特征蕴含的语义信息

[0003]在命名实体识别的早期阶段,研究人员主要使用规则或统计方法来识别命名实体

然而,这些方法往往需要手动创建规则或特征,且需要耗费大量时间和精力

在随后的研究中,研究人员开始使用传统的机器学习算法,如支持向量机
(SVM)
和条件随机场
(CRF)
等,来进行命名实体识别

这些算法通常使用手工设计的特征,来帮助识别实体

虽然这些方法在某些任务上取得了不错的成果,但仍然受到特征设计的限制

[0004]随着深度学习的快速发展,基于深度学习的
NER
方法已逐渐成为主流,并取得了持续的性能改进

相比于传统机器学习,深度学习神经网络可以自动提取字符级

词级与句子级等特征,减少特征选择的主观性,更充分利用数据原始信息,有助于进一步提高识别效果

目前,卷积神经网络
(CNN)、
循环神经网络
(RNN)、
门控循环单元
(GRU)
和长短期记忆网络
(LSTM)
等深度神经网络被广泛应用于命名实体识别中

单独的实体识别神经网络只考虑样本输入,在神经网络结构单元中进行非线性转换计算,缺乏对输出过程及结果意义的进一步考虑,因此,基于模型融合的思想,研究人员通常以
LSTM

CRF
为主要结构来解决单实体识别神经网络模型的不足,在此基础上,
Lample
[1]等提出了双向
LSTM
,并将其与
CRF
结合,进一步提升了模型性能,此后该模型逐渐称为主流模型,适用各个领域
NER
[2

4]。
此后,又有很多新的模型被提出,如
IDCNN

CRF
[5],
Transformer
[6]和
GCN
[7]等

[0005]在命名实体识别任务中,特别是英文命名实体识别中,通常使用基于词级的嵌入表示进行建模

但是在中文命名实体识别任务中,中文文本没有明显的词边界,很容易产生
分词错误,这些错误会对实体识别的性能产生较大的影响

因此,许多研究人员采用基于字符的实体识别方法,降低由于分词错误而导致的识别误差
。Liu

[8]证明字符级嵌入比词级嵌入更适用于中文命名实体识别任务
。Dong

[9]首次将基于字符的
BiLSTM

CRF
模型用于中文
NER
,并融入笔画特征,在中文
NER
任务中取得了更好的性能

[0006]但是字向量包含的信息比较单一,为了进一步提升
NER
性能,研究人员开始将预训练模型引入
NER。
预训练模型通过大规模的无标注数据训练,在处理命名实体识别任务时可以捕捉更加丰富的语义信息

在预训练模型的发展历程中,诸如
Word2vec
[10]、Glove
[11]、ELMo
[12]、BERT
[13]和
ALBERT
[14]等模型

以前,使用较为广泛的预训练模型是
Word2vec
,但是它训练出的字向量是静态的,不会根据上下文的变化而变化,后来,
Google AI
团队提出
BERT(Bidirectional Encoder Representations from Transformers)
模型,该模型采用了双向
Transformer
编码器的结构,训练的词向量在每次模型运行中都可以根据上下文不同而重新计算,这样的特性使
BERT
模型可以在各种
NLP
任务上取得最先进的效果

[0007]基于字符序列的模型虽然已经取得了不错的性能,但是有一个缺点,即没有利用词级信息,在实际应用中,大量的实体词汇是已知的,并且这些实体词汇往往具有固定的特征和上下文语义信息

为此,一些研究人员开始研究词汇增强方法,将外部词典加入到基于字符嵌入的模型中,以提供额外的信息,例如,
Zhang

[15]首次提出词汇增强命名实体识别模型
Lattice LSTM
,使用格结构的
LSTM
表示句子中的词典词,从而将潜在词信息集成到基于字符的
LSTM

CRF
中,相比基于字符和基于单词的基线,取得了最好的结果
。Liu

[16]提出
WC

LSTM
模型,将单词信息集成到基于字符的模型中,效果比
La本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多特征嵌入的中文命名实体识别方法,其特征在于,包括以下步骤:步骤
1、
使用
BERT
模型提取包含丰富上下文信息的字向量,处理得到词根嵌入向量和字形嵌入向量;步骤
2、
利用双向长短期记忆网络
BiLSTM
提取字形嵌入向量和词根嵌入向量的特征,同时通过迭代膨胀卷积神经网络
IDCNN
对字形嵌入向量进行特征提取,接着将这三个特征向量拼接;步骤
3、
将拼接的这三个特征向量输入多头自注意力机制层,对拼接得到的向量进行动态融合,提取关键特征;步骤
4、
使用条件随机场
CRF
对序列进行标注解码
。2.
根据权利要求1所述的基于多特征嵌入的中文命名实体识别方法,其特征在于,还包括以下步骤:步骤
5、
根据知识蒸馏方法,设置教师模型和学生模型为同一模型,用教师模型的输出概率分布指导学生模型的训练
。3.
根据权利要求1或2所述的基于多特征嵌入的中文命名实体识别方法,其特征在于,在步骤1中,处理得到词根嵌入向量具体如下:通过爬取得到多个汉字

词根映射,并保存了这些字对应的图片;对于词根信息的编码,首先遍历汉字

词根表中的每个汉字对应的词根集,为每个词根分配一个唯一的索引
ID
,并构建一个词根表;如果文本中的字符在多个汉字中,则根据汉字

词根表找到对应的词根集,遍历词根集中的每一个词根,在词根表中找到对应的索引
ID
,构建词根向量;设置每个字符的词根向量长度为9,并设置补齐标签,如果字符的词根不足9个或者没找到汉字,则用补齐标签对应的索引
ID
补齐词根向量
。4.
根据权利要求3所述的基于多特征嵌入的中文命名实体识别方法,其特征在于,在步骤1中,所述
BERT
模型模型采用双向
Transformer
编码器,由多层
Transformers Encoder
堆叠而成,在处理文本时同时考虑了上下文中的所有单词信息,能够捕捉到更加细致的语义信息;
BERT
模型采用掩码语言模型和下一句预测任务,在掩码语言模型任务中,
BERT
模型随机遮蔽文本中的一些词汇,然后通过上下文预测这些被遮蔽的词汇;在下一句预测任务中,
BERT
模型预测两个句子是否是相邻的
。5.
根据权利要求4所述的基于多特征嵌入的中文命名实体识别方法,其特征在于,所述双向长短期记忆网络
BiLSTM
包括两个方向的长短时记忆网络
LSTM
,分别对序列的正向和反向进行建模,获取序列中每个位置的上下文信息,并将两个方向的输出合并起来,得到一个更全面的特征表示;所述长短时记忆网络
LSTM
利用输入门

遗忘门和输出门来控制信息的流动和保存,输入门控制当前输入信息对记忆单元的影响程度,遗忘门控制历史信息对记忆单元的影响程度,输出门控制记忆单元对当前输出的影响程度;输入门

遗忘门

输出门和记忆单元的更新方式如下:
i
t

σ
(W
i
[x
t
,h
t
‑1]+b
i
)f
t

σ
(W
f
[x
t
,h
t
‑1]+b
f
)o
t

σ
(W
o
[x
t
,h
t
‑1]+b
o
)c
t

f
t
*c
t
‑1+i
t
*tanh(W
c
[x
t
,h
t
‑1]+b
c
)
h
t

o
t
*tanh(c
t
)
其中,
i
t
、f
t
、o
t
、c
t
分别表示
t
时刻输入门

遗忘门

输出门和记忆单元的状态,
h

【专利技术属性】
技术研发人员:胡为刘伟蔡思涵李小智陶家俊
申请(专利权)人:湖南中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1