一种基于字词融合的低词汇信息损失中文命名实体识别方法技术

技术编号:38474991 阅读:9 留言:0更新日期:2023-08-15 16:55
中文命名实体识别(CNER)任务是一种自然语言处理技术,旨在识别文本中具有特定类别的实体,如人名、地名、组织机构名等,它是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。由于中文不具备英文这样的天然分词结构,基于词的NER模型识别效果会因分词错误而显著降低,基于字符的NER模型又忽略了词汇信息的作用。因而许多研究尝试将词汇信息融入字符模型中。WC

【技术实现步骤摘要】
一种基于字词融合的低词汇信息损失中文命名实体识别方法


[0001]随着信息技术的迅速发展,新闻、法律、医疗、媒体等领域的数据呈现爆炸式增长。从海量非结构化数据中提取信息,将其转换为结构化数据,从而获得有价值的信息,已成为研究的热点。命名实体识别(NER)作为信息抽取领域的关键技术之一,旨在从文本中识别出命名实体并将其分类为预定义的类别,例如人名、地名、组织名称、货币名称和专有名词等。命名实体识别不仅是构建知识图谱所必需的技术,而且在信息检索、问答系统和机器翻译等自然语言处理(NLP)的下游应用中扮演着重要的角色,准确地识别实体对于这些下游任务有直接的帮助作用。
[0002]在第六届语义理解会议(MUC

6)上,命名实体识别技术首先被提出,随后研究者们对其进行了大量的研究。早期的NER方法主要运用由语言学专家根据语言知识特性手工构造的规则模板,通过匹配的方式实现命名实体的识别。但是该方法存在规则制定成本高、规则无法移植到其他语料等局限性。因此在其他大型语料中单纯依靠这种方法较难获得良好的识别结果。后来基于特征工程和机器学习的命名实体识别系统成为主流,常用的方法有最大熵、隐马尔可夫模型、支持向量机和条件随机场等。近年来,深度学习在各领域上的成功应用引起了巨大的关注。得益于深度学习本身端到端的特性,无需复杂的特征工程,深度学习的网络框架通用性好,精确度高,在神经网络拓扑结构和训练范式方面效果显著,目前深度学习网络已成为解决命名实体识别任务的最主要模型。

技术介绍

[0003]大量的研究工作已在资源丰富的英文各领域开展。面向中文的NER起步较晚,而且中文与英文等其他语言相差较大,由于其自身的语言特性,中文领域的NER主要存在以下3个特殊性。
[0004](1)中文词语的边界不明确。中文的单元词汇边界模糊,缺少英文文本中空格这样明确的分隔符,也没有明显的词形变换特征,因此容易造成许多边界歧义,从而加大了NER的难度。
[0005](2)中文NER需要同中文分词和语法分析相结合。只有准确的中文分词和语法分析才能正确划分出命名实体,才能提升NER的性能,这也额外增加了中文NER的难度。
[0006](3)中文存在多义性、句式复杂表达灵活、多省略等特点。在不同领域的同一词语所表示的含义并不相同,且同一语义也可能存在多种表达。此外,互联网的迅速发展,尤其是网络文本中的文字描述更加个性化和随意化,这都使得实体的识别更加困难。
[0007]为了利用词边界信息,一些研究工作将词汇信息整合到基于字符的模型中,使得中文命名实体识别模型性能得到进一步提升。这些基于字符的词汇增强方法要明显优于单纯基于字符或基于词的方法,已被广泛运用于中文命名实体识别。本研究从输入表示的角度出发,将这些方法分为基于词、基于字和基于字

词混合的三类模型,并分别对它们进行介绍。
[0008]基于词的NER模型
[0009]基于词的中文命名实体识别模型需要先对输入文本进行分词,然后将分词结果作为输入输入到命名实体识别模型中,再利用不同的算法进行实体标注和分类。Collobert提出了第一个基于词的命名实体识别模型,它构建了一个统一的卷积神经网络架构,可以同时处理多种自然语言处理任务,如词性标注、语义角色标注、命名实体识别等。这个架构还利用了无标注文本来学习一个语言模型,这是一种新的半监督学习方式。Hovy等人通过结合双向LSTM、CNN和CRF来进行序列标注任务。Lample等人使用长短期记忆网络(LSTM)代替CNN进行特征提取。Chen等人提出了BiLSTM

CRF模型,并取得了良好的性能效果。当上述模型应用于中文命名实体识别时,作为模型输入,对中文进行分词是必须的,所以都会遭受分词错误的影响。
[0010]基于字的NER模型
[0011]与基于词的模型不同,基于字的模型无需对文本分词,而是直接以单字为输入。这样可以减少分词错误带来的负面影响,并且通常能够提升模型性能。Cui等人提出了一种基于BART的模板化NER模型,通过N

Gram方法构建候选实体,然后将其与手工模板拼接,使用BART对其打分,从而预测出实体类别。Kenton介绍了一种基于BERT的NER模型,通过在BERT输出层添加一个CRF层来进行序列标注,同时使用BIOES标签体系来表示实体边界和类型。Strubell等人为充分利用GPU的并行性,提出了迭代扩张卷积神经网络ID

CNNs,该模型由四个结构相同的Dilated CNN模块拼接在一起,在保持识别准确性的同时,速度相较于BiLSTM

CRF提升了八倍。Li等人通过在词之间插入边界符,巧妙地将词的边界信息融入模型,解决了词的OOV问题。基于字符的命名实体识别虽然往往优于基于词的方法,但是它忽略了词汇信息,而词汇信息对于确定实体边界非常重要。
[0012]基于字

词混合的NER模型
[0013]由于缺乏足够的中文命名实体识别标注数据资源,因此如何在基于字符的模型中引入词汇信息成为近年来NER任务研究的重点。在一些中文命名实体识别任务上,使用词汇信息的方法可以媲美甚至优于大语料预训练模型BERT。
[0014]Peng等人首次将中文命名实体识别任务和中文分词任务进行联合训练,在社交媒体数据的NER任务中效果获得了显著提升。Gui等人使用卷积神经网络来并行处理所有句子和词汇,并提出一种反思机制,通过添加反馈层并反馈高层特征,细化嵌入词汇权重,来解决潜在词汇冲突的问题。Xuan等人提出了一种新的CNN结构CGS

CNN,它不仅可以获取字形信息,还可以通过融合机制捕获语境和字形之间潜在交互知识。Liu等人提出将外部词典知识与BERT模型结合,通过Lexicon Adapter层直接将外部词典知识融合到BERT层中。Zhang等人首先提出了一种基于格的长短期记忆网络(Lattice

LSTM)模型,它在LSTM

CRF的基础上,通过有向无环图来连接单词开始和结束字符之间的存储单元,从而利用词汇信息,在多个中文数据集上都达到了当时最优的效果。但Lattice LSTM中每个字符只能获取以它为结尾的词汇,且数量是不固定的,导致信息损失和运行效率低下。Liu等人对其进行改进,提出了WC

LSTM,通过固定模型输入大小和丰富词汇信息,加快了模型训练速率,弥补了词汇信息损失问题。

技术实现思路

[0015]虽然WC

LSTM在Lattice

LSTM基础上已经取得了很大的进步,但其依然没有充分
利用词汇信息。如附图1所示,“天”字在第二层LSTM融入了“天安门”词汇信息,“门”字在第一层LSTM融入了“天安门”词汇信息,皆对该字符标签的正确预测产生了积极影响,而由于WC

LSTM模型并不会对存在于词汇中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于字词融合的低词汇信息损失中文命名实体识别方法,分为输入嵌入生成、LSTM编码和CRF序列标记三部分,其特征在于:输入嵌入的生成包含以下四个步骤:(1)用户输入一条语句,表示为S={c1,c2,...,c
n
},S表示整个语句,c
i
表示其中的第i个字符,通过查找字符嵌入查找表,获取每个c
i
的嵌入表示具体可表示为:其中t
c
表示一张字符嵌入查找表,它提供了大量单字的向量表示;(2)获取字符c
i
需要融入的词汇,分为三类词汇信息,以c
i
为开头的词汇、以c
i
为结尾的词汇和以c
i
为中间字符的词汇;(3)对于任一词汇其向量表示为:其中t
w
表示一张词嵌入查找表,它提供了大量词的向量表示,不同字符分配到的词汇数量各不相同,表示c
i
融入的词汇数量是为了统一模型输入大小,将一个批次中每个字符的通过padding扩充至最终分配给c
i
的所有词汇的嵌入表示为的所有词汇的嵌入表示为(4)对词汇嵌入选用一种编码策略来提取固定大小的词汇信息,字符嵌入和词汇嵌入级联作为LSTM的输入;LSTM编码包含以下两个步骤:(5)LSTM拥有三种类型的门结构:遗忘门、输入门和输出门,计算输入因子i
j
、输出因子o
j
和遗忘因子f
j
,其内部计算过程如下:,其内部计算过程如下:h
j
=o
j
·
tanh(c
j
)W
T
是权值,b是偏置向量,σ表示sigmoid激活函数;(6)由于单向LSTM只能利用过去的信息,而双向LSTM可以同时利用过去和未来的信息来进行预测,这样可以提高预测的准确性和鲁棒性,因此模型使用了双向LSTM,其隐藏状态输出h
j
为两层LSTM隐藏状态输出的连接,表示为:CRF序列标记包含以下三个步骤:(7)CRF的输入包括LSTM输出的概率矩阵和特征函数,对于LSTM的输出h
i
,将它投射到线性层进行维度映射,然后使用softmax进行分类,便能得到字符对应于不同标签的分数,令H={h1,h2,...,h
n
}:E=wH+bE=softmax(E)E则为概率矩阵,特征函数有两个,第一个即为发射分数E
y
,第二个为转移分数T
y
,设某一预测序列为y={x1,x2,...x
n
},},E
y
为发射分数,表示字符被预测为标签x
i
的分数,T
y
为转移分数,表示标签x
i
的下一个标签为x
j
的分数,概率越高则分数越高,在模型训练之前,可以随机初始化转移矩阵的
分数,这些分数将随着训练的迭代过程被更新;(8)接下来,...

【专利技术属性】
技术研发人员:关东海郭志强袁伟伟
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1