【技术实现步骤摘要】
一种多模态信息选择性融合的中文命名实体识别方法
[0001]本专利技术涉及一种中文命名实体识别方法,具体涉及一种选择性融合了词汇、字音和字形等多模态信息的中文命名实体识别方法,属于自然语言处理
技术介绍
[0002]命名实体识别(Named Entity Recognition,NER)技术,旨在从给定的文本序列中检测实体提及的边界并判断其所属类别。该技术是机器翻译、问答系统和阅读理解等多项自然语言处理下游任务的基础。NER的研究难点主要在于中文文本的语义分析困难,表现在词汇信息融合困难、汉字语义信息的引入困难等方面。
[0003]不同于英文文本,中文的单词之间没有空格作为边界,而单个字所能表示的语义有限。因此,如何将词汇信息融入到模型中,成为多项中文自然语言处理任务的研究热点。
[0004]在中文命名实体识别任务上,为了充分利用语义更为丰富的词汇信息,技术人员设计了基于自动分词器、多字符表示和外部词典等多种资源的神经网络模型。其中,以流水线方式作业的分词
‑
实体识别框架受限于中文分词的正确性,在低资源领域表现较差。而多字符表示蕴含了字符间的共现信息,在一定程度上补充了上下文语境信息,但多数多字符组合并不具备实际的词义,无法很好地模拟词汇信息。
[0005]为了避免分词器的错误传播问题和多字符表示的语义不足的问题,将外部词典与字粒度NER模型结合,成为了目前主流的词信息融合方式。其中, Lattice
‑
LSTM将输入文本中所有潜在的匹配词信息注入 ...
【技术保护点】
【技术特征摘要】
1.一种多模态信息选择性融合的中文命名实体识别方法,其特征在于,首先,将原文本使用词典匹配方法获取单词的语义信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息;然后,对于文本的每一个字符,使用CNN网络来提取汉字的拼音和偏旁部首信息;当得到汉字的字音Pinyin、字形Radical和语义Lattice信息后,使用Cross Transformer来增强Lattice与Pinyin、Lattice与Radical的语义信息;之后,采用选择性融合方式集成这些向量,包括字符粒度、句子粒度两个层面的融合信息;最后,对单词部分进行屏蔽,将融合后的信息传递给条件随机场,得到最终的标签预测概率,从而完成中文命名实体识别。2.如权利要求1所述的一种多模态信息选择性融合的中文命名实体识别方法,其特征在于:获取语义Lattice信息的方法为:首先,使用词典匹配方法获取汉字的语义信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息;然后,使用预先训练好的词向量初始化获取Lattice Embedding;获取字音Pinyin信息,包括汉字的声母韵母和音调,将每个汉字的拼音按照声母、韵母、音调顺序组合,然后按照式1输入到CNN卷积网络中进行Embedding表示:x
i
=f(w
·
e
i:i+h
‑1+b)
ꢀꢀꢀꢀ
(1)其中,w、b为卷积层参数,h为卷积核宽度,x
i
为文本中第i个字符拼音经过卷积层后的表示,e表示字符的初始化表示,f为激活函数;获取字形信息,将汉字结构主体作为汉字的偏旁部首,首先爬取汉字的结构主体,将汉字的结构主体进行顺序组合,然后利用CNN编码为Radical Embedding表示。3.如权利要求1所述的一种多模态信息选择性融合的中文命名实体识别方法,其特征在于,使用Cross Transformer来增强Lattice与Pinyin、Lattice与Radical的语义信息的方法如下:基于Cross
‑
Transformer的交互嵌入,包括Embedding向量初始化和Embedding交互嵌入;步骤a:Embedding向量初始化;根据汉字的Lattice、Pinyin和Radical Embedding,通过一个线性Transformer模块,得到Cross
‑
Transformer的输入:其中,E
P
、E
R
是汉字Lattice、Pinyin和Radical Embedding;I为单位矩阵,每一个线性映射矩阵W均为可学习参数;L1、L2分别表示与Pinyin和Radical做交互计算的Lattice1和Lattice2;P表示Pinyin,R表示Radical;T表示矩阵的转置;Q、K、V分别表示Cross
‑
Transformer的三个输入Embedding;步骤b:Embedding交互嵌入,得到Cross
‑
Transformer的输入;之后,使用Cross
‑
Transformer网络进行Lattice与Pinyin、Lattice与Radical的交互嵌入计算:Att
P
(Q
L1
,K
P
,V
P
)=Softmax(Q
L1
,K
P
)V
P
ꢀꢀꢀꢀ
(3)Att
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。