一种多模态信息选择性融合的中文命名实体识别方法技术

技术编号:35681931 阅读:18 留言:0更新日期:2022-11-23 14:24
本发明专利技术涉及一种多模态信息选择性融合的中文命名实体识别方法,属于自然语言处理技术领域。本发明专利技术有效解决了如何将字音和字形这两个重要信息有效融入命名实体识别中,通过在命名实体识别的输入中,加入携带语义信息的字符的拼音与偏旁部首序列,赋予了向量更强的语义信息。采用选择性融合,能够动态地控制字音和字形特征所占的权重,有效提升了命名实体识别性能。本发明专利技术能够为机器翻译、问答系统和阅读理解等自然语言处理任务提供有效支持。理解等自然语言处理任务提供有效支持。理解等自然语言处理任务提供有效支持。

【技术实现步骤摘要】
一种多模态信息选择性融合的中文命名实体识别方法


[0001]本专利技术涉及一种中文命名实体识别方法,具体涉及一种选择性融合了词汇、字音和字形等多模态信息的中文命名实体识别方法,属于自然语言处理


技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)技术,旨在从给定的文本序列中检测实体提及的边界并判断其所属类别。该技术是机器翻译、问答系统和阅读理解等多项自然语言处理下游任务的基础。NER的研究难点主要在于中文文本的语义分析困难,表现在词汇信息融合困难、汉字语义信息的引入困难等方面。
[0003]不同于英文文本,中文的单词之间没有空格作为边界,而单个字所能表示的语义有限。因此,如何将词汇信息融入到模型中,成为多项中文自然语言处理任务的研究热点。
[0004]在中文命名实体识别任务上,为了充分利用语义更为丰富的词汇信息,技术人员设计了基于自动分词器、多字符表示和外部词典等多种资源的神经网络模型。其中,以流水线方式作业的分词

实体识别框架受限于中文分词的正确性,在低资源领域表现较差。而多字符表示蕴含了字符间的共现信息,在一定程度上补充了上下文语境信息,但多数多字符组合并不具备实际的词义,无法很好地模拟词汇信息。
[0005]为了避免分词器的错误传播问题和多字符表示的语义不足的问题,将外部词典与字粒度NER模型结合,成为了目前主流的词信息融合方式。其中, Lattice

LSTM将输入文本中所有潜在的匹配词信息注入到单字表示中,在多个领域的中文NER数据集上取得了性能提升,同时,该研究带动了词表信息融合的研究热潮。特别地,PLTE和FLAT基于Transformer框架分别设计了两种词信息融合方式。PLTE以transformer encoder为基础,能够并行地批量处理对所有字符和匹配的词典词信息的建模。除此之外,它还添加了位置关系表示,引进了一种多孔机制增强局部性的建模和维持捕捉长期依赖的能力,赋予了字向量更丰富的语义信息,在多个数据集上均取得了性能提升。FLAT则是将与当前输入文本匹配的所有潜在词拼接到输入文本之后,将原始的单字序列输入文本扩展为字词序列,即将栅格结构展平为跨度,进而基于Transformer的自注意力机制和跨度的相对位置编码,使每个字符能够直接与潜在匹配词交互,从而提升 NER模型性能。MECT则在FLAT基础之上,针对汉字是象形文字的特点,将带有汉字语义信息的Radical(偏旁部首)也融入到字向量中,并使用了一个 Cross

Transformer网络模块来交互式的融合Lattice embedding与Radical embedding以增强语义信息。
[0006]尽管有以上各种工作来融入词汇以及增强语义信息,但是,中文的字音和字形是两个非常重要的信息,它们在语言理解任务中携带了重要的句法和语义信息。到目前为止,还没有方法将这两个重要信息完整的融入到NER方法中。

技术实现思路

[0007]本专利技术的目的是针对当前的NER工作往往会忽略汉字中的字音和字形两个重要信
息,为了解决如何将字音和字形这两个重要信息有效融入NER方法中的技术问题,创造性地提出一种多模态信息选择性融合的中文命名实体识别方法。能够更好地动态融合字符、字音和字形三者之间的语义信息。
[0008]本专利技术的创新点在于:在NER(命名实体识别)的输入中,加入携带语义信息的字符的拼音与偏旁部首序列。使用CNN(Convolutional Neural Network) 网络对汉字的字音(Pinyin,也就是拼音),以及字形(Radical,也就是偏旁部首)进行编码,再经过Cross

Transformer网络的交互式嵌入之后,采用选择性融合,能够动态的生成不同模态信息的融合权重。
[0009]首先,将原文本使用词典匹配方法获取单词的语义(Lattice)信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息。
[0010]然后,对于文本的每一个字符,使用CNN网络来提取汉字的拼音和偏旁部首信息。当得到汉字的字音(Pinyin)、字形(Radical)和语义(Lattice)信息之后,使用Cross Transformer来增强Lattice与Pinyin、Lattice与Radical的语义信息。
[0011]之后,采用选择性融合方式集成这些向量。
[0012]最后,对单词部分进行屏蔽,并将融合后的信息传递给条件随机场,得到最终的标签预测概率,从而完成中文命名实体识别。
[0013]有益效果
[0014]本专利技术,对比现有技术,具有以下优点:
[0015]1.本方法在融入词汇信息基础之上,加入了携带重要语义信息的字音和字形信息,赋予了向量更强的语义信息,并且设计的选择性融合模块可以动态集成各模态信息,有效提升了命名实体识别的效果。
[0016]2.本专利技术使用了选择性融合方式,能够动态地控制字音和字形信息所占的权重,能够有效提升命名实体识别性能。为机器翻译、问答系统和阅读理解等自然语言任务提供有效支持。
附图说明
[0017]图1是本专利技术方法总体架构图;
[0018]图2是本专利技术方法步骤1以及实施例的模型Lattice Embedding构造图;
[0019]图3是本专利技术方法步骤1以及实施例的模型Pinyin和Radical Embedding构造图;
[0020]图4是本专利技术方法步骤2以及实施例的Cross

Transformer网络图;
[0021]图5是本专利技术方法步骤3以及实施例的选择性融合层。
具体实施方式
[0022]下面结合附图和实施例,对本专利技术方法做进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本专利技术,并不用于限定本专利技术。
[0023]本专利技术的目的是通过以下技术方案实现的:
[0024]一种多模态信息选择性融合的中文命名实体识别方法,包括以下步骤:
[0025]步骤1:多模态信息输入。
[0026]获取汉字的语义(Lattice)信息、字音(Pinyin)信息和字形(Radical)信息。
[0027]步骤1

1:语义信息获取。
[0028]首先,使用词典匹配方法获取汉字的语义信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息。
[0029]然后,使用预先训练好的词向量初始化获取Lattice Embedding。
[0030]步骤1

2:字音信息获取。
[0031]获取汉字的字音(例如,可以使用python库工具pypinyin来获取),包括汉字的声母、韵母和音调。
[0032]将每个汉字的字音按照声母、韵母、音调顺序组合,然后按照式1输入到 CNN卷积网络中进行Embed本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态信息选择性融合的中文命名实体识别方法,其特征在于,首先,将原文本使用词典匹配方法获取单词的语义信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息;然后,对于文本的每一个字符,使用CNN网络来提取汉字的拼音和偏旁部首信息;当得到汉字的字音Pinyin、字形Radical和语义Lattice信息后,使用Cross Transformer来增强Lattice与Pinyin、Lattice与Radical的语义信息;之后,采用选择性融合方式集成这些向量,包括字符粒度、句子粒度两个层面的融合信息;最后,对单词部分进行屏蔽,将融合后的信息传递给条件随机场,得到最终的标签预测概率,从而完成中文命名实体识别。2.如权利要求1所述的一种多模态信息选择性融合的中文命名实体识别方法,其特征在于:获取语义Lattice信息的方法为:首先,使用词典匹配方法获取汉字的语义信息,并使用由头尾位置转换而来的相对位置编码来适应单词边界信息;然后,使用预先训练好的词向量初始化获取Lattice Embedding;获取字音Pinyin信息,包括汉字的声母韵母和音调,将每个汉字的拼音按照声母、韵母、音调顺序组合,然后按照式1输入到CNN卷积网络中进行Embedding表示:x
i
=f(w
·
e
i:i+h
‑1+b)
ꢀꢀꢀꢀ
(1)其中,w、b为卷积层参数,h为卷积核宽度,x
i
为文本中第i个字符拼音经过卷积层后的表示,e表示字符的初始化表示,f为激活函数;获取字形信息,将汉字结构主体作为汉字的偏旁部首,首先爬取汉字的结构主体,将汉字的结构主体进行顺序组合,然后利用CNN编码为Radical Embedding表示。3.如权利要求1所述的一种多模态信息选择性融合的中文命名实体识别方法,其特征在于,使用Cross Transformer来增强Lattice与Pinyin、Lattice与Radical的语义信息的方法如下:基于Cross

Transformer的交互嵌入,包括Embedding向量初始化和Embedding交互嵌入;步骤a:Embedding向量初始化;根据汉字的Lattice、Pinyin和Radical Embedding,通过一个线性Transformer模块,得到Cross

Transformer的输入:其中,E
P
、E
R
是汉字Lattice、Pinyin和Radical Embedding;I为单位矩阵,每一个线性映射矩阵W均为可学习参数;L1、L2分别表示与Pinyin和Radical做交互计算的Lattice1和Lattice2;P表示Pinyin,R表示Radical;T表示矩阵的转置;Q、K、V分别表示Cross

Transformer的三个输入Embedding;步骤b:Embedding交互嵌入,得到Cross

Transformer的输入;之后,使用Cross

Transformer网络进行Lattice与Pinyin、Lattice与Radical的交互嵌入计算:Att
P
(Q
L1
,K
P
,V
P
)=Softmax(Q
L1
,K
P
)V
P
ꢀꢀꢀꢀ
(3)Att

【专利技术属性】
技术研发人员:蔡佳豪张华平商建云
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1