一种多模态语义协同交互的图文联合命名实体识别方法技术

技术编号:35912901 阅读:17 留言:0更新日期:2022-12-10 10:53
本发明专利技术针对现有命名实体识别方法主要聚焦于文本数据的实体识别,忽略了现存的大量图片、文本等多模态数据具有语义互补性,提出了一种多模态语义协同交互的图文联合命名实体识别方法,建立了多模态语义协同交互的图文联合命名实体模型(Image

【技术实现步骤摘要】
一种多模态语义协同交互的图文联合命名实体识别方法


[0001]本专利技术属于知识挖掘和知识管理
,具体涉及一种多模态语义协同交互的图文联合命名实体识别方法。

技术介绍

[0002]随着自媒体的广泛应用,致使互联网上的海量数据呈现图像、文本、视频等多模态交融态势,这些数据具有语义互补性,因此,多模态数据的知识抽取和应用成为研究热点,作为基础任务的多模态命名实体识别(multimodal named entity recognition,MNER)方法得到广泛关注。
[0003]MNER领域的初期工作旨在将图像信息利用起来以提升命名识别识别的效果,通过将单词与图像区域进行对齐的方式,获取与文本相关的有效视觉上下文。Diego首次在MNER任务中使用了视觉信息,将图文联合命名实体识别带入研究者的视野。其后Zhang等人提出了一种基于双向LSTM模型(BiLSTM)和共注意力机制的自适应共注意网络,这是首个在MNER研究上有突出表现的工作。同年Moon、Lu等人也相继提出自己的MNER方法,前者提出了一个通用的注意力模块用于自适应地降低或增强单词嵌入、字符嵌入和视觉特征权重,后者则提出了一个视觉注意模型,以寻找与文本内容相关的图像区域。在之前工作中仅用单个单词来捕捉视觉注意,该方式对视觉特征的利用存在不足,Arshad等人将自注意机制扩展到捕获两个词和图像区域之间的关系,并引入了门控融合模块,从文本和视觉特征中动态选择信息。但是在MNER中融合文本信息和图像信息时,图像并不是总是有益的,如在Arshad和Lu的工作中均提及了不相关图像所带来的噪声问题,因此如何在MNER中减小无关图像的干扰开始成为研究者的研究重点。
[0004]Meysam扩展设计了一个多模态bert来学习图像和文本之间的关系。Sun等人提出了一种用于预测图文相关性的文本图像关系传播模型,其可以帮助消除模态噪声的影响。为了缓解视觉偏差的问题,Yu等人在其模型中加入了实体跨度检测模块来指导最终的预测。而Liu等人则结合贝叶斯神经网络设计了一种不确定性感知的MNER框架,减少无关图像对实体识别的影响。Tian Y等提出了多头层次注意(MHA)来迭代地捕获不同表示子空间中更多的跨模态语义交互。上述方法学习了粗粒度的视觉对象与文本实体之间的关系。但粗粒度特征可能会忽略了细粒度视觉对象与文本实体之间的映射关系,进而导致不同类型实体的错误检测。为此,一些研究开始采用探索细粒度的视觉对象与文本实体之间的关系。Zheng等人提出了一种对抗性门控双线性注意神经网络(AGBAN),将文本和图像的不同表示映射为共享表示。Wu等提出了一种针对细粒度交互的密集协同注意机制,它将对象级图像信息和字符级文本信息相结合来预测实体。Zhang
[14]提出了一种多模态图融合方法,充分利用了不同模态语义单元之间的细粒度语义。除了直接利用图像的原始信息,一些额外信息加入也有益于MNER任务,如Chen等人在其模型中引入了图像属性和图像知识,Chen等人则研究了使用图像的描述作为丰富MNER的上下文的一种方法。
[0005]虽然上述技术,都能实现MNER任务,然而,MNER仍面临两个问题:一是无关的图像
信息带来的噪声干扰,二是图文语义交互中有效语义信息的丢失。

技术实现思路

[0006]针对上述存在的问题,本专利技术提出了一种多模态语义协同交互的图文联合命名实体识别方法,其引入图像描述以增强视觉数据的特征表示,建立多注意力机制耦合的多模态协同交互模块,通过多个跨模态注意力机制实现模态间语义的充分交互并过滤错误图像带来的噪声信息,实现图文联合下命名实体的有效识别。
[0007]实现本专利技术目的的技术解决方案为:
[0008]一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,包括以下步骤:
[0009]步骤1:数据采集
[0010]获取互联网上的推文数据信息,将推文数据表示为图文对集合:
[0011][0012]其中,I为图像、S为文本,N为图像

文本数;
[0013]步骤2:建立多模态语义协同交互的图文联合命名实体模型
[0014]该模型包括多模态特征表示网络和多模态协同交互与序列标注网络,其中多模态特征表示网络用于对图文对进行特征抽取表示,多模态协同交互与序列标注网络用于实现不同特征的语义交互,减少视觉偏差;
[0015]步骤3:将推文数据信息输入到多模态语义协同交互的图文联合命名实体模型中,得到得到最终的命名实体识别的标注结果;
[0016]步骤4:根据标注结果实现推文数据的多模态命名实体识别。
[0017]进一步地,步骤2的具体建立步骤包括:
[0018]步骤2.1:建立多模态特征表示网络
[0019]步骤2.1.1:将数据集D中的数据进行预处理,对每个输入的文本进行标记处理,得到文本的标记表示向量E;
[0020]步骤2.1.2:将文本的标记表示向量E输入到ALBERT模型,进行文本特征提取,得到文本特征T:
[0021]T=ALBERT(E)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0022]其中,T=[T0,T1,T2,...,T
n+1
]为ALBERT模型的输出向量,]为ALBERT模型的输出向量,为E
i
生成的上下文感知特征表示,d是向量的维数;
[0023]步骤2.1.3:对数据集D中的图像和图像描述进行特征提取,得到视觉块特征以及图像描述特征;
[0024]步骤2.2:建立多模态协同交互与序列标注
[0025]步骤2.2.1:基于文本特征、视觉块特征和图像描述特征获取文本隐藏层表示、图像隐藏层表示和图像描述隐藏层表示;
[0026]步骤2.2.2:基于多头跨模态注意力机制,利用图像描述隐藏层表示进行文本融合,最终得到描述感知文本表示;
[0027]步骤2.2.3:利用图像与描述感知文本做跨模态注意力,最终得到该跨模态注意力
层生成的图像感知文本表示;
[0028]步骤2.2.4:基于动态视觉门控,得到文本感知视觉表示;
[0029]步骤2.3:将图像感知文本表示与文本感知视觉表示进行拼接,得到图像与文本最终融合的隐藏层表示;
[0030]步骤2.4:将得到的图像与文本最终融合的隐藏层表示转化为最佳标记序列y=(y0,y1,...,y
n+1
),并增加CRF层标记全局最优序列;
[0031]步骤2.5:利用随机梯度下降学习算法训练参数θ,基于参数θ用维特比算法求得所有序列上打分最高的序列,并将其作为最终的命名实体识别的标注结果y
*

[0032][0033]其中,A为图像与文本最终融合的隐藏层表示。
[0034]进一步地,步骤2.1.1的具体操作步骤包括:
[0035]步骤2.1.1.1:对输入的文本S中不存在的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,包括以下步骤:步骤1:数据采集获取互联网上的推文数据信息,将推文数据表示为图文对集合:其中,I为图像、S为文本,N为图像

文本数;步骤2:建立多模态语义协同交互的图文联合命名实体模型该模型包括多模态特征表示网络和多模态协同交互与序列标注网络,其中多模态特征表示网络用于对图文对进行特征抽取表示,多模态协同交互与序列标注网络用于实现不同特征的语义交互,减少视觉偏差;步骤3:将推文数据信息输入到多模态语义协同交互的图文联合命名实体模型中,得到得到最终的命名实体识别的标注结果;步骤4:根据标注结果实现推文数据的多模态命名实体识别。2.如权利要求1所述的一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,步骤2的具体建立步骤包括:步骤2.1:建立多模态特征表示网络步骤2.1.1:将数据集D中的数据进行预处理,对每个输入的文本进行标记处理,得到文本的标记表示向量E;步骤2.1.2:将文本的标记表示向量E输入到ALBERT模型,进行文本特征提取,得到文本特征T:T=ALBERT(E)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,T=[T0,T1,T2,...,T
n+1
]为ALBERT模型的输出向量,为E
i
生成的上下文感知特征表示,d是向量的维数;步骤2.1.3:对数据集D中的图像和图像描述进行特征提取,得到视觉块特征以及图像描述特征;步骤2.2:建立多模态协同交互与序列标注步骤2.2.1:基于文本特征、视觉块特征和图像描述特征获取文本隐藏层表示、图像隐藏层表示和图像描述隐藏层表示;步骤2.2.2:基于多头跨模态注意力机制,利用图像描述隐藏层表示进行文本融合,最终得到描述感知文本表示;步骤2.2.3:利用图像与描述感知文本做跨模态注意力,最终得到该跨模态注意力层生成的图像感知文本表示;步骤2.2.4:基于动态视觉门控,得到文本感知视觉表示;步骤2.3:将图像感知文本表示与文本感知视觉表示进行拼接,得到图像与文本最终融合的隐藏层表示;步骤2.4:将得到的图像与文本最终融合的隐藏层表示转化为最佳标记序列y=(y0,y1,...,y
n+1
),并增加CRF层标记全局最优序列;步骤2.5:利用随机梯度下降学习算法训练参数θ,基于参数θ用维特比算法求得所有序
列上打分最高的序列,并将其作为最终的命名实体识别的标注结果y
*
:其中,A为图像与文本最终融合的隐藏层表示。3.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,步骤2.1.1的具体操作步骤包括:步骤2.1.1.1:对输入的文本S中不存在的字符使用[UNK]替代;步骤2.1.1.2:在文本S中的每个句子的开头和结尾分别插入特殊标记[CLS]和[SEP],得到文本S的标记表示向量E。4.如权利要求2所述的一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,步骤2.1.3的具体操作步骤包括:步骤2.1.3.1:将输入的图像缩放为224
×
224像素大小,并通过随机剪切和归一化对图像进行预处理;步骤2.1.3.2:将预处理后的图像输入101层的Res2Net

101网络,进行特征提取和表示,最终得到特征抽取后的视觉块特征U:U=Res2Net(I),I∈D
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,I表示预处理后的图像;步骤2.1.3.3:将视觉块特征U进行线性转换得到V:其中,是一个权重矩阵;步骤2.1.3.4:将V输入图像描述生成模型得到图像描述,再将图像描述输入到ALBERT模型中,得到图像描述特征表示。5.如权利要求4所述的一种多模态语义协同交互的图文联合命名实体识别方法,其特征在于,步骤2.1.3.4所述的图像描述生成模型包括编码器和解码器,解码器中设有多个LSTM单元,其将输入的图像的特征信息向量V输入到LSTM中得到LSTM的隐层状态向量h
i
=R
d
,先通过式(5)计算输入图像的注意力权重值c
i
:再经过softmax层得到注意力权重a
i
:其中,W
c,V
∈R
k
×
g
,W
c,h
∈R
k
×
d
,W
a,V
∈R
k

【专利技术属性】
技术研发人员:王海荣钟维幸
申请(专利权)人:北方民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1