一种基于文本-图片关系预训练的多模态推文命名实体识别的方法技术

技术编号:27125356 阅读:22 留言:0更新日期:2021-01-25 19:43
本发明专利技术涉及一种基于文本

【技术实现步骤摘要】
一种基于文本-图片关系预训练的多模态推文命名实体识别的方法


[0001]本专利技术属于推文命名识别领域,主要涉及基于关系推断和视觉注意的预训练多模态网络 (RIVA),并使用教师-学生半监督范式对大型无标记多模态语料库进行文本-图像关系分类。

技术介绍

[0002]推特等社交媒体已成为许多人日常生活的一部分。它是开放域事件抽取,社交知识图谱 等各种应用的重要数据来源,而推文的命名实体识别则是这些任务的第一步。命名实体识别 (NER)在新闻文章上取得了出色的表现。但是,由于推文消息简短,可用于推理的上下文不足, 在推特上做的命名实体识别结果仍然不能令人满意。
[0003]为了克服这个问题,近来有研究人员从多模态角度出发,发现了视觉信息与语言信息有 内在关联性。于是他们试图利用注意力机制关联视觉与文本信息,来增强文本的上下文信息, 以获得更好的推理效果。Zhang等人在Thirty-Second AAAI Conference on ArtificialIntelligence上的Adaptive co-attention network for named entity recognition intweets中设计了适应性共同注意网络层,利用一个门控多模态融合模块学习融合向量的视觉 和语言特征,同时他们还提出了一个多模态推文数据集,我们称为复旦大学的多模态推文数 据集;把Zhang等人的视觉语言模型简称为ACN,ACN采用滤波门来判断融合特征是否有助于 提高各特征的标注精度。Lu等人在Proceedings of the 56th Annual Meeting of theAssociation for Computational Linguistics上的Visual attention model for nametagging in multimodal social media中提出了一种视觉注意模型,用于寻找与文本内容相 关的图像区域,同时还提出了一个多模态命推文数据集,我们称为Snap Research的MNERTwitter数据集;把Lu等人的视觉语言模型简称为VAM,VAM通过文本查询向量和区域视觉 表示的线性投影来计算图像区域的关注权值并给出了一系列视觉注意实例。成功的视觉注意 示例中可以看到文本的实体在图像中对应出现;失败的视觉注意示例中可以看到图片中的对 象与文本中的实体没有关系。往前的视觉语言模型工作大多是建立在图像与文本有相关性这 个假设上,忽略了图像可能与图片没有关系的情况。Vempala等人在In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics上的 Categorizing and inferring the relationship between the text and image of twitterposts中,根据图像是否增加了推文的含义这个标准对彭博数据集上进行了分类统计;他们 得出的结论是图文无关的类型约占所有图文对的56%。Huetal等人于2017年在IEEETransactions on Multimedia上提出Twitter100k:A real-world dataset for weaklysupervised cross-media retrieval,我们测试大型无标记语料库-推特100k后发现图文无关 的比例可以达到60%,与Vempala等人发现的结果类似;这证实了推文中的文本和图像并不 总是相关的,如果强行将无关的图文对关联起来,就有可能引入错误的信息,降低视觉语言 模型的性能。因此,
往前的多模态融合方法不能很好解决当文本遇到不相关的视觉线索时产 生的负面影响。
[0004]综上所述,提出一种基于文本-图片关系预训练的多模态推文命名实体识别的方法,就显 得尤为重要。

技术实现思路

[0005]本专利技术的目的是克服现有技术中的不足,提供一种基于文本-图片关系预训练的多模态推 文命名实体识别的方法。
[0006]这种基于文本-图片关系预训练的多模态推文命名实体识别的方法,包括以下步骤:
[0007]步骤1、大规模数据收集:将推特100k数据集用作大型的未标记多模式语料库;将彭博 文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系,并按照 固定比例将彭博文本-图像关系数据集划分为训练集和测试集;并选用复旦大学的多模态推文 数据集和Snap Research的MNER Twitter数据集作为数据基础;
[0008]步骤2、建立关系推断和视觉注意的预训练多模态网络模型(RIVA模型),关系推断和视 觉注意的预训练多模态网络模型包括:文本-图像关系门控网络(RGN)、注意力导向的视觉上 下文网络(VCN)和视觉语言上下文网络(VLCN);
[0009]步骤3、预训练任务;
[0010]步骤4、将预训练多模态网络模型(RIVA模型)用于多模态NER任务:使用biLSTM-CRF 模型作为命名实体识别的基准模型来测试预训练多模态模型;将词嵌入e
k
输入biLSTM网络, 条件随机场(CRF)使用每个词嵌入e
k
的biLSTM隐藏向量h
t
来标记带有实体标签的序列;使 用预训练多模态网络模型(RIVA模型)时,输入文本图像对后,将视觉语言上下文网络(VLCN) 中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时,将词嵌入e
k
替换成
[0011]作为优选,步骤2具体包括如下步骤:
[0012]步骤2.1、建立文本-图像关系门控网络(RGN):用基于语言和视觉特征融合的全连接层 来完成文本-图像关系分类;从biLSTM(双向LSTM网络)网络中学习推文的语言特征;
[0013]步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络,然后把bilSTM网 络的前向输出和后向输出串联起来作为编码后的文本向量其中d
t
为文本向量 f
t
的维度大小,1
×
dt为文本向量f
t
所属的向量空间大小;
[0014]步骤2.1.2、使用ResNet从图像中提取视觉特征f
v
;根据ResNet中最后一个卷积层的 输出尺寸,在固定区域上使用平均池,并将整个图像表示为固定维数的向量f
v

[0015]步骤2.1.3、最后将编码后的文本向量和图像向量做点乘f
t

f
v
,然后输入到FC层和 softmax层,获得二分类和视觉上下文门控的分数s
G

[0016]步骤2.2、建立注意力导向的视觉上下文网络(VCN);
[0017]步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于,包括以下步骤:步骤1、大规模数据收集:将推特100k数据集用作未标记多模式语料库;将彭博文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系,并按照固定比例将彭博文本-图像关系数据集划分为训练集和测试集;并选用复旦大学的多模态推文数据集和Snap Research的MNER Twitter数据集作为数据基础;步骤2、建立关系推断和视觉注意的预训练多模态网络模型,关系推断和视觉注意的预训练多模态网络模型包括:文本-图像关系门控网络、注意力导向的视觉上下文网络和视觉语言上下文网络;步骤3、预训练任务;步骤4、将预训练多模态网络模型用于多模态NER任务:使用biLSTM-CRF模型作为命名实体识别的基准模型来测试预训练多模态模型;将词嵌入e
k
输入biLSTM网络,条件随机场使用每个词嵌入e
k
的biLSTM隐藏向量h
t
来标记带有实体标签的序列;使用预训练多模态网络模型时,输入文本图像对后,将视觉语言上下文网络中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时,将词嵌入e
k
替换成2.根据权利要求1所述基于文本-图片关系预训练的多模态推文命名实体识别的方法,其特征在于:步骤2具体包括如下步骤:步骤2.1、建立文本-图像关系门控网络:用基于语言和视觉特征融合的全连接层来完成文本-图像关系分类;从biLSTM网络中学习推文的语言特征;步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络,然后把bilSTM网络的前向输出和后向输出串联起来作为编码后的文本向量其中d
t
为文本向量f
t
的维度大小,1
×
d
t
为文本向量f
t
所属的向量空间大小;步骤2.1.2、使用ResNet从图像中提取视觉特征f
v
;根据ResNet中最后一个卷积层的输出尺寸,在固定区域上使用平均池,并将整个图像表示为固定维数的向量f
v
;步骤2.1.3、最后将编码后的文本向量和图像向量做点乘f
t

f
v
,然后输入到FC层和softmax层,获得二分类和视觉上下文门控的分数s
G
;步骤2.2、建立注意力导向的视觉上下文网络;步骤2.2.1、设为给定图像的区域视觉特征,其中i=1,...,m,j=1,...n,r为区域特征,d
v
为维度大小,m
×
n
×
d
v
为ResNet中最后一个卷积层的输出尺寸,m
×
n为图像中的区域个数;步骤2.2.2、使用缩放点乘注意力来捕捉与语言语境相关的局部视觉特征,缩放点乘注意力的定义为:上式中,矩阵Q、矩阵K和矩阵V分别代表查询、键和值;d
k
是键的维数;
步骤2.2.3、使用语言查询向量Q
s
=f
t
作为查询,区域视觉特征V
r
作为键和值;通过线性投影将语言查询向量Q
s
和区域视觉特征V
r
转化为同一维度:和步骤2.2.4、计算语言注意力其中Q
s
为语言查询向量,为转化维度后的语言查询向量Q
s
,为转化维度后的区域视觉特征V
r
;并将单路注意扩展到多路注意力;将局部视觉上下文V
c
的输出定义为:的输出定义为:上式(2)至式(3)中,Q
s
为语言查询向量,为转化维度后的语言查询向量Q
s
,为转化维度后的区域视觉特征V
r
,V
c
为局部视觉上下文,head
i
为局部视觉上下文的输出,i=1,...,h,h为局部视觉上下文输出的总个数;步骤2.3、建立视觉语言上下文网络,使用biLSTM网络在推特100k数据集上学习视觉语言上下文嵌入;步骤2.3.1、首先给定一个视觉向量和一个长度为T的序列{w
t
},t=1,...,T,其中s

【专利技术属性】
技术研发人员:翁芳胜孙霖王跻权孙宇轩
申请(专利权)人:浙大城市学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1