一种基于文本-图片关系预训练的多模态推文命名实体识别的方法技术

技术编号：27125356 阅读：22 留言：0更新日期：2021-01-25 19:43

本发明专利技术涉及一种基于文本

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本-图片关系预训练的多模态推文命名实体识别的方法

[0001]本专利技术属于推文命名识别领域，主要涉及基于关系推断和视觉注意的预训练多模态网络 (RIVA)，并使用教师-学生半监督范式对大型无标记多模态语料库进行文本-图像关系分类。

技术介绍

[0002]推特等社交媒体已成为许多人日常生活的一部分。它是开放域事件抽取，社交知识图谱等各种应用的重要数据来源，而推文的命名实体识别则是这些任务的第一步。命名实体识别 (NER)在新闻文章上取得了出色的表现。但是，由于推文消息简短，可用于推理的上下文不足，在推特上做的命名实体识别结果仍然不能令人满意。
[0003]为了克服这个问题，近来有研究人员从多模态角度出发，发现了视觉信息与语言信息有内在关联性。于是他们试图利用注意力机制关联视觉与文本信息，来增强文本的上下文信息，以获得更好的推理效果。Zhang等人在Thirty-Second AAAI Conference on ArtificialIntelligence上的Adaptive co-attention network for named entity recognition intweets中设计了适应性共同注意网络层，利用一个门控多模态融合模块学习融合向量的视觉和语言特征，同时他们还提出了一个多模态推文数据集，我们称为复旦大学的多模态推文数据集；把Zhang等人的视觉语言模型简称为ACN，ACN采用滤波门来判断融合特征是否有助于提高各特征的标注精度。Lu等人在Proceedings ...

【技术保护点】

【技术特征摘要】
1.一种基于文本-图片关系预训练的多模态推文命名实体识别的方法，其特征在于，包括以下步骤：步骤1、大规模数据收集：将推特100k数据集用作未标记多模式语料库；将彭博文本-图像关系数据集中的图文关系合并成文本-图像相关关系和文本-图像无关关系，并按照固定比例将彭博文本-图像关系数据集划分为训练集和测试集；并选用复旦大学的多模态推文数据集和Snap Research的MNER Twitter数据集作为数据基础；步骤2、建立关系推断和视觉注意的预训练多模态网络模型，关系推断和视觉注意的预训练多模态网络模型包括：文本-图像关系门控网络、注意力导向的视觉上下文网络和视觉语言上下文网络；步骤3、预训练任务；步骤4、将预训练多模态网络模型用于多模态NER任务：使用biLSTM-CRF模型作为命名实体识别的基准模型来测试预训练多模态模型；将词嵌入e
k
输入biLSTM网络，条件随机场使用每个词嵌入e
k
的biLSTM隐藏向量h
t
来标记带有实体标签的序列；使用预训练多模态网络模型时，输入文本图像对后，将视觉语言上下文网络中每个嵌入的前向LSTM网络和后向LSTM网络的隐藏输出连接成为视觉语言上下文嵌入进行多模态NER任务时，将词嵌入e
k
替换成2.根据权利要求1所述基于文本-图片关系预训练的多模态推文命名实体识别的方法，其特征在于：步骤2具体包括如下步骤：步骤2.1、建立文本-图像关系门控网络：用基于语言和视觉特征融合的全连接层来完成文本-图像关系分类；从biLSTM网络中学习推文的语言特征；步骤2.1.1、将单词和单词的字符嵌入的串联联合输入biLSTM网络，然后把bilSTM网络的前向输出和后向输出串联起来作为编码后的文本向量其中d
t
为文本向量f
t
的维度大小,1
×
d
t
为文本向量f
t
所属的向量空间大小；步骤2.1.2、使用ResNet从图像中提取视觉特征f
v
；根据ResNet中最后一个卷积层的输出尺寸，在固定区域上使用平均池，并将整个图像表示为固定维数的向量f
v
；步骤2.1.3、最后将编码后的文本向量和图像向量做点乘f
t
⊙
f
v
，然后输入到FC层和softmax层，获得二分类和视觉上下文门控的分数s
G
；步骤2.2、建立注意力导向的视觉上下文网络；步骤2.2.1、设为给定图像的区域视觉特征，其中i＝1,...,m,j＝1,...n,r为区域特征,d
v
为维度大小,m
×
n
×
d
v
为ResNet中最后一个卷积层的输出尺寸，m
×
n为图像中的区域个数；步骤2.2.2、使用缩放点乘注意力来捕捉与语言语境相关的局部视觉特征，缩放点乘注意力的定义为：上式中，矩阵Q、矩阵K和矩阵V分别代表查询、键和值；d
k
是键的维数；
步骤2.2.3、使用语言查询向量Q
s
＝f
t
作为查询，区域视觉特征V
r
作为键和值；通过线性投影将语言查询向量Q
s
和区域视觉特征V
r
转化为同一维度：和步骤2.2.4、计算语言注意力其中Q
s
为语言查询向量，为转化维度后的语言查询向量Q
s
，为转化维度后的区域视觉特征V
r
；并将单路注意扩展到多路注意力；将局部视觉上下文V
c
的输出定义为：的输出定义为：上式(2)至式(3)中，Q
s
为语言查询向量，为转化维度后的语言查询向量Q
s
，为转化维度后的区域视觉特征V
r
，V
c
为局部视觉上下文，head
i
为局部视觉上下文的输出，i＝1,...,h，h为局部视觉上下文输出的总个数；步骤2.3、建立视觉语言上下文网络，使用biLSTM网络在推特100k数据集上学习视觉语言上下文嵌入；步骤2.3.1、首先给定一个视觉向量和一个长度为T的序列{w
t
}，t＝1,...,T，其中s

【专利技术属性】
技术研发人员：翁芳胜，孙霖，王跻权，孙宇轩，
申请(专利权)人：浙大城市学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人