基于图片和句子的多模态联合事件检测方法技术

技术编号:30429095 阅读:16 留言:0更新日期:2021-10-24 17:18
本发明专利技术公开了一种基于图片和句子的多模态联合事件检测方法,同时从图片和句子中识别事件。本发明专利技术一方面利用现有的单模态数据集分别学习图片和文本事件分类器;另一方面利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数,得到共享事件分类器。最后,利用少量的多模态标注数据对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明专利技术从图片和句子中识别事件,利用视觉特征和文本特征的互补性,不仅提高了单模态事件分类的性能,而且可以发现文章中更完整的事件信息。件信息。件信息。

【技术实现步骤摘要】
基于图片和句子的多模态联合事件检测方法


[0001]本专利技术设计事件检测方法,具体来讲是一种基于图片和句子的多模态联合事件检测的方法,属于多模态信息抽取领域。

技术介绍

[0002]随着电脑、手机等现代科技逐渐走入寻常百姓家,参与社交平台互动、浏览新闻网站等行为已成为人们获取网络信息的主要途径,这也极大简化了网民获取信息的流程。随之而来的是消费信息的网络用户不断增加,据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》1显示,截至2020年12月,中国网民人数达到98900万,相较于去年3月份,网民人数增加了8540万人。因此,每天都会有大量新的信息涌入网络,这些信息通常以文本、图片、音频等多种形式在大众之间进行传播。在面对如此海量且杂乱无章的网络信息时,信息抽取技术能对数据进行处理,并将结构化的信息展示给用户,从而准确地为用户提供有价值、感兴趣的信息。
[0003]信息抽取是为了从图片、文本或音频中抽取出结构化的信息,进行存储和展示,同时也是构建知识图谱的重要技术手段,通常由命名实体识别、关系抽取和事件抽取三个子任务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于图片和句子的多模态联合事件检测方法,其特征在于包括如下步骤:步骤1、文本事件检测模块首先对文本特征进行编码,获取句中单词的特征向量表示序列对于第j个候选触发词,然后将其对应的候选触发词特征向量输入文本事件分类器Softmax
T
,获取第j个候选触发词触发的事件类型概率分布,其中文本事件分类器的损失函数定义为L
T
;步骤2、图片事件检测模块对图片特征进行编码,获取图片中描述动作以及多个实体的图片实体特征向量表示序列然后将图片实体特征向量输入图片事件分类器Softmax
I
,获取当前图片描述的事件类型概率分布,其中图片事件分类器的损失函数定义为L
I
;步骤3、图片句子匹配模块首先利用跨模态注意力机制CMAM计算每一对图片实体与单词之间的关联权值;根据第j个单词,CMAM能够定位重要的图片实体并分配权重,通过加权平均聚合与单词相关的图片实体特征,获取单词在图片模态的特征表示同时对于图片中的第i个实体,首先在待匹配的句子中搜索相关的单词,并为单词分配权重,通过加权平均捕获与图片实体相关的语义信息,从而获取图片实体在文本模态的特征表示然后将每个待匹配句子与其在图片模态中的特征表示序列的欧氏距离D
T

I
,与图片中所有实体与其在文本模态中的特征表示序列的欧氏距离D
I

T
进行相加,作为图片和句子的相似度;其中,图片句子匹配模块的损失函数定义为L
m
;步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块,从而获取共享事件分类器;步骤5、在测试阶段,对于多模态文章,首先利用图片句子匹配模块找出相似度最高的图片和句子,并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和特征表示分配权重,通过加权平均获取第i个图片实体对应的多模态特征向量;接着利用共享事件分类器获取图片描述的事件类型;同样,利用另外一个门控注意力机制为候选触发词特征向量和特征表示分配权重,通过加权平均获取第j个单词的多模态特征表示,接着利用共享事件分类器获取第j个单词触发的事件类型。2.根据权利要求1所述的基于图片和句子的多模态联合事件检测方法的步骤1具体实现如下:1

1.在KBP2017英文数据集上训练文本事件分类器Softmax
T
,首先对标注数据进行预处理,获取实体类型、事件触发词及其对应的事件类型;其中包含5种实体类型和18种事件类型;然后利用Stanford CoreNLP对原始文本进行分句、分词,获取词性和句子的语法依存结构;并分别创建词性向量表、实体类型向量表,其中每一种向量表都有类型“空”对应的初始化向量;1

2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量w
emd
,然后查询词性
向量表得到词性向量w
pos
和查询实体类型向量表得到实体类型向量w
entity
,每个词的实值向量x={w
emd
,w
pos
,w
entity
},因此句子实值向量序列表示为W={x1,x2,...,x
n
‑1,x
n
},其中n是句子的长度;1

3.将句子实值向量序列W={x1,x2,...,x
n
‑1,x
n
}作为Bi

LSTMs的输入,获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络,接着将H
L
输入GCNs中,获取句子的卷积向量序列最后利用注意力计算序列H
T
中的每个元素对候选触发词的影响权重,从而获取句子的编码序列同时将C
T
作为单词序列在公共空间的特征表示序列;1

4.将句子中的每个单词视为候选触发词,对于j(j≤n)第个候选触发词,然后将其对应的特征向量输入文本事件分类器:输入文本事件分类器:其中,W
T
和b
T
作为文本事件分类器Softmax
T
的权重矩阵和偏置项,表示句子S中第j个候选触发词w
j
触发的事件类型概率分布,而type
w,j
表示w
j
触发的事件类型;同时,文本事件分类器的损失函数定义为:其中,T是KBP 2017英文数据集中标注的句子数量,作为单词w
j
标注的事件类型,S
i
表示数据集中第i个句子,句子长度为n。3.根据权利要求2所述的基于图片和句子的多模态联合事件检测方法的步骤2具体实现如下:2

1.在imSitu图片数据集上训练图片事件分类器,其中,一共定义了504个动词记录图片描述的动作,以及11538种实体类型描述图片中出现的实体;首先利用VGG16
v
去提取图片中的动作特征,并利用多层感知机MLP
v
将动词特征转换成动词向量同时,利用另外一个VGG16
o
提取图片中的实体集合O={o1,o2,...,o
m
‑1,o
m
},然后通过多层感知机MLP
o
将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片,根据其描述的动作和实体构建网状结构;其中,图片描述的动作作为网状结构的中心节点,同时将实体与动作节点进行连接;接着采用图卷积网络对图片特征对应的单词向量序列进行编码,从而使得动作节点卷积计算后的向量保存实体特征信息;其中,编码后的图片实体特征向量序列为其中,用来表示图片动作节点的卷积向量;同样,H
I
被视图片动作以及实体集合在公共空间的特征表示序列;2

2.将图片I中动作卷积向量作为图片事件分类器的输入,获取图片描述事...

【专利技术属性】
技术研发人员:张旻曹祥彪汤景凡姜明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1