一种多模态事件检测方法及装置制造方法及图纸

技术编号:33350409 阅读:17 留言:0更新日期:2022-05-08 09:54
本发明专利技术公开了一种多模态事件检测方法及装置,包括:基于社交平台的发布事件,提取所述发布事件的关联信息,其中所述关联信息包括文本数据和图像数据;提取所述文本数据的文本特征以及提取所述图像数据的视觉特征;初始化所述视觉特征和所述文本特征之间的相关性分数;基于所述初始化后的相关性分数,过滤掉所述图像数据中部分无关的图像区域,以确定所述图像数据中的相关目标区域;融合所述文本特征和所述图像数据中的相关区域的视觉特征,以获得多模态特征;基于所述多模态特征通过预设分类器进行分类,以实现事件检测。本发明专利技术实施例提出一种更符合真实场景使用的事件检测方法,实现单文本与多张图片的场景下进行事件检测。单文本与多张图片的场景下进行事件检测。单文本与多张图片的场景下进行事件检测。

【技术实现步骤摘要】
一种多模态事件检测方法及装置


[0001]本专利技术涉及图文识别
,尤其涉及一种多模态事件检测方法及装置。

技术介绍

[0002]多模态事件检测(Multimodal Event Detection),其主要目标是根据用户在社交媒体分享的帖子中所包含的文本和图片等多模态信息判断该帖子的内容属于哪一类事件。
[0003]现有的方法只针对包含一个文本和一张图形的帖子进行特征融合并分类,然而现实生活中使用的社交媒体一个帖子下可以包含多张照片,例如推特的每条推文下可以发布四张图片,新浪微博的每条微博下可以发布9张图片。
[0004]在特征融合方面,现有的方法在融合时会引入较多的视觉噪声。同时在真实的社交平台,用户发表的文字描述的字数受到平台限制,对于这较短的文本描述,其主题内容可能分布在多张图片的不同区域,若直接将文本特征与多张图像的视觉特征进行融合,势必引入更多的视觉噪声。

技术实现思路

[0005]本专利技术实施例提供一种多模态事件检测方法及装置,用以提出一种更符合真实场景使用的事件检测方法,实现单文本与多张图片的场景下进行事件检测。
[0006]本专利技术实施例提出一种多模态事件检测方法,包括:
[0007]基于社交平台的发布事件,提取所述发布事件的关联信息,其中所述关联信息包括文本数据和图像数据;
[0008]提取所述文本数据的文本特征以及提取所述图像数据的视觉特征;
[0009]初始化所述视觉特征和所述文本特征之间的相关性分数;
[0010]基于初始化后的相关性分数,过滤掉所述图像数据中部分无关的图像区域,以确定所述图像数据中的相关目标区域,并通过正则化更新所述视觉特征和所述文本特征之间的相关性分数;
[0011]基于更新后的相关性分数,融合所述文本特征和所述图像数据中的相关区域的视觉特征,以获得多模态特征;
[0012]基于所述多模态特征通过预设分类器进行分类,以实现事件检测。
[0013]在一些实施例中,提取所述文本数据的文本特征以及提取所述图像数据的视觉特征包括:
[0014]对于所述文本数据,采用双向门控循环单元(Bi

GRU)提取所述文本数据中各个词的语义信息;
[0015]对于所述图像数据,采用FasterR

CNN提取图片中各目标区域的视觉特征。
[0016]在一些实施例中,采用双向门控循环单元(Bi

GRU)提取所述文本数据中各个词的语义信息包括:
[0017]从该词的不同方向提取输出序列;
[0018]采用平均池化合并不同方向提取的输出序列,以获得各个词的语义信息。
[0019]在一些实施例中,确定所述视觉特征和所述文本特征之间的相关性参数包括:
[0020]设定所述文本数据中的每一个词与各目标区域均相关,初始化各词与各目标区域的相关性分数满足:
[0021]Q=W
Q
H
[0022]C=W
C
O
[0023]R=softmax(Q
T
C)
[0024]其中,R表示由初始化的相关性分数构成的相关性矩阵,W
C
、W
Q
表示映射矩阵,Q和C分别表示映射到同一特征空间的文本特征和视觉特征,H表示整个句子的特征,O表示视觉特征总集。
[0025]在一些实施例中,基于所述初始化的相关性分数,过滤掉所述图像数据中部分无关的图像区域,以确定所述图像数据中的相关目标区域包括:
[0026]基于所述相关性矩阵,利用预设相关性阈值过滤无关区域满足:
[0027][0028]其中,表示第i个词与第j个目标区域的初始化相关性分数,表示第i个词与第j个目标区域是否相关,1表示相关,0表示不相关,0≤j≤K
×
N;K表示图像数据中一张图像的目标区域的数量,N表示图像数据中图像的数量。
[0029]在一些实施例中,确定所述图像数据中的相关区域之后,所述多模态事件检测方法还包括:
[0030]利用相关目标区域的相关性分数进行正则化,满足:
[0031][0032]其中,表示正则化后的相关性分数;
[0033]基于该词的各相关目标区域正则化后的相关性分数更新该词的相关性分数,以及更新相关性矩阵。
[0034]在一些实施例中,基于更新后的相关性分数,融合所述文本特征和所述图像数据中的相关区域的视觉特征,以获得多模态特征包括:
[0035]以该相关性分数作为该相关目标区域的权重,与所述文本数据对应的文本特征进行融合,满足:
[0036][0037]其中,Q和C分别表示映射到同一特征空间的文本特征和视觉特征,表示更新后的相关性矩阵,表示融合后的多模态特征。
[0038]在一些实施例中,基于所述多模态特征通过预设分类器进行分类包括:
[0039]采用平均池化提取融合后的多模态特征;
[0040]将提取的多模态特征输入预设分类器进行分类。
[0041]本专利技术实施例还提出一种多模态事件检测装置,包括处理器,其配置为:
[0042]基于社交平台的发布事件,提取所述发布事件的关联信息,其中所述关联信息包括文本数据和图像数据;
[0043]提取所述文本数据的文本特征以及提取所述图像数据的视觉特征;
[0044]初始化所述视觉特征和所述文本特征之间的相关性参数;
[0045]基于初始化后的相关性分数,过滤掉所述图像数据中部分无关的图像区域,以确定所述图像数据中的相关目标区域,并通过正则化更新所述视觉特征和所述文本特征之间的相关性分数;
[0046]基于更新后的相关性分数,融合所述文本特征和所述图像数据中的相关区域的视觉特征,以获得多模态特征;
[0047]基于所述多模态特征通过预设分类器进行分类,以实现事件检测。
[0048]本专利技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的多模态事件检测方法的步骤。
[0049]本专利技术实施例通过提取文本数据的文本特征以及提取图像数据的视觉特征,并融合文本特征和与文本相关的图像特征,实现文本特征与视觉特征的强关联,实现单文本与多张图片的场景下进行事件检测。
[0050]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0051]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0052]图1为本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态事件检测方法,其特征在于,包括:基于社交平台的发布事件,提取所述发布事件的关联信息,其中所述关联信息包括文本数据和图像数据;提取所述文本数据的文本特征以及提取所述图像数据的视觉特征;初始化所述视觉特征和所述文本特征之间的相关性分数;基于初始化后的相关性分数,过滤掉所述图像数据中部分无关的图像区域,以确定所述图像数据中的相关目标区域,并通过正则化更新所述视觉特征和所述文本特征之间的相关性分数;基于更新后的相关性分数,融合所述文本特征和所述图像数据中的相关区域的视觉特征,以获得多模态特征;基于所述多模态特征通过预设分类器进行分类,以实现事件检测。2.如权利要求1所述的多模态事件检测方法,其特征在于,提取所述文本数据的文本特征以及提取所述图像数据的视觉特征包括:对于所述文本数据,采用双向门控循环单元(Bi

GRU)提取所述文本数据中各个词的语义信息;对于所述图像数据,采用Faster R

CNN提取图片中各目标区域的视觉特征。3.如权利要求2所述的多模态事件检测方法,其特征在于,采用双向门控循环单元(Bi

GRU)提取所述文本数据中各个词的语义信息包括:从该词的不同方向提取输出序列;采用平均池化合并不同方向提取的输出序列,以获得各个词的语义信息。4.如权利要求2所述的多模态事件检测方法,其特征在于,初始化所述视觉特征和所述文本特征之间的相关性分数包括:设定所述文本数据中的每一个词与各目标区域均相关,初始化各词与各目标区域的相关性分数满足:Q=W
Q
HC=W
C
OR=softmax(Q
T
C)其中,R表示由初始化的相关性分数构成的相关性矩阵,W
C
、W
Q
表示映射矩阵,Q和C分别表示映射到同一特征空间的文本特征和视觉特征,H表示整个句子的特征,O表示视觉特征总集。5.如权利要求4所述的多模态事件检测方法,其特征在于,基于所述初始化相关性分数,过滤掉所述图像数据中至少部分无关的图像区域,以确定所述图像数据中的相关目标区域包括:...

【专利技术属性】
技术研发人员:李阳阳金昊刘弋锋林晖黎宏河胡校成高阳阳
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1