一种多模态事件检测方法及装置制造方法及图纸

技术编号：33350409 阅读：17 留言：0更新日期：2022-05-08 09:54

本发明专利技术公开了一种多模态事件检测方法及装置，包括：基于社交平台的发布事件，提取所述发布事件的关联信息，其中所述关联信息包括文本数据和图像数据；提取所述文本数据的文本特征以及提取所述图像数据的视觉特征；初始化所述视觉特征和所述文本特征之间的相关性分数；基于所述初始化后的相关性分数，过滤掉所述图像数据中部分无关的图像区域，以确定所述图像数据中的相关目标区域；融合所述文本特征和所述图像数据中的相关区域的视觉特征，以获得多模态特征；基于所述多模态特征通过预设分类器进行分类，以实现事件检测。本发明专利技术实施例提出一种更符合真实场景使用的事件检测方法，实现单文本与多张图片的场景下进行事件检测。单文本与多张图片的场景下进行事件检测。单文本与多张图片的场景下进行事件检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态事件检测方法及装置

[0001]本专利技术涉及图文识别
，尤其涉及一种多模态事件检测方法及装置。

技术介绍

[0002]多模态事件检测(Multimodal Event Detection)，其主要目标是根据用户在社交媒体分享的帖子中所包含的文本和图片等多模态信息判断该帖子的内容属于哪一类事件。
[0003]现有的方法只针对包含一个文本和一张图形的帖子进行特征融合并分类，然而现实生活中使用的社交媒体一个帖子下可以包含多张照片，例如推特的每条推文下可以发布四张图片，新浪微博的每条微博下可以发布9张图片。
[0004]在特征融合方面，现有的方法在融合时会引入较多的视觉噪声。同时在真实的社交平台，用户发表的文字描述的字数受到平台限制，对于这较短的文本描述，其主题内容可能分布在多张图片的不同区域，若直接将文本特征与多张图像的视觉特征进行融合，势必引入更多的视觉噪声。

技术实现思路

[0005]本专利技术实施例提供一种多模态事件检测方法及装置，用以提出一种更符合真实场景使用的事件检测方法，实现单文本与多张图片的场景下进行事件检测。
[0006]本专利技术实施例提出一种多模态事件检测方法，包括：
[0007]基于社交平台的发布事件，提取所述发布事件的关联信息，其中所述关联信息包括文本数据和图像数据；
[0008]提取所述文本数据的文本特征以及提取所述图像数据的视觉特征；
[0009]初始化所述视觉特征和所述文本特征之间的相关性分数；
[001...

【技术保护点】

【技术特征摘要】
1.一种多模态事件检测方法，其特征在于，包括：基于社交平台的发布事件，提取所述发布事件的关联信息，其中所述关联信息包括文本数据和图像数据；提取所述文本数据的文本特征以及提取所述图像数据的视觉特征；初始化所述视觉特征和所述文本特征之间的相关性分数；基于初始化后的相关性分数，过滤掉所述图像数据中部分无关的图像区域，以确定所述图像数据中的相关目标区域，并通过正则化更新所述视觉特征和所述文本特征之间的相关性分数；基于更新后的相关性分数，融合所述文本特征和所述图像数据中的相关区域的视觉特征，以获得多模态特征；基于所述多模态特征通过预设分类器进行分类，以实现事件检测。2.如权利要求1所述的多模态事件检测方法，其特征在于，提取所述文本数据的文本特征以及提取所述图像数据的视觉特征包括：对于所述文本数据，采用双向门控循环单元(Bi
‑
GRU)提取所述文本数据中各个词的语义信息；对于所述图像数据，采用Faster R
‑
CNN提取图片中各目标区域的视觉特征。3.如权利要求2所述的多模态事件检测方法，其特征在于，采用双向门控循环单元(Bi
‑
GRU)提取所述文本数据中各个词的语义信息包括：从该词的不同方向提取输出序列；采用平均池化合并不同方向提取的输出序列，以获得各个词的语义信息。4.如权利要求2所述的多模态事件检测方法，其特征在于，初始化所述视觉特征和所述文本特征之间的相关性分数包括：设定所述文本数据中的每一个词与各目标区域均相关，初始化各词与各目标区域的相关性分数满足：Q＝W
Q
HC＝W
C
OR＝softmax(Q
T
C)其中，R表示由初始化的相关性分数构成的相关性矩阵，W
C
、W
Q
表示映射矩阵，Q和C分别表示映射到同一特征空间的文本特征和视觉特征，H表示整个句子的特征，O表示视觉特征总集。5.如权利要求4所述的多模态事件检测方法，其特征在于，基于所述初始化相关性分数，过滤掉所述图像数据中至少部分无关的图像区域，以确定所述图像数据中的相关目标区域包括：...

【专利技术属性】
技术研发人员：李阳阳，金昊，刘弋锋，林晖，黎宏河，胡校成，高阳阳，
申请(专利权)人：中国电子科技集团公司电子科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人