当前位置: 首页 > 专利查询>东南大学专利>正文

基于多层级对比学习的视频文本多模态事件抽取方法技术

技术编号:42380850 阅读:25 留言:0更新日期:2024-08-16 16:10
本发明专利技术涉及一种基于多层级对比学习的视频文本多模态事件抽取方法,所述方法包括如下步骤:步骤1:采用预训练的I3D模型对给定的视频进行视频外观特征编码,步骤2:采用预训练的PWC模型对给定的视频进行光流特征的抽取,步骤3:采用预训练的T5模型对给定的文本提取文本序列特征,步骤4:对所述步骤3中的文本序列特征直接获得事件触发词特征和事件类型特征,步骤5:对步骤1得到的视频外观特征,步骤2得到的光流特征以及步骤3得到的文本序列特征,将他们送入双边查询文本模块来增强模态之间的交互。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种基于多层级对比学习的视频文本多模态事件抽取方法


技术介绍

1、事件抽取是从文本中识别事件结构的一项基本任务。近年来,多模态事件抽取(mee)蓬勃发展。多模态事件抽取通过合并来自多种形式(如文本、图像或视频)的补充信息来扩展事件抽取。具体来说,文本提供抽象的语义,而视觉数据提供具体的实例。与基于文本图像的多模态事件抽取相比,基于文本视频的多模态事件抽取包含了更多的上下文和场景信息。此外,基于文本视频的多模态事件抽取提供的时态数据可以捕捉事件的动态演变,使其成为一个非常重要的领域。

2、文本视频的多模态事件抽取中现有的方法分别采用预先训练的语言和视频模型从文本和视频帧中提取文本序列特征和视频外观特征。然而,他们忽略了视频中的运动表示。在文本视频的多模态事件抽取中,运动表示可能起着重要的作用,因为它们提供了视频中对象的运动和行为的细节。此外,本专利技术观察到相同的事件触发词对应于类似的运动表示。为了探索运动表征和事件触发之间的关系,本专利技术引入光流特征作为物体运动表征。光流特征表示连续帧之间序列中对象的运动,广泛本文档来自技高网...

【技术保护点】

1.一种基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,步骤1中视频外观特征,代表颜色、纹理、形状和其他视觉线索,首先每个片段序列输入到在Kinetics数据集上预先训练的I3D网络中,具体来说,每个片段序列包含了16个连续帧,在经过对这16个连续帧数据增强和归一化处理之后,输入到I3D网络中会获得一个基于这16个连续帧的视频外观特征,由于每个视频包含了多个片段序列,将同一个视频中的所有视频外观特征进行求和得到一个代表整个视频的视频外观特征FV。

...

【技术特征摘要】

1.一种基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,步骤1中视频外观特征,代表颜色、纹理、形状和其他视觉线索,首先每个片段序列输入到在kinetics数据集上预先训练的i3d网络中,具体来说,每个片段序列包含了16个连续帧,在经过对这16个连续帧数据增强和归一化处理之后,输入到i3d网络中会获得一个基于这16个连续帧的视频外观特征,由于每个视频包含了多个片段序列,将同一个视频中的所有视频外观特征进行求和得到一个代表整个视频的视频外观特征fv。

3.根据权利要求2所述的基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,步骤2中光流特征提供了关于场景中物体动态的信息,首先每个片段序列输入到在sintel数据集上预先训练的pwc网络中,具体来说,每个片段序列包含了16个连续帧,在经过对这16个连续帧归一化处理之后,输入到pwc网络中会获得一个基于这16个连续帧的光流特征,由于每个视频包含了多个片段序列,将同一个视频中的所有光流特征进行求和得到一个代表整个视频的光流特征fo。

4.根据权利要求3所述的基于多层级对比学习的视频文本多模态事件抽取方法,其特征在于,步骤3中文本序列特征提供了关于文本中的事件和人物场景文字描述...

【专利技术属性】
技术研发人员:李嘉琦杜苗增漆桂林
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1