【技术实现步骤摘要】
本专利技术属于计算机视觉与视频处理,特别涉及一种基于多模态细粒度对齐网络的视频描述方法与系统。
技术介绍
1、视频描述的目标是使用自然语言句子来描述视频中的视觉内容。这是一项具有挑战性的任务,因为它要求对对象及其相互作用有深刻的理解。现有的视频描述方法通常使用注意力机制,该机制旨在将正确的单词与正确的视觉区域相关联。尽管这些模型取得了显著的成绩,但之前的研究表明,注意力机制无法准确地将生成的单词与有意义的视觉区域联系起来,从而降低了模型的可解释性。
2、为了解决这一问题,最新的研究采用了“区域-短语”注释来训练模型,并设计了多种目标函数来引导注意力集中在适当的视觉区域。这种方法在静态图像中取得了显著的改进。然而,将这种对齐方法直接应用于视频描述则面临着巨大的挑战,原因如下:
3、(1)在视频中,与视频的描述中的实体相对应的相关视觉区域可以跨越多个帧,然而,现有的视频描述数据集仅存在视频数据及其对应的全局内容描述,缺少文本逐词与视频内容的细粒度标注,无法直接利用细粒度对齐来引导注意力集中在正确的视觉区域。
< ...【技术保护点】
1.一种基于多模态细粒度对齐网络的视频描述方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤1中,通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注的具体方法包括如下步骤:
3.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤2中,通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注的具体方法包括如下步骤:
< ...【技术特征摘要】
1.一种基于多模态细粒度对齐网络的视频描述方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤1中,通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注的具体方法包括如下步骤:
3.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤2中,通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注的具体方法包括如下步骤:
4.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法,其特征在于,在所述步骤3中,根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包...
【专利技术属性】
技术研发人员:姜文晖,刘林鑫,程一波,徐天聪,方玉明,左一帆,
申请(专利权)人:江西财经大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。