基于多模态细粒度对齐网络的视频描述方法与系统技术方案

技术编号：40023629 阅读：40 留言：0更新日期：2024-01-16 17:08

本发明专利技术提出一种基于多模态细粒度对齐网络的视频描述方法与系统，该方法首先获取在视频中实体的时空细粒度标注和在视频中动作的时空细粒度标注，再获取时空特征、动作特征和文本特征，通过鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域，以促进实体的对齐，并动态地将动词与相关的主语和相应的上下文关联起来，以保留动作预测中的细粒度空间和时间细节，并且通过软对齐监督损失，可以使注意力机制学习在标注区域内分配更多的注意力权重，且高置信度的标注区域比低置信度标注区域的视觉权重更大。本发明专利技术通过显示地建立实体、动作与视频帧中的视觉线索的细粒度关联，以提高视频描述模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉与视频处理，特别涉及一种基于多模态细粒度对齐网络的视频描述方法与系统。

技术介绍

1、视频描述的目标是使用自然语言句子来描述视频中的视觉内容。这是一项具有挑战性的任务，因为它要求对对象及其相互作用有深刻的理解。现有的视频描述方法通常使用注意力机制，该机制旨在将正确的单词与正确的视觉区域相关联。尽管这些模型取得了显著的成绩，但之前的研究表明，注意力机制无法准确地将生成的单词与有意义的视觉区域联系起来，从而降低了模型的可解释性。

2、为了解决这一问题，最新的研究采用了“区域-短语”注释来训练模型，并设计了多种目标函数来引导注意力集中在适当的视觉区域。这种方法在静态图像中取得了显著的改进。然而，将这种对齐方法直接应用于视频描述则面临着巨大的挑战，原因如下：

3、（1）在视频中，与视频的描述中的实体相对应的相关视觉区域可以跨越多个帧，然而，现有的视频描述数据集仅存在视频数据及其对应的全局内容描述，缺少文本逐词与视频内容的细粒度标注，无法直接利用细粒度对齐来引导注意力集中在正确的视觉区域。

<...

【技术保护点】

1.一种基于多模态细粒度对齐网络的视频描述方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤1中，通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体，形成实体在关键帧的空间标注的具体方法包括如下步骤：

3.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤2中，通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注，得到在视频中实体的时空细粒度标注的具体方法包括如下步骤：

<...

【技术特征摘要】

1.一种基于多模态细粒度对齐网络的视频描述方法，其特征在于，所述方法包括如下步骤：

4.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤3中，根据在视频中实体的时空细粒度标注，采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包...

【专利技术属性】
技术研发人员：姜文晖，刘林鑫，程一波，徐天聪，方玉明，左一帆，
申请(专利权)人：江西财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人