一种基于多模态表示的密集视频事件描述方法技术

技术编号：43922915 阅读：19 留言：0更新日期：2025-01-03 13:27

本发明专利技术公开了一种基于多模态表示的密集视频事件描述方法，该方法包括：使用多模态特征融合编码器获取编码后的视觉特征、音频特征和模态信息共享特征；通过提案生成器获取最终生成预测结果；通过描述生成器获取最终描述预测结果；计算对比损失和KL散度损失函数，采用反向传播法更新多模态特征融合编码器和提案生成器的网络参数。本发明专利技术通过引入模态信息共享特征，将不同模态的特征映射到同一特征空间，进行特征信息交互、对齐，缓解异构模态之间持续存在的模态差距；通过在单独模态特征和模态信息共享特征中引入对比损失，最大程度丰富了特征中上下文语义信息，避免不同模态特征映射到同一特征空间时语义信息损失；提升了事件描述生成的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及密集视频事件描述方法，尤其涉及一种基于多模态表示的密集视频事件描述方法。

技术介绍

1、随着自然语言处理和计算机视觉的领域快速发展，近年来，视频描述受到了更加广泛的关注。传统视频描述任务的目的是通过一句话描述一个短视频中的内容，该视频通常由人工裁剪过，保证了视频内部仅有一个主要事件发生。这一领域已经取得了很大进展，但是，现实的视频总是未经剪裁的、复杂的，受限制于这一条件，传统视频描述任务对生活的视频数据不能很好的运用，密集视频描述任务被提出。

2、密集视频事件描述任务要求模型定位未修剪的视频中所有可能发生的事件，对每个事件用一句话进行描述。密集视频事件描述任务带来了两个挑战：一个是视频事件提案需要模型定位视频中所有可能发生的事件，另一个是如何将视频事件提案转化为自然语言描述。对于定位视频中所有可能发生的事件，与单个事件视频片段的视频描述相比，密集视频事件描述需要模型理解更长、更复杂的视频特征序列。目前许多精心设计的方法仅依靠视觉信息，忽略了视频中的音频信息。部分工作对于多模态信息的使用仅采用了简单特征连接，导致...

【技术保护点】

1.一种基于多模态表示的密集视频事件描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态表示的密集视频事件描述方法，其特征在于，所述步骤(1)包括以下子步骤：

3.根据权利要求1所述的基于多模态表示的密集视频事件描述方法，其特征在于，所述步骤(2)包括以下子步骤：

4.根据权利要求1或3所述的基于多模态表示的密集视频事件描述方法，其特征在于，每个所述提案头均为全卷积网络，具有不同大小的卷积核，通过调整padding参数和stride参数以使生成的提案特征具有相同维度；

5.根据权利要求1所述的基于多模态表示的密集视频事件...

【技术特征摘要】

1.一种基于多模态表示的密集视频事件描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态表示的密集视频事件描述方法，其特征在于，所述步骤(1)包括以下子步骤：

3.根据权利要求1所述的基于多模态表示的密集视频事件描述方法，其特征在于，所述步骤(2)包括以下子步骤：

5.根据权利要求1所述的基于多模态表示的密集视频事件描述方法，其特征在于，所述步骤(3)包括以下子步...

【专利技术属性】
技术研发人员：李永刚，方豪杰，张缪春，徐子玮，徐海宝，刘艳梅，
申请(专利权)人：嘉兴大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人