【技术实现步骤摘要】
本专利技术涉及密集视频事件描述方法,尤其涉及一种基于多模态表示的密集视频事件描述方法。
技术介绍
1、随着自然语言处理和计算机视觉的领域快速发展,近年来,视频描述受到了更加广泛的关注。传统视频描述任务的目的是通过一句话描述一个短视频中的内容,该视频通常由人工裁剪过,保证了视频内部仅有一个主要事件发生。这一领域已经取得了很大进展,但是,现实的视频总是未经剪裁的、复杂的,受限制于这一条件,传统视频描述任务对生活的视频数据不能很好的运用,密集视频描述任务被提出。
2、密集视频事件描述任务要求模型定位未修剪的视频中所有可能发生的事件,对每个事件用一句话进行描述。密集视频事件描述任务带来了两个挑战:一个是视频事件提案需要模型定位视频中所有可能发生的事件,另一个是如何将视频事件提案转化为自然语言描述。对于定位视频中所有可能发生的事件,与单个事件视频片段的视频描述相比,密集视频事件描述需要模型理解更长、更复杂的视频特征序列。目前许多精心设计的方法仅依靠视觉信息,忽略了视频中的音频信息。部分工作对于多模态信息的使用仅采用了简单特征连接,导致
...【技术保护点】
1.一种基于多模态表示的密集视频事件描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态表示的密集视频事件描述方法,其特征在于,所述步骤(1)包括以下子步骤:
3.根据权利要求1所述的基于多模态表示的密集视频事件描述方法,其特征在于,所述步骤(2)包括以下子步骤:
4.根据权利要求1或3所述的基于多模态表示的密集视频事件描述方法,其特征在于,每个所述提案头均为全卷积网络,具有不同大小的卷积核,通过调整padding参数和stride参数以使生成的提案特征具有相同维度;
5.根据权利要求1所述的基于多模
...【技术特征摘要】
1.一种基于多模态表示的密集视频事件描述方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态表示的密集视频事件描述方法,其特征在于,所述步骤(1)包括以下子步骤:
3.根据权利要求1所述的基于多模态表示的密集视频事件描述方法,其特征在于,所述步骤(2)包括以下子步骤:
4.根据权利要求1或3所述的基于多模态表示的密集视频事件描述方法,其特征在于,每个所述提案头均为全卷积网络,具有不同大小的卷积核,通过调整padding参数和stride参数以使生成的提案特征具有相同维度;
5.根据权利要求1所述的基于多模态表示的密集视频事件描述方法,其特征在于,所述步骤(3)包括以下子步...
【专利技术属性】
技术研发人员:李永刚,方豪杰,张缪春,徐子玮,徐海宝,刘艳梅,
申请(专利权)人:嘉兴大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。