【技术实现步骤摘要】
本专利技术涉及一种基于深度学习的视频分段时空一致语义标注方法。属于视觉处理和自然语言处理相结合的。
技术介绍
1、作为视觉和语言两个领域之间的联系,视频字幕便于自动定位视频中的事件,用自然语言描述视频内容。标准视频字幕只是为给定的短视频片段生成单个字幕,而密集视频字幕要求对未修剪视频中的所有事件进行时间定位并生成字幕。密集视频字幕的生成对于大规模的视频检索、视频摘要、视频对象检测等十分有用。随着网络视频数量的快速增长,提高对视频中事件的描述显得尤为重要。
2、传统的视频字幕生成方法高度依赖预定义模板,生成的句子具有固定的句法结构。当前基于深度学习的大多数模型框架都被设计为编码器-解码器结构,其中编码器从多模态的特征学习视频的等价表示,解码器从视觉表示中逐字生成语句。传统方法大多由事件时间定位和添加事件字幕两个子任务组成。为了提高任务间的耦合性,最近的一些方法联合训练两个模块。然而,通常这些方法仍然需要特定于任务的组件,如事件计数器。此外,这些方法专门在有限大小的人工注释数据集上进行训练,对于需要大规模训练数据的模型而言,则低
...【技术保护点】
1.一种基于深度学习的视频分段时空一致语义标注方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤1的具体步骤如下:
3.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤2的具体步骤如下:
4.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤3的具体步骤如下:
5.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤4的具体步骤如下:
【技术特征摘要】
1.一种基于深度学习的视频分段时空一致语义标注方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤1的具体步骤如下:
3.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,...
【专利技术属性】
技术研发人员:杜振龙,鹿鹤群,李晓丽,陈东,
申请(专利权)人:南京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。