一种基于深度学习的视频分段时空一致语义标注方法技术

技术编号:41668114 阅读:21 留言:0更新日期:2024-06-14 15:26
本发明专利技术公布了一种基于深度学习的视频分段时空一致语义标注方法,对未标记视频中的多个事件进行检测和描述。对于给定的输入视频,能够给出语义一致的带有文本标记的视频序列,其中包括分段视频对应的事件语义概括用文字和事件相关的时间戳表示。利用带有时间标记的文本标记构建输出事件序列,用视觉编码器编码输入视频帧序列;用文本编码器编码视频伴随音频序列;通过文本解码器联合视频和伴随语音,预测视频中语义完整的事件边界和语义符合的视频分段语义的总结性文本标题。

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的视频分段时空一致语义标注方法。属于视觉处理和自然语言处理相结合的。


技术介绍

1、作为视觉和语言两个领域之间的联系,视频字幕便于自动定位视频中的事件,用自然语言描述视频内容。标准视频字幕只是为给定的短视频片段生成单个字幕,而密集视频字幕要求对未修剪视频中的所有事件进行时间定位并生成字幕。密集视频字幕的生成对于大规模的视频检索、视频摘要、视频对象检测等十分有用。随着网络视频数量的快速增长,提高对视频中事件的描述显得尤为重要。

2、传统的视频字幕生成方法高度依赖预定义模板,生成的句子具有固定的句法结构。当前基于深度学习的大多数模型框架都被设计为编码器-解码器结构,其中编码器从多模态的特征学习视频的等价表示,解码器从视觉表示中逐字生成语句。传统方法大多由事件时间定位和添加事件字幕两个子任务组成。为了提高任务间的耦合性,最近的一些方法联合训练两个模块。然而,通常这些方法仍然需要特定于任务的组件,如事件计数器。此外,这些方法专门在有限大小的人工注释数据集上进行训练,对于需要大规模训练数据的模型而言,则低效且标注结果不准确。本文档来自技高网...

【技术保护点】

1.一种基于深度学习的视频分段时空一致语义标注方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤1的具体步骤如下:

3.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤2的具体步骤如下:

4.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤3的具体步骤如下:

5.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤4的具体步骤如下:

【技术特征摘要】

1.一种基于深度学习的视频分段时空一致语义标注方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,其特征在于,所述步骤1的具体步骤如下:

3.根据权利要求1所述的基于深度学习的视频分段时空一致语义标注方法,...

【专利技术属性】
技术研发人员:杜振龙鹿鹤群李晓丽陈东
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1