一种基于检索多模态辅助生成描述的视频描述方法技术

技术编号:41285960 阅读:34 留言:0更新日期:2024-05-11 09:34
本发明专利技术提供一种基于检索多模态辅助生成的视频描述方法。该发明专利技术包括:获取待描述的视频;从待描述视频中提取多模态特征;所述多模态特征包括运动特征、外观特征;将多模态特征输入视频‑文本检索模块,从语料库中检索与视频内容最相关的多个句子;将多模态特征和检索到的多个句子作为提示输入到动态复制生成模块中;根据多模态特征生成词汇表;通过选择在视频‑文本检索模块中检索到的多个句子与动态复制生成模块中生成的词汇表,共同生成最适合的描述。本发明专利技术将基于检索的方法与编码器‑解码器方法进行协调,不仅可以利用检索到的句子中的不同表达,还具有操作灵活且可扩展性,可以生成自然而准确的视频描述内容,取得效果良好,表明了其在视频描述任务中的高效性和良好前景。

【技术实现步骤摘要】

本专利技术涉及视频描述,特别是涉及基于多模态交互的视频描述方法及系统。用于日常视频中的信息与事件检索。


技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。

2、视频描述(video captioning)是一种利用自然语言来自动描述视频内容的方法,近年来在计算机视觉领域引起了广泛的关注。然而,由于视频场景和对象交互的复杂性,视频描述任务具有一定的挑战性。其中的挑战包括,如何有效地利用多种特征或其他方式来表示视频内容,以及如何结合视觉和语言特征生成更详细的描述。一种常用的视频描述方法是采用编码器-解码器框架。编码器利用卷积神经网络来对视频内容进行编码,通常使用2d卷积神经网络提取外观特征,3d卷积神经网络提取运动特征,以及r-cnn用于提取对象特征。这些编码器从不同的角度捕捉视频内容,形成多模态的输入信息。输入信息中所包含的视频内容越多,生成的句子描述越准确。解码器使用递归神经网络(rnn)、长短时记忆网络(lstm)等方法对输入信息进行解码,从而生成句子描述。

3、一般来说,现有的大多数工作都存本文档来自技高网...

【技术保护点】

1.一种基于检索多模态辅助生成的视频描述方法,其特征是,包括:

2.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,其特征是,从待描述视频中提取多模态特征,具体包括:

3.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种视频-文本检索模块,其特征是,用于处理权利要求2中提取的多模态特征:

4.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种动态复制生成模块,其特征是,用于处理权利要求2中提取的多模态特征和权利要求3中产生的多个句子;动态复制生成模块的结构包括层级解码器和动态多指针模块。

5.如权利要求...

【技术特征摘要】

1.一种基于检索多模态辅助生成的视频描述方法,其特征是,包括:

2.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,其特征是,从待描述视频中提取多模态特征,具体包括:

3.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种视频-文本检索模块,其特征是,用于处理权利要求2中提取的多模态特征:

4.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种动态复制生成模块,其特征是,用于处理权利要求2中提取的多模态特征和权利要求3中产生的多个句子;动态复制生成模块的结构包括层级解码器和动态多指...

【专利技术属性】
技术研发人员:韩旭光刘斌
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1