【技术实现步骤摘要】
本专利技术涉及视频描述,特别是涉及基于多模态交互的视频描述方法及系统。用于日常视频中的信息与事件检索。
技术介绍
1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
2、视频描述(video captioning)是一种利用自然语言来自动描述视频内容的方法,近年来在计算机视觉领域引起了广泛的关注。然而,由于视频场景和对象交互的复杂性,视频描述任务具有一定的挑战性。其中的挑战包括,如何有效地利用多种特征或其他方式来表示视频内容,以及如何结合视觉和语言特征生成更详细的描述。一种常用的视频描述方法是采用编码器-解码器框架。编码器利用卷积神经网络来对视频内容进行编码,通常使用2d卷积神经网络提取外观特征,3d卷积神经网络提取运动特征,以及r-cnn用于提取对象特征。这些编码器从不同的角度捕捉视频内容,形成多模态的输入信息。输入信息中所包含的视频内容越多,生成的句子描述越准确。解码器使用递归神经网络(rnn)、长短时记忆网络(lstm)等方法对输入信息进行解码,从而生成句子描述。
3、一般来说,
...【技术保护点】
1.一种基于检索多模态辅助生成的视频描述方法,其特征是,包括:
2.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,其特征是,从待描述视频中提取多模态特征,具体包括:
3.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种视频-文本检索模块,其特征是,用于处理权利要求2中提取的多模态特征:
4.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种动态复制生成模块,其特征是,用于处理权利要求2中提取的多模态特征和权利要求3中产生的多个句子;动态复制生成模块的结构包括层级解码器和动态多指针模块。
...【技术特征摘要】
1.一种基于检索多模态辅助生成的视频描述方法,其特征是,包括:
2.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,其特征是,从待描述视频中提取多模态特征,具体包括:
3.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种视频-文本检索模块,其特征是,用于处理权利要求2中提取的多模态特征:
4.如权利要求1所述的基于检索多模态辅助生成的视频描述方法,构建一种动态复制生成模块,其特征是,用于处理权利要求2中提取的多模态特征和权利要求3中产生的多个句子;动态复制生成模块的结构包括层级解码器和动态多指...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。