当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于注意力模型的视频问答方法技术

技术编号:17516656 阅读:44 留言:0更新日期:2018-03-21 01:14
本发明专利技术公开了一种基于注意力模型的视频问答方法,本方法基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计,本方法能够有效的强化视觉信息和语义信息之间的联系。本发明专利技术自主设计帧模型来提取视频的特征向量。在编码阶段,通过长短期记忆网络学习视频的场景特征表示,并将其作为解码阶段文本模型的初始状态输入,同时,在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。因此,该基于注意力模型的视频问答方法取得了良好的效果。

A video Q & a method based on attention model

The invention discloses a video question answering method based on attention model. This method is designed based on encoding and decoding framework, and uses end to end way to learn visual and semantic information of video. Through end to end design, this method can effectively strengthen the connection between visual information and semantic information. The invention independently designs the frame model to extract the feature vector of the video. In the encoding stage, through the long short term memory and network learning scene features of video representation, which can be used as initial state input, the decoding stage text model at the same time, the mechanism of attention in the model is added in the text can enhance the link between video frames and more effective, good analytical semantic information of video. Therefore, the video Q & a method based on the attention model has achieved good results.

【技术实现步骤摘要】
一种基于注意力模型的视频问答方法
本专利技术涉及计算机视觉、多媒体分析领域,尤其涉及一种基于注意力模型的视频问答方法。
技术介绍
视频分析是计算机视觉和多媒体分析领域中一项重要的研究课题,也是目前非常有挑战性的热点问题。随着视频数据的急速增长,视频分析吸引了人们的注意力。视频问答作为视频分析的一种媒介,近年来引起了人们的大量关注。视频问答是指对给定的视频以及针对该视频提出的问题,通过获取他们的视觉信息和语义信息,对问题给出合适的答案的过程。当人们观看一段视频时,会通过视频帧展现的场景信息来获取视频中出现的人物、物体、环境等,场景带来的视觉信息使人们对视频内容有了一个整体的了解;同时,在回答针对视频提出的问题时,人们会把注意力集中在与问题相关的视频帧中,即给予与问题相关的视频帧更多的注意力。基于这种思想,我们针对视频问答任务提出了一种基于注意力模型的视频问答方法,使得视频问答任务有了很大的提升。近年来,深度学习在视觉任务和自然语言处理任务等方面取得的成果是视频问答任务的主要驱动力。用深度学习框架提取卷积特征应用于动作识别、图片分类和物体检测等方面;另外,循环神经网络,尤其是长短期记忆网络在自然语言处理任务中以及多种时序问题中被广泛使用。为了更好的理解视觉内容,如今最常采用的方法就是将视觉和语言进行结合。最早对视频信息有研究的领域是视频描述,即针对一段视频通过生成自然语言来描述视频的语义信息。视频描述任务的一些想法启发了我们对视频问答任务的思考。在视频描述任务中,Venugopalan等人提出了编码、解码框架,使用端到端的方法来生成视频的语义描述。其中,在视频的编码阶段,通过平均视频帧特征来表示视频,进而进行视频描述。该方法忽略了产生视频语义描述时视频帧之间的差异性。后来,Yao等人对该方法进行了改进,通过使用注意力机制,进而提高了与语义信息相关的视频帧的权重,能够更好的产生视频语义描述。在问答任务中,相比于图像问答,视频问答面临着背景噪音、视频帧之间视觉点变化、视频帧之间视觉点移动速度等问题,迫切要解决的就是有效利用视频帧之间的时间信息。在视频问答中,如何利用视频帧之间的时间信息来获取更深层的视觉信息,以及如何将其他任务中使用的注意力机制有效的应用到视频问答任务中,是视频问答的关键和难点。本专利技术针对该问题,提出了一种基于注意力模型的视频问答方法。
技术实现思路
本专利技术的目的是为了克服现有技术中的不足,提供一种基于注意力模型的视频问答方法。本专利技术有效的利用视频中的场景信息,并通过注意力机制将注意力集中在与视频内容和问题相关的视频帧上,从而加大相关视频帧的权重,进而达到对视频问题进行回答的目的。本专利技术的目的是通过以下技术方案实现的:一种基于注意力模型的视频问答方法,包括以下步骤:(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集;(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量;(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景-文本模型的参数;(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案。步骤(1)包括以下步骤:a从互联网下载常用的视频问答数据集为TACoS数据集,该数据集中的小视频构成视频集合Video={video1,…,videoi,…,videoP},其中,videoi表示第i个小视频,P表示视频总数;b每个小视频有多个对应的问答对,视频videoi对应的问答对为其中,Q表示视频videoi对应的问答对的个数;c通过现有的视频集合Video以及每个视频对应的问答对QA组成<视频,问答对>,构成视频问答训练集。步骤(2)中利用视频截取工具截取视频帧时对每个视频的视频帧等间隔采样N帧。与现有技术相比,本专利技术的技术方案所带来的有益效果是:本专利技术方法基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计,本方法能够有效的强化视觉信息和语义信息之间的联系。本专利技术自主设计帧模型来提取视频的特征向量。在编码阶段,通过长短期记忆网络学习视频的场景特征表示,并将其作为解码阶段文本模型的初始状态输入,同时,在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。因此,该基于注意力模型的视频问答方法取得了良好的效果。附图说明图1是本专利技术方法的总的概况图。图2是本专利技术方法的帧模型示意图图3是本专利技术方法的编码阶段示意图。图4是本专利技术方法的解码阶段示意图。图5是本专利技术方法的结果展示示意图。具体实施方式下面结合附图对本专利技术作进一步的描述。图1是本专利技术一种基于注意力模型的视频问答方法的总的概况图。本专利技术基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息,从而达到针对给定的视频及相应的问题从选项选择出合适的答案的目的。首先,利用视频截取工具截取视频帧,并对视频帧进行采样;通过自主设计帧模型,得到视频的特征向量;在编码阶段,将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示,并将其作为解码阶段文本模型的初始化输入;文本模型采用长短期记忆网络进行设计,每个节点都有一个问题单词的输入,同时,在每个节点处加入了注意力机制;通过端到端的方式进行训练,得到场景-文本模型的参数。在测试阶段,输入待回答问题的视频的特征向量,以及待回答问题的文本特征,该场景-文本模型能够有效的选择出合适的答案。图2是本专利技术一种基于注意力模型的视频问答方法的帧模型示意图。帧模型是基于卷积神经网络设计针对视频帧进行操作的。通过帧模型可以得到视频帧的特征向量表示。首先,调整视频帧的大小为H×W,然后用VGGNet网络提取最后一层卷积层(conv5_3)的特征,得到维度为c×h×w的特征图,其中c表示特征图的通道数,h×w表示每个通道上的空间大小;然后在每个通道上采取sumpooling策略得到一个维度为c的特征向量,即为视频帧的特征向量表示。图3是本专利技术一种基于注意力模型的视频问答方法的编码阶段示意图。本专利技术的编码部分是基于长短期记忆网络进行设计。在该网络中,有一个核心单元:记忆单元c,该单元用来记录网络从当前时刻到下一时刻的状态变化,它被三个门控制:输入门i、遗忘门f和输出门o。在该网络中,σ表示sigmoid函数,tanh表示双曲正切函数,表示相关元素之间的乘积,h表示隐藏单元。在该长短期记忆网络的节点处依次输入视频帧的特征向量,并在最后一个节点得到该视频的场景特征表示。图4是本专利技术一种基于注意力模型的视频问答方法的解码阶段示意图。在解码阶段,文本模型是基于长短期记忆网络进行设计的,初始状态为该视频的场景特征表示;在该网络的每个节点处依次输入问题单词的Embedding表示;同时,在每个节点处都加入了注意力机制,注意力机制是由视频的特征向量引导的,本文档来自技高网
...
一种基于注意力模型的视频问答方法

【技术保护点】
一种基于注意力模型的视频问答方法,其特征在于,包括以下步骤:(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集;(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量;(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景‑文本模型的参数;(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景‑文本模型预测出合适的答案。

【技术特征摘要】
1.一种基于注意力模型的视频问答方法,其特征在于,包括以下步骤:(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成&lt;视频,问答对&gt;,构成视频问答训练集;(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量;(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景-文本模型的参数;(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案。2...

【专利技术属性】
技术研发人员:韩亚洪高昆
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1