一种基于注意力模型的视频问答方法技术

技术编号：17516656 阅读：44 留言：0更新日期：2018-03-21 01:14

本发明专利技术公开了一种基于注意力模型的视频问答方法，本方法基于编码解码的框架进行设计，采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计，本方法能够有效的强化视觉信息和语义信息之间的联系。本发明专利技术自主设计帧模型来提取视频的特征向量。在编码阶段，通过长短期记忆网络学习视频的场景特征表示，并将其作为解码阶段文本模型的初始状态输入，同时，在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系，更好的解析出视频的语义信息。因此，该基于注意力模型的视频问答方法取得了良好的效果。

A video Q & a method based on attention model

The invention discloses a video question answering method based on attention model. This method is designed based on encoding and decoding framework, and uses end to end way to learn visual and semantic information of video. Through end to end design, this method can effectively strengthen the connection between visual information and semantic information. The invention independently designs the frame model to extract the feature vector of the video. In the encoding stage, through the long short term memory and network learning scene features of video representation, which can be used as initial state input, the decoding stage text model at the same time, the mechanism of attention in the model is added in the text can enhance the link between video frames and more effective, good analytical semantic information of video. Therefore, the video Q & a method based on the attention model has achieved good results.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力模型的视频问答方法
本专利技术涉及计算机视觉、多媒体分析领域，尤其涉及一种基于注意力模型的视频问答方法。
技术介绍
视频分析是计算机视觉和多媒体分析领域中一项重要的研究课题，也是目前非常有挑战性的热点问题。随着视频数据的急速增长，视频分析吸引了人们的注意力。视频问答作为视频分析的一种媒介，近年来引起了人们的大量关注。视频问答是指对给定的视频以及针对该视频提出的问题，通过获取他们的视觉信息和语义信息，对问题给出合适的答案的过程。当人们观看一段视频时，会通过视频帧展现的场景信息来获取视频中出现的人物、物体、环境等，场景带来的视觉信息使人们对视频内容有了一个整体的了解；同时，在回答针对视频提出的问题时，人们会把注意力集中在与问题相关的视频帧中，即给予与问题相关的视频帧更多的注意力。基于这种思想，我们针对视频问答任务提出了一种基于注意力模型的视频问答方法，使得视频问答任务有了很大的提升。近年来，深度学习在视觉任务和自然语言处理任务等方面取得的成果是视频问答任务的主要驱动力。用深度学习框架提取卷积特征应用于动作识别、图片分类和物体检测等方面；另外，循环神经网络，尤其是长短期记忆网络在自然语言处理任务中以及多种时序问题中被广泛使用。为了更好的理解视觉内容，如今最常采用的方法就是将视觉和语言进行结合。最早对视频信息有研究的领域是视频描述，即针对一段视频通过生成自然语言来描述视频的语义信息。视频描述任务的一些想法启发了我们对视频问答任务的思考。在视频描述任务中，Venugopalan等人提出了编码、解码框架，使用端到端的方法来生成视频的语义描述。其中，在视频...
一种基于注意力模型的视频问答方法

【技术保护点】
一种基于注意力模型的视频问答方法，其特征在于，包括以下步骤：(1)从互联网下载视频，并对每个视频提出问题，同时针对问题给出答案，形成<视频，问答对>，构成视频问答训练集；(2)利用视频截取工具截取视频帧，并对视频帧进行采样，每一帧都是一张静态图像；(3)构造帧模型，逐帧处理视频帧，得到视频的特征向量；(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示；(5)将视频的场景特征表示作为文本模型的初始化，文本模型采用长短期记忆网络，同时，在每个节点处加入了注意力模型，通过端到端的方式进行训练，得到场景‑文本模型的参数；(6)输入待回答问题的视频的特征向量，以及待回答问题的文本特征，通过场景‑文本模型预测出合适的答案。

【技术特征摘要】
1.一种基于注意力模型的视频问答方法，其特征在于，包括以下步骤：(1)从互联网下载视频，并对每个视频提出问题，同时针对问题给出答案，形成<视频，问答对>，构成视频问答训练集；(2)利用视频截取工具截取视频帧，并对视频帧进行采样，每一帧都是一张静态图像；(3)构造帧模型，逐帧处理视频帧，得到视频的特征向量；(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示；(5)将视频的场景特征表示作为文本模型的初始化，文本模型采用长短期记忆网络，同时，在每个节点处加入了注意力模型，通过端到端的方式进行训练，得到场景-文本模型的参数；(6)输入待回答问题的视频的特征向量，以及待回答问题的文本特征，通过场景-文本模型预测出合适的答案。2...

【专利技术属性】
技术研发人员：韩亚洪，高昆，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人