当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语法分析树上注意力机制的深度学习视频问答方法及系统技术方案

技术编号:18972382 阅读:26 留言:0更新日期:2018-09-19 03:38
本发明专利技术公开了一种基于语法分析树上注意力机制的深度学习视频问答方法及系统,包括以下步骤:(1)对输入的视频序列进行采样,得到一系列视频帧,然后用预训练的卷积神经网络抽取并保存每帧视频的特征;(2)对输入的自然语言问句,利用语法树分析工具建立语法树;(3)根据语法树的结构,确定深度神经网络的结构;(4)对深度神经网络进行自底向上的计算得到最终的输出结果;(5)将建立的深度神经网络在数据集上进行训练;(6)利用训练好的模型,按步骤1至4输入数据得到输出结果,在答案库中选择问题的答案作为输出。利用本发明专利技术可以大大提高视频问答结果的准确率,尤其可以提升在复杂及较长问句上的结果。

A deep learning video question answering method and system based on syntax analysis tree attention mechanism

The invention discloses a deep learning video question answering method and system based on the attention mechanism of the parsing tree, which comprises the following steps: (1) sampling the input video sequence to obtain a series of video frames, then extracting and preserving the features of each video frame with the pre-trained convolution neural network; (2) natural input. Language question, the use of grammar tree analysis tools to establish a grammar tree; (3) according to the structure of the grammar tree, determine the structure of the depth of neural network; (4) the depth of neural network bottom-up calculation to get the final output; (5) the depth of the neural network will be established on the data set for training; (6) the use of trained models Step 1 to 4, input the data to get the output, and select the answer to the question as the output in the answer library. The invention can greatly improve the accuracy of video question answering results, especially the results of complex and long questions.

【技术实现步骤摘要】
一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
本专利技术涉及计算机视觉和自然语言处理领域,具体涉及一种基于语法分析树上注意力机制的深度学习视频问答方法及系统。
技术介绍
一直以来,计算机视觉是人工智能研究的重要方向之一。计算机视觉的终极目标是赋予计算机理解视觉信息的能力。相比于物体检测、识别,图像分割等任务,视频问答更加接近于理解视觉信息的本质。给定一段视频和一个自然语言问句,视频问答的任务是要结合这个问句和视频信息,给出问题的答案。视频问答不仅仅是通往视觉信息理解的一条重要道路,同时也在实际中有着许多重要的应用,比如应用于智能机器人与人的交互,帮助残障人士,早期教育等等。最早的视觉问答系统,对视觉信息和自然语言问句采用独立编码的方式进行特征提取。ICCV2015年会议论文集,Vqa:Visualquestionanswering,2425-2433页公开了一种独立编码视觉和自然语言特征,然后融合两者进行答案选择的方法——LSTMQ+normI。该方法采用卷积神经网络提取图片特征,同时利用LSTM网络计算自然语言问句的特征,然后将两种特征拼接,最后使用全连层计算最终结果。之后出现的视觉问答方法,大多侧重于如何更好地处理视觉信息。为此,许多基于注意力机制的方法被专利技术出来,并且取得了显著的效果,成为了解决这类问题的主流的思路。注意力机制的本质是对输入的自然语言问句进行编码,然后在大范围的时间和空间上,摒弃大量无用的视觉信息,找到和问句相关并且对回答最有帮助的时空范围。CVPR2016年会议论文集,Stackedattentionnetworksforimagequestionanswering,21-29页公开了一种针对图像的空间注意力机制。空间注意力机制将图像分划为若干区域,然后通过注意力层计算问句在不同区域上的注意力分布,得到最后的融合特征,再解码得到答案。后来,随着视觉问答系统开始考虑更加复杂的视频,研究者们将空间上的注意力机制扩展到了时间上,即计算问句在时间轴上的注意力分布。与此同时,各种各样的注意力机制也被提出来,但这些方法几乎没有考虑自然语言本身的复杂性,基本上都将整个自然语言语句视作整体。AAAI2017年会议论文,LeveragingVideoDescriptionstoLearnVideoQuestionAnswering,4334-4340页公开了一种基于时间注意力机制的方法E-SA和一种基于序列到序列学习的方法E-SS。其中E-SS先对视频帧和自然语言语句视作一个序列,按顺序用一个LSTM网络进行编码,随后直接解码得到答案。E-SA方法则加入了时间注意力机制,问句依然采用LSTM编码,但对问句的每个单词都需计算其在视频帧上的注意力权值分布,然后计算加权特征,最后再作为LSTM的输入。虽然E-SA方法对语句的考虑深入到了单词级别,然而更为重要的信息——语句的语法结构,依然没有被考虑。在自然语言处理领域,许多时候,语句的语法结构被证明为更加有效,比如处理语句的情感分析等等问题。而之前视频问答的这些注意力机制,如E-SA方法,全都建立在线性结构的语句模型上,语句蕴含的大量结构信息没有被有效的利用。而在句子较长时,线性结构的有效性将急剧下降。与此同时,有些单词并没有视觉意义,它们仅仅是语言结构的一部分,因此不应该计算其在视觉空间上的注意力分布。现有的方法,如E-SA,也没有对这些单词加以区分。
技术实现思路
本专利技术提出了一种基于语法分析树上注意力机制的深度学习视频问答方法,能够考虑语句的复杂结构,区分每个单词是否应该进行注意力机制的计算,自底向上递归地计算得到自然语言和视觉数据的融合特征,然后解码得到答案。一种基于语法分析树上注意力机制的深度学习视频问答方法,包括以下步骤:步骤1,对输入的视频序列进行采样,得到一系列视频帧,然后利用预训练的卷积神经网络抽取每帧视频的特征,并将特征保存;步骤2,对输入的自然语言问句,利用语法树分析工具建立对应的语法树;步骤3,根据语法树的结构,确定深度神经网络的结构;步骤4,对深度神经网络进行自底向上的计算得到最终的输出结果;步骤5,将建立的深度神经网络在数据集上进行训练;步骤6,利用训练好的模型,按步骤1至4输入数据得到输出结果,依据输出结果在候选答案库中选择问题的答案作为输出。本方法可以大大提高视频问答结果的准确率,尤其可以提升在复杂及较长问句上的结果。其中,步骤3的具体步骤为:步骤3-1,根据建立的语法树,建立一个树状的深度神经网络,并在根结点处增加一个用于分类的多层感知机;步骤3-2,利用预训练的词性分类器判断叶子结点上单词的性质是否为视觉性的,若是,则在该结点处增加注意力计算结构,若否,则不增加注意力计算结构;步骤3-3,如果采用层次化的注意力机制,则继续判断中间结点性质,在判为视觉性的结点处增加注意力计算结构;如果不采用层次化的注意力机制,则只对叶子结点进行判断。步骤3-2中,所述注意力计算结构公式为:其中,hk为结点k的隐藏层特征,T为视频的帧数,pj为第j个视频帧的注意力分布权值,vj为第j个视频帧的特征,pj为p的第j个分量,p的计算公式如下:p=softmax(WPhA)其中,WP为权值,hA为注意力机制的隐藏层特征,hA的第j个分量计算如下:hA,j=tanh(WQhk+Wvvj+bV)其中,WQ,Wv,bV为权值,vj为第j个视频帧的特征。步骤3-3中,所述判断中间结点性质的方法为:如果其子结点为含有视觉性的结点,则该结点也被标为视觉性,否则该结点为非视觉性的。步骤4的具体步骤为:步骤4-1,将叶子结点用预训练的词向量模型进行初始化;步骤4-2,按照步骤3中确定的模型,沿着树状神经网络自底向上进行计算,直至根结点,最后得到多层感知机的输出结果。步骤5的具体步骤为:步骤5-1,对数据集中的数据进行预处理,确定单词表,将不在单词表中的单词去除;步骤5-2,每次随机选择数据集中一个数据样本,按照步骤1至4计算网络的输出,然后计算损失函数;步骤5-3,依据反向传播计算梯度,更新深度神经网络的权值;步骤5-4,重复步骤5-2至5-3,直到深度神经网络收敛。本专利技术还提出了一种基于语法分析树上注意力机制的深度学习视频问答系统,包括:视频特征提取模块,用于对输入的视频进行采样,并利用预训练的卷积神经网络提取每帧视频的特征,并且将特征存储下来以便后续计算使用;问句语法树解析模块,用于将输入的自然语言问句转化为对应的语法分析树,采用语法树解析工具将一个自然语言语句转化成一棵语法分析树;词向量模块,利用词向量工具获得叶子结点单词的向量表示,作为叶子结点的输入;词性分析模块,用于分析一个单词是否为视觉性的,以此来进一步决定所要构建的树状神经网络的结构;注意力机制模块,计算当前的特征隐藏表示在各个视频帧上的注意力分布权重,然后依据权重加权计算新的特征表示;树状神经网络模块,基于问句的语法树解析结果和词性分析结果构造对应的树状深度学习神经网络;损失函数计算模块,根据训练时网络的输出结果和实际答案,计算损失函数;训练迭代模块,依据损失函数和反向传播计算规则,计算梯度,更新网络的权值;答案选择模块,依据树状网络最后的分类结果,在答案库中选择对应的答本文档来自技高网
...

【技术保护点】
1.一种基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,包括以下步骤:步骤1,对输入的视频序列进行采样,得到一系列视频帧,然后利用预训练的卷积神经网络抽取每帧视频的特征,并将特征保存;步骤2,对输入的自然语言问句,利用语法树分析工具建立对应的语法树;步骤3,根据语法树的结构,确定深度神经网络的结构;步骤4,对深度神经网络进行自底向上的计算得到最终的输出结果;步骤5,将建立的深度神经网络在数据集上进行训练;步骤6,利用训练好的模型,按步骤1至4输入数据得到输出结果,依据输出结果在候选答案库中选择问题的答案作为输出。

【技术特征摘要】
1.一种基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,包括以下步骤:步骤1,对输入的视频序列进行采样,得到一系列视频帧,然后利用预训练的卷积神经网络抽取每帧视频的特征,并将特征保存;步骤2,对输入的自然语言问句,利用语法树分析工具建立对应的语法树;步骤3,根据语法树的结构,确定深度神经网络的结构;步骤4,对深度神经网络进行自底向上的计算得到最终的输出结果;步骤5,将建立的深度神经网络在数据集上进行训练;步骤6,利用训练好的模型,按步骤1至4输入数据得到输出结果,依据输出结果在候选答案库中选择问题的答案作为输出。2.根据权利要求1所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3的具体步骤为:步骤3-1,根据建立的语法树,建立一个树状的深度神经网络,并在根结点处增加一个用于分类的多层感知机;步骤3-2,利用预训练的词性分类器判断叶子结点上单词的性质是否为视觉性的,若是,则在该结点处增加注意力计算结构,若否,则不增加注意力计算结构;步骤3-3,如果采用层次化的注意力机制,则继续判断中间结点性质,在判为视觉性的结点处增加注意力计算结构;如果不采用层次化的注意力机制,则只对叶子结点进行判断。3.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3-2中,所述注意力计算结构公式为:其中,hk为结点k的隐藏层特征,T为视频的帧数,pj为第j个视频帧的注意力分布权值,vj为第j个视频帧的特征,pj为p的第j个分量,p的计算公式如下:p=softmax(WPhA)其中,WP为权值,hA为注意力机制的隐藏层特征,hA的第j个分量计算如下:hA,j=tanh(WQhk+Wvvj+bv)其中,WQ,Wv,bV为权值,vj为第j个视频帧的特征。4.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3-3中,所述判断中间结点性质的方法为:如果其子结点为含有视觉性的结点,则该结点也被标为视觉性,否则该结点为非视觉性的。5.根据权利要求1所述的基于语法分析树上注意力机制的深...

【专利技术属性】
技术研发人员:薛弘扬蔡登赵洲
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1