The invention discloses a deep learning video question answering method and system based on the attention mechanism of the parsing tree, which comprises the following steps: (1) sampling the input video sequence to obtain a series of video frames, then extracting and preserving the features of each video frame with the pre-trained convolution neural network; (2) natural input. Language question, the use of grammar tree analysis tools to establish a grammar tree; (3) according to the structure of the grammar tree, determine the structure of the depth of neural network; (4) the depth of neural network bottom-up calculation to get the final output; (5) the depth of the neural network will be established on the data set for training; (6) the use of trained models Step 1 to 4, input the data to get the output, and select the answer to the question as the output in the answer library. The invention can greatly improve the accuracy of video question answering results, especially the results of complex and long questions.
【技术实现步骤摘要】
一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
本专利技术涉及计算机视觉和自然语言处理领域,具体涉及一种基于语法分析树上注意力机制的深度学习视频问答方法及系统。
技术介绍
一直以来,计算机视觉是人工智能研究的重要方向之一。计算机视觉的终极目标是赋予计算机理解视觉信息的能力。相比于物体检测、识别,图像分割等任务,视频问答更加接近于理解视觉信息的本质。给定一段视频和一个自然语言问句,视频问答的任务是要结合这个问句和视频信息,给出问题的答案。视频问答不仅仅是通往视觉信息理解的一条重要道路,同时也在实际中有着许多重要的应用,比如应用于智能机器人与人的交互,帮助残障人士,早期教育等等。最早的视觉问答系统,对视觉信息和自然语言问句采用独立编码的方式进行特征提取。ICCV2015年会议论文集,Vqa:Visualquestionanswering,2425-2433页公开了一种独立编码视觉和自然语言特征,然后融合两者进行答案选择的方法——LSTMQ+normI。该方法采用卷积神经网络提取图片特征,同时利用LSTM网络计算自然语言问句的特征,然后将两种特征拼接,最后使用全连层计算最终结果。之后出现的视觉问答方法,大多侧重于如何更好地处理视觉信息。为此,许多基于注意力机制的方法被专利技术出来,并且取得了显著的效果,成为了解决这类问题的主流的思路。注意力机制的本质是对输入的自然语言问句进行编码,然后在大范围的时间和空间上,摒弃大量无用的视觉信息,找到和问句相关并且对回答最有帮助的时空范围。CVPR2016年会议论文集,Stackedattentionnetwork ...
【技术保护点】
1.一种基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,包括以下步骤:步骤1,对输入的视频序列进行采样,得到一系列视频帧,然后利用预训练的卷积神经网络抽取每帧视频的特征,并将特征保存;步骤2,对输入的自然语言问句,利用语法树分析工具建立对应的语法树;步骤3,根据语法树的结构,确定深度神经网络的结构;步骤4,对深度神经网络进行自底向上的计算得到最终的输出结果;步骤5,将建立的深度神经网络在数据集上进行训练;步骤6,利用训练好的模型,按步骤1至4输入数据得到输出结果,依据输出结果在候选答案库中选择问题的答案作为输出。
【技术特征摘要】
1.一种基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,包括以下步骤:步骤1,对输入的视频序列进行采样,得到一系列视频帧,然后利用预训练的卷积神经网络抽取每帧视频的特征,并将特征保存;步骤2,对输入的自然语言问句,利用语法树分析工具建立对应的语法树;步骤3,根据语法树的结构,确定深度神经网络的结构;步骤4,对深度神经网络进行自底向上的计算得到最终的输出结果;步骤5,将建立的深度神经网络在数据集上进行训练;步骤6,利用训练好的模型,按步骤1至4输入数据得到输出结果,依据输出结果在候选答案库中选择问题的答案作为输出。2.根据权利要求1所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3的具体步骤为:步骤3-1,根据建立的语法树,建立一个树状的深度神经网络,并在根结点处增加一个用于分类的多层感知机;步骤3-2,利用预训练的词性分类器判断叶子结点上单词的性质是否为视觉性的,若是,则在该结点处增加注意力计算结构,若否,则不增加注意力计算结构;步骤3-3,如果采用层次化的注意力机制,则继续判断中间结点性质,在判为视觉性的结点处增加注意力计算结构;如果不采用层次化的注意力机制,则只对叶子结点进行判断。3.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3-2中,所述注意力计算结构公式为:其中,hk为结点k的隐藏层特征,T为视频的帧数,pj为第j个视频帧的注意力分布权值,vj为第j个视频帧的特征,pj为p的第j个分量,p的计算公式如下:p=softmax(WPhA)其中,WP为权值,hA为注意力机制的隐藏层特征,hA的第j个分量计算如下:hA,j=tanh(WQhk+Wvvj+bv)其中,WQ,Wv,bV为权值,vj为第j个视频帧的特征。4.根据权利要求2所述的基于语法分析树上注意力机制的深度学习视频问答方法,其特征在于,步骤3-3中,所述判断中间结点性质的方法为:如果其子结点为含有视觉性的结点,则该结点也被标为视觉性,否则该结点为非视觉性的。5.根据权利要求1所述的基于语法分析树上注意力机制的深...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。