当前位置: 首页 > 专利查询>山西大学专利>正文

基于深度迁移学习的视频描述方法技术

技术编号:19345678 阅读:24 留言:0更新日期:2018-11-07 15:12
本发明专利技术属于视频处理技术领域,具体是一种基于深度迁移学习的视频描述方法。包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到帧流语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。本发明专利技术对输入端不同域中的语义特征进行深度融合,以提高生成视频描述的准确率。

Video description method based on deep migration learning

The invention belongs to the technical field of video processing, in particular to a method for describing the depth of transfer learning based video. Includes the following steps: 1) through video convolution neural network model, the video is expressed as a vector of the form; 2) using multi instance learning to construct image semantic feature detection model, to extract the image domain semantic features; 3) the step 2) migration image semantic feature detection model to the frame in a River Basin by frame semantics special Sign detection model, to extract the frame semantic features, semantic features and realize the integration of the image domain and the depth of the basin frame; 4) construction depth transfer learning video description framework, video generating natural language description. The present invention is different semantic features in the domain of the input to the depth of integration, in order to improve the accuracy of the generated video description.

【技术实现步骤摘要】
基于深度迁移学习的视频描述方法
本专利技术属于视频处理
,具体是一种基于深度迁移学习的视频描述方法。
技术介绍
视频描述即为利用自然语言描述视频,是计算机视觉和自然语言处理领域的重点以及难点,在人工智能领域有着广阔的应用前景。视频描述与图像描述有很大的不同,视频描述不仅要理解每一帧中的物体,而且要理解物体在多帧之间的运动。现有的视频描述方法主要有以下四类:1)将视觉内容中检测到的单词分配给每个句子片段,然后利用预定义的语言模板去生成视频描述。这类方法非常依赖句子模板,生成的句子的句法结构比较固定;2)学习视觉内容与文本句子构成的联合空间的概率分布,生成的句子具有更加灵活的句法结构;3)利用多示例学习去训练属性探测器,然后通过一个基于属性探测器输出的最大熵语言模型去生成视频描述;4)以卷积神经网络与循环神经网络为中心,通过一个简单的线性迁移单元,把从图像与帧流中挖掘到的语义特征整合在一起,生成视频描述。前两类方法在视频描述过程中并未利用语义特征;后两类方法虽然在输入端均考虑到了语义特征,但并未将不同域中的语义特征进行深度融合。现有视频描述方法描述语义不够准确,为改善描述的准确性,因此设计了一种深度迁移学习视频描述模型。
技术实现思路
本专利技术为了解决上述问题,提供一种基于深度迁移学习的视频描述方法。本专利技术采取以下技术方案:一种基于深度迁移学习的视频描述方法,包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到帧流语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。所述的步骤1)中,采用卷积神经网络模型完成视频表示的任务,对于视频中的一组采样帧,将每一帧均输入到卷积神经网络模型中,提取第二个全连接层的输出,然后在所有的采样帧上执行均值池化,把一段视频表示为一个n维向量。所述的步骤2)中,在图像描述标准数据库上采用多示例学习去构建图像语义特征检测模型。具体如下:对于一个语义特征wa,如果wa存在于图像I的标注文本描述中,那么图像I将被视为一个正包;否则,图像I将被视为一个负包。首先将每个包输入到图像语义特征检测模型中,由全卷积神经网络将每一包分成多个区域,然后根据包中所有区域(示例)的概率来计算包含语义特征wa的包bI的概率,如式(1)所示:其中,是特征wa的概率,这个概率由区域ri进行预测,通过一个sigmoid层进行计算,该sigmoid层位于全卷积神经网络的最后一个卷积层之后。另外,全卷积神经网络最后一个卷积层的激活函数的维度是x×x×h,h代表包中每个区域的表示维度,因此对于每个包来说,得到x×x维特征图。然后,利用交叉熵损失层对模型进行优化。最后,利用在图像描述数据集上训练得到图像语义特征检测模型,分别对每个单独采样帧计算关于所有语义特征的概率分布,并且在所有采样帧的特征分布上执行均值池化,得到从图像学习到的语义特征的最终表示。所述的步骤3)中,图像样本构成的域称为源域,帧流样本构成的域称为目标域,该模型的最终目标是:对于目标域的分布,给定输入x,能够预测语义特征y。具体如下:在训练过程中,对于每个输入x,除了要预测语义特征外,还需预测域标签d;若d=0,则x来自源域;若d=1,则x来自目标域,语义特征检测模型可以分解为三个部分,具体工作过程为:首先,通过映射Gf将输入x映射为一个D维特征向量f∈RD,映射的参数向量为θf;然后,通过映射Gy将特征向量f映射为语义特征y,映射的参数向量为θy;最后,通过一个映射Gd将相同的特征向量f映射为域标签d,映射的参数向量为θd。在训练阶段,帧流语义特征检测模型满足以下三个参数:(1)寻找参数θy,在源域最小化语义特征预测器的损失,确保语义特征检测模型在源域上不失真;(2)寻找特征映射参数θf,使得在源域上通过映射Gf提取的特征Sf与目标域上提取的特征Tf相似,分布Sf与Tf的相似性通过计算域分类器Gd的损失来估计。获得域不变特征使得这两个特征分布尽可能相似,以此来最大化域分类器的损失。(3)寻找域分类器的参数θd,最小化域分类器的损失。这里利用了对抗式网络的思想。满足要求的三个参数构成一个点(θf,θy,θd),称为鞍点。整个训练过程可以表示为式(2):其中,Ly(,.,)是语义特征预测的损失;Ld(,.,)是域分类的损失,与表示在第i个训练样本上评估的相应的损失函数;参数λ用于平衡在训练期间形成的两个域的特征向量;因此,鞍点(θf,θy,θd)可以通过式(2)进行求解,采用如式(3)、(4)、(5)所示的方法搜索鞍点;其中μ是学习率,在反向传播期间,(3)式中从下一层取得梯度,将这个梯度乘以-λ,并将其传递到前一层,此部分为梯度反向层。帧流语义特征检测模型主要由特征提取器、梯度反向层和域分类器构成。特征提取器主要提取帧流域中的语义特征,域分类器和梯度反向层结合起来对图像域与帧流域语义特征进行融合。训练完成之后,利用语义特征预测器去预测来自目标域以及源域样本的语义特征。由于Sf与Tf为两个域不变的特征向量,因此由它们映射得到的图像域与帧流域上的语义特征也保留了域不变的特性,即两个域上提取到的语义特征实现了深度融合。因此,利用帧流语义特征检测模型得到的语义特征可直接作为视频描述框架的输入,并将该语义特征记为Aiv。所述的步骤4)中,整个框架的工作流程包括以下步骤:(1)利用卷积神经网络视频表示模型得到给定视频的向量表示v,仅在初始时刻将其输入到递归神经网络(LongShortTermMemorynetwork,简称LSTM)的第一层;(2)在图像数据集上训练图像语义特征检测模型;(3)将给定的视频帧拆分为单独的图像,依次输入到帧流语义特征检测模型中;(4)将给定的视频帧视为帧流,并行输入到帧流语义特征检测模型中;(5)利用帧流语义特征检测模型得到融合语义特征Aiv,如“Man”、“Person”等的向量表示,并将Aiv输入到LSTM的第二层;(6)将给定视频的英文描述逐词输入到LSTM的第一层,结合上述四个步骤中的输入,利用当前时刻以及之前时刻的输入单词去预测下一时刻的输出单词,以此来训练视频描述框架。整个框架所表示的模型结构由式(6)、(7)进行描述,E(v,Aiv,S)=-logP(S|v,Aiv)(6)其中,v为输入视频,Aiv为融合语义特征,S为句子描述,E为能量损失函数,wt为单词表示,Ns为句子中单词的数量,最终的目标是最小化能量损失函数,保留句子中单词之间的上下文关系。框架中,仅在t=-1时刻将视频v输入到第一层LSTM单元中,然后将Aiv作为额外的输入,在每次迭代中均输入到第二层LSTM单元,以此来强化语义信息,如式(8)、(9)、(10)所示,t从0到Ns-1进行迭代:x-1=f1(Tvv)+Aiv(8)xt=f1(Tswt)+Aiv(9)ht=f2(xt)(10)其中,与分别是视频v的变换矩阵与wt的变换矩阵,De是LSTM输入的维度,Dv是视频v的维度,Dw是wt的维度,xt与ht分别是第二层LSTM单元的本文档来自技高网...

【技术保护点】
1.一种基于深度迁移学习的视频描述方法,其特征在于:包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到新的语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。

【技术特征摘要】
2018.03.22 CN 20181025075211.一种基于深度迁移学习的视频描述方法,其特征在于:包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到新的语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。2.根据权利要求1所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤1)中,采用卷积神经网络模型完成视频表示的任务,对于视频中的一组采样帧,将每一帧均输入到卷积神经网络模型中,提取第二个全连接层的输出,然后在所有的采样帧上执行均值池化,把一段视频表示为一个n维向量。3.根据权利要求2所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤2)中:具体步骤如下:对于一个语义特征wa,如果wa存在于图像I的标注文本描述中,那么图像I将被视为一个正包;否则,图像I将被视为一个负包,首先将每个包输入到图像语义特征检测模型中,然后根据包中所有区域的概率来计算包含语义特征wa的包bI的概率,如式(1)所示:其中,是特征wa的概率,这个概率由区域ri进行预测,通过一个sigmoid层进行计算,该sigmoid层位于全卷积神经网络的最后一个卷积层之后,另外,全卷积神经网络最后一个卷积层的激活函数的维度是x×x×h,h代表包中每个区域的表示维度,因此对于每个包来说,得到x×x维特征图,然后,利用交叉熵损失层对模型进行优化,最后,利用在图像描述数据集上训练得到图像语义特征检测模型,分别对每个单独的采样帧计算关于所有语义特征的概率分布,并且在所有采样帧的特征分布上执行均值池化,得到从图像学习到的语义特征的最终表示。4.根据权利要求3所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤3),图像样本构成的域称为源域,帧流样本构成的域称为目标域,该模型的最终目标是:对于目标域的分布,给定输入x,能够预测语义特征y;具体如下:在训练过程中,对于每个输入x,除了要预测语义特征外,还需预测域标签d;若d=0,则x来自源域;若d=1,则x来自目标域,帧流语义特征检测模型可以分解为三个部分,具体工作过程为:首先,通过映射Gf将输入x映射为一个D维特征向量f∈RD,映射的参数向量为θf;然后,通过映射Gy将特征向量f映射为语义特征y,映射的参数向量为θy;最后,通过一个映射Gd将相同的特征向量f映射为域标签d,映射的参数向量为θd。5.根据权利要求4所述的基于深度迁移学习的视频描述方法,其特征在于:在训练过程中,帧流语义特征检测模型满足以下三个参数:(1)寻找参数θy,在源域最小化语义特征预测器的损失,确保帧流语义特征检测模型在源域上不失真;(2)寻找特征映射参数θf,使得在源域上通过映射Gf提取的特征Sf与目标域上提取的特征Tf相...

【专利技术属性】
技术研发人员:张丽红曹刘彬
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1