The invention belongs to the technical field of video processing, in particular to a method for describing the depth of transfer learning based video. Includes the following steps: 1) through video convolution neural network model, the video is expressed as a vector of the form; 2) using multi instance learning to construct image semantic feature detection model, to extract the image domain semantic features; 3) the step 2) migration image semantic feature detection model to the frame in a River Basin by frame semantics special Sign detection model, to extract the frame semantic features, semantic features and realize the integration of the image domain and the depth of the basin frame; 4) construction depth transfer learning video description framework, video generating natural language description. The present invention is different semantic features in the domain of the input to the depth of integration, in order to improve the accuracy of the generated video description.
【技术实现步骤摘要】
基于深度迁移学习的视频描述方法
本专利技术属于视频处理
,具体是一种基于深度迁移学习的视频描述方法。
技术介绍
视频描述即为利用自然语言描述视频,是计算机视觉和自然语言处理领域的重点以及难点,在人工智能领域有着广阔的应用前景。视频描述与图像描述有很大的不同,视频描述不仅要理解每一帧中的物体,而且要理解物体在多帧之间的运动。现有的视频描述方法主要有以下四类:1)将视觉内容中检测到的单词分配给每个句子片段,然后利用预定义的语言模板去生成视频描述。这类方法非常依赖句子模板,生成的句子的句法结构比较固定;2)学习视觉内容与文本句子构成的联合空间的概率分布,生成的句子具有更加灵活的句法结构;3)利用多示例学习去训练属性探测器,然后通过一个基于属性探测器输出的最大熵语言模型去生成视频描述;4)以卷积神经网络与循环神经网络为中心,通过一个简单的线性迁移单元,把从图像与帧流中挖掘到的语义特征整合在一起,生成视频描述。前两类方法在视频描述过程中并未利用语义特征;后两类方法虽然在输入端均考虑到了语义特征,但并未将不同域中的语义特征进行深度融合。现有视频描述方法描述语义不够准确,为改善描述的准确性,因此设计了一种深度迁移学习视频描述模型。
技术实现思路
本专利技术为了解决上述问题,提供一种基于深度迁移学习的视频描述方法。本专利技术采取以下技术方案:一种基于深度迁移学习的视频描述方法,包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到帧 ...
【技术保护点】
1.一种基于深度迁移学习的视频描述方法,其特征在于:包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到新的语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。
【技术特征摘要】
2018.03.22 CN 20181025075211.一种基于深度迁移学习的视频描述方法,其特征在于:包括以下步骤,1)通过卷积神经网络视频表示模型,将视频表示为向量形式;2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到新的语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;4)构建深度迁移学习视频描述框架,生成视频自然语言描述。2.根据权利要求1所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤1)中,采用卷积神经网络模型完成视频表示的任务,对于视频中的一组采样帧,将每一帧均输入到卷积神经网络模型中,提取第二个全连接层的输出,然后在所有的采样帧上执行均值池化,把一段视频表示为一个n维向量。3.根据权利要求2所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤2)中:具体步骤如下:对于一个语义特征wa,如果wa存在于图像I的标注文本描述中,那么图像I将被视为一个正包;否则,图像I将被视为一个负包,首先将每个包输入到图像语义特征检测模型中,然后根据包中所有区域的概率来计算包含语义特征wa的包bI的概率,如式(1)所示:其中,是特征wa的概率,这个概率由区域ri进行预测,通过一个sigmoid层进行计算,该sigmoid层位于全卷积神经网络的最后一个卷积层之后,另外,全卷积神经网络最后一个卷积层的激活函数的维度是x×x×h,h代表包中每个区域的表示维度,因此对于每个包来说,得到x×x维特征图,然后,利用交叉熵损失层对模型进行优化,最后,利用在图像描述数据集上训练得到图像语义特征检测模型,分别对每个单独的采样帧计算关于所有语义特征的概率分布,并且在所有采样帧的特征分布上执行均值池化,得到从图像学习到的语义特征的最终表示。4.根据权利要求3所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤3),图像样本构成的域称为源域,帧流样本构成的域称为目标域,该模型的最终目标是:对于目标域的分布,给定输入x,能够预测语义特征y;具体如下:在训练过程中,对于每个输入x,除了要预测语义特征外,还需预测域标签d;若d=0,则x来自源域;若d=1,则x来自目标域,帧流语义特征检测模型可以分解为三个部分,具体工作过程为:首先,通过映射Gf将输入x映射为一个D维特征向量f∈RD,映射的参数向量为θf;然后,通过映射Gy将特征向量f映射为语义特征y,映射的参数向量为θy;最后,通过一个映射Gd将相同的特征向量f映射为域标签d,映射的参数向量为θd。5.根据权利要求4所述的基于深度迁移学习的视频描述方法,其特征在于:在训练过程中,帧流语义特征检测模型满足以下三个参数:(1)寻找参数θy,在源域最小化语义特征预测器的损失,确保帧流语义特征检测模型在源域上不失真;(2)寻找特征映射参数θf,使得在源域上通过映射Gf提取的特征Sf与目标域上提取的特征Tf相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。