【技术实现步骤摘要】
一种基于预编码语义特征的视频描述生成方法
本专利技术属于视频描述生成
,特别涉及一种基于预编码语义特征的视频描述生成方法。
技术介绍
随着信息与通信技术的快速发展,视频渐渐成为网络上最流行的信息交流载体。视频描述生成是近年来人工智能领域的研究热点,它在计算机视觉社区和自然语言处理社区倍受关注。对于一个给定的视频,该任务的目标是自动生成一个能将视频内容描述清楚并且完整通顺的句子。视频比图像多了时间维度,因此视频描述生成任务除了需要识别出视频每帧的内容之外,还需要理解帧间关系,进而将内容与描述文字对应起来。目前,视频描述生成技术已应用在机器人和视频检索等领域。由于这个问题是计算机视觉领域的热点任务,已有学者提出多种方法。例如,直接使用编码器-解码器方法生成句子,即使用卷积神经网络提取视频的每帧特征,再将特征输入长短期记忆网络编码器,然后从解码器生成视频描述。该方法仅使用了用于训练的视频数据集,用到的信息不足,故有一定的局限性。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在 ...
【技术保护点】
1.一种基于预编码语义特征的视频描述生成方法,其特征在于,包括以下步骤:/n对视频进行抽帧处理,并生成光流图;/n利用152层的残差网络抽取视频的全局RGB特征;/n利用多模态融合网络抽取视频的全局动作特征;/n利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;/n将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述。/n
【技术特征摘要】
1.一种基于预编码语义特征的视频描述生成方法,其特征在于,包括以下步骤:
对视频进行抽帧处理,并生成光流图;
利用152层的残差网络抽取视频的全局RGB特征;
利用多模态融合网络抽取视频的全局动作特征;
利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;
将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述。
2.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述对视频进行抽帧处理,并生成光流图的具体方法为:
利用ffmpeg对视频进行抽帧处理,然后对相邻的每两帧抽取TVL1和warpedTVL1光流图。
3.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述利用152层的残差网络抽取视频的全局RGB特征的具体方法为:
在公开数据集ImageNet上训练152层残差网络,即ResNet152;
使用ResNet152分别预测视频中抽出的帧,将网络的最后一个卷积层作为特征;
将得到的特征取平均得到视频的全局RGB特征。
4.根据权利要求3所述基于预编码语义特征的视频描述生成方法,其特征在于,所述使用ResNet152分别预测视频中抽出的帧的具体方法为:
将所有的帧等分成8段;
每段取最中间一帧;
使用ResNet152预测这8帧。
5.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述利用多模态融合网络抽取视频的全局动作特征的具体方法为:
在公开数据集UCF101上训练TSN网络;
在公开数据集UCF101上训练C3D网络;
将抽取好的帧和光流图输入训练好的TSN网络和C3D网络中,分别得到TSN分数特征和C3D分数特征;
将TSN分数特征和C3D分数特征进行线性融合,得到多模态融合网络分数特征,称为全局动作特征。
6.根据权利要求5所述基于预编码语义特征的视频描述生成方法,其特征在于,所述将抽取好的帧和光流图输入训练好的TSN网络和C3D网络中,分别得到TSN分数特征和C3D分数特征的具体方法为:
将所有的帧分成8段,每段取中间一帧,输入TSN空间网络,得到TSN空间网络分数特征;
将TVL1光流图和warpedTVL1...
【专利技术属性】
技术研发人员:覃征,黄凯,王国龙,徐凯平,叶树雄,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。