一种基于文本自编码器的视频内容描述方法技术

技术编号:23984905 阅读:34 留言:0更新日期:2020-04-29 13:03
本发明专利技术公开了一种基于文本自编码器的视频内容描述方法。本发明专利技术方法首先构建卷积神经网络提取视频的二维和三维特征;其次,构建文本自编码器,即分别用编码器‑文本卷积网络提取文本隐空间特征和解码器‑多头注意力残差网络重构文本;再次,通过自注意力机制及全连接映射得到估计文本隐空间特征;最后,通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。本发明专利技术方法通过文本自编码器的训练可充分挖掘视频内容语义和视频文本描述的潜在关系,通过自注意力机制捕捉视频长时间跨度的动作时序信息,提高了模型的计算效率,从而生成更符合视频真实内容的文本描述。

A video content description method based on text self encoder

【技术实现步骤摘要】
一种基于文本自编码器的视频内容描述方法
本专利技术属于计算机
,具体是视频内容描述
,涉及一种基于文本自编码器的视频内容描述方法。
技术介绍
近年来,随着信息技术不断发展以及智能设备迭代升级,人们更加倾向利用视频来传达信息,使得各种类型的视频数据规模愈加庞大,同时也带来巨大挑战。例如,视频内容分享网站上每分钟都有成百上千的视频数据上传到服务器,若由人工来审核这些视频是否合规则非常耗时耗力,而借助视频描述的方法则可显著提高审核工作的效率,节省大量时间开销和人力成本。视频内容描述技术主要可广泛应用在于视频标题生成、视频检索、帮助视障人群理解视频等实际场景。视频内容描述即利用一段自然流畅的文本对视频中的内容进行描述,其目标是反映视频中的目标对象(如行人或物体)、对象间的动作,以及所处的场景等,并理解其间的复杂关系,最终生成与视频内容相匹配且连贯的语句。传统视频描述方法主要基于人工设计特征和经典机器学习算法,例如使用支持向量机(SupportVectorMachine,SVM)算法对视频进行描述,但这种方法难以生成正确且自然流畅的语本文档来自技高网...

【技术保护点】
1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:/n步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;/n步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;/n步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;/n步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。/n

【技术特征摘要】
1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。


2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(1)具体方法是:
(1-1).设给定视频含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像该视频处理后的所有帧集合记作
将视频对应的视频帧以16帧为间隔,划分成16个视频片段,记作其中
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为提取视频帧中每一帧的特征是取平均池化层后的输出,并拉直为向量;
利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征,取全连接层fc6后的输出,将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵


3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD〉表示;视频对应的描述语句集合为其中第k个单词为L为描述语句的长度,单词wk采取独热编码,为词汇表单词个数;
(2-2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号<PAD>将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表进行映射得到对应内容描述(2-3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频的类别标记为其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述及其标记构建文本卷积神经网络作为分类器;对视频内容描述进行词嵌入操作得到其表示矩阵其中为单词yk的词嵌入表示向量,为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量用于分类;利用映射矩阵和偏置项将特征fsc映射为类别空间向量fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布其中通过极大似然估计定义分类损失其中指示函数Ik(·)表示视频样本是否属于第k个类别,为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计算法最小化该分类损失;
(2-5).通过采用多头注意力残差网络作为解码器重构文本:将视频对应的描述语句集合中的单...

【专利技术属性】
技术研发人员:李平张致远徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1