【技术实现步骤摘要】
基于语义驱动的前背景区分视频描述生成系统
[0001]本专利技术属于跨媒体生成
,具体涉及基于语义驱动的前背景区分视频描述生成系统。
技术介绍
[0002]在各种多模态信息处理任务中,视频描述自动生成(Video Captioning)是一项非常重要的任务,其在视频分析领域是一项基础性的研究任务。该任务为给定一段视频,计算机自动分析视频内容,生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(Image Captioning)基础上发展而来,但视频与图像存在显著性差异,视频可被看作为多幅图像的集合,其特征多样性与内容场景复杂性都远远超出图像,因此视频描述自动生成技术难度及挑战性也远高于图像描述生成技术。该项任务涉及到人工智能的两个研究领域,即计算机视觉(Compute Vision,CV)和自然语言处理(Natural Language Processing,NLP),其在两个领域搭起桥梁将两者紧密联系起来。从计算机角度出发,理解一段视频并不能和人类分析视频一样简单。目前,图像分析对于图像表示一般采取将其处理成 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义驱动的前背景区分视频描述生成系统,其特征在于,包括:视频特征提取网络、前背景区分网络、特征编码网络以及描述生成网络;所述视频特征提取网络获取视频的多种特征向量表示,并输入至前背景区分网络中;所述前背景区分网络根据语义锚点对特征区分为前景与背景,其中前景表示视频中的高光片段,背景为其余片段,再输入至特征编码网络中;所述特征编码网络对前景和背景进行对齐,随后对前背景分别进行编码,再输入至描述生成网络;所述描述生成网络采用一个前背景门机制控制模块和一个单层GRU模型作为解码器,根据视频特征输出对应的视频描述。2.根据权利要求1所述的基于语义驱动的前背景区分视频描述生成系统,其特征在于,所述视频特征提取网络,包含InceptionResnetV2与I3D深度卷积网络;对于视频进行帧采样,采样按照等间隔进行,一个视频最终对应于26帧,每一帧通过InceptionResnetV2网络映射为1,536维向量;并通过I3D网络,获取视频的I3D特征;最终,对于一个视频,其特征包含InceptionResnetV2特征26*1,536、及I3D特征26*1,024。3.根据权利要求2所述的基于语义驱动的前背景区分视频描述生成系统,其特征在于,所述前背景区分网络,根据语义信息对视频帧进行前景和背景划分,语义信息生成方式如下:其中,表示GRU
s
的第t时间步的隐藏层状态;w
t
‑1∈{subject,verb,object}代表在t
‑
1步预测的独热向量;W
e
表示一个可学习的词嵌入矩阵参数;V
g
是利用IceptionResnetV2提取的特征V
a
和利用I3D深度卷积网络提取的特征V
m
拼接得到;Att函数如下所示:GRU
s
的最后一层隐层输出被当作语义锚点ρ
s
;为选取前景,首先计算V
*
和ρ
s
之间的相关φ
*
,计算方式如下:其中,W
*
,W
*h
,b
*
均为可学习的参数,*代表对于不同特征V
a
,V
m
的不同操作;Tanh表示双曲正切函数;随后利用Topk函数计算前景向量z
*
,由于该操作不可导而利用Gumbel
‑
Softmax策略分别计算前向传播和后向传播:其中,G是Gumbelnoise,与Gumbel(0,1)独立同分布;τ为调节Softmax强度的温度参数;f(
·
)为log函数;Forward表示前向传播,Backward表示反向传播;s
*
是由φ
*
经过Softmax函数计算得到,函数Topk表达式如下:其中,k为x中第n大的数,随后,利用前景向量z
*
分别获取前景和背景特征:分别获取前景和背景特征:
和分别代表前景和背景;1表示值全为1的向量;diag(x)表示对角线由x填充的矩阵。4.根据权利要求3所述的基于语义驱动的前背景区分视频描述生成系统,其特征在于,所述特征编码网络,通过前背景区分网络区分出的前景V
*slc
和背景V
*cnt
,最终输出经过编码的前背景特征表示,其流程如下:首先,利用如下公式对齐V
a
与V...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。