基于目标空间语义对齐的视频描述方法技术

技术编号:32571575 阅读:22 留言:0更新日期:2022-03-09 16:59
本发明专利技术公开了基于目标空间语义对齐的视频描述方法。本发明专利技术方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明专利技术方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。生成更准确描述视频内容的自然语句。生成更准确描述视频内容的自然语句。

【技术实现步骤摘要】
基于目标空间语义对齐的视频描述方法


[0001]本专利技术属于计算机视觉
,尤其是视觉内容理解与分析领域,涉及一种基于目标空间语义对齐的视频描述方法。

技术介绍

[0002]在互联网+2.0时代,人、机、物均由网络和边缘设备紧密联系在一起,信息传递至关重要,视频作为占有量与日俱增的多媒体数据形态,包含着比文本图像更为丰富的视觉特征。准确理解视频内容成为诸如视频监控、自动驾驶、视障人群导航等各类实际应用的迫切需求,用人类易于理解的自然语言描述视频内容是视觉理解的重要研究方向,称之为视频描述。
[0003]视频描述任务是用一句或一段符合语法规范的自然语句对视频内容进行描述,从技术上颇具挑战性。其中关键的技术问题是如何利用视觉外观特征和运动特征,并刻画视频帧中不同目标空间关系及其与描述单词的映射关系,从而生成更符合真实视频内容的自然语句。
[0004]目前,主流的视频描述方法大部分采用编码器

解码器(Encoder

decoder)框架。其中,编码器一般采用卷积神经网络(CNN:Convo本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于目标空间语义对齐的视频描述方法,其特征在于,该方法首先获取包含描述语句的视频数据集合,然后进行如下操作:步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词

视频帧对齐和单词

视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;步骤(4).将注意力特征向量输入注意力

语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。2.如权利要求1所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(1)具体是:(1

1).对视频均匀采样N个视频帧,获得帧序列集合其中三维张量x
i
为第i帧图像,表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码其中,L为描述语句长度,b
t
为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;(1

2).利用残差网络提取视频的外观特征向量集合其中表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合其中表示第i

1帧至第i+1帧提取的运动特征向量,m表示运动,表示运动特征的通道维度;(1

3).将V
a
中的外观特征向量以及V
m
中的运动特征向量依次沿通道维度进行拼接,得到视频特征向量集合其中v
i
表示为第i个视频帧特征向量,其通道维度大小(1

4).对于视频帧x
i
,利用掩膜区域卷积神经网络进行目标检测,获取第i个视频帧中的目标特征向量集合和目标掩膜集合G
i
={g
i,j
|0≤j≤M,g
i,j
∈0,1
H
×
W
},o
i,j
表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,g
i,j
表示第i个视频帧的第j个目标的掩膜。3.如权利要求2所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(2)具体是:(2

1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合G
i
,获
取目标像素点位置信息集合将第i个视频帧中的第j个目标的掩膜g
i,j
中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合d
i,j
中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即其中表示第i帧中第q个目标中的第ω个像素点与第i帧中第w个目标中的第σ个像素点之间的距离小于ψ,ψ为正实数,||
·
||2为L2范数;(2

2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合d
i,j
,计算目标对匹配数表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中d
i,q
表示第i个视频帧中第q个目标中所有像素点的位置信息,d
i,w
表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,表示当两个目标匹配时为1,否则为0;将目标对匹配数归一化处理,获得归一化目标对匹配得分利用归一化目标对匹配得分构建目标对匹配得分矩阵集合:其中,第i个视频帧的目标对匹得分矩阵其中归一化目标对匹配得分为目标对匹得分矩阵中第q行、第w列的元素,也即第i个视频帧中第q个目标和第w个目标在所有视频帧中的匹配次数的归一化得分;(2

3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合d
i,j
计算第i帧中的第q个目标和第w个目标的共享边界长度所述的共享边界长度是指两个目标之间相邻像素点的个数,其中用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜g
i,q
,计算第i帧中的第q个目标的周长Τ(
·
)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度与目标周长计算目标对共边缘率即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率归一化处理,得到归一化目标对共边缘率得分
利用归一化目标对共边缘率得分构建目标对共边缘率矩阵集合:其中,第i个视频帧的目标对共边缘率矩阵归一化目标对匹配得分为目标对共边缘率矩阵中第q行、第w列的元素,表示第i个视频帧中第q个目标和第w个目标在所有视频帧中的共边缘率的归一化得分;(2

4).利用目标对共边缘率矩阵集合与目标对匹配得分矩阵集合获取目标邻接关系矩阵集合其中,第i个视频帧的目标邻接关系矩阵目标邻接关系矩阵Q
i
的元素为目标邻接关系得分e
i,q,w
。4.如权利要求3所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(3)具体是:(3

1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词

视频帧和单词

视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;(3

2).构建单词选择子模块,具体是:

首先输入生成的单词组集合t表示时间步的索引,第t时间步生成第t个单词,y
t
表示第t时间步生成单词的独热编码向量,表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵码,得到历史单词嵌入矩阵表示对单词y
t

【专利技术属性】
技术研发人员:李平王涛李佳晖徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1