结合时空记忆特征和运动感知的视频预测方法技术

技术编号:39648694 阅读:7 留言:0更新日期:2023-12-09 11:16
本发明专利技术公开了一种结合时空记忆特征和运动感知的视频预测方法

【技术实现步骤摘要】
结合时空记忆特征和运动感知的视频预测方法、系统


[0001]本专利技术属于电子通讯与信息工程领域,具体涉及结合时空记忆特征和运动感知的视频预测方法

系统


技术介绍

[0002]视频预测是视频处理与分析中重要的研究内容之一

该任务旨在使用连续的视频帧输入估计未来视频帧中可能发生的情况,在事情发生之前做出预判,可以有效的节省资源并产生期望的结果

目前该技术已广泛应用于机器人控制

视频插值

自动驾驶

运动规划等研究领域

依靠动作条件下的视频预测,机器人能够成功地操纵以前看不见的物体,自动驾驶汽车能够提前对行人进行避让,该项技术不仅利于当下,更是利于未来,因此视频预测一直是计算机视觉领域的重要研究课题

随着不同传感器

设备和互联网在社会中的广泛使用,以及
5G
时代的到来,视频数据在人们的日常生活中随处可见,并日渐成为传递信息的重要载体

为了充分挖掘和利用这些视频数据中的宝贵信息,视频预测技术也越来越受到重视

如果能够对视频进行快速且有效的预测,就能提前做好预防和应对从而减少大量损失

[0003]但是,对于视频预测任务来说,模型需要从图像中抽象出各种详细信息,其中不仅包含空间维度的静态信息,而且包含时间维度的动态信息

复杂的时空动态对视频预测任务有重大的影响

有限的动态输入序列和运动本身的复杂变化严重限制了模型捕帧间运动信息的表达能力以及复杂时空特征的转换能力

[0004]目前对视频预测的常规方法主要是基于密集的运动或运动矢量的方法

特别是基于光流的方法已经被证明能够比较有效的实现视频预测

基于光流估计的视频预测方法是通过光流计算视频中每个像素的运动速度,并将光流信息作为输入特征加入模型中,增强了模型对运动变化的感知能力,提高了视频预测的精度

但是,光流方法往往需要计算两帧之间的像素点之间的运动,而这往往会受到图像区域纹理,光照等因素的干扰,因此不同纹理区域的运动估计可能会不准确

此外,在运动较快的视频序列中,由于相邻帧之间时间间隔较短,像素之间的位移变化也较快,因此很容易导致数据丢失,影响预测效果


技术实现思路

[0005]本专利技术所要解决的技术问题是:提出了结合时空记忆特征和运动感知的视频预测方法

系统,将连续的视频帧作为模型的输入数据,送入结合运动梯度高速公路单元和四层堆叠的时空注意融合单元构建的新型循环神经网络完成编码和预测

这种预测结构减少了特征提取和记忆过程信息的缺失,使模型拥有更强的时空特征学习能力,大大提高模型的预测精度

[0006]本专利技术为解决上述技术问题采用以下技术方案:
[0007]本专利技术提出的结合时空记忆特征和运动感知的视频预测方法,包括以下步骤:
[0008]S1、
获取视频数据集进行预处理,转换为
5D
张量

[0009]S2、
构建时空注意融合单元

[0010]S3、
构建运动梯度高速公路单元

[0011]S4、
构建时空预测网络,并引入联合损失函数训练该网络,获得训练完成的时空预测网络,包含
n
个时间步的视频序列,每个视频序列包括4层时空注意融合单元和3层运动梯度高速公路单元

[0012]S5、
将步骤
S1
中的
5D
张量作为训练完成的时空预测网络的输入,输入到第一层时空注意融合单元中,得到最初的时空特征;最初的时空特征经过一层运动梯度高速公路单元自适应提取得到最初的时空运动特征

[0013]S6、
将步骤
S5
中最初的时空特征和最初的时空运动特征共同输入到第二层时空注意融合单元中,进行特征提取;为了提高特征信息的完整性和时效性将提取的特征分别沿纵向输入到当前时间步层间的运动梯度高速公路单元

沿横向输入到下一时间步的时空注意融合单元

依此方式处理直至在第四层时空注意融合单元获得最终的时空特征,输出最终的预测序列,并通过反卷积方法得到预测序列相应的单帧预测图片

[0014]S7、
将步骤
S5
中最初的时空特征和步骤
S6
最终的时空特征,输入到当前时间步的训练完成的时空预测网络的第一层时空注意融合单元中,并与步骤
S1
中的
5D
张量共同作为输入信息,再次重复进行步骤
S5

S6
,直到获得
n
个时间步的预测视频帧

[0015]进一步的,步骤
S2
中,构建时空注意融合单元的具体步骤为:
[0016]S201、
过去时间状态的同一层时空注意融合单元的输出和当前时间状态的输入作为时间输入信息,并利用注意力机制对其进行分配权重获得注意力特征,具体公式为:
[0017][0018]其中,
H
att
表示注意力特征,
X
t
表示当前时间状态的输入,表示
t
‑1时刻
l
层时空注意融合单元的隐藏状态,
ATT
表示注意力机制

[0019]S202、
时间输入信息分别经过重置门

调制门和更新门,获得不同的门控时空特征,具体公式为:
[0020][0021][0022][0023]其中,
rt、gt

ut
分别表示第
t
个时间步的重置门控特征

调制门控特征和更新门控特征;
W
xr
、W
xg

W
xu
分别表示第
t
个时间步时间输入信息在重置门

调制门和更新门中的权重;
W
hr
、W
hg

W
hu
分别表示隐藏状态在重置门

调制门和更新门中的权重,
b
u
表示更新门的偏置;
σ
表示
Sigmoid
激活函数;
tanh
表示
tanh
激活函数

[0024]S203、
注意力特征与重置门控特征

调制门控特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
结合时空记忆特征和运动感知的视频预测方法,其特征在于,包括:
S1、
获取视频数据集进行预处理,转换为
5D
张量;
S2、
构建时空注意融合单元;
S3、
构建运动梯度高速公路单元;
S4、
构建时空预测网络,并引入联合损失函数训练该网络,获得训练完成的时空预测网络,其包含
n
个时间步的视频序列,每个视频序列包括4层时空注意融合单元和3层运动梯度高速公路单元;
S5、
将步骤
S1
中的
5D
张量作为训练完成的时空预测网络的输入,输入到第一层时空注意融合单元中,得到最初的时空特征;最初的时空特征经过第一层运动梯度高速公路单元自适应提取得到最初的时空运动特征;
S6、
将步骤
S5
中最初的时空特征和最初的时空运动特征共同输入到第二层时空注意融合单元中,进行特征提取;将提取的特征分别沿纵向输入到当前时间步层间的运动梯度高速公路单元

沿横向输入到下一时间步的时空注意融合单元,依此方式处理直至在第四层时空注意融合单元获得最终的时空特征,输出最终的预测序列,并通过反卷积方法得到预测序列相应的单帧预测图片;
S7、
将步骤
S5
中最初的时空特征和步骤
S6
最终的时空特征,输入到当前时间步的训练完成的时空预测网络的第一层时空注意融合单元中,并与步骤
S1
中的
5D
张量共同作为输入信息,再次重复进行步骤
S5

S6
,直到获得
n
个时间步的预测视频帧
。2.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法,其特征在于,步骤
S1
中,将视频数据集转换为
5D
张量的具体内容为:加载视频数据集获得视频帧,将视频帧分割成多个子帧,再将每个视频帧的子帧组合成新的时间步,进行标准化和归一化处理,将处理后的视频数据组合成
5D
张量
。3.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法,其特征在于,步骤
S2
中,构建时空注意融合单元的具体步骤为:
S201、
过去时间状态的同一层时空注意融合单元的输出和当前时间状态的输入作为时间输入信息,并利用注意力机制对其进行分配权重获得注意力特征,具体公式为:其中,
H
att
表示注意力特征,
X
t
表示当前时间状态的输入,表示
t
‑1时刻
l
层时空注意融合单元的隐藏状态,
ATT
表示注意力机制;
S202、
时间输入信息分别经过重置门

调制门和更新门,获得不同的门控时空特征,具体公式为:体公式为:体公式为:其中,
r
t
、g
t

u
t
分别表示第
t
个时间步的重置门控特征

调制门控特征和更新门控特征;
W
xr
、W
xg

W
xu
分别表示第
t
个时间步时间输入信息在重置门

调制门和更新门中的权重;
W
hr
、W
hg

W
hu
分别表示隐藏状态在重置门

调制门和更新门中的权重,
b
u
表示更新门的偏置;
σ
表示
Sigmoid
激活函数;
tanh
表示
tanh
激活函数;
S203、
注意力特征与重置门控特征

调制门控特征结合后存入时间存储单元,具体公式为:其中,
T
M
为时间存储单元;
S204、
过去时间状态的顶层输出和当前时间状态的输入作为时空输入信息,分别利用注意力机制

重置门和更新门对其进行处理获得注意力特征

重置门控特征和更新门控特征;注意力特征和重置门控特征结合后存入时空存储单元,具体公式为:征;注意力特征和重置门控特征结合后存入时空存储单元,具体公式为:征;注意力特征和重置门控特征结合后存入时空存储单元,具体公式为:征;注意力特征和重置门控特征结合后存入时空存储单元,具体公式为:其中,
r
t


u

t
分别表示第
t
个时间步时空输入信息下的重置门控特征与更新门控特征,
M
att
表示时空状态下的注意力特征,表示第
t
个时间步
l
‑1层的空间记忆信息,
S
M
表示时空存储单元,
W

xr
、W

xu
分别表示时空输入信息在重置门和更新门中的权重,
W

mr
、W

mu
分别表示空间记忆信息在重置门和更新门中的权重,
b

u
表示更新门的偏置;
S205、
将时间存储单元和时空存储单元经过门控机制进行融合,构建完整的时空注意融合单元,具体公式为:其中,表示
t
时刻
l
层时空注意融合单元的隐藏状态,
W1×1为1×1的卷积
。4.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法,其特征在于,步骤
S3
中,构建运动梯度高速公路单元的具体内容为:
S301、
引入编码模块对输入和输出特征进行编码;
S302、
搭建标准的梯度高速公路单元;
S303、
利用差分运算搭建运动感知模块,具体公式为:
D
t

D
t
‑1+
α
(T
t
‑1‑
D
t
‑1)
其中,
D
t
是当前时间步的运动趋势,
...

【专利技术属性】
技术研发人员:陈苏婷杨宁胡斌武韩光勋薄业雯裴加明徐亮高云勇李玮
申请(专利权)人:南京中网卫星通信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1