结合时空记忆特征和运动感知的视频预测方法技术

技术编号：39648694 阅读：7 留言：0更新日期：2023-12-09 11:16

本发明专利技术公开了一种结合时空记忆特征和运动感知的视频预测方法

全部详细技术资料下载

【技术实现步骤摘要】
结合时空记忆特征和运动感知的视频预测方法、系统

[0001]本专利技术属于电子通讯与信息工程领域，具体涉及结合时空记忆特征和运动感知的视频预测方法
、
系统
。

技术介绍

[0002]视频预测是视频处理与分析中重要的研究内容之一
。
该任务旨在使用连续的视频帧输入估计未来视频帧中可能发生的情况，在事情发生之前做出预判，可以有效的节省资源并产生期望的结果
。
目前该技术已广泛应用于机器人控制
、
视频插值
、
自动驾驶
、
运动规划等研究领域
。
依靠动作条件下的视频预测，机器人能够成功地操纵以前看不见的物体，自动驾驶汽车能够提前对行人进行避让，该项技术不仅利于当下，更是利于未来，因此视频预测一直是计算机视觉领域的重要研究课题
。
随着不同传感器
、
设备和互联网在社会中的广泛使用，以及
5G
时代的到来，视频数据在人们的日常生活中随处可见，并日渐成为传递信息的重要载体
。
为了充分挖掘和利用这些视频数据中的宝贵信息，视频预测技术也越来越受到重视
。
如果能够对视频进行快速且有效的预测，就能提前做好预防和应对从而减少大量损失
。
[0003]但是，对于视频预测任务来说，模型需要从图像中抽象出各种详细信息，其中不仅包含空间维度的静态信息，而且包含时间维度的动态信息
。
复杂的时空动态对视频预测...

【技术保护点】

【技术特征摘要】
1.
结合时空记忆特征和运动感知的视频预测方法，其特征在于，包括：
S1、
获取视频数据集进行预处理，转换为
5D
张量；
S2、
构建时空注意融合单元；
S3、
构建运动梯度高速公路单元；
S4、
构建时空预测网络，并引入联合损失函数训练该网络，获得训练完成的时空预测网络，其包含
n
个时间步的视频序列，每个视频序列包括4层时空注意融合单元和3层运动梯度高速公路单元；
S5、
将步骤
S1
中的
5D
张量作为训练完成的时空预测网络的输入，输入到第一层时空注意融合单元中，得到最初的时空特征；最初的时空特征经过第一层运动梯度高速公路单元自适应提取得到最初的时空运动特征；
S6、
将步骤
S5
中最初的时空特征和最初的时空运动特征共同输入到第二层时空注意融合单元中，进行特征提取；将提取的特征分别沿纵向输入到当前时间步层间的运动梯度高速公路单元
、
沿横向输入到下一时间步的时空注意融合单元，依此方式处理直至在第四层时空注意融合单元获得最终的时空特征，输出最终的预测序列，并通过反卷积方法得到预测序列相应的单帧预测图片；
S7、
将步骤
S5
中最初的时空特征和步骤
S6
最终的时空特征，输入到当前时间步的训练完成的时空预测网络的第一层时空注意融合单元中，并与步骤
S1
中的
5D
张量共同作为输入信息，再次重复进行步骤
S5
‑
S6
，直到获得
n
个时间步的预测视频帧
。2.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法，其特征在于，步骤
S1
中，将视频数据集转换为
5D
张量的具体内容为：加载视频数据集获得视频帧，将视频帧分割成多个子帧，再将每个视频帧的子帧组合成新的时间步，进行标准化和归一化处理，将处理后的视频数据组合成
5D
张量
。3.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法，其特征在于，步骤
S2
中，构建时空注意融合单元的具体步骤为：
S201、
过去时间状态的同一层时空注意融合单元的输出和当前时间状态的输入作为时间输入信息，并利用注意力机制对其进行分配权重获得注意力特征，具体公式为：其中，
H
att
表示注意力特征，
X
t
表示当前时间状态的输入，表示
t
‑1时刻
l
层时空注意融合单元的隐藏状态，
ATT
表示注意力机制；
S202、
时间输入信息分别经过重置门
、
调制门和更新门，获得不同的门控时空特征，具体公式为：体公式为：体公式为：其中，
r
t
、g
t
和
u
t
分别表示第
t
个时间步的重置门控特征
、
调制门控特征和更新门控特征；
W
xr
、W
xg
和
W
xu
分别表示第
t
个时间步时间输入信息在重置门
、
调制门和更新门中的权重；
W
hr
、W
hg
和
W
hu
分别表示隐藏状态在重置门
、
调制门和更新门中的权重，
b
u
表示更新门的偏置；
σ
表示
Sigmoid
激活函数；
tanh
表示
tanh
激活函数；
S203、
注意力特征与重置门控特征
、
调制门控特征结合后存入时间存储单元，具体公式为：其中，
T
M
为时间存储单元；
S204、
过去时间状态的顶层输出和当前时间状态的输入作为时空输入信息，分别利用注意力机制
、
重置门和更新门对其进行处理获得注意力特征
、
重置门控特征和更新门控特征；注意力特征和重置门控特征结合后存入时空存储单元，具体公式为：征；注意力特征和重置门控特征结合后存入时空存储单元，具体公式为：征；注意力特征和重置门控特征结合后存入时空存储单元，具体公式为：征；注意力特征和重置门控特征结合后存入时空存储单元，具体公式为：其中，
r
t
′
和
u
′
t
分别表示第
t
个时间步时空输入信息下的重置门控特征与更新门控特征，
M
att
表示时空状态下的注意力特征，表示第
t
个时间步
l
‑1层的空间记忆信息，
S
M
表示时空存储单元，
W
′
xr
、W
′
xu
分别表示时空输入信息在重置门和更新门中的权重，
W
′
mr
、W
′
mu
分别表示空间记忆信息在重置门和更新门中的权重，
b
′
u
表示更新门的偏置；
S205、
将时间存储单元和时空存储单元经过门控机制进行融合，构建完整的时空注意融合单元，具体公式为：其中，表示
t
时刻
l
层时空注意融合单元的隐藏状态，
W1×1为1×1的卷积
。4.
根据权利要求1所述的结合时空记忆特征和运动感知的视频预测方法，其特征在于，步骤
S3
中，构建运动梯度高速公路单元的具体内容为：
S301、
引入编码模块对输入和输出特征进行编码；
S302、
搭建标准的梯度高速公路单元；
S303、
利用差分运算搭建运动感知模块，具体公式为：
D
t
＝
D
t
‑1+
α
(T
t
‑1‑
D
t
‑1)
其中，
D
t
是当前时间步的运动趋势，
...

【专利技术属性】
技术研发人员：陈苏婷，杨宁，胡斌武，韩光勋，薄业雯，裴加明，徐亮，高云勇，李玮，
申请(专利权)人：南京中网卫星通信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人