一种基于深度流解析网络的视频预测方法技术

技术编号：40554466 阅读：10 留言：0更新日期：2024-03-05 19:14

本发明专利技术公开了一种基于深度流解析网络的视频预测方法，通过将光流解析为刚性流和残差流来预测未来的场景，刚性流表示由于观察者的自我运动而产生的场景动态，残差流对应于场景中其它物体的运动。具体地，本方法提出了一种端到端无监督深度神经网络，通过将场景运动分解为自我运动(相机运动)和以物体为中心的运动来预测未来视频帧。该方法提高了模型解析场景动态信息的能力，具有一定社会价值和现实意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频分析及预测，具体涉及一种基于深度流解析网络的视频预测方法。

技术介绍

1、基于当前和历史的观察来预测未来情况的能力对机器做出决策至关重要。这项任务对人类来说相对容易，但对机器来说却极具挑战性。近年来，计算机视觉研究人员将注意力集中在视频预测任务上，具体来说，这个任务是指从已经观测的视频帧来预测未来的视频帧。

2、鲁棒有效的视频预测方法不仅需要充分利用空间语义信息，还需要准确掌握时序运动规律。运动动态包含了丰富的场景演化信息，这对于理解环境至关重要，尤其是对于自动驾驶汽车而言。现有的方法几乎都是通过直接光流或帧间差来联合估计背景和前景物体的运动，然而，场景中背景和前景物体的运动是不同源的：前者纯粹来自观察者相机的自我运动，而后者则来自观察者相机的自我运动和物体的残差运动的双重叠加。因此，现有的方法在区分场景静止物体和运动物体方面能力有限，无法高保真地解析场景动态信息。在动态物体密集的复杂城市环境中，这一问题进一步加剧。

3、rushton等人发现，在人类视觉系统中存在一种“流解析机制”，大脑利用其对光流的敏感性将视网膜运动解析为由自我或以物体为中心的运动产生的成分，深度信息在这一过程中也起着重要的作用。首先从观察者的运动对视网膜产生的视觉刺激中估计出自我运动分量，然后从视网膜运动中“减去”自我运动来计算“真实”的以物体为中心的运动估计。这种认知能力帮助人类系统地解决问题和适应新情况。本方法从这种生物“流解析机制”中获得灵感，提出通过场景几何重构来解耦背景变化和以物体为中心的残差运动，从而促

4、已有的视频预测算法可以分为确定性的视频预测方法和随机视频预测方法。确定性视频预测方法的目标是将真实情况与预测结果之间的重建距离最小化。除了确保每帧的预测质量外，还需要提取视频序列中的时序表示。确定性视频预测任务对于自动驾驶、机器人控制等具有重要意义，可以生成足够准确的预测，以做出更安全、更可靠的决策。在确定性方法中，直接像素合成模型试图逐帧直接预测未来的像素强度，它们在特征提取过程中隐式地对场景的动态和静态内容进行建模。ranzato等人使用k-means对图像块簇中的视频帧进行离散，他们假设非重叠的图像块在k-means离散化空间中是不同的。该方法是基于递归神经网络的模型，在块级进行短期预测，由于整帧是由预测的块组成的，对大型和快速移动的物体的预测是准确的，然而，当涉及到小型和缓慢移动的物体时，仍然有改进的空间。lotter等人提出了“prednet”，其灵感来自神经科学的“预测编码”概念。“prednet”由一系列重复堆叠的模块组成，这些模块试图对模块的输入进行局部预测，尽管表现出一些有希望的结果，但该模型所能预测的时序长度有限。因此，提高长时预测性能成为后续工作的重点。jin等人利用生成对抗网络来提高预测的真实性。受人类视觉系统的频带分解特性启发，jin等人提出利用小波分析探索多频分析实现高保真度和时序一致性的视频预测。shouno等人提出了一种具有分层结构的深度残差网络来处理大型运动，其中每一层在不同的空间分辨率下对未来状态进行预测。这些不同层的预测通过自上而下的连接合并以生成未来的帧。另一种类型的确定性方法利用变换矩阵的生成来进行视频预测，生成的变换矩阵等价于相邻帧之间的仿射变换。vondrick等人通过学习转换来处理未来的不确定性和过去的记忆，将过去的记忆与对未来的预测分开。

5、随机视频预测方法认为未来预测是一个多模态任务，它们通常将不确定性编码为潜在变量序列。随机方法通常基于生成对抗网络，变分自编码器等结构。babaeizadeh等人提出了第一个随机多帧预测的工作，他们提出了一种随机变分视频预测方法，可以预测每个潜在变量样本的不同可能的未来。denton等人提出了一种随机视频生成模型，该模型结合了确定性帧预测器和随时间变化的随机潜在变量。lee等人提出第一个通过变分下界和对抗训练来产生高质量预测的工作。

6、虽然已有的视频预测算法已经取得了一定的性能，但它们缺乏对运动信息解耦理解，往往导致预测视频序列模糊和缺乏时序一致性，难以发挥很好的效果。

技术实现思路

1、本专利技术实例公开了一种基于深度流解析网络的视频预测方法，通过将光流解析为刚性流和残差流来预测未来的场景，刚性流表示由于观察者的自我运动而产生的场景动态，残差流对应于场景中其它物体的运动。具体地，本方法提出了一种端到端无监督深度神经网络，通过将场景运动分解为自我运动(相机运动)和以物体为中心的运动来预测未来视频帧。该方法提高了模型解析场景动态信息的能力，具有一定社会价值和现实意义。

2、本专利技术技术方案如下：

3、一种基于深度流解析网络的视频预测方法，包括以下步骤：

4、s1、获取训练样本；

5、s2、对视频数据预处理操作；

6、s3、构造深度及位姿预测网络；

7、基于卷积神经网络架构，移除原有的全连接层及其后的所有层，仅保留卷积和池化部分，构建深度及位姿预测网络；

8、s4、构建几何刚性流投影单元，连接到s3中保留的卷积和池化的卷积神经网络架构后面；

9、s5、构建基于卷积神经网络的残差流网络，输出残差流，与残差流相加，得到整体光流；

10、s6、构建lstm模块，输入整体光流，记忆时序信息；

11、s7、构建解码器模块，连接到s6构建的lstm网络之后，得到视频预测网络模型m；

12、s8、训练视频预测模型m；

13、s9、计算训练损失，利用反向传播算法更新网络参数；

14、s10、利用训练好的网络对输入的视频序列进行视频帧预测。

15、进一步地，步骤s1具体为：

16、从数据库中获取视频序列数据集，数据集包括针对汽车自动驾驶进行视频预测的kitti数据集和caltech pedestrain数据集，训练网络时先以其中一个数据集为唯一数据集提取一定数量的视频帧序列作为输入，后续的视频帧为对应的参考结果，随后再以另一个数据集作为唯一数据集进行相同操作。

17、进一步地，步骤s2具体为：

18、s21、缩放：将视频帧缩放到原来的θ倍，本实施例中的取值范围为1.0～1.5；

19、s22、裁剪：原来的训练样本随机剪切出320*320像素的视频序列；

20、s23、hsl调整：对裁剪后样本的色度(hue)、饱和度(saturation)和亮度(lightness)乘以一个随机值δ∈[1.0,1.2]，以模拟自然环境的光照变化。

21、s24、随后将视频序列数据集划分为训练集和测试集；

22、进一步地，步骤s8具体为：

23、从s1中的输入视频序列提取t帧连续的视频图像序列x＝{x1,x2,…,xt}，将视频图像序列x按顺序输入s7中构建的视频预测网络m提取特征并预测下一个视频帧图像

24本文档来自技高网...

【技术保护点】

1.一种基于差分注意力机制的时空小波分析视频预测方法，其特征在于，包括以下步骤：

【技术特征摘要】

1.一种基于差分注意力机制的时空小波分析...

【专利技术属性】
技术研发人员：金贝贝，宋晓辉，李金东，张鹏飞，
申请(专利权)人：河南省科学院物理研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人