一种基于多层卷积结构的视频帧预测方法技术

技术编号：38465110 阅读：24 留言：0更新日期：2023-08-11 14:41

该发明专利技术公开了一种基于多层卷积结构的视频帧预测方法，属于利用深度神经网络模型进行时空数据预测技术领域。该方法主要有三个方面的特征，一是该方法提出的预测模型采用了多层架构，二是该预测模型的卷积结构采用了多个不同大小的卷积核相结合的构建方式，三是该预测模型中采用了内卷算子替换卷积核较大的卷积算子。该方法所提出的预测模型，在满足预测精度的前提下，有效降低了视频帧预测任务的推理时间、运算量、模型参数量以及模型占用的内存，显著提高了视频帧预测效率。显著提高了视频帧预测效率。显著提高了视频帧预测效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多层卷积结构的视频帧预测方法

[0001]本专利技术属于利用深度神经网络模型进行时空数据预测
，特别是涉及一种基于多层卷积结构的视频帧预测方法。

技术介绍

[0002]预测学习是基于深度学习的人工智能技术中的重要组成部分。近年来，与通信网络流量、城市交通流量和视频图像等时空数据相关的预测学习逐渐成为研究热点。视频是由连续的图像帧序列组成。视频图像的预测学习指通过对历史视频帧数据的学习，生成未来某时刻或者某时段的一个或者多个图像帧。一方面，由于视频图像帧预测任务并不需要对历史图像数据进行人为标注；另一方面，日常生活中存在大量可获取的视频数据；此外，已经有大量的公开视频图像帧预测训练数据集，例如：Moving MINST数据集、KTH人体行为数据集等。因而，相关研究近年来受到工业界和学术界大量关注。当前，视频图像预测在城市交通流量预测、天气预测、智能驾驶与人物行为预测等场景中均有广泛应用。
[0003]当前，基于深度学习的视频图像预测模型一般分为三种类型：第一种，基于自编码器网络(AE)构建的预测模型；第二...

【技术保护点】

【技术特征摘要】
1.一种基于多层卷积结构的视频帧预测方法，包括以下步骤：步骤1：获取用于训练和验证视频帧预测模型的数据集，符合视频帧预测的数据集应该具备4个维度，分别是视频帧帧数S、视频帧通道数C、视频帧图像高度H、视频帧图像宽度W；步骤2：对获取的数据集进行数据预处理，具体步骤如下：步骤2.1：根据视频帧预测模型的输入视频帧帧数和输出视频帧帧数设置滑动窗口，生成模型输入数据和用于计算预测误差的真实数据对；步骤2.2：根据批大小生成用于训练和验证视频帧预测模型的可被迭代的数据集对象；步骤3：设计视频帧预测模型；模型包括3个部分：编码器、转换器以及解码器，具体步骤如下：步骤3.1：设计编码器、转换器以及解码器；(1)编码器处理方法：编码器由m个卷积模块串行连接；每个卷积模块依次由卷积单元、组归一化函数、激活函数顺序相连；若卷积模块是编码器的首个卷积模块，那么该卷积模块的卷积单元的输入通道数为输入视频帧通道数C；否则，该输入通道数为模型超参数H
s
；若卷积模块是编码器的第奇数个卷积模块，那么该卷积模块的卷积单元的卷积步长为1；否则，该卷积步长为2；编码器中所有卷积单元的卷积核大小均为3
×
3，所有组归一化函数中分组数均为2；数中分组数均为2；其中，表示编码器中第i个卷积模块的输出，E
in
表示编码器的输入数据，它也是整个模型的输入数据，将模型超参数m带入即可得到E
out
，E
out
表示编码器的输出数据，1≤i≤m；LeakyReLU(.)表示激活函数，GroupNorm(.)表示组归一化函数，Conv2d(.)表示卷积单元；转换器的处理方法为：转换器由n层MiniBlock模块对组成，n大于等于3，每层MiniBlock模块对由两个串联的MiniBlock模块组成，转换器的输入和输出分别为第1层Mini...

【专利技术属性】
技术研发人员：朱俊宏，赖俊宇，刘华烁，唐孝海，白金平，
申请(专利权)人：电子科技大学长三角研究院湖州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人