一种基于时空聚合运动感知的视频预测方法技术

技术编号：41760908 阅读：25 留言：0更新日期：2024-06-21 21:41

本发明专利技术公开了一种基于时空聚合运动感知的视频预测方法。该方法受动物视觉系统中的方向选择性神经元启发,将复杂运动信息分解为垂直和水平两个分量进行独立处理,实现动态信息的有效提取。其中,方向选择性感知单元采用多层感知器结构实现。由于将运动信息进行降维分解会丢失一定时空关联性，提出了时空聚合门控单元以提高时空关联性。在此基础上,该方法建立了多尺度特征融合网络,包含空间编码器、时序转换模块和空间解码器,实现对多尺度时空特征的提取。通过在人工数据集和真实数据集上的测试,证明了该方法可以有效降低运动模糊,提高视频预测的准确性和连贯性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和机器学习,具体涉及视频预测任务中的时序特征提取和深度学习模型设计。

技术介绍

1、视频预测是一项重要且具有挑战性的任务，其旨在根据先前观测到的帧生成未来的帧。这种能够预测复杂时空间信息的能力在交通流量预测、天气预报、人类行为预测和自动驾驶等领域引起了广泛的研究兴趣。然而，构建精确的预测模型是一项巨大的挑战，因为它需要处理包括空间和时间信息的多维数据。

2、当前，构建深度学习模型解决复杂的视频预测问题是当前的主流方案。近年来的许多深度学习模型为视频预测技术带来了重大发展。当前，基于深度学习的视频图像预测模型一般分为三种类型：第一种，基于自编码器网络(ae)构建的预测模型；第二种，基于生成对抗网络(gan)构建的预测模型；第三种，基于循环神经网络(rnn)构建的预测模型，目前业界的主流方式是构建循环神经网络以进行视频预测。介于视频序列同时具有时间和空间维度上的复杂信息，近年来提出的模型都是以rnn混合cnn的架构对时间和空间信息分别处理。例如能够同时捕获时序和空间信息的卷积长短期记忆网络(convlst...

【技术保护点】

1.一种基于时空聚合运动感知的视频预测方法，该方法包括:

2.如权利要求1所述的一种基于时空聚合运动感知的视频预测方法，其特征在于，所述通道缩减和通道扩张由1×1的二维卷积、批归一化、激活函数组成。

3.如权利要求1所述的一种基于时空聚合运动感知的视频预测方法，其特征在于，所述时空聚合运动感知模块在STMDAUnit中以并列方式存在两个，它们的区别在于分组数不同；时空聚合运动感知模块分成以残差形式连接的两个部分：时空聚合门控模块和运动方向多层感知器MDA-MLP。

4.如权利要求3所述的一种基于时空聚合运动感知的视频预测方法，其特征在于，所述时空聚合门...

【技术特征摘要】

1.一种基于时空聚合运动感知的视频预测方法，该方法包括:

2.如权利要求1所述的一种基于时空聚合运动感知的视频预测方法，其特征在于，所述通道缩减和通道扩张由1×1的二维卷积、批归一化、激活函数组成。

3.如权利要求1所述的一种基于时空聚合运动感知的视频预测方法，其特征在于，所述时空聚合运动感知模块在stmdaunit中以并列方式存在两个，它们的区别在于分组数不同；时空聚合运动感知模块分成以残差...

【专利技术属性】
技术研发人员：甘炼强，赖俊宇，刘华烁，鞠京泽，李昱航，李滚，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人