一种光流估计的方法、装置以及设备制造方法及图纸

技术编号：33954892 阅读：68 留言：0更新日期：2022-06-29 23:15

本发明专利技术公开了一种光流估计的方法、装置、设备以及计算机可读存储介质，包括：提取相邻两帧图像的特征，构建每一帧图像的特征矩阵；将每一帧图像的浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中进行处理，得到高鲁棒的每一帧图像的空间特征矩阵；计算相邻两帧图像的空间特征矩阵的相似度编码，根据相似度编码进行Encoder操作得到运动特征；利用上下文编码器提取第一帧图像的上下文特征；将运动特征和上下文特征进行融合输入GRU模块中得到光流残差；基于光流残差进行迭代运算，输出光流估计结果。本发明专利技术引入多尺度通道和空间注意力网络，增强网络的鲁棒性和对小物体的表征能力，提高小物体的光流估计结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种光流估计的方法、装置以及设备

[0001]本专利技术涉及计算机视觉领域，特别是涉及一种光流估计的方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]光流估计的目标是计算视频图像中的同一对象从当前帧移动到下一帧的移动量，它广泛运用于计算机视觉的多个领域，如运动分割、动作识别和自动驾驶等。传统的方法将光流估计任务看作迭代优化问题，尽管这些方法已经取得了不错的精度，但却不能满足日益复杂的现实场景和实时性的要求。
[0003]随着深度学习的快速发展，已经在许多视觉领域取得了巨大成功，光流估计领域近年来也提出了许多基于深度学习的光流估计方法。大体可以分为两种：一种是基于U
‑
Net架构的模型，一种是维持高分辨率架构的模型。基于U
‑
Net的模型以Dosovitskiy等人提出了FlowNet作为开创性工作，在光流估计领域取得了不错的进展，但是受限于U
‑
Net架构，网络的层数不能动态扩展。为此，Teed和Deng提出了维持高分辨率架构的模型RAFT，RAFT不使用U
‑本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种光流估计的方法，其特征在于，包括：分别提取相邻两帧图像的浅层特征，构建每一帧图像的浅层特征矩阵；将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理，输出每一帧图像的通道特征矩阵；将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理，输出每一帧图像的空间特征矩阵；计算所述相邻两帧图像的空间特征矩阵的相似度，得到相似度编码，将所述相似度编码进行Encoder操作得到运动特征；利用上下文编码器提取第一帧图像的上下文特征；将所述运动特征和所述上下文特征进行融合，并输入GRU模块中进行处理，输出光流残差；基于光流残差进行迭代运算，直至达到预设迭代次数，停止运算，输出光流估计结果。2.如权利要求1所述的光流估计的方法，其特征在于，所述分别提取相邻两帧图像的浅层特征，构建每一帧图像的浅层特征矩阵包括：利用至少四个卷积层分别提取所述相邻两帧图像的浅层特征，将每一帧图像提取到的多个浅层特征组合为浅层特征矩阵。3.如权利要求1所述的光流估计的方法，其特征在于，所述利用所述多尺度通道注意力网络中的多个卷积层对所述浅层特征矩阵进行处理包括：利用多个卷积层分别提取所述每一帧图像的浅层特征矩阵的多尺度通道特征；将每一尺度通道特征分别利用平均池化层和最大池化层进行处理，得到平均信息特征和最大信息特征；将所述平均信息特征和所述最大信息特征输入深度可分离卷积网络中，得到平均池化向量和最大池化向量；将所述平均池化向量和所述最大池化向量合并，并使用元素加法生成所述每一尺度的通道注意力掩膜；将所有尺度的通道注意力掩膜与所述多尺度特征分别进行元素加法，得到所述每一帧图像的通道特征矩阵。4.如权利要求3所述的光流估计的方法，其特征在于，所述每一尺度的通道注意力掩膜的计算公式为：其中，σ为sigmoid函数，DSC为深度可分离卷积网络，AvgPool(F)为平均信息特征，MaxPool(F)为最大信息特征，和和为深度可分离卷积网络的权重，为平均池化向量，为最大池化向量，C为卷积核通道数，r为缩放因子。5.如权利要求1所述的光流估计的方法，其特征在于，所述利用所述多尺度空间注意力网络对所述每一帧图像的通道特征矩阵进行加权处理包括：利用多个卷积层分别提取所述每一帧图像的通道特征矩阵的多尺度空间特征；
利用两个1
×
1卷积核对每一尺度空间特征进行处理，得到第一特征矩阵和第二特征矩阵；将所述第一特征矩阵和所述第二特征矩阵进行相似度计算，得到特征相似度矩...

【专利技术属性】
技术研发人员：钟宝江，李牧，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人