当前位置: 首页 > 专利查询>浙江大学专利>正文

基于置信度引导的解耦传播与级联优化光流估计方法技术

技术编号:39781425 阅读:9 留言:0更新日期:2023-12-22 02:25
本发明专利技术提出了一种基于置信度引导的解耦传播与级联优化光流估计方法,包括以下步骤:步骤1:获取当前帧和后一帧图像数据;步骤2:提取多尺度图像特征;步骤3:通过

【技术实现步骤摘要】
基于置信度引导的解耦传播与级联优化光流估计方法


[0001]本专利技术涉及计算机视觉与模式识别技术,具体涉及一种基于置信度引导的解耦传播与级联优化光流估计方法


技术介绍

[0002]光流估计任务是在给定一对相邻帧或一组具有视角

物体位移等差异的图片时,求解每个像素点的光流矢量,从而分析视频中的物体

相机

场景的运动状态
。3
光流估计在自动驾驶

视频压缩

视频插帧

场景重建

场景分割

目标识别

物体跟踪等基于视频的下游任务中具有重要的应用价值
。4 传统的光流估计方法主要基于差分法,利用图像亮度不变假设和空间平滑假设构建能量函数,通过最小化能量函数求解光流场

这类方法虽然简单高效,但是对于弱纹理区域

遮挡区域

物体形变区域等难以匹配的情况,往往无法得到准确的光流结果

近年来,随着深度学习技术的发展,基于深度神经网络的光流估计方法取得了显著的进步

这类方法通过端到端训练的卷积神经网络直接从图像对中预测光流场,可以学习到更丰富的图像特征和运动模式,提高了光流估计的准确性和鲁棒性

[0003]为了得到精准的光流预测结果,文献(
Dosovitskiy A, Fischer P, Ilg E, et al. Flownet: Learning optical flow with convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2758

2766.
)首次将端到端训练的
U

Net
卷积神经网络用于光流估计,该方法包含
FlowNetS

FlowNetC
两个网络,分别通过直接堆叠前后两张图片以及先分别提取两张图片特征

再通过卷积计算特征图相关性的方式对图片进行编码操作,但
FlowNet
依然使用传统的变分优化方法对输出结果进行优化

文献(
Sun D, Yang X, Liu M Y, et al. PWC

Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8934

8943.
)在光流估计的网络中引入空间金字塔(
Spacial Pyrimid
)结构,从低分辨率到高分辨率的网络层分别用于处理从大位移到小位移的运动,通过构建“代价体”(
Cost Volume
)的方式直接将扭曲操作应用于特征图匹配和上采样

光流优化的各个金字塔层级中,实现了超越以往
CNN
光流模型准确度的同时显著降低了模型大小和推理时间

文献(
Teed Z, Deng J. RAFT: Recurrent all

pairs field transforms for optical flow[C]//Computer Vision

ECCV 2020: 16th European Conference, Glasgow, UK, August 23

28, 2020, Proceedings, Part II 16. Springer International Publishing, 2020: 402

419.
)首次将循环神经网络(
Recurrent Neural Network, RNN
)应用于光流场预测的迭代更新,通过共享参数的
GRU
迭代更新光流场,网络输出
1/8
图像分辨率大小的光流图,再经上采样模块采样至完整分辨率,该方法在常用的光流评测数据集上表现出良好的泛化能力

文献
x
将光流任务视为全局匹配任务,通过
Transformer
模块对两张图片的特征图做特征增强,并构建全局相似度矩阵,再直接通过
Softmax
操作得到光流预测结果

这类光流预测方法虽然通过引入不同的网络结构提高了光流预测的精度,但图像中具有无序快速运


低纹理区域和严重遮挡的物体使得光流估计结果在这些难以匹配的区域中很不准确,些算法在当前主流的光流任务评测数据集上的评测指标仍有很大的提升空间

为了进一步提高光流估计的准确度和泛化性,本专利技术提出了一种基于置信度引导的解耦传播与级联优化光流估计的模型架构


技术实现思路

[0004]本专利技术要克服现有技术中光流估计在遮挡区域

弱纹理区域

运动模糊等极端情况下不准确的缺点,提出一种基于置信度引导的解耦传播与级联优化光流估计算法

[0005]本专利技术采用深度神经网络作为光流估计模型,将输入的两帧图像转换为稠密的光流场,即每个像素点在两帧图像之间的运动位移

从而有效地分析视频中的物体

相机

场景的运动方向

运动速度

运动趋势等信息,对于自动驾驶

视频压缩

视频插帧

场景重建等基于视频的下游任务具有重要意义

[0006]本专利技术的基于置信度引导的解耦传播与级联优化光流估计算法,包括如下步骤:步骤1:获取当前帧和后一帧图像数据;步骤2:将图像数据输入图像特征提取网络,得到多尺度图像特征;步骤3:将多尺度特征图输入到
Transformer
特征增强网络,得到增强后的特征图;步骤4:将特征图输入全局匹配模块,得到初始的光流场和全局匹配的相关性矩阵;步骤5:将初始的光流场输入置信度预测模块,得到有效区域掩码;步骤6:将初始的光流场和有效区域掩码输入解耦传播模块,得到经解耦传播后的光流场;步骤7:将解耦后的光流场输入自适应的光流初始化模块,得到自适应初始化的光流;步骤8:将自适应初始化的光流输入级联优化模块,得到最终的光流场

[0007]所述的步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于置信度引导的解耦传播与级联优化光流估计方法,其特征在于:具体步骤如下:步骤1:获取当前帧和后一帧图像数据;步骤2:将图像数据输入图像特征提取网络,得到多尺度图像特征;步骤3:将多尺度特征图输入到
Transformer
特征增强网络,得到增强后的特征图;步骤4:将特征图输入全局匹配模块,得到初始的光流场和全局匹配的相关性矩阵;步骤5:将初始的光流场输入置信度预测模块,得到有效区域掩码;步骤6:将初始的光流场和有效区域掩码输入解耦传播模块,得到经解耦传播后的光流场;步骤7:将解耦后的光流场输入自适应的光流初始化模块,得到自适应初始化的光流;步骤8:将自适应初始化的光流输入级联优化模块,得到最终的光流场
。2.
如权利要求1所述的基于置信度引导的解耦传播与级联优化光流估计方法,其特征在于:所述步骤2具体包括如下步骤:步骤2‑1:使用多层卷积神经网络对图像进行编码操作,得到不同尺度的图像特征;步骤2‑2:使用上采样和跳跃连接操作对图像特征进行融合操作,得到更高分辨率和更丰富语义信息的图像特征;最终的多尺度特征图表示为
。3.
如权利要求1所述的基于置信度引导的解耦传播与级联优化光流估计方法,其特征在于:所述步骤3具体包括如下步骤:步骤3‑1:将图像的多尺度特征图经过位置编码算法加入序列化的位置编码信息;步骤3‑2:将经过位置编码的特征输入到
Transformer
模块,通过
l

SwinTransformer
进行特征增强,得到增强后的特征图
。4.
如权利要求1所述的基于置信度引导的解耦传播与级联优化光流估计方法,其特征在于:所述步骤4具体包括如下步骤:步骤4‑1:将增强后的两个特征进行矩阵乘法,得到一个四维的相关性张量(
CorrelationVolume
):;步骤4‑2:对相关性张量进行
Softmax
操作,得到两张特征图之间每个坐标点的全局匹配概率;步骤4‑3:构建一个大小的二维标准坐标网格;步骤4‑4:将与相减得到一个粗糙的起始的光流场;步骤4‑5:对正向与反向的光流场应用前后一致性检测操作,计算一个前后一致性差异
。5.
如权利要求1所述的基于置信度引导的解耦传播与级联优化光流估计方法,其特征在于:所述步骤5具体包括如下步骤:...

【专利技术属性】
技术研发人员:刘家安张松岩沈春华
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1