【技术实现步骤摘要】
基于分层全相关代价体聚合的光流估计方法与装置
[0001]本专利技术属于计算机视觉光流估计
,更具体地涉及一种基于分层全相关代价体聚合的光流估计方法与装置。
技术介绍
[0002]光流估计用于确定图像中物体的运动方向和速度,是计算机视觉中的一项基础任务,在运动分析、物体跟踪、视频插值等各种应用中起着至关重要的作用。
[0003]传统方法通常将光流估计问题定义为基于亮度恒常性和空间平滑性约束的能量最小化问题。然而,这些方法往往表现出较差的性能和通用性。深度学习的快速发展使得光流估计领域取得了重大进展。RAFT是最近最著名的基于深度学习的方法之一,它计算全对相关性以生成成本代价体,并利用迭代优化框架从代价体推断和细化像素级运动。RAFT极大地提高了光流估计的精度,为光流估计网络的设计建立了新的范式。然而,由简单特征相关性构建的代价体在编码先验知识和非局部知识方面存在局限性,而先验知识和非局部知识对于准确理解复杂场景至关重要。因此,该方法可能会在约束条件较差或模糊的区域产生假匹配,如闭塞和无纹理区域(如图1所示)。虽 ...
【技术保护点】
【技术特征摘要】
1.一种基于分层全相关代价体聚合的光流估计方法,其特征在于,所述方法包括如下步骤:(1)取时间维度上相邻的两帧图像,将两帧图像分别称为第一帧图像和第二帧图像,以用于计算第一帧图像到第二帧图像之间的光流;提取两帧图像的匹配特征和第一帧图像的上下文特征;(2)选择目标尺寸的特征图通过矩阵乘法构建全相关代价体,对全相关代价体在空间上进行分块和重组,以允许使用2D和3D卷积进行代价聚合,然后通过基于2D卷积的局部聚合网络和基于3D卷积的全局聚合网络进行分层聚合,使用聚合后的代价体构建代价体金字塔;(3)根据当前估计光流从所述代价体金字塔中查找多尺度匹配信息,与第一帧图像的上下文特征进行编码后,使用基于卷积GRU的更新模型更新光流残差,经过多次迭代得到最终光流估计结果;(4)将最后一次迭代得到的光流上采样恢复到原始分辨率,输出全分辨的光流图得到从第一帧图像到第二帧图像的光流估计,计算光流估计与标签之间的L1损失对网络进行监督。2.如权利要求1所述的基于分层全相关代价体聚合的光流估计方法,其特征在于,在步骤(1)中,所述提取两帧图像的匹配特征和第一帧图像的上下文特征,具体包括:特征编码模块中包括两个子模块,即匹配特征提取子模块和上下文特征提取子模块,二者结构相同均由基于transformer的网络组成;对于两帧图像I1、I2,匹配特征提取子模块分别从两帧图像中提取匹配特征f1,f2∈R
D
×
H
×
W
,其中D是特征的维度大小,H和W是高和宽,是原图像分辨率的1/8倍;上下文特征提取子模块从第一帧图像I1中提取上下文特征f
c
∈R
D
×
H
×
W
。3.如权利要求1或2所述的基于分层全相关代价体聚合的光流估计方法,其特征在于,所述步骤(2)具体包括:分层全相关代价体聚合模块对全相关代价体进行分层聚合,在提取两帧图像的匹配特征f1,f2后,通过每对像素之间的逐点相乘构建全相关代价体C,其维度为[H1,W1,H2,W2],其中维度H1和W1分别是高和宽,H2和W2分别表示垂直方向和水平方向的位移范围。4.如权利要求3或所述的基于分层全相关代价体聚合的光流估计方法,其特征在于,分层全相关代价体聚合模块对全相关代价体进行分层聚合,具体包括:分层全相关代价体聚合模块将聚合分为局部聚合和全局聚合,首先对全相关代价体进行分块和重组以允许使用2D卷积和3D卷积对代价体进行聚合;全相关代价体C在位移范围维度[H2,W2]被划分为N个P
×
P大小的块,其中全相关代价体被重组为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。