本申请提出了一种基于自注意力机制的事件相机光流估计方法及装置,涉及计算机视觉技术领域,包括以下步骤:获取原始数据流并将原始数据流转换为离散化的事件帧,将事件帧输入到脉冲神经网络;根据脉冲神经网络中的编码层处理事件帧,得到编码层对应的脉冲输出,其中,编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理;根据残差块和解码层处理脉冲输出,确定预测光流,其中,解码层使用转置卷积执行上采样;根据训练后的混合神经网络,确定预测光流的总损失。本发明专利技术通过十字交叉形注意力模块与时间注意力模块对输入的对象进行处理,捕获完整的图像依赖关系,有选择性地聚焦信息,自动过滤与最终结果无关的帧,提高光流预测能力,改善计算效率。改善计算效率。改善计算效率。
【技术实现步骤摘要】
一种基于自注意力机制的事件相机光流估计方法及装置
[0001]本申请涉及计算机视觉
,尤其涉及一种基于自注意力机制的事件相机光流估 计方法及装置。
技术介绍
[0002]光流估计是图像处理与计算机视觉研究中一个重要的研究方向,它允许我们可视化场 景中的运动场,并为动作识别、运动分割和目标跟踪等更复杂的任务奠定基础。在过去的 几年中,光流估计在很大程度上由基于帧相机的传统计算机视觉算法所主导,但是由于传 统帧相机自身较低的时间分辨率、较高的延迟和数据量,在高速运动等挑战性场景下难以 捕捉到物体的快速变化,输出图像帧会存在运动模糊,重复曝光等问题,导致光流估计算 法的性能急剧下降。
[0003]事件相机(Event Camera)是受生物视觉系统启发的一类新型神经形态视觉传感器, 它独立检测每个像素点上的亮度变化,生成异步的事件流数据(x,y,t,p),该数据包括 时间戳t、像素地址(x,y)和亮度变化的极性p,因此能克服传统帧相机的局限性并且具 有独特的优势,比如高时间分辨率(微秒级)、低延迟(微秒数量级)、低功耗 (10mW)、高动态范围(120
‑
143dB),可以获取瞬时的运动数据,有利于进行连续的光 流估计。
[0004]第三代神经网络——脉冲神经网络(Spiking Neural Networks,SNN)以更具生物可 解释性的脉冲神经元模型为基本单元,提供了事件驱动的计算形式并利用了脉冲事件固有 的稀疏性,以低功耗和几乎无延迟的方式响应事件,所以脉冲神经网络与事件相机结合具 有天然的优势。然而,因为尖峰消失现象以及缺乏合适的训练技术,脉冲神经网络的性能 问题成为其应用于各大任务的最大障碍。针对这个问题,一些研究人员提出了集成脉冲神 经网络和模拟神经网络的深度混合神经网络(SNN
‑
ANN)体系结构,高效估计稀疏事件相 机输出的光流。
技术实现思路
[0005]针对上述问题,提出了一种基于自注意力机制的事件相机光流估计方法及装置。
[0006]本申请第一方面提出了一种基于自注意力机制的事件相机光流估计方法,包括:
[0007]获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述事件帧输入到脉 冲神经网络;
[0008]根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输 出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处 理;
[0009]根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述解码层使用转置 卷积执行上采样;
[0010]根据训练后的混合神经网络,确定所述预测光流的总损失。
[0011]可选的,所述获取原始数据流并将所述原始数据流转换为离散化的事件帧,包括:
[0012]通过事件相机跟踪所述原始数据流;
[0013]根据预设设置的预设阈值将所述原始数据流在时间维度上离散化为两组事件帧,其 中,每组事件帧包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件 帧,每个事件帧由两个通道组成。
[0014]可选的,所述根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对 应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件 帧进行处理,包括:
[0015]所述编码层对所述事件帧进行卷积,获取当前膜电位;
[0016]将所述当前膜电位与前一个编码层累积之后的膜电位汇合,确定汇合膜电位;
[0017]通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图;
[0018]通过所述时间注意力模块处理所述注意力图,确定所述脉冲输出。
[0019]可选的,所述通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图,包 括:
[0020]对于给定的所述汇合膜电位所述十字交叉注意力模块在H上应用两个 1
×
1滤波的所述编码层,分别生成两个特征图Q和K,其中,C'是小 于C的通道数;
[0021]通过聚类操作所述特征图Q和K获取注意力图对于特征图Q的空 间维度中的每个位置u,确定向量同时,在位置u相同的行或列中从特征图K 中提取特征向量得到集合其中,是Ω
u
的第i个元素, i∈[1,...,|Ω
u
|],所述聚类操作定义表达式为:
[0022][0023]其中,d
i,u
为特征Q
u
和Ω
i,u
之间的相关度,d
i,u
∈D,
[0024]可选的,所述确定所述脉冲输出,包括:
[0025]计算统计向量,公式化为:
[0026][0027]其中X
t,n
‑1∈R
H
×
W
×
C
是第n层在第t个时间步长的空间输入张量,C是通道数。
[0028][0029]根据所述统计向量,计算训练阶段和推理阶段的注意力值,公式化为:
[0030][0031]其中是可训练的参数矩阵,d
th
是设定的注意力阈值,δ是 ReLU激活函数,σ是Sigmoid激活函数,f(
·
)是Heaviside阶跃函数。
[0032]可选的,在所述确定所述预测光流的总损失之前,包括:
[0033]根据自监督学习方法训练所述混合神经网络。
[0034]可选的,所述确定预测光流的总损失,包括:
[0035]获取光度一致性损失,公式化如下:
[0036][0037]其中,I
t
为第一灰度图像的像素强度,I
t+dt
为第二灰度图像的像素强度,ρ是 Charbonnier损失函数,且ρ(x)=(x2+η2)
γ
,r和η是训练时设置的恒定值;
[0038]获取平滑损失,公式化如下:
[0039][0040]其中,H和W分别是预测光流的高度和宽度;
[0041]根据所述光度一致性损失与所述平滑损失获取所述预测光流的总损失,公式化如下:
[0042][0043]其中,α表示权重因子。
[0044]本申请第二方面提出了一种基于自注意力机制的事件相机光流估计装置,包括:
[0045]输入模块,用于获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述 事件帧输入到脉冲神经网络;
[0046]编码模块,用于根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层 对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事 件帧进行处理;
[0047]解码模块,用于根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述 解码层使用转置卷积执行上采样;
[0048]损失获取模块,用于根据训练后的混合神经网络,确定所述预测光流的总损失。本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于自注意力机制的事件相机光流估计方法,其特征在于,包括:获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述事件帧输入到脉冲神经网络;根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理;根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述解码层使用转置卷积执行上采样;根据训练后的混合神经网络,确定所述预测光流的总损失。2.根据权利要求1所述方法,其特征在于,所述获取原始数据流并将所述原始数据流转换为离散化的事件帧,包括:通过事件相机输出所述原始数据流;根据预设设置的预设阈值将所述原始数据流在时间维度上离散化为两组事件帧,其中,每组事件帧包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件帧,每个事件帧由两个通道组成。3.根据权利要求1所述的方法,其特征在于,所述根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理,包括:所述编码层对所述事件帧进行卷积,获取当前膜电位;将所述当前膜电位与前一个编码层累积之后的膜电位汇合,确定汇合膜电位;通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图;通过所述时间注意力模块处理所述注意力图,确定所述脉冲输出。4.根据权利要求3所述的方法,其特征在于,所述通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图,包括:对于给定的所述汇合膜电位所述十字交叉注意力模块在H上应用两个1
×
1滤波的所述编码层,分别生成两个特征图Q和K,其中,C'是小于C的通道数;通过聚类操作所述特征图Q和K获取注意力图对于特征图Q的空间维度中的每个位置u,确定向量同时,在位置u相同的行或列中从特征图K中提取特征向量得到集合其中,是Ω
u
的第i个元素,i∈[1,...,|Ω
u
|],所述聚类操作定义表达式为:其中,d
i,u
为特征Q
u
和Ω
i,u
之间的相关度,d
i,u
【专利技术属性】
技术研发人员:粟傈,杨帆,王向禹,陈学娜,赵锦秀,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。