RGB-D制造技术

技术编号：39678120 阅读：7 留言：0更新日期：2023-12-11 18:55

本发明专利技术提供一种

全部详细技术资料下载

【技术实现步骤摘要】
RGB
‑
D协同显著物体检测方法

[0001]本专利技术属于图像处理与计算机视觉
，尤其涉及一种基于
Transformer
的跨模态共识学习网络的
RGB
‑
D
协同显著物体检测方法
。

技术介绍

[0002]显著物体检测
(SOD)
模拟人类视觉系统，识别单一图像中最显著的区域
。
为了拓展这一任务，协同显著物体检测
(Co
‑
SOD)
是从一组相关图像中检测共同出现的目标
。
协同显著物体检测通常作为计算机视觉任务的初始步骤，例如协同分割
、
语义分割
、
视频共定位以及弱监督语义分割等
。
近年来，为了应对复杂的现实场景，出现了
RGB
‑
D
协同显著物体检测方法
。RGB
‑
D
协同显著目标检测采用一组彩色
RGB
图和深度图作为多模态输入源来模拟人类的视觉感官，去观察组图像中所共有的显著目标
。
深度图可以为
RGB
图的提供一些空间距离信息以及显著对象的布局和边界
。
[0003]早期的
RGB
‑
D
协同显著物体检测方法大都利用现有的显著物体检测模型来生成显著性特征，之后基于内部显著性线索设计一些手工制作的特征，最后通过聚类/>、
多约束匹配以及稀疏重建来得到预测结果
。
然而，早期方法在面对复杂的现实场景时，无法有效避免背景噪声的干扰，导致显著性结果预测定位准确度差
。

技术实现思路

[0004]针对现有技术的不足，本专利技术提出一种
RGB
‑
D
协同显著物体检测方法，该方法能够准确检测出
RGB
图像中的协同显著物体，所预测的结果准确且完整
。
[0005]为了实现上述目的，本专利技术一方面提供一种
RGB
‑
D
协同显著物体检测方法，基于
Transformer
的跨模态共识学习网络，所述方法包含：
[0006]获取待检测的
RGB
图像组与深度图像组；
[0007]将所述
RGB
图像组与所述深度图像组输送至骨干网络中，输出各层级的
RGB
特征与深度特征；
[0008]将骨干网络的最高层级的
RGB
特征与深度特征输送到共识感知模块，捕获最高层级的语义共识线索；
[0009]在所述最高层级的语义共识线索的指导下，将其余层级的
RGB
特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习，捕获其余层级的语义共识线索
、
以及融合的语义共识线索；
[0010]将所述最高层级的语义共识线索
、
以及所述其余层级的语义共识线索
、
融合的语义共识线索共同输送到解码器模块中，预测协同显著性映射
。
[0011]在一些实施例中，所述共识感知模块包括：
[0012]一相互残差块，接收来自于最高层级的
RGB
特征与深度特征，将最高层级的所述
RGB
特征与所述深度特征进行初始交互，生成最高层级的
RGB
残差特征与深度残差特征；
[0013]一共识探索块，与所述相互残差块输出端连接，接收最高层级的所述
RGB
残差特征
与深度残差特征，捕获最高层级的语义共识线索
。
[0014]在一些实施例中，所述相互残差块将最高层级的所述
RGB
特征与所述深度特征进行初始交互，计算公式为：
[0015][0016][0017]其中，
F
c1
(
·
)
表示1×1卷积，表示加法，
F
rres
、
分别为最高层级的
RGB
残差特征与深度残差特征，分别为最高层级的
RGB
特征
、
深度特征
。
[0018]在一些实施例中，在所述共识探索块中，对最高层级的所述
RGB
残差特征和所述深度残差特征进行线性投影和特征重塑，获取模态内和模态间的多个全局注意力图，每一全局注意力图的特征尺寸为
NHW
×
NHW
；
[0019]对多个全局注意力图进行整合，生成模态内和模态间的一共识语义，所述共识语义的特征尺寸为
NHW
×
NHW
；
[0020]将所述共识语义的特征尺寸重塑为
NHW
×
N
×
HW
，并延最后维度取最大值，得到每个像素的
N
个最大相似值，每一最大相似值的尺寸为
NHW
×
N
；
[0021]对
N
个最大相似值进行求平均，并进行尺寸重塑，生成一共识概率图，所述共识概率图的特征尺寸为
N
×1×
HW。
[0022]在一些实施例中，在所述共识探索块中，沿所述共识概率图的最后维度取最大值，并进行尺寸重塑，得到概率最高的一共识概率子图，所述共识概率子图的特征尺寸为
N
×1×1×1；
[0023]分别对最高层级的所述
RGB
残差特征和所述深度残差特征的通道维度进行归一化，得到最高层级的归一化
RGB
残差特征和归一化深度残差特征；
[0024]将概率最高的所述共识概率子图作用于最高层级的所述归一化
RGB
残差特征和所述归一化深度残差特征，生成初始原型；
[0025]延着所述初始原型的空间维度求和，得到第一卷积核
、
第二卷积核，并将所述第一卷积核和第二卷积核分别作为卷积核对最高层级的所述归一化
RGB
残差特征
、
所述归一化深度残差特征执行多尺度卷积，获得多尺度共识
RGB
响应图
、
共识深度响应图；
[0026]分别将所述共识
RGB
响应图和所述共识深度响应图的通道平均值作为最终的共识
RGB
掩膜和共识深度掩膜；
[0027]将所述共识
RGB
掩膜作用于最高层级的所述归一化
RGB
残差特征，所述共识深度掩膜作用于最高层级的所述归一化深度残差特征，并采用通道注意力增强通道方面的特征表示，分别获取最高层级的共识
RGB
特征和共识深度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种
RGB
‑
D
协同显著物体检测方法，其特征在于，基于
Transformer
的跨模态共识学习网络，所述方法包含：获取待检测的
RGB
图像组与深度图像组；将所述
RGB
图像组与所述深度图像组输送至骨干网络中，输出各层级的
RGB
特征与深度特征；将骨干网络的最高层级的
RGB
特征与深度特征输送到共识感知模块，捕获最高层级的语义共识线索；在所述最高层级的语义共识线索的指导下，将其余层级的
RGB
特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习，捕获其余层级的语义共识线索
、
以及融合的语义共识线索；将所述最高层级的语义共识线索
、
以及所述其余层级的语义共识线索
、
融合的语义共识线索共同输送到解码器模块中，预测协同显著性映射
。2.
根据权利要求1所述的方法，其特征在于，所述共识感知模块包括：一相互残差块，接收来自于最高层级的
RGB
特征与深度特征，将最高层级的所述
RGB
特征与所述深度特征进行初始交互，生成最高层级的
RGB
残差特征与深度残差特征；一共识探索块，与所述相互残差块输出端连接，接收最高层级的所述
RGB
残差特征与深度残差特征，捕获最高层级的语义共识线索
。3.
根据权利要求2所述的方法，其特征在于，所述相互残差块将最高层级的所述
RGB
特征与所述深度特征进行初始交互，计算公式为：为：其中，
F
c1
(
·
)
表示1×1卷积，表示加法，
F
rres
、F
dres
分别为最高层级的
RGB
残差特征与深度残差特征，分别为最高层级的
RGB
特征
、
深度特征
。4.
根据权利要求3所述的方法，其特征在于，在所述共识探索块中，对最高层级的所述
RGB
残差特征和所述深度残差特征进行线性投影和特征重塑，获取模态内和模态间的多个全局注意力图，每一全局注意力图的特征尺寸为
NHW
×
NHW
；对多个全局注意力图进行整合，生成模态内和模态间的一共识语义，所述共识语义的特征尺寸为
NHW
×
NHW
；将所述共识语义的特征尺寸重塑为
NHW
×
N
×
HW
，并延最后维度取最大值，得到每个像素的
N
个最大相似值，每一最大相似值的尺寸为
NHW
×
N
；对
N
个最大相似值进行求平均，并进行尺寸重塑，生成一共识概率图，所述共识概率图的特征尺寸为
N
×1×
HW。5.
根据权利要求4所述的方法，其特征在于，在所述共识探索块中，沿所述共识概率图的最后维度取最大值，并进行尺寸重塑，得到
概率最高的一共识概率子图，所述共识概率子图的特征尺寸为
N
×1×1×1；分别对最高层级的所述
RGB
残差特征和所述深度残差特征的通道维度进行归一化，得到最高层级的归一化
RGB
残差特征和归一化深度残差特征；将概率最高的所述共识概率子图作用于最高层级的所述归一化
RGB
残差特征和所述归一化深度残差特征，生成初始原型；延着所述初始原型的空间维度求和，得到第一卷积核
、
第二卷积核，并将所述第一卷积核和第二卷积核分别作为卷积核对最高层级的所述归一化
RGB
残差特征
、
所述归一化深度残差特征执行多尺度卷积，获得多尺度共识
RGB
响应图
、
共识深度响应图；分别将所述共识
RGB
响应图和所述共识深度响应图的通道平均值作为最终的共识
RGB
掩膜和共识深度掩膜；将所述共识
RGB
掩膜作用于最高层级的所述归一化
RGB
残差特征，所述共识深度掩膜作用于最高层级的所述归一化深度残差特征，并采用通道注意力增强通道方面的特征表示，分别获取最高...

【专利技术属性】
技术研发人员：张乔，李娇，于钰娜，侯苗苗，黄振，
申请(专利权)人：齐鲁理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人