【技术实现步骤摘要】
一种显著物体检测的加速方法与装置
[0001]本公开的实施例涉及图像识别
,具体涉及显著物体检测的加速方法与装置。
技术介绍
[0002]人类的视觉系统具有从复杂场景中快速、准确地定位感兴趣物体或区域的能力,称为选择性注意力机制。SOD(Salient Object Detection,显著物体检测)是对该机制的一种模拟,旨在分割给定图像中最具视觉吸引力的物体或区域。现有的显著物体检测方法大致可以分为两类:传统的显著物体检测和基于深度学习的显著物体检测。现有的方法存在着一些问题。手工构建的特征主要关注低层信息,很难捕获高层的语义信息,这对于一些复杂场景来说是不够健壮;语义信息的稀释、空间信息的损失以及边界信息的缺失,导致显著物体定位不准、结构细节缺失以及边界粗糙等问题。
技术实现思路
[0003]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。 >[0004]本公开本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种显著物体检测的加速方法,包括:利用摄像机采集待检测图像;将所述待检测图像输入至编码器进行图像编码,得到编码图像特征,其中,所述编码器对图像的编码过程包括五个编码阶段,每个编码阶段提取一个层次的图像特征,提取得到由低层次到高层次共五个层次的图像特征;将所述编码图像特征输入至预先训练的互补三边解码器,得到解码图像;将所述解码图像发送至显示终端以供显示。2.根据权利要求1所述的方法,其中,所述编码器使用残差网络ResNet
‑
50或残差网络ResNet
‑
18作为骨干网络,残差网络ResNet
‑
50和残差网络ResNet
‑
18在可视化数据库ImageNet上进行预训练,并在不同编码阶段,编码多层次的特征,所述预先训练的互补三边解码器使用最后四个编码阶段的图像特征进行图像解码,最后四个阶段的图像特征相对于输入的待检测图像的空间分辨率的变化步长为{4,8,16,32}。3.根据权利要求2所述的方法,其中,所述预先训练的互补三边解码器包括三个分支:语义路径分支、空间路径分支和边界路径分支,其中,所述语义路径分支、所述空间路径分支和所述边界路径分支来自预先训练的互补三边解码器的不同阶段,并且分别对应所述编码器的编码阶段,其中,所述编码器的编码阶段包括第一编码阶段、第二编码阶段、第三编码阶段、第四编码阶段和第五编码阶段,所述语义路径分支对应所述编码器的编码阶段中的第四编码阶段和第五编码阶段,所述空间路径分支对应所述编码器的编码阶段中的第三编码阶段,所述边界路径分支对应所述编码器的编码阶段中的第二编码阶段。4.根据权利要求3所述的方法,其中,所述语义路径分支的设计是为了捕获语义上下文信息和全局上下文信息,所述语义路径分支从所述编码器的编码阶段中的第四编码阶段和第五编码阶段引出,所述语义路径分支生成一个具有精确显著物体定位的初始显著性映射,所述编码器虽然包括不同阶段固有的多尺度上下文信息,但缺乏全局上下文信息,在骨干网络的尾部嵌入一个全局平均池化层,所述全局平均池化层提供全局上下文信息,利用特征融合模块融合全局上下文信息与所述编码器的编码阶段中的第四编码阶段和第五编码阶段的特征信息,得到语义路径分支的输出特征,其中,所述特征融合模块用于融合不同层次的特征,即所述特征融合模块通过乘法操作将高层特征和低层特征融合在一起,然后经过两个3
×
3卷积获得最终的特征表示,利用以下公式,得到语义路径分支的输出特征:其中,FFM(,)表示对两个参数进行融合操作,f1表示融合操作中的第一个参数,f2表示融合操作中的第二个参数,表示3
×
3卷积,表示所述编码器的编码阶段中
的第五编码阶段的特征信息与全局上下文信息的融合特征信息,表示1
×
1卷积,E(5)表示所述编码器的编码阶段中的第五编码阶段的特征信息,表示对E
(5)
进行1
×
1卷积,Up()表示上采样操作,GAP()表示全局平均池化操作,GAP(E
(5)
)表示对E
(5)
进行全局平均池化操作,表示语义路径分支的输出特征,E
(4)
表示所述编码器的编码阶段中的第四编码阶段的特征信息,表示对E
(4)
进行1
×
1卷积,表示对进行上采样操作。5.根据权利要求4所述的方法,其中,所述空间路径分支的设计是为了提供空间细节,所述空间路径分支从所述编码器的编码阶段中的第三编码阶段引出,经过一个空间注意力模块从空间维度学习区分性的特征表示,并利用以下公式,通过沿着通道维度分别使用平均操作与最大操作生成两个单通道的空间映射,然后计算出一个空间注意力映射,以对特征进行加权和细调,得到空间路径分支的输出特征:其中,S
avg
表示平均空间映射,E
(3)
表示所述编码器的编码阶段中的第三编码阶段的特征信息,表示沿着通道维度进行平均操作,表示对E
(3)
沿着通道维度进行平均操作,S
max
表示最大空间映射,表示沿着通道维度进行最大操作,表示对E
(3)
沿着通道维度进行最大操作,M
sa
表示空间注意力映射,σ()表示激活函数sigmoid,表示3
×
3卷积,Conca...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。