当前位置: 首页 > 专利查询>江南大学专利>正文

一种深度监督下的多尺度边缘检测方法技术

技术编号:27879908 阅读:27 留言:0更新日期:2021-03-31 01:12
一种深度监督下的多尺度边缘检测方法。该方法可以将局部特征与其对应的全局相关性结合起来,自适应地重新校准通道响应,引导网络忽略无关信息,强调相关特征间的关联。通过在BSDS500数据集和NYUD数据集上对该方法进行一系列的消融实验,证实了多尺度的深度监督自注意模块算法的有效性。与其他最先进的边缘检测网络相比,该算法具有更好的性能,用更少的参数提高了预测精度,在BSDS00数据集上实现了ODS测量值为0.815的得分,比现有的其他算法高出0.9%。

【技术实现步骤摘要】
一种深度监督下的多尺度边缘检测方法
本专利技术属于边缘检测领域,具体涉及一种深度监督下的多尺度边缘检测方法。
技术介绍
边缘检测旨在提取自然图像中的目标边界和视觉上明显的边缘,这对于高级计算机视觉任务很重要,例如图像分割,目标检测/识别。作为高级任务的基础,边缘检测有着丰富的历史,我们现在着重关注几个已经被证明具有重大意义的代表性工作。早期的传统方法包括Sobel检测器,过零检测,以及广泛使用的Canny检测器。Pb、gPb、Sketchtoken和StructuredEdges使用复杂的学习范式,根据手工特征(如亮度、颜色、梯度和纹理)来区分边缘像素。然而,应用低级视觉线索很难表示语义的意义。图像的边缘由有意义的局部细节和对象级边界构成。由于CNN具有自动学习自然图像高级特征的强大能力,被用于边缘检测,并获得了很好的效果,如N4-Fields、DeepContour、DeepEdge和CSCNN。为了获得多样性的边缘尺度,基于CNN的HED和RCF通过真实边缘图来监督不同网络层的预测结果,较低层检测更多的局部细节,而较高层以更大的感受野捕捉对象级边界。在高召回率下,HED表明深度监督可以兼顾低级预测,有利于学习全局对象边界。丰富的卷积特征对于许多视觉任务非常有效,但是HED和RCF对侧边输出的训练和预测策略仍然没有明确地使用全局上下文信息,没有直接对相邻像素标签施加约束以增强深度监督。因此,我们可以通过对通道相关性显式建模来提高网络表示的质量,网络可以自适应地重新校准信道响应,并学习使用全局信息来强调有用的特征和抑制不太有用的特征。如图1所示,随着感受野尺寸变大,我们发现由不同卷积层捕获的边缘逐渐变得粗糙,并且丢失了许多有用的细节。捕捉长程相关性的目的是提取对视觉场景的全局理解,这已被证明对广泛的识别任务有用,例如图像/视频分类、目标检测和分割,这正是RCF所需要的。在CNN中,由于卷积层在局部邻域建立像素关系,所以长程相关性主要通过深度叠加卷积层来建模。但直接重复卷积层计算效率低,难以优化,且远距离位置之间难以传输信息,这导致了远程相关性的无效建模。为了解决这个问题,我们对全局上下文建模,形成一个注意力图,然后用注意力图定义的权重聚合所有位置的特征。最后,将聚集的特征和每个位置的特征相加以形成新的特征。
技术实现思路
本专利技术旨在提供一种深度监督下的多尺度边缘检测方法,来解决现有技术存在的问题。本专利技术的技术方案:一种深度监督下的多尺度边缘检测方法,具体步骤如下:(1)构建的边缘检测器包括改进后的VGG16网络和注意力模块;改进后的VGG16网络去掉了原始VGG16的第五池化层和所有全连接层,保留了13个卷积层和前四个池化层;所述的注意力模块由全局模块和通道模块构成,全局模块包括一个1×1卷积层和一个softmax函数层,通道模块包括瓶颈结构、一个归一化层和一个Relu激活层,其中,瓶颈结构包括两个全连接层,每个全连接层是一个1×1卷积层;(2)使用在ImageNet上预训练过的VGG16来初始化改进后的VGG16网络;(3)使用旋转、翻转、缩放对数据集的图像进行扩充,按0.5、1.0和1.5倍调整图像的大小以构建图像金字塔,并且将每一个数据集的图像金字塔依次输入到边缘检测器中;(4)改进后的VGG16网络对输入的数据集图像进行阶段1至阶段4的卷积操作,注意力模块对第4阶段的输出进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与第4阶段的输出特征的各个通道共享该全局上下文注意图;使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的第4阶段的输出特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;将得到融合了全局特征且调整了通道间响应的特征输入到阶段5的卷积层中,进行阶段5卷积操作;然后对阶段1至阶段5每一卷积层的输出进行下采样,提取多尺度特征,得到多尺度特征图;(5)注意力模块的全局模块对步骤(4)得到的多尺度特征进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与多尺度特征的各个通道共享该全局上下文注意图;(6)使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的多尺度特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;(7)通过加法将步骤(6)中得到的特征聚合到步骤(4)中多尺度特征图的每个位置上,得到聚合特征;(8)使用一个核大小为1×1、通道深度为1的卷积将步骤(7)中得到的聚合特征按阶段进行元素相加得到复合特征;(9)使用反卷积对步骤(8)中的复合特征进行上采样,得到各阶段的边输出,使用loss/sigmoid监督边输出,优化边缘检测器参数;(10)使用concat函数和1×1卷积将步骤(9)中各阶段的边输出融合,得到边缘预测图;(11)使用双线性插值将图像金字塔中其他尺寸的边缘预测图调整到原始图像大小;将调整过尺寸的边缘预测图进行平均,得到最终的预测图;使用loss/sigmoid监督边缘预测图,不断学习优化边缘检测器参数。所述loss/sigmoid损失函数具体如下:用(X,Y)表示输入训练数据集T的一个样本,其中X={xi,i=1,···,|X|}是一张原始输入图像,Y={yi,i=1,···,|X|},yj∈{0,1}是对应的真实边缘图。每张图片的训练损失如式(1)所示:其中,Y+和Y-分别表示边缘和非边缘的真值标签集,λ表示自动平衡正/负类间损失的参数,W表示所有网络层参数,P(yi=1|X;W)表示在真实值yi为1的情况下,输入X在参数W运算下结果为1的概率,P(yi=0|X;W)表示在真实值yi为0的情况下,输入X在参数W运算下结果为0的概率。最终的损失通过进一步聚合步骤(9)中各阶段的边输出构成的边缘图来获得,如式(2)所示:其中Xj表示阶段j输出的边缘图,Xfuse表示最终融合层输出的边缘图。注意力模块的功能具体如下:首先,利用全局模块的一个1×1卷积WG和softmax函数获取全局注意权值,通过注意池化计算出一个全局上下文注意图S,并共享该全局上下文注意图S,使边缘检测器能够获得远程全局上下文信息。然后通过瓶颈结构中的两个1×1卷积WC重新校准通道响应。最后,通过加法将全局上下文特征有权重地聚合到每个位置的特征上。用U={un,n=1,···,N}表示输入注意力模块的多尺度特征图,其中N=H×W是特征图中的像素数。全局上下文注意图如式(3)所示:其中n列出了所有本文档来自技高网
...

【技术保护点】
1.一种深度监督下的多尺度边缘检测方法,其特征在于,具体步骤如下:/n(1)构建的边缘检测器包括改进后的VGG16网络和注意力模块;改进后的VGG16网络去掉了原始VGG16的第五池化层和所有全连接层,保留了13个卷积层和前四个池化层;所述的注意力模块由全局模块和通道模块构成,全局模块包括一个1×1卷积层和一个softmax函数层,通道模块包括瓶颈结构、一个归一化层和一个Relu激活层,其中,瓶颈结构包括两个全连接层,每个全连接层是一个1×1卷积层;/n(2)使用在ImageNet上预训练过的VGG16来初始化改进后的VGG16网络;/n(3)使用旋转、翻转、缩放对数据集的图像进行扩充,按0.5、1.0和1.5倍调整图像的大小以构建图像金字塔,并且将每一个数据集的图像金字塔依次输入到边缘检测器中;/n(4)改进后的VGG16网络对输入的数据集图像进行阶段1至阶段4的卷积操作,注意力模块对第4阶段的输出进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与第4阶段的输出特征的各个通道共享该全局上下文注意图;使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的第4阶段的输出特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;将得到融合了全局特征且调整了通道间响应的特征输入到阶段5的卷积层中,进行阶段5卷积操作;然后对阶段1至阶段5每一卷积层的输出进行下采样,提取多尺度特征,得到多尺度特征图;/n(5)注意力模块的全局模块对步骤(4)得到的多尺度特征进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与多尺度特征的各个通道共享该全局上下文注意图;/n(6)使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的多尺度特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;/n(7)通过加法将步骤(6)中得到的特征聚合到步骤(4)中多尺度特征图的每个位置上,得到聚合特征;/n(8)使用一个核大小为1×1、通道深度为1的卷积将步骤(7)中得到的聚合特征按阶段进行元素相加得到复合特征;/n(9)使用反卷积对步骤(8)中的复合特征进行上采样,得到各阶段的边输出,使用loss/sigmoid监督边输出,优化边缘检测器参数;/n(10)使用concat函数和1×1卷积将步骤(9)中各阶段的边输出融合,得到边缘预测图;/n(11)使用双线性插值将图像金字塔中其他尺寸的边缘预测图调整到原始图像大小;将调整过尺寸的边缘预测图进行平均,得到最终的预测图;使用loss/sigmoid监督边缘预测图,不断学习优化边缘检测器参数。/n...

【技术特征摘要】
1.一种深度监督下的多尺度边缘检测方法,其特征在于,具体步骤如下:
(1)构建的边缘检测器包括改进后的VGG16网络和注意力模块;改进后的VGG16网络去掉了原始VGG16的第五池化层和所有全连接层,保留了13个卷积层和前四个池化层;所述的注意力模块由全局模块和通道模块构成,全局模块包括一个1×1卷积层和一个softmax函数层,通道模块包括瓶颈结构、一个归一化层和一个Relu激活层,其中,瓶颈结构包括两个全连接层,每个全连接层是一个1×1卷积层;
(2)使用在ImageNet上预训练过的VGG16来初始化改进后的VGG16网络;
(3)使用旋转、翻转、缩放对数据集的图像进行扩充,按0.5、1.0和1.5倍调整图像的大小以构建图像金字塔,并且将每一个数据集的图像金字塔依次输入到边缘检测器中;
(4)改进后的VGG16网络对输入的数据集图像进行阶段1至阶段4的卷积操作,注意力模块对第4阶段的输出进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与第4阶段的输出特征的各个通道共享该全局上下文注意图;使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的第4阶段的输出特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;将得到融合了全局特征且调整了通道间响应的特征输入到阶段5的卷积层中,进行阶段5卷积操作;然后对阶段1至阶段5每一卷积层的输出进行下采样,提取多尺度特征,得到多尺度特征图;
(5)注意力模块的全局模块对步骤(4)得到的多尺度特征进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与多尺度特征的各个通道共享该全局上下文注意图;
(6)使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的多尺度特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;
(7)通过加法将步骤(6)中得到的特征聚合到步骤(4)中多尺度特征图的每个位置上,得到聚合特征;
(8)使用一个核大小为1×1、通道深度为1的卷积将步骤(7)中得到的聚合特征按阶段进行元素相加得到复合特征;
(9)使用反卷积对步骤(8)中的复合特征进行上采样,得到各阶段的边输出,使用loss/sigmoid监督边输出,优化边缘检测器参数;
(10)使用concat函数和1×1卷...

【专利技术属性】
技术研发人员:孙俊张旺吴豪吴小俊方伟陈祺东李超游琪冒钟杰
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1