【技术实现步骤摘要】
一种基于数据集分布和上下文信息的语义分割方法
[0001]本专利技术涉及机器视觉、深度学习、神经网络等领域,提出了一种基于数据集分布和上下文信息的语义分割方法。
技术介绍
[0002]语义分割(Semantic Segmentation):是计算机视觉的基本任务之一,在自动驾驶、智能交通、医疗诊断等多个领域有广泛的应用。其目标是让计算机理解当前图片的语义环境,从而依据分类信息对整个图像区域进行划分。区别于一般的图像分类任务,语义分割要求输出和原始图像大小相匹配的预测结果,是一个像素到像素的图像分类任务。因此,在解析图像时,需要综合的处理不同像素和不同类别之间的依赖关系。
[0003]现有语义分割的相关研究普遍认为,网络应该在编码器和连接器上尽可能的捕获图像的长程(Long
‑
Range)信息,其中包括了像素点的空间结构特征和类别间的互相依赖关系。其中一个重要的方法是计算特征之间的协方差矩阵作为权重,之后使用矩阵相乘的方式将权重分配给不同位置的特征,这一方式又被称作“注意力机制”;语义分割任务中,对注 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据分布上下文信息的语义分割方法,其特征在于,该方法包括以下具体步骤:步骤A:对数据集图片进行预处理,根据数据集的统计信息完成分类器的设置,具体包括:步骤A1:数据集图像的预处理在处理输入图像时,对图像进行边缘填充(padding),使其宽高的像素数,为最小特征图宽高的整数倍;而对于填充的像素,在训练时不计算其损失函数;训练阶段,对输入的图像进行随机裁剪、缩放、水平翻转以及对比度调整,并使用随机强度的高斯滤波器以增强网络的泛化性能;同时,将所有的图像线性插值到同等大小,以训练和统计;测试阶段,对于不同尺度的输入图像,同样先采取边缘填充来处理验证集和测试集图片,之后直接送入网络进行语义信息的推测;并将边缘填充的预测值删去;步骤A2:分类器输出维度的设置根据数据集的分类要求设置编解码器结构;使用两个不同的线性分类器处理网络特征,在编码器端产生初步预测结果,在解码器端输出精确预测结果,这两个分类器的输出维度等于数据集的分类类别数;步骤B:搭建神经网络,设计损失函数,调整学习率、优化器参数,在数据集上对网络进行训练,具体包括:步骤B1:搭建神经网络,所述神经网络由编码器、连接器、解码器三个部分构成,三者依次顺序连接,其中:步骤B11:编码器的设置,使用主流的深度模型作为骨干网络,骨干网络为ResNet、Xception或HRNet;使用一个单独的分类器,连接到骨干网络的次深层,使其产生网络的初步预测结果;设骨干网络共有n个阶段(stage)其输出为X
backbone
,则:X
backbone
={X1,X2,...,X
n
}分类器由卷积核为1x1的卷积层构成,其输入维度与X
n
‑1相同,输出维度为数据集的分类数;设分类器为f
coarse
,其输出的初步预测结果为Y
coarse
,有:Y
coarse
=f
coarse
(X
n
‑1)步骤B12:连接器的设置,连接器的作用是:对编码器的输出进行处理,提取长程信息,为解码器的分类提供辅助;其过程有三个步骤:计算本图类中心、累积数据集类中心及利用注意力算法对类中心进行融合,具体为:步骤B12a:计算本图类中心,编码器的输出即为连接器的输入,分别记为骨干网络的深层特征图X
n
,以及初步分类器f
coarse
的输出Y
coarse
;首先,对Y
coarse
进行线性插值,使其空间方向上的大小和X
n
相同;此时不同变量的数据维度为:其中,HW为特征图大小,d为特征图通道数,k为数据集分类数;接下来,使用softmax函数对Y
coarse
的空间维度方向进行权重归一,并计算其与X
n
的协方差阵A:
该协方差阵统计了本图中不同类别和特征通道的对应关系,称之为本图类中心;式中,δ代表softmax函数,T代表矩阵转置;步骤B12b:累积数据集类中心,初始化一个权重矩阵用以储存数据集的类中心信息;在训练过程中,所述权重矩阵使用滑动平均的方式,使用每张图的类中心对其进行更新;设更新系...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。