基于金字塔池化编解码结构的图像语义分割方法技术

技术编号:17162942 阅读:34 留言:0更新日期:2018-02-01 20:59
本发明专利技术公开了一种基于金字塔池化编解码结构的图像语义分割方法,包括:通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理,提取输入图像的高维特征信息,构成深层特征图;通过一个包含反向卷积神经网络模型的解码网络,将深层特征图恢复至与输入图像相同的分辨率;通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器,将解码网络输出的特征图进行分类,实现图像语义分割。该方法在进一步提高网络对图像语义分割的能力的同时兼顾了网络模型大小和运算速度。

Image semantic segmentation method based on the codec architecture of Pyramid

The invention discloses a segmentation method based on a pool of Pyramid encoding and decoding the image semantic structure includes: the input image processing by including a convolutional neural network model and the Pyramid model of the pool network encoding high dimensional feature extraction, information of the input image, a deep feature map by including a reverse convolution; the neural network model of decoding network, will restore to the deep feature map and input images with the same resolution; through a convolutional layer containing the output channel is the class number and a Softmax layer classifier, the feature map output decoding network classification, semantic image segmentation. This method further improves the ability of the network to segment the image, while taking into account the size of the network model and the speed of operation.

【技术实现步骤摘要】
基于金字塔池化编解码结构的图像语义分割方法
本专利技术涉及计算机视觉领域,尤其涉及一种基于金字塔池化编解码结构的图像语义分割方法。
技术介绍
图像语义分割融合了传统的图像分割和目标识别任务,需要将图像分割成几组具有特定语义含义的像素区域并且识别出每一类区域,得到一幅具有语义标注的图像。例如,对于一张包含复杂场景的交通图像,计算机需要自动识别出行人、车辆、建筑物等类别,对于同一类别的目标,需要自动分割出其准确的形状和位置,用同一种像素值表示出来。目前图像语义分割的算法主要分为两类。第一类可以称之为传统方法,其利用图像像素值之间的联系,通过简单加权或者概率图模型来判断不同的像素值是否属于同一类别。这类方法的典型代表是N-cut算法,但是由于这类方法只利用了图像中的颜色信息,对于颜色相近的不同类目标或颜色反差较大的同类目标都不能较好地识别出来,其分割结果并不准确。第二类可以称之为主流方法,其利用深度卷积网络来进行图像语义分割。利用神经网络良好的学习性能,来学习不同目标物体的深度特征信息,并且将传统的分类网络的全连接层改为卷积层,直接得到分割好的图像。现有主流方法具有几下不足:由于神经网络的本文档来自技高网...
基于金字塔池化编解码结构的图像语义分割方法

【技术保护点】
一种基于金字塔池化编解码结构的图像语义分割方法,其特征在于,包括:通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理,提取输入图像的高维特征信息,构成深层特征图;通过一个包含反向卷积神经网络模型的解码网络,将深层特征图恢复至与输入图像相同的分辨率;通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器,将解码网络输出的特征图进行分类,实现图像语义分割。

【技术特征摘要】
1.一种基于金字塔池化编解码结构的图像语义分割方法,其特征在于,包括:通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理,提取输入图像的高维特征信息,构成深层特征图;通过一个包含反向卷积神经网络模型的解码网络,将深层特征图恢复至与输入图像相同的分辨率;通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器,将解码网络输出的特征图进行分类,实现图像语义分割。2.根据权利要求1所述的一种基于金字塔池化编解码结构的图像语义分割方法,其特征在于,所述通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理,提取输入图像的高维特征信息,构成深层特征图包括:卷积神经网络模型包括卷积操作fcnn和最大池化操作fmp,操作过程表示为:X1=fcnn(I;θcnn),X1∈RM×N×D;X2=fmp(X1),X2∈RM×N×D;其中,I表示输入图像,Xi,i=1,2,表示相应操作后提取的特征图,θcnn表示数学计算过程中需要通过机器学习确定的参数,M和N表示特征图的空间分辨率,D表示特征图的通道数;通过金字塔池化模型对卷积神经网络模型输出的特征图,分别进行P个平行的池化操作,得到P组不同尺度的特征图;P组不同尺度的特征图代表了不同子区域的上下文信息;并使用卷积层对每一尺度的特征图进行调整,然后各自通过一个上采样过程恢复到池化之前的大小,再与卷积神经网络模型输出的特征图按通道叠加在一起得到一个包含不同区域特...

【专利技术属性】
技术研发人员:谭振涛刘斌俞能海
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1