【技术实现步骤摘要】
基于改进全卷积神经网络的室内场景语义分割方法
本专利技术涉及一种深度学习的语义分割方法,尤其涉及一种基于改进全卷积神经网络的室内场景语义分割方法。
技术介绍
图像语义分割是计算机视觉的最具挑战性的任务之一,在如自动驾驶、医疗图像分析、虚拟现实、人机交互等应用中起着关键作用。语义分割的核心目的是为一张图片里面的每个像素点给出类别标签,判断该像素点属于哪一类,由于语义分割的数据集一般涉及室内场景或室外场景,分割物体众多,因此在本质上是属于多分类问题。图像语义分割从监督学习的角度可以分为全监督,半监督和无监督三种类型,但从可操作性和理论应用等方面来看,目前主流模型多采用全监督类型,少数采用半监督类型,因为更容易实现同时模型也更易训练。在模型应用方面,基于全卷积神经网络的出现和发展,应用全卷积神经网络在图像语义分割任务中已经实现了优越的性能和分割效果,但仍存在很多不足和缺陷,比如参数量大、存在大量冗余信息、特征表达提取不充分等。因此,基于全卷积神经网络的图像语义分割模型还有很大的提升空间,针对图像本身的特质、模型的结 ...
【技术保护点】
1.基于改进全卷积神经网络的室内场景语义分割方法,其特征在于,包括以下步骤:/n步骤1:选取Q对原始室内场景图像及对应的真实语义分割图像,将所有原始室内场景图像及其对应的真实语义分割图像构成训练集;每对原始室内场景图像包括原始室内场景彩色图像和原始室内场景深度图像,采用独热编码技术将训练集中的真实语义分割图像处理成41幅独热编码图像;/n步骤2:构建卷积神经网络分类训练模型:卷积神经网络分类训练模型包括输入层、隐层和输出层;输入层包括彩色图输入层和深度图输入层;隐层包括彩色图像处理模块和深度图像处理模块;彩色图像处理模块和深度图像处理模块的结构对称,均包括五个神经网络块、五 ...
【技术特征摘要】
1.基于改进全卷积神经网络的室内场景语义分割方法,其特征在于,包括以下步骤:
步骤1:选取Q对原始室内场景图像及对应的真实语义分割图像,将所有原始室内场景图像及其对应的真实语义分割图像构成训练集;每对原始室内场景图像包括原始室内场景彩色图像和原始室内场景深度图像,采用独热编码技术将训练集中的真实语义分割图像处理成41幅独热编码图像;
步骤2:构建卷积神经网络分类训练模型:卷积神经网络分类训练模型包括输入层、隐层和输出层;输入层包括彩色图输入层和深度图输入层;隐层包括彩色图像处理模块和深度图像处理模块;彩色图像处理模块和深度图像处理模块的结构对称,均包括五个神经网络块、五个特征再提取卷积块和十个融合层;隐层还包括五个分块注意力卷积块、四个上采样层和两个融合层;
步骤3:将训练集输入到步骤2的卷积神经网络分类训练模型中进行训练,训练过程中,每次迭代训练处理得到每对原始室内场景图像对应的41幅语义分割预测图像,计算41幅语义分割预测图像构成的集合与真实语义分割图像对应的41幅独热编码图像构成的集合之间的损失函数值;
步骤4:重复执行步骤3一共V次,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出最小的损失函数值,将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,从而完成卷积神经网络分类训练模型的训练;
步骤5:利用训练后获得的卷积神经网络分类训练模型对待预测的室内场景图像进行预测处理,输出获得对应的预测语义分割图像,实现室内场景图像语义分割。
2.根据权利要求1所述的一种基于改进全卷积神经网络的室内场景语义分割方法,其特征在于:所述步骤2)具体为:
彩色图输入层和深度图输入层分别输入彩色图像处理模块和深度图像处理模块中的第一个神经网络块;
彩色图像处理模块和深度图像处理模块的结构相同,具体为:
第一个神经网络块其中一个输出经第一个特征再提取卷积块输入第一个融合层,第一个神经网络块另一个输出输入第一个融合层;第二个神经网络块其中一个输出经第二个特征再提取卷积块输入第三个融合层,第二个神经网络块另一个输出输入第三个融合层;第三个神经网络块其中一个输出经第三个特征再提取卷积块输入第五个融合层,第三个神经网络块另一个输出输入第五个融合层;第四个神经网络块其中一个输出经第四个特征再提取卷积块输入第七个融合层,第四个神经网络块另一个输出输入第七个融合层;第五个神经网络块其中一个输出经第五个特征再提取卷积块输入第九个融合层,第五个神经网络块另一个输出输入第九个融合层;每个融合层的两个输入均通过逐元素相加的方式相融合;
第一个融合层的输出分别输入第一个分块注意力卷积块和对应的第二融合层,第三个融合层的输出分别输入第二个分块注意力卷积块和对应的第四融合层,第五个融合层的输出分别输入第三个分块注意力卷积块和对应的第六融合层,第七个融合层的输出分别输入第四个分块注意力卷积块和对应的第八融合层,第九个融合层的输出分别输入第五个分块注意力卷积块和对应的第十融合层;
第一个分块注意力卷积块的两个输出分别输入彩色图像处理模块和深度图像处理模块的第二个融合层,第二个分块注意力卷积块的两个输出分别输入彩色图像处理模块和深度图像处理模块的第四个融合层,第三个分块注意力卷积块的两个输出分别输入彩色图像处理模块和深度图像处理模块的第六个融合层,第四个分块注意力卷积块的两个输出分别输入彩色图像处理模块和深度图像处理模块的第八个融合层,第五个分块注意力卷积块的两个输出分别输入彩色图像处理模块和深度图像处理模块的第十个融合层;
第二个融合层的两个输入通过逐元素相加的方式相融合后分别输入第十一个融合层和对应的第二个神经网络块,第四个融合层的两个输入通过逐元素相加的方式相融合后分别输入第一个上采样层和对应的第三个神经网络块,第六个融合层的两个输入通过逐元素相加的方式相融合后分别输入第二个上采样层和对应的第四个神经网络块,第八个融合层的两个输入通过逐元素相加的方式相融合后分别输入第三个上采样层和对应的第五个神经网络块;第十个融合层的输出输入第四个上采样层;
第十一个融合层、第一个上采样层、第二个上采样层、第三个上采样层和第四个上采样层的两个输入通过逐元素相加的方式融合后均输入第十二个融合层;
第十二个融合层将所有输入采用concatenate方式连接后经输出层输出,输出层主要由依次连接的卷积层和第五个上采样层组成。
3.根据权利要求1所述的一种基于改进全卷积神经网络的室内场景语义分割方法,其特征在于:所述的五个神经网络块采用MobileNetV2网络结构,第一个神经网络块采用MobileNetV2中的1~4层,第二个神经网络块采用MobileNetV2中的5~7层,第三个神经网络块采用MobileNetV2中的8~11层,第四个神经网络块采用MobileNetV2中的12~14层,第五个神经网络块采用Mobil...
【专利技术属性】
技术研发人员:周武杰,岳雨纯,雷景生,强芳芳,周扬,邱薇薇,何成,王海江,马骁,郭翔,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。