The present invention discloses a visual depth estimation method based on depth separable convolution neural network. First, a depth separable convolution neural network is constructed. Its hidden layer includes convolution layer, batch normalization layer, activation layer, maximum pooling layer, conv_block network block, depth separable convolution network block, Concatanate fusion layer, Add fusion layer, deconvolution layer and separable convolution layer. The monocular image in the training set is used as the original input image, which is input into the depth-separable convolution neural network for training, and the estimated depth image corresponding to the monocular image is obtained. Then, by calculating the loss function between the estimated depth image corresponding to the monocular image in the training set and the corresponding real depth image, the training model and the optimal weight of the depth-separable convolution neural network are obtained. Then, the monocular image to be predicted is input into the training model of the depth separable convolution neural network, and the corresponding predicted depth image is obtained by using the optimal weight vector. The advantage is that the prediction accuracy is high.
【技术实现步骤摘要】
一种基于深度可分卷积神经网络的视觉深度估计方法
本专利技术涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度可分卷积神经网络的视觉深度估计方法。
技术介绍
在如今飞速发展时代的大环境下,伴随着社会的物质生活水平的不断提升。人工智能技术应用于人们的日常生活中的方面越来越多。计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,作为计算机视觉任务之一的单目视觉深度估计,在汽车辅助驾驶技术中显得越发重要。汽车是现今人们出行必不可少的交通工具之一,其发展一直备受社会的重视。特别是伴随着人工智能技术的越来越成熟,无人驾驶这一具有代表性的人工智能技术也成为了近几年热门话题之一。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全,是无人驾驶
重要的一环。在深度学习提出之前,单目视觉深度估计一直是使用传统方法来提取手工特征预测深度结果的。由于限制于数据集的大小和手工特征的精度,传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习被提出后,其在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言,深度学习给予了很 ...
【技术保护点】
1.一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Q
【技术特征摘要】
1.一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为高度为Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为高度为第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为高度为第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成...
【专利技术属性】
技术研发人员:周武杰,袁建中,吕思嘉,钱亚冠,向坚,张宇来,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。