The invention provides a lightweight and efficient neural network model, and designs a multi task scene semantic understanding model based on the model. The neural network consists of five stages: the stage of a mC.ReLU module with two stages; first using Max Pooling samples, using multiple Block B module; three stage multi Block B module and a plurality of Block D module; four stage multi Block A module and a plurality of Block C module; five stage multi Block A module. Multi task scene semantic understanding model includes neural network model, multi-level fusion network, multi task semantic network prediction, neural network model and multi-level fusion network for different task sharing as common feature extractor. The invention can be applied to the field of automatic driving scene perception, which can help to realize road obstacle detection, scene semantic segmentation and real-time multi task semantic prediction.
【技术实现步骤摘要】
基于新型神经网络的多任务场景语义理解模型及其应用
本专利技术涉及场景语义理解领域,特别是涉及基于新型神经网络的多任务场景语义理解模型及其在自动驾驶系统中的应用。
技术介绍
自动驾驶是三维场景理解的一个重要应用领域。三维场景理解技术应用在自动驾驶系统中,能够实现物体检测和场景语义分割等任务。基于神经网络的视觉识别模型已经在大量已有工作中被证明其具有优异的性能。然而,将神经网络应用于移动平台的视觉感知计算,目前仍然具有很大的挑战。一方面,由于神经网络计算复杂度较高,流行的VGG、GoogleNet、ResNet-50等网络难以在嵌入式设备上实现实时的计算;另一方面,不同计算机视觉任务的训练数据和输出往往不同,在通常的做法中,需要对不同的任务分别设计不同的模型,例如:对于物体检测任务,有FasterR-CNN、R-FCN、SSD等代表模型;对于语义分割任务,有FCN等常用的网络模型。然而,在实际的自动驾驶系统中,由于硬件计算资源有限,同时应用多个算法模型必定会带来过大的资源开销。因此,为了将三维场景理解方法应用于自动驾驶系统中,还需要进一步研究:如何设计能够满足移动平台的计算要求的、轻量且高效的网络模型,以及如何设计能够同时实现多个视觉感知任务的场景语义理解的算法模型。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于新型神经网络的多任务场景语义理解模型,用于解决现有技术中的上述问题。为实现上述目的及其他相关目的,本专利技术提供一种神经网络模型,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max-Pooli ...
【技术保护点】
一种神经网络模型,其特征在于,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max‑Pooling进行下采样,然后采用多个Block‑B模块,其中,每个所述Block‑B模块为采用对称卷积的mC.ReLU瓶颈结构;第三阶段采用多个Block‑B模块和多个Block‑D模块,其中,每个所述Block‑D模块为采用非对称卷积的mC.ReLU瓶颈结构;第四阶段采用多个Block‑A模块和多个Block‑C模块,其中,每个所述Block‑A模块为采用对称卷积的瓶颈结构,每个所述Block‑C模块为采用非对称卷积的瓶颈结构;第五阶段采用多个Block‑A模块。
【技术特征摘要】
1.一种神经网络模型,其特征在于,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max-Pooling进行下采样,然后采用多个Block-B模块,其中,每个所述Block-B模块为采用对称卷积的mC.ReLU瓶颈结构;第三阶段采用多个Block-B模块和多个Block-D模块,其中,每个所述Block-D模块为采用非对称卷积的mC.ReLU瓶颈结构;第四阶段采用多个Block-A模块和多个Block-C模块,其中,每个所述Block-A模块为采用对称卷积的瓶颈结构,每个所述Block-C模块为采用非对称卷积的瓶颈结构;第五阶段采用多个Block-A模块。2.根据权利要求1所述的神经网络模型,其特征在于,所述mC.ReLU模块的卷积核大小为7x7,步长为2,所述第一阶段输出特征图的分辨率减半,通道数为32。3.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-A模块为采用3x3卷积的瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用3x3群组卷积进行特征变换,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,3x3群组卷积的group值设为8。4.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-B模块为采用3x3卷积的mC.ReLU瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用3x3群组卷积进行特征变换并采用mC.ReLU模块提升效率,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,3x3群组卷积的group值设为4。5.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-C模块为采用1x5-5x1两次非对称群组卷积的瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用1x5-5x1两次非对称群组卷积进行特征变换,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,1x5-5x1两次非对称群组卷积的group值设为8。6.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-D模块为采用1x5-5x1两次非对称群组卷积的mC.ReLU瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用1x5-5x1两次非对称群组卷积进行特征变换并采用mC.ReLU模块提升效率,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,1x5-5x1两次非对称群组卷积的group值设为4。7.根据权利要求1所述的神经网络模型,其特征在于,所述神经网络模型在各下采样阶段采用Block-A/Block-B结构,并将3x3卷积的步长设为2。8.根据权利要求7所述的神经网络模型,其特征在于,根据扩张卷积算法,以逐渐递增的方式设置所述Block-A/Block-B结构中的3x3卷积的扩张系数值以增加某些层的感受野。9.一种多任务场景语义理解模型,其特征在于,包括:基础网络、...
【专利技术属性】
技术研发人员:马惠敏,陈晓智,郭寒冰,唐锐,王凡,
申请(专利权)人:清华大学,纵目科技上海股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。