当前位置: 首页 > 专利查询>清华大学专利>正文

基于新型神经网络的多任务场景语义理解模型及其应用制造技术

技术编号:17304855 阅读:45 留言:0更新日期:2018-02-18 23:18
本发明专利技术提供了轻量、高效的神经网络模型,并基于该模型设计了多任务场景语义理解模型。神经网络包括五个阶段:阶段一采用mC.ReLU模块;阶段二先采用Max‑Pooling进行下采样,后采用多个Block‑B模块;阶段三采用多个Block‑B模块和多个Block‑D模块;阶段四采用多个Block‑A模块和多个Block‑C模块;阶段五采用多个Block‑A模块。多任务场景语义理解模型包括:神经网络模型、多级融合网络、多任务语义预测网络,神经网络模型和多级融合网络对不同的任务共享以作为共有的特征提取器。本发明专利技术可应用于自动驾驶场景感知领域,有助于实现道路障碍物检测、场景语义分割、实时多任务语义预测。

Multi task scene semantic understanding model based on new neural network and its application

The invention provides a lightweight and efficient neural network model, and designs a multi task scene semantic understanding model based on the model. The neural network consists of five stages: the stage of a mC.ReLU module with two stages; first using Max Pooling samples, using multiple Block B module; three stage multi Block B module and a plurality of Block D module; four stage multi Block A module and a plurality of Block C module; five stage multi Block A module. Multi task scene semantic understanding model includes neural network model, multi-level fusion network, multi task semantic network prediction, neural network model and multi-level fusion network for different task sharing as common feature extractor. The invention can be applied to the field of automatic driving scene perception, which can help to realize road obstacle detection, scene semantic segmentation and real-time multi task semantic prediction.

【技术实现步骤摘要】
基于新型神经网络的多任务场景语义理解模型及其应用
本专利技术涉及场景语义理解领域,特别是涉及基于新型神经网络的多任务场景语义理解模型及其在自动驾驶系统中的应用。
技术介绍
自动驾驶是三维场景理解的一个重要应用领域。三维场景理解技术应用在自动驾驶系统中,能够实现物体检测和场景语义分割等任务。基于神经网络的视觉识别模型已经在大量已有工作中被证明其具有优异的性能。然而,将神经网络应用于移动平台的视觉感知计算,目前仍然具有很大的挑战。一方面,由于神经网络计算复杂度较高,流行的VGG、GoogleNet、ResNet-50等网络难以在嵌入式设备上实现实时的计算;另一方面,不同计算机视觉任务的训练数据和输出往往不同,在通常的做法中,需要对不同的任务分别设计不同的模型,例如:对于物体检测任务,有FasterR-CNN、R-FCN、SSD等代表模型;对于语义分割任务,有FCN等常用的网络模型。然而,在实际的自动驾驶系统中,由于硬件计算资源有限,同时应用多个算法模型必定会带来过大的资源开销。因此,为了将三维场景理解方法应用于自动驾驶系统中,还需要进一步研究:如何设计能够满足移动平台的计算要求的、轻量且高效的网络模型,以及如何设计能够同时实现多个视觉感知任务的场景语义理解的算法模型。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于新型神经网络的多任务场景语义理解模型,用于解决现有技术中的上述问题。为实现上述目的及其他相关目的,本专利技术提供一种神经网络模型,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max-Pooling进行第二次下采样,然后采用多个Block-B模块,其中,每个所述Block-B模块为采用对称卷积的mC.ReLU瓶颈结构;第三阶段采用多个Block-B模块和多个Block-D模块,其中,每个所述Block-D模块为采用非对称卷积的mC.ReLU瓶颈结构;第四阶段采用多个Block-A模块和多个Block-C模块,其中,每个所述Block-A模块为采用对称卷积的瓶颈结构,每个所述Block-C模块为采用非对称卷积的瓶颈结构;第五阶段采用多个Block-A模块。为实现上述目的及其他相关目的,本专利技术提供一种多任务场景语义理解模型,包括:基础网络、多级融合网络、及多任务语义预测网络,其中,所述基础网络和所述多级融合网络对不同的任务共享,以作为共有的特征提取器;所述基础网络为如上所述的神经网络模型;所述多级融合网络连接所述基础网络,用于将所述基础网络不同阶段输出的不同分辨率的特征进行融合;所述多任务语义预测网络连接所述多级融合网络,包括:似物性预测子网络RPN、物体检测子网络、及语义分割子网络。为实现上述目的及其他相关目的,本专利技术提供一种自动驾驶场景感知的方法,包括:利用如上所述的多任务场景语义理解模型实现道路障碍物检测、场景语义分割、及实时多任务语义预测。如上所述,为了实现高效的、统一的实时视觉数据处理,本专利技术从结构设计和特征变换的角度总结了神经网络设计的若干要素,由此设计出一种轻量级的、高效的基础网络FastNet。该FastNet网络在ImageNet图像分类中以最小的计算量达到了和GoogleNet、PVANet相近的准确率。除此之外,本专利技术基于该FastNet网络设计了一种多任务场景语义理解模型。该多任务统一网络模型除了FastNet基础网络,还包括多级融合网络和多任务语义预测网络,能够同时实现似物性区域提取、物体检测和场景语义分割,在Cityscapes数据集上512x1024的图像上达到了实时的处理速度。附图说明图1a~1e显示为本专利技术一实施例中的神经网络模型结构示意图。图2显示为本专利技术一实施例中的多任务场景语义理解模型的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。为了提高模型的计算效率,本专利技术对基础网络结构的设计进行了深入研究,从结构设计和特征变换两大方面提出了高效模型设计的若干关键要素,并基于这些关键要素设计了一种轻量级的、高效的神经网络结构:FastNet。该网络特征提取部分只含1.75M参数,对512x1024的输入图像只需要3.8GMAC(multiply-accumulations)的计算量。基于FastNet网络,本专利技术还提出了一种多任务统一网络模型,通过共享基础网络和多级融合网络的通用特征,以轻量级的多路高层分支实现丰富的语义预测。本专利技术将该模型应用于自动驾驶场景的感知,实现了实时的联合物体检测与场景语义分割。通过在ImageNet数据集和Cityscapes数据集上的实验表明了该模型的有效性:(1)FastNet在ImageNet2012数据集上取得了和GoogleNet、PVANet相当的准确率,而计算复杂度只有它们的25%和62%;(2)基于FastNet的检测模型在Cityscapes数据集上比之前最高效的PVANet模型提升了约8%的准确率,且运算时间更快(33FPSvs20FPS),参数量更小(4.5Mvs19M);(3)在输入512x1024图像的条件下,基于FastNet的多任务统一网络模型以33ms的处理时间同时实现了物体检测与场景语义分割。以下将分别对本专利技术的FastNet网络和多任务场景语义理解模型做详细说明:1、FastNet网络模型不同于现有的神经网络加速方式,本专利技术着重于网络模型本身的设计,旨在通过提升网络本身的结构表达能力和特征提取能力来提高网络的效率。从而,本专利技术提出了设计高效神经网络的若干要素,包括:使用残差连接、瓶颈结构、增加信息传输路径、采用多尺度特征融合等的高效结构设计,以及使用对称激活函数、非对称卷积、扩张卷积等操作的高效特征变换。基于这些要素提出了计算复杂度低、参数量少的基础网络结构,并在ImageNet图像分类上和已有网络的性能进行对比。实验证明,本专利技术的FastNet网络模型无论在运算速度方面,还是运算准确率等方面均表现出优良的优越性。1.1设计FastNet网络模型的若干要素从结构设计的角度,我们认为最核心的设计原则就是增加网络层间的信息流动、减小监督信号回传的阻碍。基于此原则,本专利技术采用以下几点要素来提高网络的表达能力:·残差连接残差连接(HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition.ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2016.770–778.)通过增本文档来自技高网...
基于新型神经网络的多任务场景语义理解模型及其应用

【技术保护点】
一种神经网络模型,其特征在于,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max‑Pooling进行下采样,然后采用多个Block‑B模块,其中,每个所述Block‑B模块为采用对称卷积的mC.ReLU瓶颈结构;第三阶段采用多个Block‑B模块和多个Block‑D模块,其中,每个所述Block‑D模块为采用非对称卷积的mC.ReLU瓶颈结构;第四阶段采用多个Block‑A模块和多个Block‑C模块,其中,每个所述Block‑A模块为采用对称卷积的瓶颈结构,每个所述Block‑C模块为采用非对称卷积的瓶颈结构;第五阶段采用多个Block‑A模块。

【技术特征摘要】
1.一种神经网络模型,其特征在于,所述神经网络模型包括五个阶段:第一阶段采用mC.ReLU模块;第二阶段首先采用Max-Pooling进行下采样,然后采用多个Block-B模块,其中,每个所述Block-B模块为采用对称卷积的mC.ReLU瓶颈结构;第三阶段采用多个Block-B模块和多个Block-D模块,其中,每个所述Block-D模块为采用非对称卷积的mC.ReLU瓶颈结构;第四阶段采用多个Block-A模块和多个Block-C模块,其中,每个所述Block-A模块为采用对称卷积的瓶颈结构,每个所述Block-C模块为采用非对称卷积的瓶颈结构;第五阶段采用多个Block-A模块。2.根据权利要求1所述的神经网络模型,其特征在于,所述mC.ReLU模块的卷积核大小为7x7,步长为2,所述第一阶段输出特征图的分辨率减半,通道数为32。3.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-A模块为采用3x3卷积的瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用3x3群组卷积进行特征变换,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,3x3群组卷积的group值设为8。4.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-B模块为采用3x3卷积的mC.ReLU瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用3x3群组卷积进行特征变换并采用mC.ReLU模块提升效率,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,3x3群组卷积的group值设为4。5.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-C模块为采用1x5-5x1两次非对称群组卷积的瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用1x5-5x1两次非对称群组卷积进行特征变换,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,1x5-5x1两次非对称群组卷积的group值设为8。6.根据权利要求1所述的神经网络模型,其特征在于,每个所述Block-D模块为采用1x5-5x1两次非对称群组卷积的mC.ReLU瓶颈结构,其包含三层卷积变换:第一层使用1x1卷积将特征通道数减小,第二层采用1x5-5x1两次非对称群组卷积进行特征变换并采用mC.ReLU模块提升效率,第三层通过1x1卷积增加输出的通道数,其中,第一层和第二层的通道数设为输出通道数的一半,1x5-5x1两次非对称群组卷积的group值设为4。7.根据权利要求1所述的神经网络模型,其特征在于,所述神经网络模型在各下采样阶段采用Block-A/Block-B结构,并将3x3卷积的步长设为2。8.根据权利要求7所述的神经网络模型,其特征在于,根据扩张卷积算法,以逐渐递增的方式设置所述Block-A/Block-B结构中的3x3卷积的扩张系数值以增加某些层的感受野。9.一种多任务场景语义理解模型,其特征在于,包括:基础网络、...

【专利技术属性】
技术研发人员:马惠敏陈晓智郭寒冰唐锐王凡
申请(专利权)人:清华大学纵目科技上海股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1