用于语义分割的系统、方法和非暂时性计算机可读介质技术方案

技术编号:24331805 阅读:54 留言:0更新日期:2020-05-29 19:58
用于语义分割的系统、方法和非暂时性计算机可读介质。该系统包括计算设备。该计算设备具有处理器和存储计算机可执行代码的非易失性存储器。计算机可执行代码当在处理器处执行时被配置为:接收场景的图像;由编码器处理图像以形成编码器特征图;由金字塔池化模块(PPM)处理编码器特征图以形成PPM特征图;并且由解码器处理PPM特征图以形成分割特征图。

Systems, methods and non transient computer readable media for semantic segmentation

【技术实现步骤摘要】
用于语义分割的系统、方法和非暂时性计算机可读介质交叉引用在本专利技术的描述中引用并讨论了一些参考文献,这些参考文献可以包括专利、专利申请和各种出版物。之所以引用和/或讨论这些参考文献仅仅是为了阐明本专利技术的描述,而不是承认任何这样的参考文献是本文所述的专利技术的“现有技术”。所有在本说明书中引用并讨论的参考文献均通过引用的方式整体并入本文中,其程度与每个参考文献通过引用的方式单独地并入的程度相同。
本专利技术总体上涉及计算机视觉,并且更具体地涉及使用ThunderNet实现实时语义分割的系统和方法,其中ThunderNet包含经截取的编码器、金字塔池化模块(PPM)和定制的解码器。
技术介绍
本文提供的背景描述是为了在总体上呈现本专利技术的上下文。当前署名的专利技术人在此
技术介绍
部分中所描述的范围内的工作,以及在申请时可能无法以其他方式视为现有技术的说明书各方面,均未明确地或隐含地承认为本专利技术的现有技术。作为计算机视觉领域的一项基础性问题,图像语义分割的主要任务是对所有像素和属于每个像素的输出类别执行稠密预测。从长远来看,语义分割已经被视为是实现对图像的深入理解的一个关键性部分,主题包括但不限于:实例分割、场景解析以及人与物体的交互等[12、17、25]。在过去几年,随着卷积神经网络(CNN)以及与其相关的许多新兴技术的发展,深度学习法[1、3、14、16、18、28]已经在语义分割方面取得了丰硕的成果。但是,在使用CNN进行语义分割方面,最新的进展很大程度上是取决于那些深度及广义主干网,以及各种瓶颈和许多其他元架构的专用设计。采用那些复杂的设计会导致大量的与进行稠密预测的操作数量有关的冗余开销。在图6F中,我们展示了最新的方法在Cityscapes数据集[7]上的精度及其运行速度。由于增大了网络复杂性,过去几年内的大多数研究[1、3、4、14、16、18、28、30]都着重关注高质量预测的生成,因而不可避免地会极大地降低推理速度。为了克服这种速度问题,已经在文献中提出了许多研究成果,包括SQ[26]、ENet[19]、ICNet[29]和最近的ERFNet[21]。这些研究成果旨在提高推理速度,同时尝试维持同等的精度。然而,如图6F所示,这些方法中很少有方法能以令人满意的性能(即,Cityscapes上大约65%或以上的mIoU)来达到实时速度。在这种情况下,嵌入式系统(移动平台、NVIDIAJetsonTX1/TX2等)上的实时语义分割就成为了一项至关重要但却极具挑战性的任务。因此,本领域亟需解决上述缺陷和不足。
技术实现思路
在某些方面,本专利技术涉及一种用于语义分割的系统。在某些实施例中,该系统包括计算设备,并且该计算设备具有处理器和存储计算机可执行代码的非易失性存储器。当在处理器处执行时,计算机可执行代码配置为:接收场景的图像;由编码器处理图像以形成编码器特征图;由金字塔池化模块(PPM)处理编码器特征图以形成PPM特征图;并且由解码器处理PPM特征图以形成分割特征图。在某些实施例中,编码器包括ResNet18主干网,所述ResNet18主干网的第四块被截去。在某些实施例中,编码器顺序地由以下组成:具有两个单元的根、第一块、第二块和第三块。每个块具有第一重复单元、第二重复单元、第三重复单元和第四重复单元,对第一单元进行卷积并添加到第二单元的输出,对第三单元进行卷积并添加到第四单元的输出,并且根和块中的每个单元由3×3卷积层、批量归一化(BN)层和整流线性单元(ReLU)组成。在某些实施例中,根的两层、第一块、第二块和第三块的高度、宽度和通道尺寸分别为256×512×64、128×256×64、128×256×64、64×128×128和32×64×256。在某些实施例中,PPM包括:不同大小的金字塔池化特征;双线性上采样层;1×1卷积层;以及ReLU层。在某些实施例中,金字塔池化特征包括1×1×512特征、2×2×512特征、3×3×256特征和6×6×256特征。在某些实施例中,双线性上采样层具有32×64×1536的尺寸,并且1×1卷积层和ReLU层中的每一个具有32×64×256的尺寸。在某些实施例中,解码器顺序地包括:第一级反卷积上采样块、第二级反卷积上采样块和双线性上采样块。在某些实施例中,第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层;第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层;双线性上采样块包括双线性上采样层和第五卷积层;对第一卷积层进行卷积并添加到第二BN层,并对第三卷积层进行卷积并添加到第四BN层。在某些实施例中,第一反卷积层的尺寸为32×64×256;第一反卷积上采样层和第一BN层的尺寸为64×128×256;第二卷积层、第二BN层、第一ReLU层和第三卷积层的尺寸为64×128×128;第二反卷积上采样层和第三BN层的尺寸为128×256×128;第四卷积层、第四BN层和第二ReLU层的尺寸为128×256×64;双线性上采样层的尺寸为512×1024×64;并且第五卷积层的尺寸为512×1024×20。在某些实施例中,对第一卷积层进行卷积并添加到第二BN层,并对第三卷积层进行卷积并添加到第四BN层。在某些实施例中,计算机可执行代码还配置为基于分割图来控制场景中的操作设备。在某些实施例中,操作设备是自动驾驶车辆。在某些方面,本专利技术涉及一种用于语义分割的方法。在某些实施例中,该方法包括:由计算设备接收场景的图像;由计算设备处理图像以形成编码器特征图;由计算设备处理编码器特征图以形成金字塔池化模块(PPM)特征图;并且由计算设备处理PPM特征图以形成分割特征图。在某些实施例中,处理图像以形成编码器特征图的步骤由编码器执行,并且编码器包括ResNet18主干网,所述ResNet18主干网的第4块被截去。在某些实施例中,处理编码器特征图以形成PPM特征图的步骤由PPM执行,并且PPM包括:不同大小的金字塔池化特征;双线性上采样层;1×1卷积层;以及ReLU层。在某些实施例中,处理PPM特征图以形成分割特征图的步骤由解码器执行,并且解码器包括第一级反卷积上采样块、第二级反卷积上采样块和双线性上采样块。在某些实施例中,第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层;第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层;并且双线性上采样块包括双线性上采样层和第五卷积层。在某些实施例中,对第一卷积层进行卷积并添加到第二BN层,并对第三卷积层进行卷积并添加到第四BN层。在某些实施例中,该方法还包括:基于分割图来控制场景中的操作设备。在某些方面,本专利技术涉及一种存储计算机可执行代码的非暂时性计算机可读介质。当在计算设备的处理器处执行时,计算机可执行代码配置为执行上述方法。结合以下附图及本文档来自技高网
...

【技术保护点】
1.一种用于语义分割的系统,所述系统包括计算设备,所述计算设备包括处理器和存储计算机可执行代码的非易失性存储器,其中所述计算机可执行代码当在所述处理器处执行时被配置为:/n接收场景的图像;/n由编码器处理所述图像以形成编码器特征图;/n由金字塔池化模块PPM处理所述编码器特征图以形成PPM特征图;并且/n由解码器处理所述PPM特征图以形成分割特征图。/n

【技术特征摘要】
20190103 US 16/238,8181.一种用于语义分割的系统,所述系统包括计算设备,所述计算设备包括处理器和存储计算机可执行代码的非易失性存储器,其中所述计算机可执行代码当在所述处理器处执行时被配置为:
接收场景的图像;
由编码器处理所述图像以形成编码器特征图;
由金字塔池化模块PPM处理所述编码器特征图以形成PPM特征图;并且
由解码器处理所述PPM特征图以形成分割特征图。


2.根据权利要求1所述的系统,其中所述编码器包括ResNet18主干网,所述ResNet18主干网的第四块被截去。


3.根据权利要求2所述的系统,其中所述编码器顺序地由以下组成:
具有两个层的根、第一块、第二块和第三块,
其中所述块中的每一个具有第一重复单元、第二重复单元、第三重复单元和第四重复单元,所述第一重复单元被卷积并添加到所述第二重复单元的输出,所述第三重复单元被卷积并添加到所述第四重复单元的输出,并且所述根的所述两个层中的每一个和所述第一块、第二块和第三块中的每个重复单元由3×3卷积层、批量归一化BN层和整流线性单元ReLU组成。


4.根据权利要求3所述的系统,其中所述根的两层、所述第一块、所述第二块和所述第三块的高度、宽度和通道尺寸分别为256×512×64、128×256×64、128×256×64、64×128×128和32×64×256。


5.根据权利要求1所述的系统,其中所述PPM包括:
不同大小的金字塔池化特征;
双线性上采样层;
1×1卷积层;以及
ReLU层。


6.根据权利要求5所述的系统,其中所述金字塔池化特征包括1×1×512特征、2×2×512特征、3×3×256特征和6×6×256特征。


7.根据权利要求6所述的系统,其中所述双线性上采样层的尺寸为32×64×1536,并且所述1×1卷积层和所述ReLU层中的每一个的尺寸为32×64×256。


8.根据权利要求1所述的系统,其中所述解码器顺序地包括:
第一级反卷积上采样块;
第二级反卷积上采样块;以及
双线性上采样块。


9.根据权利要求8所述的系统,其中:
所述第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层;
所述第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层;
所述双线性上采样块包括双线性上采样层和第五卷积层;并且
所述第一卷积层被卷积并添加到所述第二BN层,并且所述第三卷积层被卷积并添加到所述第四BN层。


10.根据权利要求9所述的系统,其中:
所述第一反卷积层的尺寸为32×64×256;
所述第一反卷积上采样层和所述第一BN层的尺寸为64×128×256;
所述第二卷积层、所述第二BN层、所述第一ReLU层和所述第三卷积层的尺寸为64×128×128;

【专利技术属性】
技术研发人员:毛红达项伟
申请(专利权)人:北京京东尚科信息技术有限公司京东美国科技公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1