用于图像分割的方法和装置制造方法及图纸

技术编号:38207473 阅读:14 留言:0更新日期:2023-07-21 16:56
概括地说,本技术一般涉及一种用于训练机器学习ML模型以执行语义图像分割的方法,并且涉及一种使用经过训练的机器学习ML模型来执行语义图像分割的计算机实现的方法和装置。所述训练方法使得语义图像分割ML模型能够更快地进行预测,而不会明显损失精度。所述训练方法还使得所述ML模型能够在具有不同硬件规格,例如,不同的计算能力和内存的装置上实现。不同的计算能力和内存的装置上实现。不同的计算能力和内存的装置上实现。

【技术实现步骤摘要】
【国外来华专利技术】用于图像分割的方法和装置


[0001]本申请一般涉及一种用于生成机器学习ML模型以执行语义图像分割的方法,并且涉及一种使用经过训练的机器学习ML模型来执行语义图像分割的计算机实现的方法。

技术介绍

[0002]语义分割构成了一项核心的机器视觉任务,由于深度学习的出现,这项任务已经取得了明显的进步。语义图像分割网络通过预测任意分辨率图像的密集(每个像素)语义标签来处理最细粒度的视觉场景理解任务。这些密集语义预测可促进与移动增强现实/虚拟现实(AR/VR)应用、自主机器人、导航、语义映射、远程呈现代理、高效视频通信等相关的各种应用。在部署此类实时系统时,服务质量和安全至关重要,这些系统通常运行在资源受限的平台上,诸如智能手机、消费类机器人设备和自主车辆。因此,高效和准确的分割是一个需要解决的核心问题。

技术实现思路

[0003]【技术问题】
[0004]目前的语义分割技术通常包括计算密集型和存储密集型深度学习模型,当部署在消费类设备(诸如智能手机)上时,这些模型经常无法满足应用对延迟的实时要求。特别地,分割输出的每像素性质要求在整个基础神经网络中保留高分辨率的特征图(以避免消除空间信息),同时还要在输出上保持大的感受域(以结合上下文并实现健壮的语义预测)。因此,得到的网络架构通常由许多层组成,并且经常用增加速率的扩张卷积来代替特征容量的下采样,导致网络更深处的工作负载显著集中,这反过来又导致延迟密集型推理。在中低层设备的情况下,情况会进一步恶化,因为中低层设备的处理能力和内存往往比顶层设备少。因此,减少推理延迟是可取的。减少推理延迟还可以通过流畅和无缝的交互来改善用户体验,通过为在设备的共享资源上运行的其他任务腾出空间来改善功能,并且在语义分割预测有助于实时关键任务决策时提高安全性(例如,在自主车辆中)。然而,目前减少推理延迟的方法包括有效的手工模型设计和自适应计算模型。对于较粗糙的图像分类任务,这一挑战通过级联系统和早期出口架构得到有效解决。然而,语义分割网络在采用此类方法时表现出独特的挑战。
[0005]【问题解决方案】
[0006]本申请人已经认识到,需要一种改进的语义图像分割网络或ML模型,其能够更快地进行预测,而不会明显损失精度。
[0007]语义分割是许多视觉系统的支柱,从无人驾驶汽车和机器人导航到增强现实和远程会议。在有限的资源范围内,经常在严格的延迟约束下运行,因此优化高效执行变得很重要。为此,本技术提供了一种框架,其用于将现有技术的分割模型转换成MESS网络,即专门训练的卷积神经网络(CNN),该网络沿其深度采用参数化的早期出口,以在对更简单的样本进行推理的过程中节省计算。简单地设计和训练此类网络会损害性能。因此,本技术提供了
两阶段的训练过程,其在网络中早期推送语义上重要的特征。附接的分割头的数量、位置和架构与出口策略共同优化,以适应设备能力和应用特定的要求。通过对速度进行优化,MESS网络可实现比最先进的方法高出2.83倍的延迟增益,而没有降低精度。因此,在相同的计算预算下,通过优化精度,本技术实现了高达5.33个百分点的改进。
[0008]在本技术的第一方法中,提供了一种用于生成用于语义图像分割的机器学习ML模型的计算机实现的方法,该方法包括:在主干网络中提供具有多个早期出口的ML模型的主干特征提取网络,以生成包括多个候选早期出口分割网络架构的过度供应网络,其中每个早期出口包括定制的网络架构;获得包括多个图像的训练数据集;以及通过以下步骤训练ML模型的主干网络、最终出口和早期出口,以输出输入到主干网络中的多个图像的特征图:在第一训练阶段期间,端到端地训练最终出口和主干网络以及早期出口;以及在端到端训练完成之后,冻结主干网络和最终出口的权重,并且在第二训练阶段期间,使用最终出口作为其余早期出口的老师来单独训练早期出口。
[0009]优选地,每个早期出口包括“分割头”。分割头具有神经网络架构,其可以是例如基于完全卷积网络的头(FCN头),或者基于DeepLabV3的头(DLB头)。因此,每个分割头包括用于提供图像分割预测的神经网络。每个早期出口/分割头包括定制的网络架构。也即,候选早期出口架构中的每个早期出口可以具有相同的网络架构,或者可以不同,或者可以具有从可能的网络架构集合中选择的网络架构。这意味着早期出口网络架构在特定的候选早期出口分割网络架构上不一定是一致的。这是有利的,因为浅出口(shallow exit)受益于具有许多轻量层的网络架构,而深出口有利于信道丰富的网络架构,并因此允许非统一的早期出口网络架构能够为不同的设备、不同的推理设置和不同的用户推理要求定制ML模型。
[0010]换句话说,本技术提供了一种用于训练具有多出口语义分割网络(或渐进分割网络)形式的ML模型的方法。该网络包括许多早期出口点(即分割头),这些点附接到主干卷积神经网络(CNN)架构的不同深度。这提供了具有不同工作负载(和精度)特征的分割预测,为高效语义分割引入了“一次训练、随处部署”的方法。有利地,这意味着网络可被参数化,而不需要重新训练,以便部署在不同能力(从低端到高端)的异构目标设备上。
[0011]这是通过以下两个过程实现的。首先,本技术包括为多出口语义分割网络定制的两阶段训练方案。在第一阶段,引入新颖的正则化端到端训练算法,其中网络的主干架构和所有出口点(即最终出口点和任何早期出口点)被一起训练,并且其中早期出口在每个训练历时中以轮流的方式被顺序丢弃。(也就是说,通过在每个训练历时期间顺序地丢弃早期出口来训练主干和单个早期出口。对主干和单个早期出口的每个组合重复该过程)。第一阶段以出口感知的方式完全训练主干网络和最终出口的权重,同时初始化早期出口的权重,以在下一阶段进行微调。在第二阶段,冻结主干和最终出口(即,不更新主干的权重和最终出口的权重),并且独立地训练早期出口。这一阶段采用了一种新颖的知识蒸馏方法,该方法量化了对每个像素进行分类的难度(考虑最终出口预测的正确性),并且仅使用由最终出口正确分类的样本进行蒸馏。这种两阶段方案能够在浅出口和最终出口都达到高精度。
[0012]第一训练阶段可以包括:迭代地训练主干网络和早期出口,其中在每次迭代期间,训练包括:从待更新的多个早期出口中选择一个早期出口;剔除早期出口的其余部分的早期出口;以及训练主干网络和所选择的早期出口,并更新主干网络和所选择的早期出口的权重。
[0013]优选地,对于每个选择的早期出口,在训练选择的早期出口的每次迭代期间,顺序地丢弃早期出口的其余部分。
[0014]第二训练阶段可以包括:使用由最终出口对图像进行的分割预测,基于对每个像素的预测是否正确来确定图像中每个像素的难度;并且仅使用其中预测正确的像素来训练早期出口。也就是说,本技术提供了正过滤蒸馏技术,其仅使用来自最终出口正确的样本的信号来选择性地控制信息向较早出口的流动。所提出的蒸馏方案评估输入样本中每个像素相对于教师预测(即最终输出)的正确性的难度。随后,馈送到早期出口的较强(较高熵)的真实值参考信号被过滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成用于语义图像分割的机器学习ML模型的计算机实现的方法,所述方法包括:在主干网络中提供具有多个早期出口的所述ML模型的主干特征提取网络,以生成包括多个候选早期出口分割网络架构的过度供应网络,其中每个早期出口包括定制的网络架构;获得包括多个图像的训练数据集;以及通过以下步骤训练所述ML模型的所述主干网络、最终出口和所述早期出口,以输出输入到所述主干网络中的所述多个图像的特征图:在第一训练阶段,端到端地训练所述主干网络、所述最终出口和所述早期出口;以及在所述端到端训练完成之后,冻结所述主干网络和所述最终出口的权重,并且在第二训练阶段期间,使用所述最终出口作为所述早期出口的老师来单独训练所述早期出口。2.如权利要求1所述的方法,其中所述第一训练阶段包括迭代地训练所述主干网络和早期出口,其中在每次迭代期间,所述训练包括:选择要更新的所述多个早期出口中的一个早期出口;丢弃所述早期出口中的剩余部分的早期出口;以及训练所述主干网络和所选择的早期出口,并更新所述主干网络和选择的早期出口的权重。3.如权利要求2所述的方法,其中对于每个选择的早期出口,在训练所选择的早期出口的每次迭代期间,顺序地丢弃所述早期出口的剩余部分。4.如前述权利要求中任一项所述的方法,其中所述第二训练阶段包括:使用由所述最终出口对图像进行的分割预测,基于对每个像素的所述预测是否正确来确定所述图像中每个像素的难度;以及仅使用其中所述预测正确的所述像素来训练所述早期出口。5.如前述权利要求中任一项所述的方法,还包括执行架构配置搜索,以从所述多个候选早期出口分隔网络架构中识别适合特定应用的架构。6.如权利要求5所述的方法,还包括:接收硬件约束和/或推理性能要求;接收将用于在推理时处理输入图像的特定设备或设备类别的推理设置;以及使用所接收的硬件约束和/或推理性能要求以及所接收的推理设置来执行所述架构配置搜索。7.如权利要求6所述的方法,其中所接收的推理设置是预算推理设置,并且其中所述架构配置搜索输出包括主干特征提取网络和单个早期出口的架构。8.如权利要求6所述的方法,其中所接收的推理设置是随时推理设置,并且其中所述架构配置搜索输出包括主干特征提取网络和多个早期出口的架构。9.如权利要求6所述的方法,其中...

【专利技术属性】
技术研发人员:A
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1