用于密集图像预测任务的神经架构搜索制造技术

技术编号:26045249 阅读:62 留言:0更新日期:2020-10-23 21:25
用于确定神经网络架构的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。其中一种方法包括获得用于密集图像预测任务的训练数据;以及确定被配置为执行密集图像预测任务的神经网络的架构,包括:使用训练数据搜索候选架构的空间以识别一个或多个性能最佳的架构,其中,候选架构的空间中的每个候选架构包括:(i)相同的第一神经网络主干,该第一神经网络主干被配置为接收输入图像并处理该输入图像以生成多个特征图,以及(ii)不同的密集预测单元,该密集预测单元被配置为处理多个特征图并生成用于密集图像预测任务的输出;以及基于性能最佳的候选架构来确定神经网络的架构。

【技术实现步骤摘要】
【国外来华专利技术】用于密集图像预测任务的神经架构搜索
技术介绍
本说明书涉及确定执行图像处理任务的神经网络的架构。神经网络是机器学习模型,其使用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一个层(即,下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。
技术实现思路
本说明书描述一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统确定神经网络的架构,该神经网络被配置为执行密集图像预测任务。通常,密集图像预测任务是需要对输入图像中的大量像素中的每个像素进行相应预测的任务。许多密集图像预测任务需要指配标签或以其他方式对图像的每个像素进行预测。因此,密集图像预测任务通常需要神经网络以对高分辨率图像进行操作。为了确定架构,系统获取用于密集图像预测任务的训练数据。然后,系统使用训练数据确定神经网络的架构,该神经网络被配置为执行密集图像预测任务,即,接收输入并生成符合密集预测任务要求的输出。具体地,该系统使用训练数据搜索候选架构的空间以识别一个或多个性能最佳的架构。候选架构的空间中的每个候选架构包括(i)相同的第一神经网络主干,该第一神经网络主干被配置为接收输入图像并处理该输入图像以生成多个特征图,以及(ii)不同的密集预测单元,该密集预测单元被配置为处理多个特征图并生成用于密集图像预测任务的输出。因此,每个候选架构包括与每个其他候选架构相同的神经网络主干,但是具有与每个其他候选架构不同的密集预测单元。然后,系统基于性能最佳的候选架构来确定神经网络的架构。可以实施本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多个。本说明书中描述的架构搜索技术可以以计算高效的方式确定用于密集预测任务的高性能架构。具体地,由于密集预测任务需要生成针对输入图像中大量像素的预测,因此此类任务需要网络以对高分辨率图像进行操作。这使得现有的架构搜索技术(例如,适合于图像分类或其他非密集图像处理任务的技术)不适合用于这些任务。这是因为这些任务中的许多依赖于不代表最终的密集图像预测任务的低分辨率代理任务,或者需要搜索的搜索空间太大,以至于对高分辨率图像进行操作时,这种搜索在计算上是不可行的。另一方面,所描述的技术有效地限制了搜索空间以识别用于密集预测单元的最佳架构,从而得到在多个密集图像预测任务中具有超过先前技术水平的性能的架构。此外,通过使用所描述的技术,所得到的架构可以比先前技术水平的模型具有更高的计算效率,同时又可以超越其性能。作为所描述技术可以实现的各种结果的示例,所得的架构可以在数个密集预测任务上实现最先进技术水平的性能,包括在Cityscapes数据集(街道场景解析)上实现82.7%的mIOU精度,在PASCAL-人物部分数据集(人物部分分割)上实现71.3%的mIOU精度,以及在PASCALVOC2012数据集(语义图像分割)上实现87.9%的mIOU精度。同时,所得的架构在计算上更加高效,针对这些数据集,需要先前技术水平的系统的大约一半的参数和一半的计算成本。另外,通过在搜索过程中使用比将被包括在最终架构中的更小的主干,可以减少搜索过程所消耗的资源量。另外,通过例如在对象分割任务上对主干进行预训练,然后在搜索期间将主干保持固定,可以减少搜索过程所消耗的资源量。另外,通过预计算然后缓存由预训练的主干生成的特征图,可以减少搜索所消耗的资源量。作为特定示例,当主干更小且由预先训练的主干生成的特征图已被预先计算并缓存时,与依靠不预先缓存输入且不减小主干大小的训练候选神经网络的技术相比,该系统可以以更少的时延和更高的数据效率(即,使用更少的存储器)执行搜索。本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求中,本主题的其他特征、方面和优点将变得显而易见。附图说明图1示出示例神经架构搜索系统。图2示出示例候选架构。图3是用于确定最终架构的示例过程的流程图。图4是用于搜索候选架构的空间的示例过程的流程图。在各个附图中,相似的参考数字和名称指示相似的元素。具体实施方式本说明书描述了一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统确定神经网络的架构,该神经网络被配置为执行密集图像预测任务。通常,密集图像预测任务是需要对输入图像中的大量像素中的每个像素进行相应预测的任务。许多密集图像预测任务需要指配标签或以其他方式对图像的每个像素进行预测。因此,密集图像预测任务通常需要神经网络对高分辨率图像进行操作。密集图像预测任务的一个示例是图像分割任务。在分割任务中,输入是图像,而输出是图像中每个像素的相应标签,其用于对图像中该像素处描述的内容进行分类。图像分割任务的一个示例是人物部分分割任务,其中输入是一个或多个人物的图像,而输出是图像中每个像素的相应标签,其使得标签分类哪些像素对应于哪些人物部分(例如,头、躯干、腿等)以及哪些对应于背景(即,未描绘任何人)。图像分割任务的另一个示例是语义图像分割任务。在语义图像分割任务中,输入是图像,而输出是图像中每个像素的相应标签,其例如从多个前景对象类别和一个或多个背景对象类别的集合中识别该像素属于哪个对象类别。图像分割任务的另一个示例是场景解析任务。在场景解析任务中,输入是图像,而输出是图像中每个像素的相应标签,其识别该像素属于图像中所描绘场景的哪个部分。密集图像预测任务的另一个示例是对象检测任务。在对象检测任务中,输入是图像,输出是数据,该数据指定图像的哪些像素是对象的图像的部分。例如,输出可以是图像中每个像素的标签,其识别该像素是否是对象的图像的一部分。作为另一个示例,输出可以是图像中大量边界框中的每一个的分数,该分数指示边界框是否是对象的图像的一部分。图1示出示例神经架构搜索系统100。神经架构搜索系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,在该系统中可以实现以下描述的系统、组件和技术。神经架构搜索系统100是这样的系统,该系统获得用于训练神经网络以执行密集图像预测任务的训练数据102和用于评估神经网络在密集图像预测任务上的性能的验证集104,并使用训练数据102和验证集104以确定神经网络的架构,该神经网络配置为执行密集图像预测任务,即,接收输入并生成符合密集预测任务要求的输出。该架构定义神经网络的层数、每个层执行的操作以及神经网络中各层之间的连接,即,哪些层从神经网络中的其他层接收输入。通常,训练数据102和验证集104都包括一组神经网络输入,并且对于每个网络输入,包括应由神经网络生成以执行密集图像预测任务的相应目标输出。例如,较大的训练数据集可能已被随机分割以生成训练数据102和验证集104。在密集图像预测任务设置中,每个神经网络输入是图像,而针对神经网络输入的神经网络输出识别应被指配给神经网本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n获得用于密集图像预测任务的训练数据;以及/n确定被配置为执行所述密集图像预测任务的神经网络的架构,包括:/n使用所述训练数据搜索候选架构的空间以识别一个或多个性能最佳的架构,其中所述候选架构的空间中的每个候选架构包括:(i)相同的第一神经网络主干,所述第一神经网络主干被配置为接收输入图像并处理所述输入图像以生成多个特征图,以及(ii)不同的密集预测单元,所述密集预测单元被配置为处理所述多个特征图并生成用于所述密集图像预测任务的输出;以及/n基于所述性能最佳的候选架构来确定所述神经网络的所述架构。/n

【技术特征摘要】
【国外来华专利技术】20180529 GR 201801002321.一种方法,包括:
获得用于密集图像预测任务的训练数据;以及
确定被配置为执行所述密集图像预测任务的神经网络的架构,包括:
使用所述训练数据搜索候选架构的空间以识别一个或多个性能最佳的架构,其中所述候选架构的空间中的每个候选架构包括:(i)相同的第一神经网络主干,所述第一神经网络主干被配置为接收输入图像并处理所述输入图像以生成多个特征图,以及(ii)不同的密集预测单元,所述密集预测单元被配置为处理所述多个特征图并生成用于所述密集图像预测任务的输出;以及
基于所述性能最佳的候选架构来确定所述神经网络的所述架构。


2.根据权利要求1所述的方法,其中,使用所述训练数据搜索所述候选架构的空间以识别一个或多个性能最佳的架构包括重复执行以下步骤:
选择一个或多个候选架构,
在所述训练数据的至少一部分上训练所选择的一个或多个候选架构,以及
对于已训练的候选架构中的每一个,在所述密集图像预测任务上评估所述已训练的候选架构的性能。


3.根据权利要求2所述的方法,其中,训练所选择的一个或多个候选架构包括:以固定数量的迭代而不是为了收敛来训练每个所选择的候选架构。


4.根据权利要求2或3中任一项所述的方法,进一步包括:
预训练所述第一神经网络主干以确定所述第一神经网络主干的参数的预训练值;并且
其中,在所述训练数据的至少一部分上训练所选择的一个或多个候选架构包括:在所述训练期间保持所述第一神经网络主干的参数的值固定,同时调整所述候选架构中的不同的所述密集预测单元的参数的值。


5.根据权利要求4所述的方法,进一步包括:
在搜索所述候选架构的空间之前,使用预训练的第一神经网络主干处理所述训练数据中的训练输入中的至少一些训练输入,以生成用于所述训练输入的特征图,并存储所生成的特征图;并且
其中,在所述训练数据的至少一部分上训练所选择的一个或多个候选架构包括:将存储的生成的特征图作为输入提供给所述密集预测单元,而不是在所述训练期间使用所述预训练的第一神经网络处理所述训练输入。


6.根据权利要求2-5中的任一项所述的方法,其中,选择一个或多个候选架构包括:
使用随机搜索策略选择所述一个或多个候选架构。


7.根据权利要求2-6中的任一项所述的方法,其中,基于所述性能最佳的候选架构来确定所述神经网络的所述架构包括:
对于所述一个或多个性能最佳的候选架构中的每一个,生成最终...

【专利技术属性】
技术研发人员:巴雷特·佐福乔纳森·什连斯朱玉琨麦克斯维尔·唐纳德·埃米特·柯林斯陈良杰亚当·哈特维格乔治斯·帕潘德里欧
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1