当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于处理图像的方法和系统技术方案

技术编号:14737416 阅读:137 留言:0更新日期:2017-03-01 10:52
用于使用深度神经网络进行图像处理的方法、系统、和装置,其包括在计算机存储介质上编码的计算机程序。所述方法中的一种包括:接收表征输入图像的数据;使用深度神经网络来处理表征所述输入图像的该数据以生成所述输入图像的替选表示,其中,所述深度神经网络包括多个子网,其中,所述子网被布置在从最低到最高的序列中,并且其中,使用所述深度神经网络处理表征所述输入图像的所述数据包括通过所述序列中的所述子网络中的每一个来处理所述数据;以及通过输出层来处理所述输入图像的所述替选表示,以根据所述输入图像来生成输出。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本说明书涉及使用深度神经网络的图像处理,例如卷积神经网络。卷积神经网络一般包括两种神经网络层,卷积神经网络层和全连接神经网络层。卷积神经网络层具有稀疏的连接性,其中卷积层的每个节点接收来自更低一层的神经网络层的节点子集的输入。一些卷积神经网络层具有与层中其它节点共享权重的节点。然而,全连接层中的节点接收来自更低一层的神经网络层中的每个节点的输入。
技术实现思路
大体上,本说明书描述了用于使用深度神经网络处理图像的技术。本说明书中所描述的主题的特定实施例能够被实现,以便实现以下优点中的一个或多个。通过在深度神经网络中包括子网并且具体包括模块子网,该深度神经网络能够更好地执行图像处理任务,例如对象识别或图像分类。此外,与不包含模块子网的深度神经网络相比,包括模块子网的深度神经网络能够更快且更有效率地训练,同时维持图像处理任务的提高的效能。在附图以及下面的说明书中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其它特征、方面、和优点将根据说明书、附图、和权利要求书而变得显而易见。附图说明图1示出了图像处理系统的示例图像。图2是根据输入图像来生成输出的示例过程的流程图。图3是使用模块子网来处理输入的示例过程的流程图。各个附图中相似的附图标记和名称指示相似的元素。具体实施方式图1示出了示例图像处理系统100。所述图像处理系统100为一个系统的示例,该系统被实现为一个或多个位置中的一个或多个计算机上的计算机程序,在其中能够实现下文中描述的系统、组件、和技术。图像处理系统100接收表征输入图像的数据,例如输入图像的像素信息或表征该输入图像的其它信息。例如,所述图像处理系统100能够接收输入图像数据102。图像处理系统100使用深度神经网络150和输出层152来处理所接收的数据以生成该输入图像的输出,例如来自输入图像数据102的输出154。图像处理系统100能够被配置为接收输入图像数据并且基于该输入图像来生成任何种类的分值或分类输出,即能够被配置为执行任何种类的图像处理任务。由本系统生成的该分值或分类输出取决于图像处理系统已经被配置来确认的任务。例如,对于图像分类或识别任务而言,由图像处理系统100针对给定图像所生成的输出可以是对象类别集合中的每一个的分值,其中每个分值表示该图像包含属于该类别的对象的图像的可能性。作为另一示例,对于对象检测任务而言,由图像处理系统100生成的输出能够识别输入图像中的感兴趣对象的位置、大小,或者这两者。深度神经网络150包括多个子网络的序列,其从序列中的最低子网到序列中的最高子网来布置,例如包括子网A104、子网B106、和子网C108的序列。深度神经网络150通过序列中的每个子网处理接收的输入图像数据,以生成输入图像的替选表示。一旦深度神经网络150已生成输入图像的替选表示,输出层152就处理该替选表示以生成输入图像的输出。如上所述,由输出层152生成的输出的类型取决于图像处理系统100已经被配置来确认的图像分类任务。类似的,被用于根据该替选表示生成输出的输出层152的类型也取决于该任务。具体的,输出层152是适合于该任务的输出层,即生成对于图像处理任务必要的种类的输出。例如,对于图像分类任务,该输出层可以是softmax输出层,其针对对象类别的集合中的每一个生成相应的分值。序列中的子网包括多个模块子网以及可选地包括一个或多个其它子网,所述其他子网均由一个或多个常规神经网络层组成,例如,最大池化层、卷积层、全连接层、正则化层等。在图1的示例中,子网B106被描绘为模块子网。虽然在图1的示例中仅示出了单个模块子网络,但是深度神经网路150一般将包括多个模块子网。模块子网一般包括直通(pass-through)卷积层,例如直通卷积层106、神经网络层的一个或多个群组、以及连结(concatenation)层——如连结层130。模块子网B106接收来自序列中在前的子网的输入,并根据接收的输入来生成输出表示。连结层130接收由直通卷积层108生成的输出和由神经网络层的群组中的每一个生成的相应输出,并且对接收到的输出进行连结以生成单个输出,其作为子网B106的输出被提供给模块序列中的下一个模块或提供给输出层152。模块子网络中的神经网络层的每个群组包括两个或更多神经网络层,其中初始神经网络层后面跟随有一个或多个其它神经网络层。例如,子网B106包括:包括第一卷积层110的一个群组,第一卷积层110后面跟随有第二卷积层112;包括卷积层114的另一个群组,卷积层114后面跟随有卷积层116;以及包括最大池化层118的第三群组,最大池化层118后面跟随有卷积层120。一般,全连接层中的每个节点接收来自序列中的更低一层中的每个节点的输入,并且根据该节点的权重集合来从接收的输入产生激活。给定的全连接层中的每个节点所生成的激活作为输入来被提供给该序列中更高一个全连接层中的每个节点,或者如果该全连接层是序列中的最高层,则提供给输出层152。与全连接层不同,卷积层一般是稀疏连接的神经网络层。也就是说,卷积层中的每个节点接收来自在前的神经网络层中的节点中的一部分——即少于全部节点的输入,或者如果卷积层是序列中的最低层,则接收对图像处理系统100的输入的一部分,并且根据该输入来产生激活。一般,卷积层具有节点,其通过根据每个节点的权重集合对接收的输入进行卷积来生成激活。在一些情况下,卷积层中的节点可以被配置成共享权重。也就是说,该层中的节点中的一部分可以被约束为总是具有与该层中的其它节点相同的权重值。下面参照图3来更为详细地描述使用模块子网来处理输入以生成输出表示。图2是用于根据接收的输入来生成输出的示例过程200的流程图。为了方便,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统来执行。例如,根据本说明书来适当地编程的图像处理系统——例如图1中的图像处理系统100,能够执行过程200。该系统接收表征输入图像的数据(步骤202)。该系统使用包括子网的深度神经网络——例如图1的深度神经网络150来处理数据,以生成替选表示(步骤204)。深度神经网络包括子网的序列,其从序列的最低子网到序列的最高子网来布置。该系统通过序列中的子网中国的每一个来处理数据以生成替选表示。序列中的子网包括多个模块子网,并且可选地包括一个或多个子网,其包括一个或多个常规神经网络层——例如最大池化层、卷积层、全连接层、正则化层等。下面参照图3描述通过模块子网来处理输入。该系统通过输出层处理替选表示以生成输入图像的输出(步骤206)。一般,由系统生成的输入取决于系统被配置来执行的图像处理任务。例如,如果系统被配置来执行图像分类或识别任务,则由输出层生成的输出可以是预定的对象类别集合中的每一个的相应分值,其中给定对象类别的分值表示输入图像包含属于该对象类别的对象的图像的可能性。图3是用于使用模块子网来处理输入的示例过程300的流程图。为了方便,过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如,根据本说明书来适当地编程的图像处理系统——例如图1的图像处理系统100,能够执行过程300。该系统接收输入(步骤302)。具体的,该输入是在前的输出表示,即由子网的序列中的在前的子网生成的输出表本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580035806.html" title="用于处理图像的方法和系统原文来自X技术">用于处理图像的方法和系统</a>

【技术保护点】
一种方法,包括:接收表征输入图像的数据;使用深度神经网络来处理表征所述输入图像的所述数据,以生成所述输入图像的替选表示,其中,所述深度神经网络包括多个子网,其中,所述子网被布置在从最低到最高的序列中,并且其中,使用所述深度神经网络处理表征所述输入图像的所述数据包括:通过所述序列中的所述子网中的每一个来处理所述数据;以及通过输出层来处理所述输入图像的所述替选表示,以根据所述输入图像生成输出。

【技术特征摘要】
【国外来华专利技术】2014.08.29 US 62/043,8651.一种方法,包括:接收表征输入图像的数据;使用深度神经网络来处理表征所述输入图像的所述数据,以生成所述输入图像的替选表示,其中,所述深度神经网络包括多个子网,其中,所述子网被布置在从最低到最高的序列中,并且其中,使用所述深度神经网络处理表征所述输入图像的所述数据包括:通过所述序列中的所述子网中的每一个来处理所述数据;以及通过输出层来处理所述输入图像的所述替选表示,以根据所述输入图像生成输出。2.根据权利要求1所述的方法,其中,所述多个子网包括多个模块子网,并且其中,所述模块子网中的每一个被配置为:接收由所述序列中的在前子网生成的在前输出表示;通过直通卷积层来处理所述在前输出表示,以生成直通输出;通过神经网络层的一个或多个群组来处理所述在前输出表示,以生成所述一个或多个群组中每一个的相应群组输出;以及连结所述直通输出和所述群组输出,以生成所述模块子网的输出表示。3.根据权利要求2所述的方法,其中,所述直通卷积层为1×1卷积层。4.根据权利要求2或3中任一项所述的方法,其中,通过所述一个或多个群组中的每一个来处理所述在前输出表示包括:通过神经网络层的第一群组中的每一层来处理所述在前输出以生成第一群组输出,其中,所述第一群组包括第一卷积层,所述第一卷积层后面跟随有第二卷积层。5.根据权利要求4所述的方法,其中,所述第一卷积层为1×1卷积层。6.根据权利要求4或5中任一项所述的方法,其中,所述第二卷积层为3×3卷积层。7.根...

【专利技术属性】
技术研发人员:克里斯蒂安·塞盖迪文森特·O·瓦努克
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1