图像对象识别制造技术

技术编号:20026731 阅读:26 留言:0更新日期:2019-01-06 05:28
包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于识别图像中的对象子类型。这些方法中的一种方法包括:接收训练数据;选择图像的训练数据;确定是否随机置换选定图像的特性的值;向深度神经网络提供特定训练数据或经随机置换的特定训练数据;从深度神经网络接收输出数据,该输出数据指示选定图像中描绘的对象的对象子类型的预测标签、以及表示对象具有对象子类型的可能性的置信度分数;使用期望输出值、预测标签和置信度分数,来更新深度神经网络中的一个或多个权重;以及向移动设备提供深度神经网络,以用于检测一个或多个图像是否描绘具有特定对象子类型的对象。

【技术实现步骤摘要】
图像对象识别相关申请的交叉应用本申请要求于2017年6月28日提交的美国临时申请号62/526,082的权益,其内容通过引用并入本文。
技术介绍
一些移动设备包括集成相机。这些移动设备允许用户使用集成相机来捕获图像。例如,移动设备可以允许用户捕获景观或城市街道的图像。一些图像分析系统(例如,在服务器上执行的)可以对图像执行对象识别以检测图像中描绘的对象。例如,图像分析系统可以确定图像中描绘的对象是人、树、还是狗。
技术实现思路
移动设备可以识别图像中描绘的特定对象,诸如特定类型的苏打瓶、特定类型的瓶装水、或特定类型的树。移动设备使用深度神经网络,可能无需从另一台计算机请求数据,以分析图像并且确定图像中描绘的特定对象。比如,移动设备可以确定图像中描绘的特定苏打瓶是否是一瓶可口可乐或健怡可乐。在另一示例中,移动设备可以确定图像中描绘的特定树是欧亚槭(即,美国梧桐)或者是挪威槭(即,挪威枫树)。移动设备可以使用深度神经网络例如以使深度神经网络对于在不同环境中捕获的图像更加鲁棒,该深度神经网络使用输入数据集的随机变换来训练。例如,训练系统可以使用三百到五百个训练图像,这些训练图像描绘了将要训练深度神经网络的特定类型的对象。训练系统可以将监督学习与训练图像的随机变换一起用来训练深度神经网络。随机变换可以包括对图像中的光的改变、图像中描绘的光或者对象的抖动、图像中的颜色、图像的方位、图像中描绘的对象的大小、或者这些项中的两项或更多项的组合。训练系统可以通过调整图像中描绘的环境光量(例如,从晴天到阴天)或基于另一光量来改变照明。训练系统可以改变对象的颜色,诸如树叶的黑暗、例如由处于阴影中的苏打瓶引起的苏打瓶上的红色的深度或阴影、或者包括在图像中的另一种颜色。训练系统可以通过旋转图像来改变对象的方位,例如,五度或十度。训练系统可以通过裁剪图像以减小对象的大小与图像中描绘的总内容之间的比例来调整图像中描绘的对象的大小。训练系统可以向图像添加附加内容以增加对象的大小与图像中描绘的总内容之间的比例。移动设备可以使用深度神经网络来确定特定类型的对象的名称,确定图像中的特定类型的对象的位置、或两者。比如,移动设备可以从深度神经网络接收附加信息并且提供用于呈现的附加信息。附加信息可以指示所描绘的对象的特定类型,诸如对象子类型的名称、关于所描绘对象的特定类型的其他信息(例如,产品信息)、或两者。在一些示例中,移动设备可以向服务器提供关于特定类型的对象、特定类型的对象的位置、或两者的数据。服务器可以使用该数据来确定库存信息、库存顺从性信息(例如,用于对象放置)、或二者。在一些示例中,移动设备在不使用条形码的情况下确定特定类型的对象。比如,移动设备不需要捕获包括对象上的条形码的图像,以使用深度神经网络来确定对象子类型。一般而言,本说明书中描述的主题的一个创新方面可以在包括以下动作的方法中体现:在深度神经网络训练系统处接收表示多个图像的训练数据,该多个图像描绘具有对象子类型的对象,并且深度神经网络训练系统用以训练深度神经网络,以识别多个图像中描绘的对象中的一个对象的对象子类型,其中用于描绘多个图像中的对应对象的多个对象子类型各自与同一对象类型相对应;对于多次迭代:选择针对来自多个图像中的一个图像的特定训练数据;确定是否随机置换由特定训练数据表示的选定图像的特性的值;向深度神经网络提供选定图像的特定训练数据、或选定图像的经随机置换的特定训练数据;从深度神经网络接收输出数据,该输出数据指示:预测标签,该预测标签针对选定图像中描绘的对象的特定对象子类型,以及置信度分数,该置信度分数表示选定图像中描绘的对象具有特定对象子类型的可能性;以及使用以下项来更新深度神经网络中的一个或多个权重:期望输出值、针对特定对象子类型的预测标签、以及置信度分数,该期望输出值指示选定图像中描绘的对象的实际对象子类型标签,该置信度分数表示选定图像中描绘的对象具有特定对象子类型的可能性;以及向移动设备提供深度神经网络,以用于检测一个或多个图像是否描绘具有特定对象子类型的对象。该方面的其他实施例包括在一个或多个计算机存储设备上记录的对应的计算机系统、装置和计算机程序,各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助于在系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,该软件、固件、硬件或它们的组合在操作中使得系统执行动作。一个或多个计算机程序可以被配置为借助于包括指令来执行特定操作或动作,该指令当通过数据处理装置执行时使得装置执行动作。一般而言,本说明书中描述的主题的一个创新方面可以在包括以下动作的方法中体现:接收表示多个图像的训练数据,该多个图像描绘具有对象子类型的对象,并且深度神经网络训练系统用以训练深度神经网络,以识别多个图像中描绘的对象中的一个对象的对象子类型,其中用于描绘多个图像中的对应对象的多个对象子类型各自与同一对象类型相对应;对于多次迭代:选择针对来自多个图像中的一个图像的特定训练数据;确定是否随机置换由特定训练数据表示的选定图像的特性;向深度神经网络提供选定图像的特定训练数据、或选定图像的经随机置换的特定训练数据;从深度神经网络接收输出数据,该输出数据指示:预测标签,该预测标签针对选定图像中描绘的对象的特定对象子类型;位置信息,该位置信息定义其中可能描绘对象的选定图像的区域;以及置信度分数,该置信度分数表示对象存在于由位置信息定义的选定图像的区域中的可能性;以及使用以下项来更新深度神经网络中的一个或多个权重:期望输出值、针对特定对象子类型的预测标签、以及置信度分数,该期望输出值指示选定图像中描绘的对象的实际对象子类型标签,该置信度分数表示选定图像中描绘的对象具有特定对象子类型的可能性;以及向移动设备提供深度神经网络,以用于检测一个或多个图像是否描绘具有特定对象子类型的对象。该方面的其他实施例包括在一个或多个计算机存储设备上记录的对应的计算机系统、装置和计算机程序,各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助于在系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,该软件、固件、硬件或它们的组合在操作中使得系统执行动作。一个或多个计算机程序可以被配置为借助于包括指令来执行特定操作或动作,该指令当通过数据处理装置执行时使得装置执行动作。一般而言,本说明书中描述的主题的一个创新方面可以在包括以下动作的方法中体现:接收描绘多个对象的图像的数据;向深度神经网络提供数据以使得深度神经网络预测多个对象中的每个对象的对象子类型标签;针对多个对象中的一些对象,从深度神经网络接收输出数据,该输出数据表示指示对象的可能对象子类型的子类型标签、以及指示对象在图像中的位置的对象位置;以及使用多个对象中的一些对象的输出数据来生成图像的表示,该图像的表示对于多个对象中的一些对象指示对象在图像中的位置、以及指示对象的可能对象子类型的子类型标签。该方面的其他实施例包括在一个或多个计算机存储设备上记录的对应的计算机系统、装置和计算机程序,各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助于在系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,该软件、固件、硬件或它们的组合在操作中使得系统执行动作。一个或多个本文档来自技高网...

【技术保护点】
1.一种计算机实现方法,包括:在深度神经网络训练系统处接收表示多个图像的训练数据,所述多个图像描绘具有对象子类型的对象,以及所述深度神经网络训练系统用以训练深度神经网络,以识别所述多个图像中描绘的所述对象中的一个对象的所述对象子类型,其中用于描绘所述多个图像中的对应对象的多个对象子类型各自与同一对象类型相对应;对于多次迭代:选择针对来自所述多个图像中的一个图像的特定训练数据;确定是否随机置换由所述特定训练数据表示的选定图像的特性的值;向所述深度神经网络提供所述选定图像的所述特定训练数据或所述选定图像的经随机置换的所述特定训练数据;从所述深度神经网络接收输出数据,所述输出数据指示:预测标签,所述预测标签针对所述选定图像中描绘的对象的特定对象子类型,以及置信度分数,所述置信度分数表示所述选定图像中描绘的所述对象具有所述特定对象子类型的可能性;以及使用以下项来更新所述深度神经网络中的一个或多个权重:期望输出值,所述期望输出值指示所述选定图像中描绘的所述对象的实际对象子类型标签,针对所述特定对象子类型的所述预测标签,以及所述置信度分数,其表示所述选定图像中描绘的所述对象具有所述特定对象子类型的所述可能性;以及向移动设备提供所述深度神经网络,以用于检测一个或多个图像是否描绘具有所述特定对象子类型的对象。...

【技术特征摘要】
2017.06.28 US 62/526,082;2017.08.31 US 15/692,1801.一种计算机实现方法,包括:在深度神经网络训练系统处接收表示多个图像的训练数据,所述多个图像描绘具有对象子类型的对象,以及所述深度神经网络训练系统用以训练深度神经网络,以识别所述多个图像中描绘的所述对象中的一个对象的所述对象子类型,其中用于描绘所述多个图像中的对应对象的多个对象子类型各自与同一对象类型相对应;对于多次迭代:选择针对来自所述多个图像中的一个图像的特定训练数据;确定是否随机置换由所述特定训练数据表示的选定图像的特性的值;向所述深度神经网络提供所述选定图像的所述特定训练数据或所述选定图像的经随机置换的所述特定训练数据;从所述深度神经网络接收输出数据,所述输出数据指示:预测标签,所述预测标签针对所述选定图像中描绘的对象的特定对象子类型,以及置信度分数,所述置信度分数表示所述选定图像中描绘的所述对象具有所述特定对象子类型的可能性;以及使用以下项来更新所述深度神经网络中的一个或多个权重:期望输出值,所述期望输出值指示所述选定图像中描绘的所述对象的实际对象子类型标签,针对所述特定对象子类型的所述预测标签,以及所述置信度分数,其表示所述选定图像中描绘的所述对象具有所述特定对象子类型的所述可能性;以及向移动设备提供所述深度神经网络,以用于检测一个或多个图像是否描绘具有所述特定对象子类型的对象。2.根据权利要求1所述的方法,其中更新所述深度神经网络中的所述一个或多个权重包括:针对来自所述多个图像的两个或更多个图像中的每个图像,使用相应期望输出值、针对所述特定对象子类型的相应预测标签、以及相应置信度分数,来更新所述深度神经网络中的所述一个或多个权重。3.根据权利要求1所述的方法,其中:从所述深度神经网络接收输出数据,所述输出数据指示针对所述选定图像中描绘的所述对象的所述特定对象子类型的所述预测标签、以及表示所述选定图像中描绘的所述对象具有所述特定对象子类型的所述可能性的所述置信度分数,包括:从所述深度神经网络接收输出数据,所述输出数据指示所述对象在所述选定图像中的预测位置;并且更新所述深度神经网络中的所述一个或多个权重包括:使用所述期望输出值、针对所述特定对象子类型的所述预测标签、相应置信度分数、所述对象在所述选定图像中的实际位置以及所述对象在所述选定图像中的所述预测位置,来更新所述深度神经网络中的所述一个或多个权重。4.根据权利要求1所述的方法,其中确定是否随机置换由所述特定训练数据表示的所述选定图像的特性的值包括:确定是否随机执行以下中的一项或多项:修剪所述选定图像的一部分;调整所述选定图像的至少一部分的变焦水平;调整所述选定图像的至少一部分的拉伸值;将所述选定图像转置于轴线上;调整所述选定图像中描绘的至少一种颜色;调整所述选定图像的至少一部分的阿尔法抖动;调整所述选定图像的至少一部分的剪切变形;或者调整所述选定图像的至少一部分的单应性。5.根据权利要求4所述的方法,其中:每次迭代可以包括:从若干个图像选择两个或更多个图像;以及确定是否随机置换由所述特定训练数据表示的所述选定图像的特性的值包括:对于每次迭代,从选定两个或更多个图像中选择一个或多个特定图像;以及针对所述一个或多个特定图像中的每一个,确定一个特性以随机置换。6.一种编码有指令的非暂态计算机存储介质,所述指令当由一个或多个计算机执行时,使得所述一个或多个计算机执行包括以下的操作:接收描绘多个对象的图像的数据;向深度神经网络提供所述数据,以使得所述深度神经网络预测所述多个对象中的每个对象的对象子类型标签;针对所述多个对象中的一些对象从所述深度神经网络接收输出数据,所述输出数据表示指示所述对象的可能对象子类型的子类型标签、以及指示所述对象在所述图像中的位置的对象位置;以及针对所述多个对象中的一些对象使用所述输出数据来生成所述图像的表示,所述图像的表示针对所述多个对象中的一些对象而指示所述对象在所述图像中的位置以及所述子类型标签,所述子类型标签指示所述对象的所述可能对象子类型。7.根据权利要求6所述的计算机存储介质,所述操作包括:确定是否创建所述图像的数据的、各自包括所述图像的数据的真子集的多个重叠部分;以及响应于确定创建所述图像的数据的所述多个重叠部分,创建所述图像的数据的所述多个重叠部分,其中向深度神经网络提供所述数据以使得所述深度神经网络预测所述多个对象中的每个对象的对象子类型标签包括:向所述深度神经网络分别提供所述多个重叠部分中的每个重叠部分的数据。8.根据权利要求7所述的计算机存储介质,所述操作包括:针对所述多个对象中的一些对象,接收指示所述对象具有所述对象子类型的可能性的对应置信度分数,其中:确定是否创建所述图像的数据的、各自包括所述图像的数据的真子集的多个重叠部分包括:针对所述置信度分数中的每个置信度分数,确定对应置信度分数是否满足阈值置信度分数;以及创建所述图像的数据的所述多个重叠部分是响应于确定所述置信度分数中的至少一个置信度分数不满足所述阈值置信度分数。9.根据权利要求7所述的计算机存储介质,其中:确定是否创建所述图像的数据的、各自包括所述图像的数据的真子集的多个重叠部分包括:确定当前处理持续时间是否满足阈值处理持续时间;以及创建所述图像的数据的所述多个重叠部分是响应于确定所述当前处理持续时间满足所述阈值处理持续时间。10.根据权利要求6所述的计算机存储介质,所述操作包括:针对所述多个对象中的一些对象、接收指示所述对象具有对应对象子类型的可能性的对应置信度分数;以及针对所述对象的至少一些对象,使用所述对应置信度分数来确定是否使用与所述深度神经网络不同的消歧深度神经网络,以确定针对所述对象的对象子类型标签。11.根据权利要求6所述的计算机存储介质,其中:针对所述多个对象中的一些对象、接收指示所述对象具有对应对象子类型的可能性的对应置信度分数包括:针对所述多个对象中的一些对象,接收多个对应置信度分数,所述多个对应置信度分数中的每一个指示所述对象具有针对其训练所述深度神经网络的对象子类型的可能性;以及针对所述对象中的至少一些对象、使用所述...

【专利技术属性】
技术研发人员:A·皮索尼
申请(专利权)人:埃森哲环球解决方案有限公司
类型:发明
国别省市:爱尔兰,IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1