使用神经网络进行场景转移的基于对象的预测制造技术

技术编号:39124668 阅读:10 留言:0更新日期:2023-10-23 14:48
方法、计算机系统和设备,包括在计算机存储介质上编码以用于预测场景转移的计算机程序。计算机系统接收场景图像的输入序列,其中每个图像对应于观察时间序列中的不同时间点。对于每个时间点,系统使用分解神经网络处理对应图像以生成一个或多个特征表示。系统使用对准神经网络处理时间点的特征表示以生成一组对准的特征表示序列。系统进一步使用转移神经网络处理所述一组对准的特征表示序列,以针对每个对准的特征表示序列来预测一个或多个特征表示,该特征表示表示由对准序列表示的对象在一个或多个连续时间点处的预测特征。在一个或多个连续时间点处的预测特征。在一个或多个连续时间点处的预测特征。

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络进行场景转移的基于对象的预测
[0001]相关申请的交叉引用
[0002]本申请要求于2021年2月5日提交的美国临时专利申请No.63/146,353的优先权,该申请的公开内容通过引用整体并入全文。

技术介绍

[0003]本说明书涉及使用神经网络来处理图像观察序列。
[0004]神经网络是采用一层或多层非线性单元来预测所接收输入的输出的机器学习模型。一些神经网络包括除了输出层之外的一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。

技术实现思路

[0005]本说明书描述用于使用神经网络来进行场景转移(scene transitioning)的基于对象的预测的方法、计算机系统和设备,其包括在计算机存储介质上编码的计算机程序。
[0006]在一个创新方面,本说明书描述了一种用于预测场景转移的方法。该方法由包括一个或多个计算机的系统实施。该系统接收场景图像的输入序列,其中每个图像对应于观察时间序列中的不同时间点。对于每个时间点,系统使用分解神经网络处理对应图像以生成一个或多个特征表示。每个特征表示均表示一组对象中出现在对应图像中的一个对象。系统使用对准神经网络处理时间点的特征表示以生成一组对准的特征表示序列。每个对准的特征表示序列表示观察时间序列中的不同时间点上的相同对象。系统进一步使用转移神经网络处理所述一组对准的特征表示序列,以针对每个对准的特征表示序列来预测一个或多个特征表示,该一个或多个特征表示表示由对准序列表示的对象在一个或多个连续时间点的预测特征。
[0007]在实施方式中,方法可以被视为一种形式的对象跟踪方法。更具体来说,该方法能够在实施方式中跟踪多个对象,即使对象暂时从视图中消失,并且产生一组特征表示,每个特征表示表征一个对象,并且其中每个特征表示随时间一致地表示同一对象。特征表示可以根据对象的位置或运动和/或诸如大小、形状和颜色的其它特征来表征对象。此外,方法能够外推,即使用输入序列来预测在观察时间序列之后的时间点处的特征表示。被跟踪对象的预测特征可以以多种方式使用。
[0008]仅作为一个示例,预测特征能够用于控制在真实世界环境中操作的机械智能体,例如机器人,以执行真实世界任务。然后,图像可以是环境的图像。这能够使智能体能够规划对象表示空间中的未来轨迹,例如以表征机械臂以及其如何与环境中的物理对象交互。方法的一些实施方式还处理智能体为了预测每个对象的特征而采取的实际或计划的动作,因为场景可能随着智能体移动而改变,这是因为智能体的一部分包括在场景中,或者因为场景的视点与智能体的位置或配置相关联。作为另一示例,预测特征可以用于生成对应的预测场景。
[0009]方法的实施方式解决在非结构化表示空间中进行预测的问题。因此,方法的实施方式将图像分解为场景中的一组对象中的每个对象的表示,然后将这些表示对准,使得表示随时间是一致的。然后,将转移模型应用于这些一致的、基于对象的表示以预测未来的对象特征。不管个别神经网络的特征如何,以此方式构建系统有助于学习转换模型,即训练转移神经网络以产生准确的预测。
[0010]能够以无监督的方式训练系统也是有用的。然而,为了训练系统以预测对象特征,诸如对象位置、运动或其它特性,似乎需要标记的对象。尽管如此,系统的实施方式实现用于系统的无监督训练的方法。因此,能够使用组合分解损失(与分解神经网络相关)、对准损失(与对准神经网络相关)和转移损失(与转移神经网络相关)的联合损失无监督地训练系统。可以使用这些损失的总和对系统进行端到端训练。以这种方式合成损失允许分解损失是无监督的,被配置用于学习以生成图像中对象的对象特征表示。然后,对准损失和转移损失也能够是无监督的,被配置通过计算某一时间的特征表示与所述时间的预测特征表示之间的损失(即基于历史特征表示和当前特征表示)用于学习以随时间链接特征表示。
[0011]在方法的一些实施方式中,一组对准的特征表示序列分别存储在基于槽位的存储区(slot

based memory)中的一组槽位中。槽位可以是被配置成存储特征表示的存储区位置。这能够有助于维护一致的对象标识,并且在实施方式中促进对象持久性,尽管这不是必不可少的。在一些实施方式中,转移神经网络能够包括存储区,如稍后描述。
[0012]对准网络能够预测对准输出,该对准输出定义用于将当前时间点处的当前特征表示分配给基于槽位的存储区中的一组槽位中的每个的分配。例如,对准输出能够包括邻接矩阵,该邻接矩阵用于执行当前特征表示与基于槽位的存储区中的一组槽位的对准。
[0013]在方法的一些实施方式中,系统能够通过基于当前特征表示和邻接矩阵生成置换矩阵来执行硬对准。例如,使用匈牙利算法来执行硬对准。能够通过对从图像的输入序列生成的特征表示执行硬对准来生成一组对准的特征表示序列。
[0014]如先前所描述,在方法的一些实施方式中,已经联合地训练分解神经网络、对准神经网络和转移神经网络以最小化联合损失。
[0015]联合损失能够包括无监督分解损失,该无监督分解损失测量输入图像与重构图像之间的差异,该重构图像由分解神经网络的解码器重构,该重构图像基于对象的对象(分割)掩码重构。用于对象的对象(分割)掩码可以具有表示像素是否属于对象的像素;它可以是硬掩码(例如1或0的像素值)或软概率掩码。
[0016]无监督对准损失能够包括重构损失,该重构损失测量基于对准的历史特征表示的当前时间点的转移神经网络的输出与通过将邻接矩阵应用于一组当前特征表示生成的对准的当前特征表示之间的差异。能够通过执行将邻接矩阵与当前特征表示相乘的软对准来生成一组对准的当前特征表示。
[0017]无监督对准损失能够进一步包括对准输出的熵的测量。
[0018]无监督对准损失能够进一步包括惩罚邻接矩阵中总和为大于一的列的测量。
[0019]联合损失能够包括转移损失,该转移损失测量基于对准的历史特征表示的当前时间点的转移神经网络的输出与通过对准神经网络输出的对准的当前特征表示之间的差异。
[0020]在方法的一些实施方式中,对应于场景的环境正在与智能体进行交互。智能体能够获得场景图像的输入序列。
[0021]在方法的一些实施方式中,为了处理一组对准的特征表示序列,系统通过将转移神经网络应用于以下各项而在下一时间点处生成对准的特征表示:(i)从图像的输入序列生成的一组对准的特征表示序列和(ii)在观察时间序列中的最后一个时间点之后由智能体采取的一个或多个动作。
[0022]在方法的一些实施方式中,转移神经网络包括循环神经网络(RNN)。为了处理一组对准的特征表示序列,对于每个对准的特征表示序列,系统使用RNN来处理基于对准的特征表示序列、由智能体采取的一个或多个动作和隐藏状态导出的RNN输入以生成更新。对于当前时间点之后的连续时间点,系统通过将更新(其可以表示特征表示变化)应用于当前时间点的特征表示来生成连续时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:接收场景图像的输入序列,每个图像对应于观察时间序列中的不同时间点;对于每个时间点,使用分解神经网络处理对应图像以生成一个或多个特征表示,每个特征表示均表示一组对象中出现在所述对应图像中的一个对象;使用对准神经网络处理所述时间点的所述特征表示以生成一组对准的特征表示序列,其中,每个对准的特征表示序列表示在所述观察时间序列中的所述不同时间点上的相同对象;以及使用转移神经网络处理所述一组对准的特征表示序列,以针对每个所述对准的特征表示序列来预测一个或多个特征表示,所述一个或多个特征表示表示由该对准的序列所表示的所述对象在一个或多个连续时间点处的预测特征。2.根据权利要求1所述的方法,其中,已经联合地训练所述分解神经网络、所述对准神经网络和所述转移神经网络以最小化联合损失。3.根据权利要求2所述的方法,其中,所述联合损失包括无监督分解损失,所述无监督分解损失测量输入图像与基于由所述分解神经网络的解码器重构的对象掩码的重构图像之间的差异。4.根据权利要求1至3中任一项所述的方法,其中:所述一组对准的特征表示序列分别存储在基于槽位的存储区中的一组槽位中。5.根据权利要求4中任一项所述的方法,其中,所述对准网络预测对准输出,所述对准输出定义用于将当前时间点处的当前特征表示分配给所述基于槽位的存储区中的所述一组槽位中的每个槽位的分配。6.根据权利要求5所述的方法,其中,所述对准输出包括邻接矩阵,所述邻接矩阵用于执行所述当前特征表示与所述基于槽位的存储区中的所述一组槽位的对准。7.根据权利要求6所述的方法,进一步包括:通过基于所述当前特征表示和所述邻接矩阵生成置换矩阵来执行硬对准。8.根据权利要求7所述的方法,其中,使用匈牙利算法来执行所述硬对准。9.根据权利要求7或8所述的方法,其中:通过对从所述图像的输入序列生成的所述特征表示执行所述硬对准来生成所述一组对准的特征表示序列。10.根据权利要求7至9中任一项所述的方法,其中,所述联合损失包括无监督对准损失,所述无监督对准损失包括重构损失,所述重构损失测量基于对准的历史特征表示的所述当前时间点的所述转移神经网络的输出与通过将所述邻接矩阵应用于一组当前特征表示生成的对准的当前特征表示之间的差异。11.根据权利要求10所述的方法,其中,通过执行将所述邻接矩阵与当前特征表示相乘的软对准来生成所述一组对准的当前特征表示。12.根据权利要求10或11中任一项所述的方法,其中,所述无监督对准损失进一步包括所...

【专利技术属性】
技术研发人员:安东尼亚
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1