【技术实现步骤摘要】
【国外来华专利技术】无监督深度预测神经网络相关申请的交叉引用本申请要求于2018年9月5日提交的美国临时申请序列号62/727,502的优先权。在先申请的公开内容被视为本申请的公开内容的一部分,并且通过引用并入本申请的公开内容中。
技术介绍
本说明书涉及使用神经网络处理图像。机器学习模型接收输入,并基于接收到的输入生成输出,例如,预测输出。一些机器学习模型是参数模型,并且基于接收到的输入并且基于该模型的参数的值生成输出。一些机器学习模型是深度模型,其采用多层模型来为接收到的输入生成输出。例如,深度神经网络是一种深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收到的输入以生成输出。
技术实现思路
本说明书描述一种作为计算机程序实现在一个或多个位所中的一个或多个计算机上的神经网络系统,该神经网络系统包括相机运动估计神经网络、对象运动估计神经网络和深度预测神经网络。能够实现本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。本说明书中描述的主题通常涉及无监督学习技术,这些无监督 ...
【技术保护点】
1.一种系统,包括一个或多个位所中的一个或多个计算机以及存储指令的一个或多个存储设备,所述指令当由一个或多个计算机执行时使所述一个或多个计算机:/n接收描绘相同场景的输入图像序列,所述输入图像由相机在不同的时间步捕获,所述输入图像中的每个输入图像包括一个或多个潜在对象;/n对于所述输入图像中的每个输入图像,生成相应的背景图像,所述背景图像包括该输入图像的未描绘该输入图像中的任何潜在对象的部分;/n使用相机运动估计神经网络处理所述背景图像以生成表征所述序列中的所述输入图像之间的所述相机的运动的相机运动输出;/n对于所述一个或多个潜在对象中的每个潜在对象:使用对象运动估计神经网 ...
【技术特征摘要】
【国外来华专利技术】20180905 US 62/727,5021.一种系统,包括一个或多个位所中的一个或多个计算机以及存储指令的一个或多个存储设备,所述指令当由一个或多个计算机执行时使所述一个或多个计算机:
接收描绘相同场景的输入图像序列,所述输入图像由相机在不同的时间步捕获,所述输入图像中的每个输入图像包括一个或多个潜在对象;
对于所述输入图像中的每个输入图像,生成相应的背景图像,所述背景图像包括该输入图像的未描绘该输入图像中的任何潜在对象的部分;
使用相机运动估计神经网络处理所述背景图像以生成表征所述序列中的所述输入图像之间的所述相机的运动的相机运动输出;
对于所述一个或多个潜在对象中的每个潜在对象:使用对象运动估计神经网络,基于所述输入图像序列和所述相机运动输出,生成该潜在对象的相应的对象运动输出,所述相应的对象运动输出表征所述潜在对象如在所述输入图像中出现的位置之间的所述潜在对象的运动;
使用深度预测神经网络并且根据所述深度预测神经网络的参数的当前值来处理所述输入图像序列中的特定输入图像,以生成所述特定输入图像的深度输出;以及
基于(i)所述特定输入图像的所述特定深度输出、(ii)所述相机运动输出和(iii)所述一个或多个潜在对象的所述对象运动输出,来更新所述深度预测神经网络的参数的当前值。
2.根据权利要求1所述的系统,其中,所述输入图像序列是由所述相机捕获的视频帧。
3.根据权利要求1或2中的任一项所述的系统,其中,所述输入图像序列包括第一输入图像、第二输入图像以及第三输入图像。
4.根据权利要求3所述的系统,其中,所述深度输出包括针对所述第二图像中的多个像素中的每个像素的估计的深度值,所述估计的深度值表示在所述像素处描绘的场景距所述第二图像的焦平面的相应距离。
5.根据权利要求1至4中的任一项所述的系统,其中,对于所述输入图像序列中的每个输入图像,生成所述输入图像的相应的背景图像包括:
生成所述输入图像中的每个潜在对象的相应的对象分割掩码,
通过取所述输入图像中的所述潜在对象的对象分割掩码的并集的补集来生成背景分割掩码,以及
通过取组合的背景分割掩码和所述输入图像的逐像素乘积,生成所述输入图像的所述相应的背景图像,
其中,所述组合的背景分割掩码是针对所述序列中的所述输入图像生成的所述背景分割掩码的逐像素乘积。
6.根据权利要求3至5中的任一项所述的系统,其中,所述指令进一步包括以下指令,该指令在由所述一个或多个计算机执行时,使所述一个或多个计算机:
在处理所述背景图像以生成所述相机运动输出之后,通过使用所述相机运动输出对所述输入图像序列应用扭曲操作来生成扭曲图像序列;并且
其中,对于所述一个或多个潜在对象中的每个潜在对象,生成所述潜在对象的相应的对象运动输出包括:
对于所述扭曲图像序列中的每个扭曲图像:
生成所述扭曲图像中的所述潜在对象的相应的扭曲分割掩码,以及
通过取所述扭曲图像和所述相应的扭曲分割掩码的逐像素乘积来生成所述扭曲图像的相应的对象图像;并且
使用所述对象运动估计神经网络处理(i)所述扭曲图像序列中的所述第一扭曲图像的对象图像、(ii)所述第二输入图像和(iii)所述扭曲图像序列中的所述第三扭曲图像的对象图像,以生成所述潜在对象的所述相应的对象运动输出。
7.根据权利要求3至6中的任一项所述的系统,其中,所述相机运动输出包括:(i)第一相机运动估计,所述第一相机运动估计表示在所述第一输入图像和所述第二输入图像之间的所述相机的运动;以及(ii)第二相机运动估计,所述第二相机运动估计表示所述第二输入图像和所述第三输入图像之间的所述相机的运动。
8.根据权利要求7所述的系统,其中,所述第一相机运动估计是第一变换矩阵,所述第一变换矩阵将所述相机的位置和定向从在拍摄所述第一输入图像时的相机的视点变换成在拍摄所述第二输入图像时的相机的视点。
9.根据权利要求7或8中的任一项所述的系统,其中,所述第二相机运动估计是第二变换矩阵,所述第二变换矩阵将所述相机的位置和定向从在拍摄所述第二输入图像时的相机的视点变换成在拍摄所述第三输入图像时的相机的视点。
<...
【专利技术属性】
技术研发人员:文森特·迈克尔·卡塞尔,索伦·皮尔克,雷扎·马乔里安,阿内利亚·安格洛瓦,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。