【技术实现步骤摘要】
【国外来华专利技术】用于确定视频中的移动对象的一致深度的模型
技术介绍
[0001]三维环境中的特征的深度值可以通过三角测量来确定。三角测量可以包括基于点在两个或更多个图像上的投影来确定三维空间中的该点的位置。点的深度可以基于点在每个图像中的投影的位置以及(多个)相机在捕获每个图像时的相对位置来确定。当(例如,由立体视场相机)并行地捕获两个图像时,可以确定环境的移动特征和静态特征两者的深度。然而,当连续地捕获图像时,如在单视场相机的情况下,接连的图像之间的特征移动可能使得三角测量难以应用。具体地,针对移动对象上的给定点,可能难以确定该点在接连的图像之间的明显位移是由于相机移动还是由于对象的移动而引起的。相应地,确定单视场图像的深度可能是困难的。
技术实现思路
[0002]深度模型可以被预训练成基于单目图像生成深度图像。经预训练的深度模型随后可以被微调,以基于视频的单目图像来生成在几何上和时间上彼此一致的对应的深度图像。深度模型的微调可以由场景流模型促进,场景流模型被配置为生成表示视频所表示的场景中的3D点随时间的移动的场景流。可以基于深度图像的对应的深度 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,包括:获得来自视频的第一图像、来自所述视频的第二图像以及所述第一图像与所述第二图像之间的光流;根据所述光流确定所述第二图像的第二像素对应于所述第一图像的第一像素到所述第二图像的位移;由深度模型,基于所述第一图像确定(i)第一深度图像,以及基于所述第二图像确定(ii)第二深度图像;基于所述第一深度图像确定(i)与所述第一像素相关联的第一深度,以及基于所述第二深度图像确定(ii)与所述第二像素相关联的第二深度;基于与所述第一像素相关联的第一深度来确定(i)第一三维(3D)点,以及基于与所述第二像素相关联的第二深度来确定(ii)第二3D点;由场景流模型并基于所述第一3D点,来确定表示所述第一3D点在所述第一图像与所述第二图像之间的3D运动的场景流;针对所述第一像素,基于流动后3D点来确定感应像素位置,所述流动后3D点表示根据所述场景流的位移之后的所述第一3D点;基于所述感应像素位置与所述第二像素的位置的比较来确定(i)像素流损失值,以及基于所述流动后3D点与所述第二3D点的比较来确定(ii)深度损失值;以及基于所述像素流损失值和所述深度损失值来调节所述深度模型或所述场景流模型中的一个或多个的一个或多个参数。2.根据权利要求1所述的计算机实施的方法,其中,所述像素流损失值和所述深度损失值表示所述第一深度图像与所述第二深度图像之间的时间一致性的程度,其中,在调节所述一个或多个参数之后,所述深度模型被配置为基于所述视频中的图像来生成具有改进的时间一致性的深度图像,并且其中,所述深度模型和所述场景流模型特定于所述视频。3.根据权利要求1
‑
2中任一项所述的计算机实施的方法,其中,确定所述感应像素位置包括:确定所述流动后3D点到所述第二图像的图像空间中的投影。4.根据权利要求1
‑
3中任一项所述的计算机实施的方法,其中,确定所述深度损失值包括:确定所述流动后3D点在与所述第二图像相关联的参考系中的表示,其中,所述第二3D点在与所述第二图像相关联的所述参考系中表示;确定(i)所述流动后3D点的表示的第一深度分量和(ii)所述第二3D点的第二深度分量;以及基于所述第一深度分量与所述第二深度分量的比较来确定所述深度损失值。5.根据权利要求4所述的计算机实施的方法,其中,确定所述深度损失值包括:确定(i)所述第一深度分量的倒数与(ii)所述第二深度分量的倒数之间的差。6.根据权利要求1
‑
5中任一项所述的计算机实施的方法,其中:所述第二图像的第二像素是所述第二图像的第二多个像素之一,所述第二多个像素中的每个相应的像素对应于所述第一图像的第一多个像素中的像素,
基于所述第一多个像素根据所述光流从所述第一图像到所述第二图像的位移来确定所述第二多个像素,所述第一3D点是与所述第一多个像素相对应的多个第一图像3D点之一,根据所述第一深度图像,基于与所述第一多个像素中的对应的像素相关联的相应深度来确定所述多个第一图像3D点中的每个相应的第一图像3D点,所述第二3D点是与所述第二多个像素相对应的多个第二图像3D点之一,根据所述第二深度图像,基于与所述第二多个像素中的对应的像素相关联的相应深度来确定所述多个第二图像3D点中的每个相应的第二图像3D点,所述流动后3D点是多个流动后3D点之一,并且所述多个流动后3D点中的每个相应的流动后3D点表示根据所述场景流的对应的位移之后的对应的第一图像3D点。7.根据权利要求6所述的计算机实施的方法,其中:确定所述深度损失值包括:针对所述第一多个像素中的每个相应的像素,执行所述对应的流动后3D点与所述对应的第二图像3D点的比较。8.根据权利要求6
‑
7中任一项所述的计算机实施的方法,其中:确定所述感应像素位置包括:针对所述第一多个像素中的每个相应的像素,基于所述对应的流动后3D点来确定对应的感应像素位置,以及确定所述像素流损失值包括:针对所述第一多个像素中的每个相应的像素,执行所述对应的感应像素位置与所述第二多个像素中的所述对应的像素的位置的比较。9.根据权利要求1
‑
8中任一项所述的计算机实施的方法,还包括:确定对应于所述第一图像的并且指示所述第一图像的在所述第一图像和在所述第二图像中可见的未遮挡区域的遮挡掩模;以及基于所述遮挡掩模从所述第一图像的所述未遮挡区域中选择所述第一像素。10.根据权利要求1
‑
9中任一项所述的计算机实施的方法,其中,所述深度模型包括已经被预训练成使用训练数据集生成深度图像的卷积神经网络,所述训练数据集包括多对(i)相应的单视场训练图像和(ii)对应的地面实况深度图像,并且其中,所述场景流模型包括已经被随机地初始化的多层感知器。11.根据权利要求1
‑
10中任一项所述的计算机实施的方法,其中,所述场景流模型被配置为接收作为输入的(i)表示世界参...
【专利技术属性】
技术研发人员:F科尔,Z张,T德克尔,WT弗里曼,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。