当前位置: 首页 > 专利查询>苹果公司专利>正文

针对深度和视差估计的语义分割的稳健用途制造技术

技术编号:23513663 阅读:31 留言:0更新日期:2020-03-18 00:39
本公开涉及针对深度和视差估计的语义分割的稳健用途。本公开涉及用于使用语义分割来生成捕获图像的稳健深度估计的技术。语义分割可被定义为在图像上创建掩模的过程,其中像素被分割成预定义的一组语义类别。此类分割可以是二进制的(例如,“人物像素”或“非人物像素”)或多类(例如,可将像素标记为:“人物”、“狗”、“猫”等)。随着语义分割技术在准确性和采用方面的增加,开发利用此类分割和开发用于将分割信息整合到现有计算机视觉应用(诸如深度和/或视差估计)中的柔性技术的方法变得越来越重要,以在广泛的图像捕获场景中产生改善的结果。在一些实施方案中,可使用优化框架来优化相机设备的初始场景深度/视差估计,该估计采用稳健方式的语义分割和颜色正则化两者。

Robust use of semantic segmentation for depth and disparity estimation

【技术实现步骤摘要】
针对深度和视差估计的语义分割的稳健用途
本公开整体涉及数字成像领域。更具体地,但并非限制性地,本公开涉及针对在数字图像中执行稳健深度和/或视差估计的技术。
技术介绍
移动的多功能设备(诸如智能电话和平板设备)的出现使得人们期望能够实时或几乎实时地生成高水平图像质量的小外形相机以集成到此类移动的多功能设备中。随着用户依赖这些多功能设备作为其日常使用的主要相机,用户越来越需要他们习惯于在专用相机设备中使用的特征。一些此类特征,例如“肖像风格”摄影模式,依赖于对所捕获图像使用估计的深度和/或视差映射,即,为了产生比通常在设备的相机系统自然捕获的图像中看到的更浅的景深的效果。(所得的具有浅景深外观的肖像风格图像在本文中也称为“SDOF”图像或“合成SDOF”图像。)例如,在此类肖像风格的合成SDOF图像中,可以将更大量的模糊应用于估计离捕获场景中的焦平面更远的对象(例如,背景对象),而在焦平面中的对象,诸如在捕获的场景的前景中的人类主体,可以保持相对更清晰,从而愉快地强调人类主体对图像的观察者的外观。然而,某些场景捕获条件(例如,前景和背景对象可能包含相似颜色,和/或场景中单个深度平面上的对象包含多种颜色和纹理的位置)可能对用于深度和/或视差估计的典型的基于颜色图像的正则化技术提出特定挑战。语义分割在涉及图像处理和计算机视觉的产品中的使用变得越来越流行。语义分割可以被定义为创建掩模的过程,例如,图像上的逐像素掩模,其中像素被分配(或“分割”)成预定义的一组语义类别。此类分割可以是二进制的(例如,给定像素可以被分类为“人物像素”或“非人物像素”),或者分割也可以是多类分割(例如,给定的像素可以标记为:“人物”、“狗”、“猫”或“其他”)。近年来,使用卷积神经网络(CNN)已经实现了最准确的语义分割。随着语义分割技术在准确性和采用方面的增加,开发利用此类分割和开发用于将分割信息整合到现有计算机视觉应用(诸如深度和/或视差估计)中的柔性技术的稳健方法变得越来越重要,以在广泛的图像捕获场景中产生改善的结果。
技术实现思路
本文公开了电子设备、计算机可读存储介质和相关方法,它们被配置为生成捕获图像的深度和/或视差估计。特别地,此类估计可依赖于与所捕获图像相关联的语义分割信息的稳健使用,以及与所捕获图像相关联的颜色信息的组合。在本文的整个讨论中,将关于捕获图像讨论视差和深度的各个方面。如本文所使用的,视差是指从不同视角捕获的图像的对应部分之间观察到的偏移量,例如,两个相机被隔开一距离。使图像的对应部分重叠所需的偏移量是视差。图像中的对象最佳匹配的视差可用于计算场景中的对象的深度,即,对象远离捕获相机的实际距离。可以根据任何期望的方法将视差信息转换为深度信息。例如,在一些情况下,深度被大致计算为与视差估计的倒数成正比。在本文描述的一些视差估计实施方案中,可以采用联合优化框架,其利用相机设备的初始场景视差信息估计(例如,通过立体图像对、聚焦像素(即,用于相位检测自动聚焦的像素)、有源视差感测或其他视差估计方法获得)并且包含数据项和正则化项。数据项在本文中还可以称为“匹配”或“成本”项,并且正则化项可以用于将约束编码到优化解决方案,例如平滑约束,如在一些视差映射的情况下。根据一些实施方案,优化框架可以采用迭代方法来求解图像的视差映射的值,其中,在每次迭代时,采取附加步骤来解决包括数据项和正则化项的联合优化问题。在一些实施方案中,可使用一个或多个权重来编码与正则化项有关的数据项的重要性。这允许优化框架被调整为有利于与数据匹配的解决方案,而不是更多地符合关于正则化项的先前假设。根据一些实施方案,优化可包括最小化操作。本文还公开了非暂态程序存储设备。此类程序存储设备可以包括存储在其上的指令,使得一个或多个处理器:获得场景的第一图像,第一图像包括多个第一像素,这些像素具有色值;获得包括多个第一值的第一深度或视差信息,其中每个值对应于场景中的位置;获得包括多个第一分割值的至少一个分割掩模,其中每个分割值对应于场景中的位置;针对至少一个分割掩模中的至少一个获得至少一个正则化项;并且执行优化操作以生成第一深度或视差映射,其中优化操作至少部分地基于多个第一像素、第一深度或视差信息、至少一个分割掩模和至少一个正则化项。在一些实施方案中,可以至少部分地基于所生成的第一深度或视差映射来生成第一图像的模糊版本(例如,合成SDOF图像)。根据一些实施方案,指令还可使得一个或多个处理器获得至少一个获得的分割掩模中的一个的置信掩模,然后将来自置信掩模的信息合并到优化操作中。根据其他实施方案,指令还可使得一个或多个处理器获得至少一个分割掩模中的一个的至少一个分割类别的最大影响值,然后将所获得的最大影响值合并到优化操作中。根据其他实施方案,可获得针对第一图像的至少两个分割掩模,其中每个分割掩模任选地具有对应的置信掩模、正则化项和/或每个分割类别的最大影响值。来自每个所获得的分割掩模的此类附加信息也可并入优化操作中。根据以上列举的程序存储设备的实施方案,本文还公开了生成稳健深度和/或视差估计的各种方法。根据以上列举的程序存储设备的实施方案,本文还公开了各种电子设备。此类电子设备可包括存储器、一个或多个图像捕获设备、显示器、用户界面以及可操作地耦接到存储器的一个或多个处理器。指令可以存储在存储器中,这些指令使得一个或多个处理器根据以上列举的程序存储设备的实施方案执行技术。附图说明图1A是参考颜色图像和对应的期望视差映射的示例。图1B是参考颜色图像和对应的正则化视差映射的另一个示例。图1C是参考颜色图像和对应的正则化视差映射的又一个示例。图1D是具有和不具有语义正则化的参考颜色图像和对应的视差映射的示例。图2是根据一个或多个实施方案的用于生成稳健深度和/或视差估计的示例性方法。图3是根据一个或多个实施方案的用于生成稳健深度和/或视差估计的系统的框图。图4是示出示例性电子设备的框图,其中可以实现本文公开的技术中的一种或多种技术。具体实施方式在以下描述中,为了解释的目的,阐述了很多具体细节以便提供对本专利技术的彻底理解。然而,对本领域的技术人员而言显而易见的是,可以在不存在这些具体细节的情况下实践本专利技术。在其他实例中,结构和设备被以框图的形式示出,以便避免模糊本专利技术。对没有下标或后缀的数字的引用应当理解为引用对应于附图标记的所有下标和后缀情况。此外,本公开中所使用的语言已主要被选择用于可读性和指导性目的,并且可能没有被选择为划定或限定本专利技术的主题,从而诉诸于所必需的权利要求以确定此类专利技术主题。在说明书中提到“一个实施方案”或“一种实施方案”意指在本专利技术的至少一个实施方案中包括的结合该实施方案描述的特定特征、结构或特性,并且多次提到“一个实施方案”或“一种实施方案”不应被理解为全部必然地参考相同的实施方案。现在转到图1A,示出了参考颜色图像102和对应的期望视差映射104的示例100。如图1A所示,参考颜色图像102中的前景和背景本文档来自技高网
...

【技术保护点】
1.一种非暂态程序存储设备,所述非暂态程序存储设备包括被存储在其上的指令,所述指令使得一个或多个处理器:/n获得场景的第一图像,所述第一图像包括多个第一像素,所述像素具有色值;/n获得包括多个第一值的第一深度或视差信息,其中每个值对应于所述场景中的位置;/n获得包括多个第一分割值的至少一个分割掩模,其中每个分割值对应于所述场景中的位置;/n针对所述至少一个分割掩模中的至少一个获得至少一个正则化项;以及/n执行优化操作以生成第一深度或视差映射,/n其中所述优化操作至少部分地基于所述多个第一像素、所述第一深度或视差信息、所述至少一个分割掩模和所述至少一个正则化项。/n

【技术特征摘要】
20180911 US 62/729,8451.一种非暂态程序存储设备,所述非暂态程序存储设备包括被存储在其上的指令,所述指令使得一个或多个处理器:
获得场景的第一图像,所述第一图像包括多个第一像素,所述像素具有色值;
获得包括多个第一值的第一深度或视差信息,其中每个值对应于所述场景中的位置;
获得包括多个第一分割值的至少一个分割掩模,其中每个分割值对应于所述场景中的位置;
针对所述至少一个分割掩模中的至少一个获得至少一个正则化项;以及
执行优化操作以生成第一深度或视差映射,
其中所述优化操作至少部分地基于所述多个第一像素、所述第一深度或视差信息、所述至少一个分割掩模和所述至少一个正则化项。


2.根据权利要求1所述的非暂态程序存储设备,其中所述指令还使得所述一个或多个处理器:至少部分地基于所述生成的第一深度或视差映射来生成所述第一图像的模糊版本。


3.根据权利要求1所述的非暂态程序存储设备,其中所述指令还使得所述一个或多个处理器:获得针对所述至少一个所获得的分割掩模中的一个的置信掩模,其中所述优化操作还至少部分地基于所述获得的置信掩模。


4.根据权利要求1所述的非暂态程序存储设备,其中所述指令还使得所述一个或多个处理器:获得针对所述至少一个分割掩模中的至少一个的最大影响值,其中所述优化操作还至少部分地基于所述获得的最大影响值。


5.根据权利要求1所述的非暂态程序存储设备,其中所述至少一个分割掩模包括至少两个分割掩模,其中所述指令还使得所述一个或多个处理器针对所述至少两个分割掩模中的每个获得至少一个正则化项,并且其中所述优化操作还至少部分地基于针对所述至少两个分割掩模中的每个的所述获得的正则化项。


6.根据权利要求1所述的非暂态程序存储设备,其中所述多个第一值中的至少一个值对应于用于捕获所述第一图像的图像捕获设备的聚焦像素的位置。


7.根据权利要求1所述的非暂态程序存储设备,其中所述至少一个正则化项中的至少一个强制执行平滑约束。


8.一种电子设备,包括:
存储器;
一个或多个图像捕获设备;
显示器;
用户界面;以及
一个或多个处理器,所述一个或多个处理器可操作地耦接到所述存储器,其中所述一个或多个处理器被配置为执行使得所述一个或多个处理器执行以下操作的指令:
从所述一个或多个图像捕获设备获得场景的第一图像,所述第一图像包括多个第一像素,所述像素具有色值;
获得包括多个第一值的第一深度或视差信息,其中每个值对应于所述场景中的位置;
获得包括多个第一分割值的至少一个分割掩模,其中每个分割值对应于所述场景中的位置;
针对所述至少一个分割掩模中的至少一个获得至少一个正则化项;以及
执行优化操作以生成第一深度或视差映射,
其中所述优化操作至少部分地基于所述多个第一像素、所述第一深度或视差信息、所述至少一个分割掩模和所...

【专利技术属性】
技术研发人员:M·N·朱皮A·林德斯科格M·W·陶
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1