利用场景图分析图像的方法和系统技术方案

技术编号:25639427 阅读:32 留言:0更新日期:2020-09-15 21:31
描述了用于通过一个或多个处理器分析图像的实施例。接收图像。检测出现在图像中的对象。为对象生成场景图。为对象确定至少一个变换矩阵。当对象基于场景图而出现在图像中时,至少一个变换矩阵与渲染对象相关联。

【技术实现步骤摘要】
利用场景图分析图像的方法和系统
本专利技术总体上涉及计算系统,并且更具体地涉及用于分析图像和/或执行计算机视觉任务的各种实施例。
技术介绍
通常,“计算机视觉”是指使用计算机(或计算设备、系统等)获取对图像(例如,数字图像)(包括静止/静态图像和视频(或视频帧)两者)的理解(例如,分析、处理、获取等)。相对而言,“计算机图形学”通常是指使用计算机来创建图像和/或视频(例如,场景渲染)。因此,从某种意义上讲,计算机图形学是计算机视觉的一种倒置(或相反)。利用深度学习(和/或机器学习、认知分析等)的最新趋势已经导致尝试利用计算机图形技术来改善计算机视觉任务。例如,由于计算机图形学是计算机视觉的一种倒置,因此一些尝试已经利用自动编码器来迫使学习图像中的对象的解耦表示。特别地,代替遵循经典的编码器解码器方案来学习整个图像的矢量表示,一些尝试提议在解码器之后添加图形渲染引擎以迫使网络学习对象的解耦表示。这样做可以使得系统能够以无监督的方式学习具有很多潜在应用的对象的表示,诸如人工渲染以及对象检测和/或跟踪。然而,这种方法具有局限性,因为基本的假定是对象本质上是“固体”(即,没有运动部分),诸如球、杯子、椅子等的情况。相对而言,很多“真实世界”对象具有很多独立的部分(例如,人体具有头部、身体/躯干、手臂、腿、手、脚、眼睛等),这些部分可以一起移动或独立移动,这取决于它们所连接的其他部分。这样,这种对象的适当的视觉表示要复杂得多。
技术实现思路
描述了用于通过一个或多个处理器分析图像的各种实施例。在一个实施例中,仅作为示例,提供了一种再次通过一个或多个处理器分析图像的方法。接收图像。检测出现在图像中的对象。为对象生成场景图。为对象确定至少一个变换矩阵。当对象基于场景图而出现在图像中时,至少一个变换矩阵与渲染对象相关联。附图说明为了容易理解本专利技术的优点,将通过参考附图中示出的特定实施例来对以上简要描述的本专利技术进行更具体的描述。应当理解,这些附图仅描绘了本专利技术的典型实施例,因此不应当被认为是对本专利技术的范围的限制,将通过使用附图以附加的特征和细节来描述和解释本专利技术,在附图中:图1是描绘根据本专利技术的实施例的示例性计算节点的框图;图2是描绘根据本专利技术的实施例的示例性云计算环境的附加框图;图3是描绘根据本专利技术的实施例的抽象模型层的附加框图;图4是根据本专利技术的实施例的用于分析图像的系统和/或方法的框图/流程图;图5是根据本专利技术的实施例的示例性场景图的框图;图6是示出根据本专利技术的实施例的功能的一些方面的框图/流程图;图7是根据本专利技术的实施例的用于分析图像的系统和/或方法的框图/流程图;以及图8是根据本专利技术的实施例的用于分析图像的示例性方法的流程图。具体实施方式如上所述,通常,至少在某种意义上,“计算机视觉”可以被认为是“计算机图形学”的倒置(或相反)。更具体地,计算机视觉是指使用计算机(或计算设备、系统等)获取对图像(例如,数字图像)(包括静止/静态图像和视频(或视频帧)两者)的理解(例如,分析、处理等)。相对而言,“计算机图形学”通常是指使用计算机来创建图像和/或视频(例如,场景渲染)。近年来,已经尝试利用深度学习(和/或机器学习、认知分析等)和计算机图形技术来改善计算机视觉任务。例如,由于计算机图形学是计算机视觉的一种倒置,因此一些尝试已经利用自动编码器来迫使学习图像中的对象的解耦表示。特别地,代替遵循经典的编码器解码器方案来学习整个图像的矢量表示,一些尝试提议在解码器之后添加图形渲染引擎以迫使网络学习对象的解耦表示。这样做可以使得系统能够以无监督方式学习具有很多潜在应用的对象的表示,诸如人工渲染以及对象检测和/或跟踪。然而,这种方法具有局限性,因为基本的假定是对象本质上是“固体”(即,没有运动部分),诸如球、杯子、椅子等。相对而言,很多对象具有很多独立的部分(例如,人体具有头部、身体/躯干、手臂、腿、手、脚、眼睛等),这些部分可以一起移动或独立移动,这取决于它们所连接的其他部分。这样,这种对象的适当的视觉表示要复杂得多。为了满足这些需求,在本文中描述的一些实施例中,公开了利用场景图以无监督方式来学习例如对象的三维(3D)表示的方法和/或系统。换言之,本文中描述的一些实施例将场景图用于计算机视觉技术或任务。如本领域技术人员将理解的,在计算机图形学中,场景图(或图形场景图)是布置图形场景和/或图形场景内的对象的逻辑和/或空间表示的通用数据结构。场景图通常是图形或“树”结构中的节点的集合,其中每个节点表示例如对象的一部分。树节点可以具有很多子节点,但是只具有单个父节点,其中父节点的效果应用于其所有子节点。对组执行的操作自动地将其效果传播到其所有成员。在很多情况下,在每个组级别关联几何变换(或变换的)矩阵并且将这样的矩阵连结在一起是一种处理这样的操作的有效且自然的方法。根(或世界)节点可以表示整个对象,并且保留将整个对象从局部坐标系变换到世界坐标系并且在相机空间中渲染对象的变换矩阵。共同特征是能够将相关的形状和对象分组为复合对象,该复合对象然后可以像单个对象一样被轻松地移动、变换、选择等。场景图被认为是对象的有效表示,而与姿势和视角(即,相机视角、查看(多个)对象的角度等)无关。使用例如场景图形式的对象的图形表示,计算机图形学可以通过应用变换矩阵(例如,旋转、缩放、平移、投影等)来渲染或生成图像。相对而言,计算机视觉通常接收图像输入作为,并且可以使用例如神经网络(或机器学习、认知分析等)或经典的计算机视觉(例如,对象检测)执行各种任务,诸如对象检测、定位、和/或跟踪和场景分类。如上所述,最近已经尝试将自动编码器用于计算机视觉任务。通常,自动编码器是(或利用)用于以无监督方式学习有效数据编码的人工神经网络。自动编码器的总体目标是通过训练网络忽略信号“噪声”来学习一组数据(通常用于降低维度)的表示(或编码)。学习重构侧(或“解码”)以及降低侧,其中自动编码器基于降低的编码来尝试生成与原始输入尽可能接近的表示。关于计算机视觉的最新尝试,经典的自动编码器接收图像作为输入。编码器生成单个嵌入矢量,然后解码器从中尝试重构原始图像。这种方法对于诸如对象跟踪和视频生成等应用而言效率不高,因为嵌入矢量未表示图像中的单独对象。一些最近的发展已经尝试在解码器之后(即,从解码器接收输入)利用图形渲染引擎来迫使网络学习图像中的对象的解耦表示。在这种情况下,编码器生成每个对象的中间表示,该中间表示必须是实际的视觉表示(即,当对象出现在图像中时)。解码器为中间表示生成变换矩阵,然后由计算机图形渲染引擎使用这些变换矩阵来重构原始图像。这样的系统可以被“训练”以优化性能和/或最小化误差。然而,如上所述,一些对象包括可以独立和/或相对于彼此移动的多个部分(portion)或部分(part)。此外,当各部分移动时和/或当从不同角度查看时,某些对象看起来会有所不同。这样,将对象(例如,出现在单个图像中的同一本文档来自技高网...

【技术保护点】
1.一种由一个或多个处理器执行的用于分析图像的方法,包括:/n接收图像;/n检测出现在所述图像中的对象;/n为所述对象生成场景图;以及/n为所述对象确定至少一个变换矩阵,其中当所述对象基于所述场景图而出现在所述图像中时,所述至少一个变换矩阵与渲染所述对象相关联。/n

【技术特征摘要】
20190308 US 16/296,6921.一种由一个或多个处理器执行的用于分析图像的方法,包括:
接收图像;
检测出现在所述图像中的对象;
为所述对象生成场景图;以及
为所述对象确定至少一个变换矩阵,其中当所述对象基于所述场景图而出现在所述图像中时,所述至少一个变换矩阵与渲染所述对象相关联。


2.根据权利要求1所述的方法,还包括利用所述场景图和所述至少一个变换矩阵生成第二图像。


3.根据权利要求2所述的方法,其中所述场景图的所述生成、所述至少一个变换矩阵的所述确定和所述第二图像的所述生成利用自动编码器被执行,并且所述自动编码器包括编码器、解码器和渲染引擎,并且其中所述编码器被配置为为所述对象生成所述场景图,所述解码器被配置为基于所述场景图确定所述至少一个变换矩阵,并且所述渲染引擎被配置为基于所述场景图和所述至少一个变换矩阵生成所述第二图像。


4.根据权利要求2所述的方法,其中所述场景图的所述生成、所述至少一个变换矩阵的所述确定和所述第二图像的所述生成利用自动编码器被执行,并且所述方法还包括利用无监督学习方法训练所述自动编码器。


5.根据权利要求1所述的方法,还包括:
检测出现在所述图像中的第二对象,其中所述对象具有第一对象类型并且所述第二对象具有第二对象类型;
为所述第二对象生成第二场景图;以及
为所述第二对象确定至少一个第二变换矩阵,其中当所述第二对象基于所述第二场景图而出现在所述图像中时,所述至少一个第二变换矩阵与渲染所述第二对象相关联。


6.根据权利要求1所述的方法,还包括检测出现在所述图像中的第二对象,其中所述对象和所述第二对象具有相同的对象类型,并且其中当所述第二对象基于所述场景图而出现在所述图像中时,所述至少一个变换矩阵还与渲染所述第二对象相关联。


7.根据权利要求6所述的方法,还包括:
检测出现在所述图像中的第三对象,其中所述对象和所述第二对象具有第一对象类型并且所述第三对象具有第二对象类型;
为所述第三对象生成第二场景图;以及
为所述第三对象确定至少一个第二变换矩阵,其中当所述第三对象基于所述第二场景图而出现在所述图像中时,所述至少一个第二变换矩阵与渲染所述第三对象相关联。


8.一种用于分析图像的系统,包括:
至少一个处理器,用于
接收图像;
检测出现在所述图像中的对象;
为所述对象生成场景图;以及
为所述对象确定至少一个变换矩阵,其中当所述对象基于所述场景图而出现在所述图像中时,所述至少一个变换矩阵与渲染所述对象相关联。


9.根据权利要求8所述的系统,其中所述至少一个处理器还利用所述场景图和所述至少一个变换矩阵生成第二图像。


10.根据权利要求9所述的系统,其中所述场景图的所述生成、所述至少一个变换矩阵的所述确定和所述第二图像的所述生成利用自动编码器被执行,并且所述自动编码器包括编码器、解码器和渲染引擎,并且其中所述编码器被配置为为所述对象生成所述场景图,所述解码器被配置为基于所述场景图确定所述至少一个变换矩阵,并且所述渲染引擎被配置为基于所述场景图和所述至少一个变换矩阵生成所述第二图像。


11.根据权利要求9所述的系统,其中所述场景图的所述生成、所述至少一个变换矩阵的所述确定和所述第二图像的所述生成利用自动编码器被执行,并且其中所述至少一个处理器还利用无监督学习方法训练所述自动编码器。


12.根据权利要求8所述的系统,其中所述至少一个处理器还:
检测出现在所述图像中的第二对象,其中所述对象具有第一对象类型并且所述第二对象具有第二对象类型;
为所述第二对象生成第二场景图;以及
为所述第二对象确...

【专利技术属性】
技术研发人员:T·L·洪B·比塞尔N·M·谭C·约基姆
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1