移动增强现实中的细粒度视觉识别制造技术

技术编号:34508591 阅读:35 留言:0更新日期:2022-08-13 20:53
获得对对象的三维点云表示的访问,三维点云表示包括扫描数字相机的位姿和对应的视频帧。对三维点云表示进行下采样以获得感兴趣区域候选的集合。过滤感兴趣区域候选以至少部分基于相机的位姿来选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域。从视频帧中的对应视频帧生成针对所选择的感兴趣区域的感兴趣区域图像;以及基于感兴趣区域图像来训练深度学习识别模型。被训练的深度学习识别模型可以用于例如确定对象的视觉状态以用于修复指令。指令。指令。

【技术实现步骤摘要】
【国外来华专利技术】移动增强现实中的细粒度视觉识别


[0001]本专利技术涉及电气、电子和计算机领域,并且更具体地,涉及增强现实(AR)系统等。

技术介绍

[0002]增强现实(AR)通过在真实世界中所看到的之上覆盖媒体和图形来增强对周围环境的感知。在过去的十年中,已经取得了重大的进步,并且对AR的兴趣也在增加。尽管有这种进步,但是大多数AR用户体验仍然是原始的,并且缺乏智能和自动化,这使得用户交互相当不直观。尽管AR能够通过计算机视觉技术来跟踪物理空间中的虚拟对象和注释,但是实际上识别其所看到的语义并不固有地智能。例如,在技术支持领域中,AR可以识别点云形式的膝上型计算机以使得能够在膝上型计算机的顶部上跟踪注释,但是在用户没有将该特定点云标记为膝上型计算机的情况下,AR实际上不知道它正在看着膝上型计算机。AR也不能理解膝上型计算机的盖子是打开的还是关闭的,或者膝上型计算机的散热器是被移除的,等等。当前技术要求在用户可以将相关AR内容投影到用户的视图之前,由用户驱动的所有交互识别用户正在看什么(例如,通过预先标记对象、指定对象的状态等),从而显著地限制交互。因此,在本领域中需要解决上述问题。

技术实现思路

[0003]方法包括:获得对对象的三维点云表示的访问,三维点云表示包括扫描数字相机的位姿和对应的视频帧;对三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤感兴趣区域候选以至少部分基于相机的位姿选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域;从视频帧中的对应视频帧生成所选择的感兴趣区域的感兴趣区域图像;以及基于感兴趣区域图像来训练深度学习识别模型。
[0004]从另一方面来看,本专利技术提供了非暂时性计算机可读介质,其包括计算机可执行指令,计算机可执行指令在由计算机执行时使计算机执行方法,方法包括:获得对对象的三维点云表示的访问,三维点云表示包括扫描数字相机的位姿和对应的视频帧;对三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤感兴趣区域候选以至少部分基于相机的位姿选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域;从视频帧中的对应视频帧生成所选择的感兴趣区域的感兴趣区域图像;以及基于感兴趣区域图像来训练深度学习识别模型。
[0005]从另一方面来看,本专利技术提供了装置,包括:存储器;以及至少一个处理器,其耦合到存储器,并且可操作以:获得对对象的三维点云表示的访问,三维点云表示包括扫描数字相机的位姿和对应的视频帧;对三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤感兴趣区域候选以至少部分基于相机的位姿选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域;从视频帧中的对应视频帧生成所选择的感兴趣区域的感兴趣区域图像;以及基于感兴趣区域图像来训练深度学
习识别模型。
[0006]从另一方面来看,本专利技术提供了用于增强现实的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质可由处理电路读取并且存储由处理电路执行以执行用于执行本专利技术的步骤的方法的指令。
[0007]从另一方面来看,本专利技术提供了计算机程序,其存储在计算机可读介质上并且可加载到数字计算机的内部存储器中,其包括软件代码部分,当程序在计算机上运行时,用于执行本专利技术的步骤。
[0008]本专利技术的原理提供了用于移动增强现实中的细粒度(fine

grained)视觉识别的技术。在一个方面,示例性方法包括以下步骤:获得对对象的三维点云表示的访问,该三维点云表示包括扫描数字相机的位姿和对应的视频帧;对三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤感兴趣区域候选以至少部分基于相机的位姿选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域;从视频帧中的对应视频帧生成针对所选择的感兴趣区域的感兴趣区域图像;基于感兴趣区域图像训练深度学习识别模型。
[0009]如本文所使用的,“促进”动作包括执行动作、使动作更容易、帮助执行动作、或使得动作被执行。因此,作为示例而非限制,在一个处理器上执行的指令可以通过发送适当的数据或命令以促使或帮助要执行的动作来促进由在远程处理器上执行的指令所执行的动作。为了避免疑惑,在行动者通过执行动作之外的动作来促进动作的情况下,该动作仍然由某个实体或实体的组合来执行。
[0010]本专利技术的一个或多个实施例或其元件可以以计算机程序产品的形式实现,该计算机程序产品包括具有用于执行所示方法步骤的计算机可用程序代码的计算机可读存储介质。此外,本专利技术的一个或多个实施例或其元件可以以系统(或装置)的形式实现,该系统(或装置)包括存储器和至少一个处理器,该处理器耦合到存储器并且操作用于执行示例性方法步骤。此外,在另一方面,本专利技术的一个或多个实施例或其元件可以以用于执行本文描述的一个或多个方法步骤的装置的形式来实现;装置可以包括(i)硬件模块,(ii)存储在计算机可读存储介质(或多个该介质)中并在硬件处理器上实现的软件模块,或(iii)(i)和(ii)的组合;(i)

(iii)中的任何一个实现这里阐述的特定技术。
[0011]本专利技术的技术可以提供实质上有益的技术效果。例如,一个或多个实施例提供以下中的一个或多个:对诸如被修复的机器的物品的状态的细粒度视觉识别,对于诸如被用户的手或工具的遮挡是鲁棒的,对于相机移动是鲁棒的,并且自动忽略模糊的图像。
[0012]通过结合附图阅读的本专利技术的说明性实施例的以下详细描述,本专利技术的这些和其它特征和优点将变得显而易见。
附图说明
[0013]现在将参照优选实施例仅通过示例的方式描述本专利技术,如以下附图所示:
[0014]图1示出了根据本专利技术实施例的云计算环境;
[0015]图2示出了根据本专利技术实施例的抽象模型层;
[0016]图3A、3B、3C和3D示出了可以使用本专利技术的实施例来检测的计算机的示例性视觉状态;
[0017]图4是根据本专利技术实施例的组合数据流/框图;
[0018]图5是根据本专利技术实施例的可替换组合的数据流/框图;
[0019]图6示出了根据本专利技术的实施例的用于感兴趣区域(ROI)生成的示例性过程;
[0020]图7示出了根据本专利技术的实施例的用于感兴趣区域(ROI)选择的示例性过程;
[0021]图8是根据本专利技术实施例的具有运行时间细节的组合的数据流/框图;
[0022]图9是根据本专利技术的实施例的示例性模型设计;
[0023]图10是示出根据本专利技术的实施例的选择用于重新定位的正确对象模型的位姿无关粗粒度识别的流程图;
[0024]图11示出了可以由本专利技术的实施例有效地处理的ROI遮挡的示例;
[0025]图12示出了根据本专利技术的实施例的ROI优化如何评估设备的移动速度、视角和距离以选择最佳采集的ROI图像;
[0026]图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得对对象的三维点云表示的访问,所述三维点云表示包括扫描数字相机的位姿和对应的视频帧;对所述三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤所述感兴趣区域候选以至少部分基于所述相机的所述位姿选择所述感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选,作为所选择的感兴趣区域;从所述视频帧中的对应视频帧生成所选择的感兴趣区域的感兴趣区域图像;以及基于所述感兴趣区域图像来训练深度学习识别模型。2.根据权利要求1所述的方法,还包括使用所训练的深度学习识别模型利用耦合到处理器的所述数字相机来确定所述对象的视觉状态。3.根据权利要求2所述的方法,还包括基于所确定的状态向用户提供与所述对象相关的增强现实指令。4.根据权利要求3所述的方法,还包括在确定所述对象的所述状态之前,相对于所述对象重新定位所述数字相机。5.根据权利要求4所述的方法,其中,对所述三维点云表示进行所述下采样以获得所述感兴趣区域候选的集合包括去除离群值。6.根据权利要求5所述的方法,其中,过滤所述感兴趣区域候选以选择所述感兴趣区域候选中具有所述外观改变的那些感兴趣区域候选包括图像裁剪和缩放。7.根据权利要求4至6中任一项所述的方法,其中,所述对象的所述状态的所述确定包括:采集所述感兴趣区域中具有被占用的感兴趣体素的那些感兴趣区域的图像;向所述识别模型提供具有所述被占用的体素的所述感兴趣区域中的每一个的对应的缩放的局部图像和查看位姿。8.根据权利要求7所述的方法,其中,所述模型包括多流卷积神经网络长短期记忆模型;以及所述对象的所述状态的所述确定包括:将所述感兴趣区域分成多个分支;使用所述多流卷积神经网络长短期记忆模型的卷积神经网络从所述对应的缩放的局部图像提取特征;通过连接所提取的特征来聚集空间信息;通过池化多个时间步的所述空间信息来聚集时间信息,并且将所池化的信息提供给长短期记忆层来获得用于分类的完全连接的层,以确定所述对象的所述状态。9.根据权利要求7或8中的任一项所述的方法,还包括抑制采集所述感兴趣区域中的不具有被占用的感兴趣体素的那些感兴趣区域的图像,以降低对遮挡和相机不稳定性中的至少一个的敏感度。10.根据权利要求3到9中任一项所述的方法,其中,所述对象包括要被修复的信息技术资产,所述数字相机和所述处理器是移动设备的一部分,并且所述增强现实指令的所述提供包括示出所述信息技术资产的修复过程。
11.一种装置,包括:存储器;以及至少一个处理器,其耦合到所述存储器,并操作以:获得对对象的三维点云表示的访问,所述三维点云表示包括扫描数字相机的位姿和对应的视频帧;对所述三维点云表示进行下采样以获得感兴趣区域候选的集合;过滤所述感兴趣区域候选以至少部分基于所述相机的所述位姿选择所述感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选,作为所选择...

【专利技术属性】
技术研发人员:周兵S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1