移动增强现实中的细粒度视觉识别制造技术

技术编号：34508591 阅读：35 留言：0更新日期：2022-08-13 20:53

获得对对象的三维点云表示的访问，三维点云表示包括扫描数字相机的位姿和对应的视频帧。对三维点云表示进行下采样以获得感兴趣区域候选的集合。过滤感兴趣区域候选以至少部分基于相机的位姿来选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域。从视频帧中的对应视频帧生成针对所选择的感兴趣区域的感兴趣区域图像；以及基于感兴趣区域图像来训练深度学习识别模型。被训练的深度学习识别模型可以用于例如确定对象的视觉状态以用于修复指令。指令。指令。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】移动增强现实中的细粒度视觉识别

[0001]本专利技术涉及电气、电子和计算机领域，并且更具体地，涉及增强现实(AR)系统等。

技术介绍

[0002]增强现实(AR)通过在真实世界中所看到的之上覆盖媒体和图形来增强对周围环境的感知。在过去的十年中，已经取得了重大的进步，并且对AR的兴趣也在增加。尽管有这种进步，但是大多数AR用户体验仍然是原始的，并且缺乏智能和自动化，这使得用户交互相当不直观。尽管AR能够通过计算机视觉技术来跟踪物理空间中的虚拟对象和注释，但是实际上识别其所看到的语义并不固有地智能。例如，在技术支持领域中，AR可以识别点云形式的膝上型计算机以使得能够在膝上型计算机的顶部上跟踪注释，但是在用户没有将该特定点云标记为膝上型计算机的情况下，AR实际上不知道它正在看着膝上型计算机。AR也不能理解膝上型计算机的盖子是打开的还是关闭的，或者膝上型计算机的散热器是被移除的，等等。当前技术要求在用户可以将相关AR内容投影到用户的视图之前，由用户驱动的所有交互识别用户正在看什么(例如，通过预先标记对象、指定对象的状态等)，从而显著地限制交互。因此，在本领域中需要解决上述问题。

技术实现思路

[0003]方法包括：获得对对象的三维点云表示的访问，三维点云表示包括扫描数字相机的位姿和对应的视频帧；对三维点云表示进行下采样以获得感兴趣区域候选的集合；过滤感兴趣区域候选以至少部分基于相机的位姿选择感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选作为所选择的感兴趣区域；从视频帧中的对应视频帧生成所...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：获得对对象的三维点云表示的访问，所述三维点云表示包括扫描数字相机的位姿和对应的视频帧；对所述三维点云表示进行下采样以获得感兴趣区域候选的集合；过滤所述感兴趣区域候选以至少部分基于所述相机的所述位姿选择所述感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选，作为所选择的感兴趣区域；从所述视频帧中的对应视频帧生成所选择的感兴趣区域的感兴趣区域图像；以及基于所述感兴趣区域图像来训练深度学习识别模型。2.根据权利要求1所述的方法，还包括使用所训练的深度学习识别模型利用耦合到处理器的所述数字相机来确定所述对象的视觉状态。3.根据权利要求2所述的方法，还包括基于所确定的状态向用户提供与所述对象相关的增强现实指令。4.根据权利要求3所述的方法，还包括在确定所述对象的所述状态之前，相对于所述对象重新定位所述数字相机。5.根据权利要求4所述的方法，其中，对所述三维点云表示进行所述下采样以获得所述感兴趣区域候选的集合包括去除离群值。6.根据权利要求5所述的方法，其中，过滤所述感兴趣区域候选以选择所述感兴趣区域候选中具有所述外观改变的那些感兴趣区域候选包括图像裁剪和缩放。7.根据权利要求4至6中任一项所述的方法，其中，所述对象的所述状态的所述确定包括：采集所述感兴趣区域中具有被占用的感兴趣体素的那些感兴趣区域的图像；向所述识别模型提供具有所述被占用的体素的所述感兴趣区域中的每一个的对应的缩放的局部图像和查看位姿。8.根据权利要求7所述的方法，其中，所述模型包括多流卷积神经网络长短期记忆模型；以及所述对象的所述状态的所述确定包括：将所述感兴趣区域分成多个分支；使用所述多流卷积神经网络长短期记忆模型的卷积神经网络从所述对应的缩放的局部图像提取特征；通过连接所提取的特征来聚集空间信息；通过池化多个时间步的所述空间信息来聚集时间信息，并且将所池化的信息提供给长短期记忆层来获得用于分类的完全连接的层，以确定所述对象的所述状态。9.根据权利要求7或8中的任一项所述的方法，还包括抑制采集所述感兴趣区域中的不具有被占用的感兴趣体素的那些感兴趣区域的图像，以降低对遮挡和相机不稳定性中的至少一个的敏感度。10.根据权利要求3到9中任一项所述的方法，其中，所述对象包括要被修复的信息技术资产，所述数字相机和所述处理器是移动设备的一部分，并且所述增强现实指令的所述提供包括示出所述信息技术资产的修复过程。
11.一种装置，包括：存储器；以及至少一个处理器，其耦合到所述存储器，并操作以：获得对对象的三维点云表示的访问，所述三维点云表示包括扫描数字相机的位姿和对应的视频帧；对所述三维点云表示进行下采样以获得感兴趣区域候选的集合；过滤所述感兴趣区域候选以至少部分基于所述相机的所述位姿选择所述感兴趣区域候选中具有区分不同视觉状态的外观改变的那些感兴趣区域候选，作为所选择...

【专利技术属性】
技术研发人员：周兵，S，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人