当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于RGB图像的三维重建方法技术

技术编号:31236042 阅读:16 留言:0更新日期:2021-12-08 10:18
本发明专利技术公开了一种手部三维建模的方法,具体包括手部检测;特征生成;手部三维重建三个步骤。该方法通过RGB图像实现手部三维重建,不需要使用手部的多视图图像,并利用深度学习技术实现从二维图像到三维手部模型的映射,替代了传统的几何方法和复杂的专业软件构建手部,通过深度学习的方法来提取特征,而不是利用几何线条去构建,采用目前公开的数据和一些合成的数据来进行训练,利用深度学习实现三维重建能达到建模快,精度高。精度高。精度高。

【技术实现步骤摘要】
一种基于RGB图像的三维重建方法


[0001]本专利技术涉及计算机视觉和计算机仿真领域,具体是指基于RGB图像的手部三维重建方法。

技术介绍

[0002]随着虚拟现实、增强现实等三维技术的出现,人机交互的应用场景的要求在不断变化,它要求场景更加生动、人物角色也更加逼真,一切朝着复杂、逼真和高精度的要求在发展。与此同时,听觉交互和视觉交互等人机交互的方式已经不能够满足业界的需求。手是人类与环境互动的最自然的方式之一,这使得手在三维场景的人机交互中也起到同样重要的作用,而手部三维重建是实现手在三维场景下的人机交互这一应用下的基础。手部三维重建是指利用获取的手部空间信息,还原出手在三维场景下的三维模型。手部三维重建的目的是通过获取到的数据,恢复在三维场景下手的形状、姿态和精细的表面,以此来完成手的重建。
[0003]随着深度摄像机的出现,基于RGB

D图像的手部三维重建相继发展,但因为设备的价格昂贵,深度图像数据难以获得。由于RGB相机比深度摄像机应用广泛,RGB图像数据容易获得,所以采用RGB图像进行手部三维重建更方便。目前的人机交互的方式在一些领域已经取得了研究成果,比如语音识别、人脸识别、指纹识别、人体姿态识别等,这些人机交互的方式已经发展的比较成熟了。面部表情和言语在交流中起着重要的作用,重要的非言语信息也通过身体动作进行交流,特别是手和手指的动作,以强调我们的言语,阐明我们的思想,传达情感。手作为非语言的交流方式,手在人机交互中也起到了不可或缺的作用。当人们在无法用言语表达的情况下,通过手部动作就可以理解对方意图,从而完成交流。在人与物体进行接触的时候,手与物体的交互就能够达到交流。然而,随着虚拟现实、增强现实等技术的出现,也需要我们建模手,尤其在三维场景下,手的建模需要达到逼真的效果,以实现与虚拟环境的直观和身临其境的交互。一直以来,有关手的重建一直也在研究当中,但由于手空间的高维度、姿势和形状的变化、遮挡和自我封闭等的多样性和复杂性,手部三维重建一直是计算机图形学和计算机视觉的重要研究方向。
[0004]随着商业相机的出现,RGB

D图像也被用于手部三维重建的研究。RGB

D图像是深度图像和RGB图像组成的。借助深度照相机,一个简单的想法是将一个三维手形拟合到其相应的深度图中,并迭代优化它。近年来也有许多方法用于RGB

D图像完成手部三维重建:(1)利用一种基于二维CNN的方法,可以直接从二维深度图估算形状。
[0005](2)使用深度图的三维体像素化网格来估计三维关节热图的作品,从而避免了透视失真。然而,通过直接回归网格顶点的三维热图来扩展形状估计的工作在实践中是不可行的。
[0006](3)将手部深度图像编码为三维体,使用三维CNN来推断手部的三维姿态。该方法将稀疏点云转换为密集的体积表示,以实现有效的三维卷积。但这种转换改变了数据的性质,使数据变得不必要的庞,而且分辨率处于一个低分辨率的状态,还可能会丢失手的细
节。
[0007]除了以上基于CNN的方法在深度图像上的研究,也可以直接从深度图像中估算出三维关节位置。然而,这些方法的主要弱点是预测是粗糙的,没有明确考虑运动学和几何约束。再者RGB

D图像不易获取,因此RGB图像成为了研究的对象。
[0008]由于RGB图像容易获取,因此目前都开始往RGB图像进行转变。但由于RGB图像缺乏深度信息,会造成透视的模糊性。目前研究提出了一种基于弱监督回归的方法,从单个RGB图像中直接估计手的形状和姿势。此外,他们的方法还可以直接从估计的手形估计三维姿态。然而,在训练数据集中,它需要构造具有相应手形的手关键点,这在很大程度上取决于热图估计的质量。除了透视的模糊性以外,另一个挑战是缺乏高质量的带注释的3D手姿数据。为了解决这一问题,目前研究开始使用合成数据来进行研究,但基于合成数据训练的网络不能很好地推广到真实世界的图像。虽然目前有很多方法在对于RGB图像缺乏深度信息而带来的模糊性的问题作出了很多工作,但效果依然不是很理想。由于手的灵巧性、对称性和自相似性,以及由于闭塞、不同的照明条件和缺乏准确的比例估计而造成的困难,仅从单目RGB图像估计出完整的3D手姿势是一项更具挑战性的任务。因此,对于数据集选择探究的方向来看,从RGB图像进行手部三维重建的研究具有广阔的发展空间。
[0009]手部检测算法目前也出来了一些研究,有的是基于CNN的,基于R

CNN的,还有基于Mask

CNN的等手部检测算法实现在简单的环境下完成检测。在受限制的环境中(通常只有单手和图像中的简单背景),手部也可以很容易地被检测到或假设已经被裁剪。由于在彩色图像中灵巧的人类手(例如,不同的手形、肤色、照明、方向和比例等)的复杂外观多样性,在无限制的环境下(多手和复杂的背景)下检测手仍然是一项具有挑战性的任务。
[0010]近年来的手部三维重建技术不仅有手部关键点检测、手部姿态估计,还有最近出现的三维手部网格重建,这是研究的新的突破。现有的基于RGB图像的手部三维分析方法大多集中在手部关键点或姿态的估计上,无法捕捉手部三维形状的几何细节。传统的手部三维重建是基于几何线条和3Dmax等专业软件完成建模,这些传统的方法计算量大,复杂度高且需要高超的专业知识,速度慢。因此,利用深度学习的方法进行研究成为了发展趋势。与此同时,相比手部姿态估计,三维手部网格重建极少有人在研究,三维手部网格重建是一个最新的研究领域,因此三维手部网格重建值得进行深入的研究。
[0011]综上所述,手部三维重建目前主要是基于RGB

D图像和基于RGB图像的研究。其中,以RGB

D图像为基础的研究精确度高但成本昂贵且受环境约束,实用性不强。而以RGB图像为基础的研究数据容易获取,实用价值高。因此,采用RGB图像进行手部三维重建是具有一定的可行性的价值。

技术实现思路

[0012]针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种以RGB图像作为数据集基础,仅采用单张RGB照片就可实现三维手部重建的基于RGB图像的手部三维重建方法。
[0013]本专利技术的目的在于提供一种对手部三维重建的仿真方法。本专利技术具体实现如下所示:(1)数据集的使用。利用高保真三维手数据集和FreiHand数据集进行手部重建,该数据集可以重建高保真的手和提高单目手部姿态估计任务的泛化性能,大规模的纹理数据也为获得高精度孔尺度的手表面提供了更多的可能性。后期按照需求还将创建一个新的合成数
据集,让本研究达到更高的准确。
[0014](2) 对输入的一张RGB图像进行手部检测,定位出图像中的手并裁剪出手部区域。提出了一种新型的手部检测算法,将在Faster R

CNN和VAE的基础上引入了GAN,通过共享区域建议层中提取的特征,检测手部区域并并行重建手部外观,并以端到端的方式训练所提出的模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于RGB图像的手部三维重建方法,其特征在于,具体包括下列步骤:(1)数据集选择的探索研究:本发明选择的是利用RGB图像实现手部三维重建,通过对RGB图像进行训练,以便更好的获取手部特征,数据集是真实的数据集,还会有一些合成的数据集,以便达到精确的训练结果;(2)手部检测:输入RGB图像,利用深度学习的手部检测算法去检测出图片中手部的位置,还会进行检测出单手、双手的操作,同时进行左右手的区分;(3)特征生成:在完成手部检测的步骤时,本发明利用2.5D

Net神经网络生成2.5D热图,并提取低级特征,让二维关键点检测更加准确,以便生成更加精确的二维手部姿态估计,其次,把提取的低级特征放入到ResNet

50网络里来产生高级特征;(4)手部三维重建:本发明利用图卷积神经网络实现手部三维重建,将生成的高级特征放入图卷积神经网络,在图卷积神经网络里估...

【专利技术属性】
技术研发人员:王海玲张菁张天驰
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1