当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于单视角视频的动态头发建模方法技术

技术编号:23606246 阅读:62 留言:0更新日期:2020-03-28 06:58
本发明专利技术公开了一种基于深度神经网络的单目动态头发建模方法,该方法将包含头发运动的视频通过预处理得到的二维信息序列,利用两个深度神经网络分别得到三维空间中头发的方向场和前后向运动场,再使用相邻帧间的信息以及头发生长算法进行迭代优化,得到与输入视频对应的连续动态变化的头发模型。本发明专利技术是第一个应用深度学习技术解决基于单视角视频的动态头发建模问题的方法,可以从单视角视频中建模出高质量的三维头发运动模型。

A dynamic hair modeling method based on single view video

【技术实现步骤摘要】
一种基于单视角视频的动态头发建模方法
本专利技术属于计算机图形学领域,尤其涉及一种基于神经网络单视角动态头发建模方法。
技术介绍
三维头发建模一直都是图形学领域的一个重要问题。图形学领域已经有很多高质量的基于图片的静态头发建模技术(M.Chaietal.AutoHair:FullyAutomaticHairModelingfromasingleportraitphotoTOG2016)。当前最好的基于视频的动态头发建模方法由Z.Xuetal.提出(DynamicHairCaptureUsingSpacetimeOptimizationTOG2014),但是该技术需要多视角的相机以及光源阵列,成本较高。而另一个轻量级的基于单视频动态头发建模技术(M.Chaietal.DynamicHairManipulationinImagesandVideosTOG2013)则是通过先建立头发的静态模型再进行变形得到动态模型,因而无法得到稳定的结果,只适用于简单的发型和动作。本专利技术是第一个应用深度学习技术解决基于单视角视频的动态头发建模问题的方法,并且对于现实拍摄的头发视频能够给出合理的建模结果。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于单视角视频的动态头发建模技术。本专利技术是通过以下技术方案来实现的,一种基于单视角视频的动态头发建模方法,包括以下步骤:步骤一:将含有运动头发的单视角视频通过人脸关键点匹配算法获得每一帧的头部位姿,结合人头模型得到二维深度图序列;将视频通过头发检测算法,得到每一帧的二维头发生长方向图、二维头发置信图。步骤二:将步骤一得到的二维深度图序列、二维头发生长方向图、二维头发置信图分别通过两个训练好的深度神经网络,得到对应的三维信息;其中,两个训练好的深度神经网络分别为空间网络和时间网络,空间网络用于得到每一帧头发的三维掩码以及头发空间生长方向,而时间网络则用于得到每一帧头发所在空间相对于上一帧以及下一帧对应空间的偏移量。步骤三:对于每一帧的头发三维掩码以及头发空间生长方向,利用头发生长算法以及相邻帧间的偏移量获得头发估计并迭代优化得到每一帧的头发。进一步地,所述步骤二具体为:(2.1)构建和训练空间网络:所述空间网络由降采样部分,中间连接部分和升采样部分以及一个判别器网络构成。降采样部分由四个卷积层构成,每个卷积层之后都进行最大值池化;升采样部分由四个升采样反卷积网络层构成。中间连接部分是由2D转3D的可学习模块toVoxel承接;空间网络使用USC-HairSalon数据集的343个静态发型以及动态数据集进行训练;其中,三维掩码训练的损失函数为二元交叉熵,头发空间生长方向训练的损失函数为L1损失函数;(2.2)构建和训练时间网络:所述时间网络由降采样部分,中间连接部分和升采样部分构成。降采样部分由四个卷积层构成,每个卷积层之后都进行最大值池化;升采样部分由四个升采样反卷积网络层构成。中间连接部分由可学习模块toVoxel承接。时间网络利用三个发型通过仿真系统得到动态数据后进行训练,训练的损失函数采用L1损失函数;进一步地,所述步骤三通过以下子步骤来实现:(3.1)基于步骤二得到的每一帧的头发空间生长方向,使用头发生长算法得到每一帧的初始头发估计;(3.2)当前帧的初始头发估计、以及相邻帧的初始头发估计结合步骤二得到的相邻帧间的偏移量得到当前帧的头发的多个估计,求带权平均值,得到当前帧头发的新的估计;(3.3)基于步骤3.2得到的头发的估计,根据步骤二得到的头发空间生长方向进行局部约束优化;(3.4)迭代步骤3.2和步骤3.3;迭代多次后得到每一帧的头发。本专利技术的有益效果是,本专利技术首次提出了利用深度学习技术解决基于单视角视频的动态头发建模问题的方法,借助深度神经网络估计三维头发生长方向以及相邻帧间头发运动方向,并通过头发生长算法以及相关优化完成头发的动态建模。本专利技术取得的效果可媲美当今借助多视角摄像机以及光源阵列的方法取得的效果。附图说明图1是本专利技术针对单目视频利用深度神经网络重建动态头发的整体流程示意图。图2是本专利技术中两个深度卷积神经网络的结构示意图。图3是本专利技术方法的头发建模结果图。具体实施方式如前所述,我们的训练数据包括两个集合:动态集合和静态集合。我们在两个集合上训练空间网络(HairSpatNet),而在动态集合上训练时间网络(HairTempNet)。动态集。我们使用类似于\cite{selle2008mass}的质量弹簧模型来生成动态头发的序列。模拟系统的输入包括两个部分:静止状态的头发和驱动头发运动的一系列外力。我们选择三种高质量的发型,并使用典型的头部运动(包括横摇,俯仰和其他随机运动)以及随机风力来生成动态的头发顺序。基于这些运动,我们的完整模拟会为每个发型生成一个带有1000帧的动画。然后,我们通过水平翻转每根头发来增强数据,并获得6000帧的训练集。我们还通过更改力并为每个发型重新生成具有100帧的动画(总共300帧)来准备测试集。静态集。为了涵盖各种发型,我们从USC-HairSalon数据集中收集了343种静态发型。我们还通过绕$z$轴旋转数据并将它们水平翻转以获得3430种不同的头发来扩充数据。然后,我们将整个静态集合随机分为3230根头发的训练集和200根头发的测试集。对于HairSpatNet,我们使用U-Net架构用于此任务。我们的见解来自两个方面。首先,U-Net的收缩部分可以将高维输入映射到一个潜在空间,该潜在空间由扩展部分逐渐解码以了解整体形状。其次,其跳过连接(skipconnection)可以帮助将更多细节注入解码过程。但是,当前的U-Net体系结构主要设计用于图像到图像任务。它不能在这里直接应用。因此,我们通过插入一个可学习的\emph{toVoxel}模块来修改2D和3D功能之间的跳过连接,从而修改了原始架构。\emph{toVoxel}模块首先使用卷积层来更改通道号,然后重塑形状并转置特征以使其与3D特征兼容,然后执行基于3D卷积的两个优化步骤。图2显示了我们的\emph{HairSpatNet}的体系结构,具体地,由降采样部分,中间连接部分和升采样部分以及一个判别器网络构成。我们使用两个分支来学习占用和方向字段。输入$\mathcal{X}^{t}$的形状为$1024imes1024imes4$。我们首先使用三个下采样模块将$\mathcal{X}^{t}$转换为$128imes128imes32$,然后将其输入到我们的U-Net中。压缩部分有4个下采样模块,分别具有$(32,64,128,256)$输出通道。扩展部分具有4个上采样模块,其中掩膜的输出通道为$(64、32、16、1)$,方向场的输出通道为$(64、32、16、3)$。由于收缩部分提取2D特征,而扩展部分处理3D特征,因此我们使用可学习的\emph{toVoxel}模本文档来自技高网...

【技术保护点】
1.一种基于单视角视频的动态头发建模方法,其特征在于,包括以下步骤:/n步骤一:将含有运动头发的单视角视频通过人脸关键点匹配算法获得每一帧的头部位姿,结合人头模型得到二维深度图序列;将视频通过头发检测算法,得到每一帧的二维头发生长方向图、二维头发置信图。/n步骤二:将步骤一得到的二维深度图序列、二维头发生长方向图、二维头发置信图分别通过两个训练好的深度神经网络,得到对应的三维信息;其中,两个训练好的深度神经网络分别为空间网络和时间网络,空间网络用于得到每一帧头发的三维掩码以及头发空间生长方向,而时间网络则用于得到每一帧头发所在空间相对于上一帧以及下一帧对应空间的偏移量。/n步骤三:对于每一帧的头发三维掩码以及头发空间生长方向,利用头发生长算法以及相邻帧间的偏移量获得头发估计并迭代优化得到每一帧的头发。/n

【技术特征摘要】
1.一种基于单视角视频的动态头发建模方法,其特征在于,包括以下步骤:
步骤一:将含有运动头发的单视角视频通过人脸关键点匹配算法获得每一帧的头部位姿,结合人头模型得到二维深度图序列;将视频通过头发检测算法,得到每一帧的二维头发生长方向图、二维头发置信图。
步骤二:将步骤一得到的二维深度图序列、二维头发生长方向图、二维头发置信图分别通过两个训练好的深度神经网络,得到对应的三维信息;其中,两个训练好的深度神经网络分别为空间网络和时间网络,空间网络用于得到每一帧头发的三维掩码以及头发空间生长方向,而时间网络则用于得到每一帧头发所在空间相对于上一帧以及下一帧对应空间的偏移量。
步骤三:对于每一帧的头发三维掩码以及头发空间生长方向,利用头发生长算法以及相邻帧间的偏移量获得头发估计并迭代优化得到每一帧的头发。


2.根据权利要求1所述的基于单视角视频的动态头发建模方法,其特征在于,所述步骤二具体为:
(2.1)构建和训练空间网络:所述空间网络由降采样部分,中间连接部分和升采样部分以及一个判别器网络构成。降采样部分由四个卷积层构成,每个卷积层之后都进行最大值池化;升采样部分由四个升采样反卷积网络层构成。中间连接部分是由2D转3D的可学习模块...

【专利技术属性】
技术研发人员:郑友怡杨令晨
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1