当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于注意力机制的人体重建方法、模型、装置制造方法及图纸

技术编号:32362975 阅读:14 留言:0更新日期:2022-02-20 03:33
本发明专利技术属于计算机视觉领域,具体涉及一种基于注意力机制的人体重建方法、模型、装置。该重建方法包括如下步骤:步骤一:构建一个人体重建网络模型,所述人体重建网络模型包括特征提取模块、注意力模块、融合模块、参数推断模块和SMPL子模块;步骤二、获取多个包含人物的原始图像,对原始图像进行预处理进而构成训练数据集;步骤三、利用上步骤的训练数据集,通过最小化网络损失函数对所述人体重建网络模型进行训练;步骤四、将待处理的人体图像经过预处理后输入到完成训练的网络模型中,生成具有特定姿态的人体三维模型。本发明专利技术解决了现有方法难以根据存在遮挡的单幅人体图像,准确重建出具有准确姿势和形态的三维人体模型的问题。具有准确姿势和形态的三维人体模型的问题。具有准确姿势和形态的三维人体模型的问题。

【技术实现步骤摘要】
一种基于注意力机制的人体重建方法、模型、装置


[0001]本专利技术属于计算机视觉领域,具体涉及一种基于注意力机制的人体重建方法、模型、装置。

技术介绍

[0002]虚拟现实技术是一项新兴的人工智能技术,并在虚拟试衣、体型动画和人体运动模拟游戏等场景下得到广泛应用。这些技术的应用中,利用图像对人体进行三维建模是一个重要的环节。人体建模属于计算机视觉和图形学的核心问题,现有的从图像中重建人体三维模型的方法主要包括两类,分别是基于优化的方法和基于回归的方法。前者通过迭代优化过程将参数化的身体模型拟合到给定的图像的二维观察中,重点是利用二维关节点位置和轮廓实现拟合和建模过程。后者则主要是构建一个深度学习网络,并在深度神经网络通过对输入的单幅图像进行特征提取,进而获取人体模型参数,三维人体的体积表示以及模型顶点等信息;利用上述信息生成三维的人体模型。
[0003]前文提到的两类方法在图像中的目标人物没有遮挡物或者遮挡情况不明显的情况下,均具有较好的模型重建效果。但是在实际应用中,图像中的目标人物被其他人或物遮挡是非常常见的;因此上述方法的应用均存在局限性。尤其是采用深度学习网络进行三维模型重建时,深度神经网络无法有效区别人体图像中的关键信息和冗余信息,而是以人体图像中的所有像素特征来预测三维模型的参数。因而会出现明显误差,遮挡物会对实际的三维人体模型产生严重的干扰,导致构建出来的三维模型中的人体姿势和形状与实际不符。

技术实现思路

[0004]为了解决现有人体三维模型重建方法难以根据存在遮挡的单幅人体图像,准确重建出具有准确姿势和形态的三维人体模型的问题,提供一种基于注意力机制的人体重建方法、模型、装置。
[0005]本专利技术采用以下技术方案实现:
[0006]一种基于注意力机制的人体重建方法,该人体重建方法包括如下步骤:
[0007]步骤一:构建一个人体重建网络模型,人体重建网络模型包括特征提取模块、注意力模块、融合模块、参数推断模块和SMPL子模块。特征提取模块用于根据输入的人体图像生成相应的原始特征图。注意力模块包括两个池化层、一个卷积层和一个Sigmoid操作层;两个池化层分别为平均池化层和最大池化层。注意力模块用于根据输入的原始特征图生成注意力图。融合模块用于将原始特征图和注意力图进行融合操作,得到身体注意力特征图。参数推断模块包含一个池化层和三个全连接层;参数推断模块用于根据输入的身体注意力特征图,生成人体图像中对应的目标人物的SMPL参数。SMPL子模块用于根据SMPL参数生成对应目标人物的三维人体模型。
[0008]步骤二、获取多个包含目标人物的人体图像作为原始图像,对原始图像进行预处
理进而构成训练数据集,训练数据集中的原始图像至少包括部分存在人物遮挡的人体图像。
[0009]步骤三、利用上步骤的训练数据集,通过最小化网络损失函数对人体重建网络模型进行训练。
[0010]步骤四、保存完成训练的人体重建网络模型;将待处理的人体图像经过预处理后输入到保存的网络模型中,生成具有特定姿态的人体三维模型。
[0011]作为本专利技术进一步地改进,特征提取模块由深度卷积神经网络Resnet50经过精简和再封装得到,精简过程仅保留了原网络模型中的卷积部分;输入的人体图像经特征提取模块的卷积处理后,得到原始特征图。
[0012]作为本专利技术进一步地改进,注意力模块以特征提取模块的输出作为输入,输入的原始特征图在注意力模块中首先分别经过平均池化层和最大池化层,两个池化结果经过特征拼接后再依次经过卷积处理和Sigmoid操作,得到注意力图。
[0013]在注意力模块中,平均池化层的池化操作公式为:
[0014]F
avg
=AvgPool(F);
[0015]最大池化层的池化操作公式为:
[0016]F
max
=MaxPool(F);
[0017]上式中,F表示原始特征图,F
avg
表示平均池化操作后的特征图,F
max
表示最大池化操作后的特征图,MaxPool(
·
)表示最大池化操作,AvgPool(
·
)表示平均池化操作。
[0018]注意力图的生成操作公式为:
[0019]M(F)=σ(f(cat(F
avg
,F
max
)));
[0020]上式中,M(F)表示注意力图;σ(
·
)表示Sigmoid激活函数;f(
·
)表是卷积操作;cat(
·
)表示特征图的拼接操作。
[0021]作为本专利技术进一步地改进,在融合模块中,通过对注意力图和原始特征图进行对应元素相乘操作,得到融合后的身体注意力特征图。其中,融合操作的公式为:
[0022][0023]上式中,F

表示身体注意力特征图,M(F)表示注意力图;表示按对应元素相乘操作;F表示原始特征图。
[0024]作为本专利技术进一步地改进,参数推断模块中的池化层为平均池化层。三个全连接层中的前两个每层均具有1024个神经元,并通过Dropout操作进行连接。第三个全连接层具有85个神经元,并与上一个全连接层直接连接。其中,三个全连接层构成参数推断模块中的迭代回归部分。
[0025]作为本专利技术进一步地改进,在参数推断模块中,SMPL参数的生成过程如下:
[0026](1)将输入的身体注意力特征图F

通过平均池化得到一个特征φ。
[0027](2)将SMPL姿势参数θ、形状参数β和相机参数c拼在一起,公式表示为:
[0028]Θ=cat(θ,β,c);
[0029]上式中,θ表示SMPL模型的姿势参数;β表示SMPL模型的形状参数;c表示相机参数;Θ表示姿势参数θ、形状参数β和相机参数c的拼接的参数集。
[0030](3)利用平均姿势参数、平均形状参数和平均相机参数构成初始化参数集Θ0,将
特征φ与参数集Θ0进行拼接作为参数推断模块中迭代回归部分的输入。
[0031](4)生成当前输入对应的参数集的残差,然后更新当前参数集,更新公式为:
[0032]Θ
t+1
=Θ
t
+ΔΘ
t

[0033]上式中,Θ
t
表示当前输入对应的参数集,Θ
t+1
表示参数集Θ
t
更新后的状态,ΔΘ
t
表示参数集Θ
t
的残差。
[0034](5)迭代上步骤的更新操作3次;每次迭代更新过程中,将上一次更新得到的参数集与特征φ拼接作为本次参数推断模块迭代回归部分的输入,更新参数集。
[0035](6)迭代操作完成后得到包含最终的姿势参数θ、形态参数β的SMPL参数和对应的相机参数c。
[0036]作为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的人体重建方法,其特征在于,包括如下步骤:步骤一:构建一个人体重建网络模型,所述人体重建网络模型包括特征提取模块、注意力模块、融合模块、参数推断模块和SMPL子模块;所述特征提取模块用于根据输入的人体图像生成相应的原始特征图;所述注意力模块包括两个池化层、一个卷积层和一个Sigmoid操作层;两个池化层分别为平均池化层和最大池化层;所述注意力模块用于根据输入的所述原始特征图生成注意力图;所述融合模块用于将所述原始特征图和所述注意力图进行融合操作,得到身体注意力特征图;所述参数推断模块包含一个池化层和三个全连接层;所述参数推断模块用于根据输入的所述身体注意力特征图,生成所述人体图像中对应的目标人物的SMPL参数;所述SMPL子模块用于根据所述SMPL参数生成对应目标人物的三维人体模型;步骤二、获取多个包含目标人物的人体图像作为原始图像,对原始图像进行预处理进而构成训练数据集,所述训练数据集中的原始图像至少包括部分存在人物遮挡的人体图像;步骤三、利用上步骤的训练数据集,通过最小化网络损失函数对所述人体重建网络模型进行训练;步骤四、保存完成训练的人体重建网络模型;将待处理的人体图像经过预处理后输入到保存的网络模型中,生成具有特定姿态的人体三维模型。2.如权利要求1所述的基于注意力机制的人体重建方法,其特征在于:所述特征提取模块由深度卷积神经网络Resnet50经过精简和再封装得到,所述精简过程仅保留了原网络模型中的卷积部分;输入的所述人体图像经所述特征提取模块的卷积处理后,得到所述原始特征图。3.如权利要求1所述的基于注意力机制的人体重建方法,其特征在于:所述注意力模块以所述特征提取模块的输出作为输入,输入的所述原始特征图在所述注意力模块中首先分别经过平均池化层和最大池化层,两个池化结果经过特征拼接后再依次经过卷积处理和Sigmoid操作,得到所述注意力图;在所述注意力模块中,所述平均池化层的池化操作公式为:F
avg
=AvgPool(F);所述最大池化层的池化操作公式为:F
max
=MaxPool(F);上式中,F表示原始特征图,F
avg
表示平均池化操作后的特征图,F
max
表示最大池化操作后的特征图,MaxPool(
·
)表示最大池化操作,AvgPool(
·
)表示平均池化操作;所述注意力图的生成操作公式为:M(F)=σ(f(cat(F
avg
,F
max
)));上式中,M(F)表示注意力图;σ(
·
)表示Sigmoid激活函数;f(
·
)表示卷积操作;cat(
·
)表示特征图的拼接操作。4.如权利要求1所述的基于注意力机制的人体重建方法,其特征在于:在所述融合模块中,通过对所述注意力图和所述原始特征图进行对应元素相乘操作,得到融合后的所述身体注意力特征图;其中,融合操作的公式为:
上式中,F

表示身体注意力特征图,M(F)表示注意力图;表示按对应元素相乘操作;F表示原始特征图。5.如权利要求1所述的基于注意力机制的人体重建方法,其特征在于:所述参数推断模块中的池化层为平均池化层;三个全连接层中的前两个每层均具有1024个神经元,并通过Dropout操作;第三个进行连接全连接层具有85个神经元,并与上一个全连接层直接连接;其中,三个全连接层构成所述参数推断模块中的迭代回归部分。6.如权利要求5所述的基于注意力机制的人体重建方法,其特征在于:在所述参数推断模块中,SMPL参数的生成过程如下:(1)将输入的所述身体注意力特征图F

通过平均池化得到一个特征φ;(2)将SMPL姿势参数θ、形状参数β和相机参数c拼在一起,公式表示为:Θ=cat(θ,β,c);上式中,θ表示SMPL模型的姿势参数;β表示SMPL模型的形状参数;c表示相机参数;Θ表示姿势参数θ、形状参数β和相机参数c拼接的参数集;(3)利用平均姿势参数、平均形状参数和平均相机参数构成初始化参数集Θ0,将所述特征φ与所述参数集Θ0进行拼接作为所述参数推断模块中迭代回归部分的输入;(4)生成当前输入对应的参数集的残差,然后更新当前参数集,更新公式为:Θ
t+1
=Θ
t
+ΔΘ
t
;上式中,Θ
t
表示当前输入对应的参数集,Θ
t+1
表示参数集Θ
t
更新后的状态,ΔΘ
t
表示参数集Θ
t
的残差;(5)迭代上步骤的更新操作3次;每次迭代更新过程中,将上一次更新得到的参数集与所述特征φ拼接作为本次参数推断模块迭代回归部分的输入,更新参数集;(6)迭代操作完成后得到包含最终的姿势参数θ、形态参数β的SMPL参数和对应的相机参数c。7.如权利要求1所述的基于注意力机制的人体重建...

【专利技术属性】
技术研发人员:方贤勇汪楷汪粼波
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1