一种单目深度视频的二维人体骨骼点定位方法技术

技术编号:16839121 阅读:32 留言:0更新日期:2017-12-19 20:57
本发明专利技术涉及一种单目深度视频的二维人体骨骼点定位方法。该方法包括构建模型、训练过程和识别过程,其中训练过程包含以下步骤:S21收集训练样本;S22生成训练目标;S23随机初始化深层模型(长短时记忆卷积神经网络)及其参数,所述的参数由卷积层的参数和长短时记忆卷积层中的参数组成;S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数;识别过程如下:S31输入单目深度视频帧;S32利用训练好的深层模型推断预测出其中的人体骨骼点位置。本发明专利技术通过设置合理的学习目标,构建了深层次的长短时卷积神经网络,按照数据驱动的方式自适应地学习出人体骨骼点预测特征,到达了稳定可靠的人体骨骼点定位效果。

A two-dimensional human skeleton location method with monocular depth video

The invention relates to a two-dimensional human skeleton point positioning method with a single eye depth video. The method includes the steps of constructing model, training and recognition process, the training process includes the following steps: collecting S21 training samples; S22 generation of the training target; S23 model (the length of the random initialization deep memory convolutional neural network) and its parameters, parameters of the convolution layer parameters and the length of memory volume parameters of layers in composition using the S24 model; optimization algorithm, end to end use of training samples to update the parameters of deep models; the recognition process is as follows: S31 monocular depth video frames input; S32 model trained by deep inference to predict the position of the human skeleton. By setting reasonable learning objectives, the deep layer long time convolution neural network is constructed, and the prediction feature of human skeleton points is adaptively learned according to the data driving mode, so as to reach the stable and reliable location effect of human skeletal points.

【技术实现步骤摘要】
一种单目深度视频的二维人体骨骼点定位方法
本专利技术涉及二维人体姿态识别、计算机视觉、模式识别和人机交互领域,特别涉及一种基于长短时记忆卷积神经网络的单目深度视频二维人体骨骼点定位方法。
技术介绍
人体骨骼点定位是计算机视觉研究领域的一个重要研究方向,其主要任务是让计算机能够自动地感知场景中的人是“什么姿势”,它被广泛应用于家庭娱乐、动作识别、智能监控、病人监护等需要人机交互的系统中。人体姿态估计的目标是希望能够自动地从一段二维图像序列中,预测人肢体各个部分的姿态数据(即,骨骼点在图像中的坐标)。由于普通的RGB彩色图像或视频中存在光照、复杂背景等环境因素的影响,从单目彩色图像中预测出人体骨骼点非常困难,难以做到鲁棒。而由深度距离摄像机捕获的二维深度图像,与RGB彩色数据不同,其每个像素的灰度值表示的是该点对应区域在真实空间中与摄像机的毫米距离。因此,其具有一定的抗光照变化和背景复杂的能力,能有效地反映出图像场景中的几何轮廓信息,因此被认为是计算机视觉和人机交互的研究领域中重要的数据源。基于深度图像的二维人体骨骼点定位是指从一张包含有人物或者人体的二维深度图片中,定位出人体各个骨骼点的位置。由于深度二维图像本身存在不可忽略的噪声和人体姿态中四肢之间的遮挡,稳定快速准确地识别以上所述的骨骼点仍然是非常困难的挑战。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于长短时记忆卷积神经网络的单目深度视频的二维人体骨骼点定位方法,该方法可以有效地从深度视频数据中,端到端自动地学习出复杂人物姿态的时空特征,提高人体骨骼点定位的准确率。为实现上述目的,本专利技术采用以下技术方案:一种单目深度视频的二维人体骨骼点定位方法,包括以下阶段:S1、深层模型构建。该模型包括二维特征抽取模块和时序特征表达模块;其中,二维特征抽取模块由多个二维卷积层和矫正线性单元层依次串联,其间穿插连接多个池化层组成,用于对深度视频数据进行逐帧处理,抽取人物姿态的二维空间特征,输出深度图像中人物的关键区域和二维人体骨骼点到时序特征表达模块;时序特征表达模块由长短时记忆卷积层组成,用于抽取连续多帧的二维深度图像的时空特征,输出K个概率置信图,K为待预测的骨骼点数目,用以预测出当前帧的二维人体骨骼点坐标。S2、训练过程。该过程包含以下步骤:S21收集训练样本。从深度距离摄像机,获取连续多帧二维深度图像的视频数据、每帧二维图像中真实的二维人体骨骼点坐标。其中,视频数据由深度距离相机采集,配合用户精细标注的二维人体骨骼点坐标,用于学习深层模型的参数。S22生成训练目标。训练目标包含由真实的二维人体骨骼点坐标生成的概率置信图和关键区域坐标;其中,每个骨骼点对应一个二维的概率置信图。该图的每个像素值表示像这个骨骼点的概率;关键区域表示二维深度图像中包含人物的矩形框,该矩形框由4个变量表示,依次是中心的横坐标、中心的纵坐标、矩形框高、矩形框宽。S23随机初始化深层模型及其参数。所述的参数由卷积层的参数和长短时记忆卷积层中的参数组成。其中,卷积层的参数包括卷积核的权重和偏置;长短记忆卷积层中的参数包括输入卷积门、输出卷积门、忘记卷积门和记忆元组的权重和偏置。S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数。所述模型优化算法具体地是指采用基于一阶梯度的随机优化算法Adam(Adaptivemomentestimation,Adam),联合二维特征抽取模块和时序特征表达模块一起更新参数。学习过程用的损失函数是预测的关键区域坐标与真实的关键区域坐标的欧式距离,和预测的特征图与真实的置信图的欧氏距离;采用时序反向传播算法求长短时记忆层中各个参数的偏导数;根据长短时记忆层传入的残差,通过反向传播算法求卷积层中各个参数的偏导数;根据计算结果更新模型参数并重复迭代计算。S3、识别过程。该过程包含以下步骤:S31输入单目深度视频帧。其中,单目深度视频帧由一个深度距离摄像机捕获,形成二维深度图像序列。S32利用训练好的深层模型推断预测出其中的人体关节点位置。将S3-1形成的二维图像序列依次输入深层模型中,首先输出关键区域坐标,以从输入原图上提取关键区域,再紧接着输入网络,输出其中的人物各个骨骼点的概率置信图,最终根据置性图中的最大概率,得到骨骼点二维坐标。与现有技术相比,本专利技术的有益效果是:第一,本专利技术通过构建深层次的长短时卷积神经网络,采用数据驱动的方式,从大量的包含了多种深度距离摄像机摆放角度、深度距离摄像机与人不同距离和各种人的躯干四肢之间的遮挡等训练样本中,学习出有效的时空人物姿态特征。该特征不再受限于手工设计特征的先验条件和人体骨骼点的几何结构约束,可有效地用于定位人体的骨骼点。第二,本专利技术用一个模型同时强调了人体二维骨骼点的空间关系和时序一致性;本专利技术建模的时空一致性具有端对端训练的可微分结构,结合数据驱动,可以自适应地整体优化模型的各个模块。同时,本专利技术借助优化出的人体骨骼点时空特征能抗深度数据噪声和人体自遮挡等多种挑战,实现了稳定可靠的二维人体骨骼点定位。附图说明图1是本专利技术提供的一种单目深度视频的二维人体骨骼点定位方法的流程示意图;图2是本专利技术的深层模型框架图;图3是本专利技术的深层模型中二维特征抽取模块的框架图;图4是本专利技术的深层模型中二维特征抽取模块详细网络设置图;图5是本专利技术的深层模型中时序特征表达模块的框架图;图6是本专利技术提供的一种单目深度视频的二维人体骨骼点定位方法的数据流向图;图7是本专利技术支持的15个人体骨骼点示意图。具体实施方式下面结合附图,对本专利技术的单目深度视频的二维人体骨骼点定位方法做详细说明。如图1所示,本专利技术提供了一种单目深度视频的二维人体骨骼点定位方法,包括构建模型、训练过程和识别过程,具体的构建模型包括构建深层模型102;训练过程包括使用深度距离相机捕获数据100,收集训练样本生成训练目标101,初始化参数、训练模型103;识别过程包括使用深度距离相机捕获数据100,利用训练好的模型预测人体骨骼点104。S1、深层模型构建,包括构建深层模型102。S2、训练过程,该过程包含以下步骤:S21收集训练样本,包括使用深度距离相机捕获数据100,具体为从深度距离摄像机,获取连续多帧二维深度图像的视频数据、每帧二维图像中真实的二维人体骨骼点坐标。其中,视频数据由深度距离相机采集,配合用户精细标注的二维人体骨骼点坐标,用于学习深层模型的参数。S22生成训练目标,包括收集训练样本生成训练目标101,具体为训练目标包含由真实的二维人体骨骼点坐标生成的概率置信图和关键区域坐标;其中,每个骨骼点对应一个二维的概率置信图。该图的每个像素值表示像这个骨骼点的概率;关键区域表示二维深度图像中包含人物的矩形框,该矩形框由4个变量表示,依次是中心的横坐标、中心的纵坐标、矩形框高、矩形框宽。S23随机初始化深层模型及其参数,包括初始化参数、训练模型103。所述的参数由卷积层的参数和长短时记忆卷积层中的参数组成。其中,卷积层的参数包括卷积核的权重和偏置;长短记忆卷积层中的参数包括输入卷积门、输出卷积门、忘记卷积门和记忆元组的权重和偏置。S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数。S3、识别过程,包括利用训练好的模型预测人体本文档来自技高网...
一种单目深度视频的二维人体骨骼点定位方法

【技术保护点】
一种单目深度视频的二维人体骨骼点定位方法,其特征在于,构建可配置的深层模型,并在该深层模型中通过长短时记忆层,引入时序信息,提升人体骨骼点的预测效果,该方法包括S1深层模型构建,包括二维特征抽取模块和时序特征表达模块;所述的二维特征抽取模块由多个二维卷积层和矫正线性单元层依次串联,其间穿插连接多个池化层组成,用于对深度视频数据进行逐帧处理,抽取人物姿态的二维空间特征,输出深度图像中人物的关键区域和二维人体骨骼点到时序特征表达模块;所述的时序特征表达模块由长短时记忆卷积层组成,用于抽取连续多帧的二维深度图像的时空特征,输出K个概率置信图,K为待预测的骨骼点数目,预测出当前帧的二维人体骨骼点坐标;S2训练过程,包括S21收集训练样本;S22生成训练目标;S23随机初始化深层模型及其参数,所述的参数由二维卷积层的参数和长短时记忆卷积层中的参数组成;S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数;S3识别过程,包括S31输入单目深度视频帧;S32利用训练好的深层模型推断预测出其中的人体骨骼点位置。

【技术特征摘要】
1.一种单目深度视频的二维人体骨骼点定位方法,其特征在于,构建可配置的深层模型,并在该深层模型中通过长短时记忆层,引入时序信息,提升人体骨骼点的预测效果,该方法包括S1深层模型构建,包括二维特征抽取模块和时序特征表达模块;所述的二维特征抽取模块由多个二维卷积层和矫正线性单元层依次串联,其间穿插连接多个池化层组成,用于对深度视频数据进行逐帧处理,抽取人物姿态的二维空间特征,输出深度图像中人物的关键区域和二维人体骨骼点到时序特征表达模块;所述的时序特征表达模块由长短时记忆卷积层组成,用于抽取连续多帧的二维深度图像的时空特征,输出K个概率置信图,K为待预测的骨骼点数目,预测出当前帧的二维人体骨骼点坐标;S2训练过程,包括S21收集训练样本;S22生成训练目标;S23随机初始化深层模型及其参数,所述的参数由二维卷积层的参数和长短时记忆卷积层中的参数组成;S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数;S3识别过程,包括S31输入单目深度视频帧;S32利用训练好的深层模型推断预测出其中的人体骨骼点位置。2.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S21中的训练样本包括连续多帧二维深度图像的视频数据、每帧二维图像中真实的二维人体骨骼点坐标;其中,视频数据由深度距离相机采集,配合用户精细标注的二维人体骨骼点坐标,用于学习深层模型的参数。3.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S22中训练目标包含由真实的二维人体骨骼点坐标生成的概率置信图和关键区域坐标;其中,每个骨骼点对应一个二维的概率置信图,所述的概率置信图的每个像素值表示与这个骨骼点相似的概率;关键区域表示二维深度图像中包含人物的矩形框,该矩形框由4个变量表示,依次是中心的横坐标、中心的纵坐标、矩形框高、矩形框宽的关键区域坐标。4.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述二维卷积层对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征,所述池化层使用没有重叠的最大池化操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率。5.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,每个二维卷积层后面连接一个矫正线性单元层,所述矫正线性单元层采用非线性阀值函数,对输入信号进行只允许非负信号通过的变化。6.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S24中模型优化算法是采用基于一阶梯度的随机优化算法,联合二维特征抽取模块和时序特征表达模块一起更新参数;学习过程用的损...

【专利技术属性】
技术研发人员:陈剑华罗智明陈奕水陈勇杰
申请(专利权)人:广州新节奏智能科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1