The invention relates to a two-dimensional human skeleton point positioning method with a single eye depth video. The method includes the steps of constructing model, training and recognition process, the training process includes the following steps: collecting S21 training samples; S22 generation of the training target; S23 model (the length of the random initialization deep memory convolutional neural network) and its parameters, parameters of the convolution layer parameters and the length of memory volume parameters of layers in composition using the S24 model; optimization algorithm, end to end use of training samples to update the parameters of deep models; the recognition process is as follows: S31 monocular depth video frames input; S32 model trained by deep inference to predict the position of the human skeleton. By setting reasonable learning objectives, the deep layer long time convolution neural network is constructed, and the prediction feature of human skeleton points is adaptively learned according to the data driving mode, so as to reach the stable and reliable location effect of human skeletal points.
【技术实现步骤摘要】
一种单目深度视频的二维人体骨骼点定位方法
本专利技术涉及二维人体姿态识别、计算机视觉、模式识别和人机交互领域,特别涉及一种基于长短时记忆卷积神经网络的单目深度视频二维人体骨骼点定位方法。
技术介绍
人体骨骼点定位是计算机视觉研究领域的一个重要研究方向,其主要任务是让计算机能够自动地感知场景中的人是“什么姿势”,它被广泛应用于家庭娱乐、动作识别、智能监控、病人监护等需要人机交互的系统中。人体姿态估计的目标是希望能够自动地从一段二维图像序列中,预测人肢体各个部分的姿态数据(即,骨骼点在图像中的坐标)。由于普通的RGB彩色图像或视频中存在光照、复杂背景等环境因素的影响,从单目彩色图像中预测出人体骨骼点非常困难,难以做到鲁棒。而由深度距离摄像机捕获的二维深度图像,与RGB彩色数据不同,其每个像素的灰度值表示的是该点对应区域在真实空间中与摄像机的毫米距离。因此,其具有一定的抗光照变化和背景复杂的能力,能有效地反映出图像场景中的几何轮廓信息,因此被认为是计算机视觉和人机交互的研究领域中重要的数据源。基于深度图像的二维人体骨骼点定位是指从一张包含有人物或者人体的二维深度图片中,定位出人体各个骨骼点的位置。由于深度二维图像本身存在不可忽略的噪声和人体姿态中四肢之间的遮挡,稳定快速准确地识别以上所述的骨骼点仍然是非常困难的挑战。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于长短时记忆卷积神经网络的单目深度视频的二维人体骨骼点定位方法,该方法可以有效地从深度视频数据中,端到端自动地学习出复杂人物姿态的时空特征,提高人体骨骼点定位的准确率。为实现上述目的,本专 ...
【技术保护点】
一种单目深度视频的二维人体骨骼点定位方法,其特征在于,构建可配置的深层模型,并在该深层模型中通过长短时记忆层,引入时序信息,提升人体骨骼点的预测效果,该方法包括S1深层模型构建,包括二维特征抽取模块和时序特征表达模块;所述的二维特征抽取模块由多个二维卷积层和矫正线性单元层依次串联,其间穿插连接多个池化层组成,用于对深度视频数据进行逐帧处理,抽取人物姿态的二维空间特征,输出深度图像中人物的关键区域和二维人体骨骼点到时序特征表达模块;所述的时序特征表达模块由长短时记忆卷积层组成,用于抽取连续多帧的二维深度图像的时空特征,输出K个概率置信图,K为待预测的骨骼点数目,预测出当前帧的二维人体骨骼点坐标;S2训练过程,包括S21收集训练样本;S22生成训练目标;S23随机初始化深层模型及其参数,所述的参数由二维卷积层的参数和长短时记忆卷积层中的参数组成;S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数;S3识别过程,包括S31输入单目深度视频帧;S32利用训练好的深层模型推断预测出其中的人体骨骼点位置。
【技术特征摘要】
1.一种单目深度视频的二维人体骨骼点定位方法,其特征在于,构建可配置的深层模型,并在该深层模型中通过长短时记忆层,引入时序信息,提升人体骨骼点的预测效果,该方法包括S1深层模型构建,包括二维特征抽取模块和时序特征表达模块;所述的二维特征抽取模块由多个二维卷积层和矫正线性单元层依次串联,其间穿插连接多个池化层组成,用于对深度视频数据进行逐帧处理,抽取人物姿态的二维空间特征,输出深度图像中人物的关键区域和二维人体骨骼点到时序特征表达模块;所述的时序特征表达模块由长短时记忆卷积层组成,用于抽取连续多帧的二维深度图像的时空特征,输出K个概率置信图,K为待预测的骨骼点数目,预测出当前帧的二维人体骨骼点坐标;S2训练过程,包括S21收集训练样本;S22生成训练目标;S23随机初始化深层模型及其参数,所述的参数由二维卷积层的参数和长短时记忆卷积层中的参数组成;S24采用模型优化算法,端到端地利用训练样本更新深层模型的参数;S3识别过程,包括S31输入单目深度视频帧;S32利用训练好的深层模型推断预测出其中的人体骨骼点位置。2.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S21中的训练样本包括连续多帧二维深度图像的视频数据、每帧二维图像中真实的二维人体骨骼点坐标;其中,视频数据由深度距离相机采集,配合用户精细标注的二维人体骨骼点坐标,用于学习深层模型的参数。3.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S22中训练目标包含由真实的二维人体骨骼点坐标生成的概率置信图和关键区域坐标;其中,每个骨骼点对应一个二维的概率置信图,所述的概率置信图的每个像素值表示与这个骨骼点相似的概率;关键区域表示二维深度图像中包含人物的矩形框,该矩形框由4个变量表示,依次是中心的横坐标、中心的纵坐标、矩形框高、矩形框宽的关键区域坐标。4.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述二维卷积层对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征,所述池化层使用没有重叠的最大池化操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率。5.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,每个二维卷积层后面连接一个矫正线性单元层,所述矫正线性单元层采用非线性阀值函数,对输入信号进行只允许非负信号通过的变化。6.根据权利要求1所述的单目深度视频的二维人体骨骼点定位方法,其特征在于,所述步骤S24中模型优化算法是采用基于一阶梯度的随机优化算法,联合二维特征抽取模块和时序特征表达模块一起更新参数;学习过程用的损...
【专利技术属性】
技术研发人员:陈剑华,罗智明,陈奕水,陈勇杰,
申请(专利权)人:广州新节奏智能科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。