基于目标检测和人体姿态估计的坐姿检测方法技术

技术编号:18972737 阅读:29 留言:0更新日期:2018-09-19 03:47
本发明专利技术涉及一种基于目标检测和人体姿态估计的坐姿检测方法,属于图像处理与计算机视觉技术领域。本发明专利技术首先提取由特征I和特征II融合形成的融合特征,并将融合后的特征输入CNN中,若融合特征来自于训练集,则用于训练网络参数;若融合特征来自验证集,则用于验证网络参数,并通过反向传播算法传递误差信号,更新梯度,寻找最优值,利用柔性最大激活函数Softmax做分类回归,得到最终的分类结果和分类准确率。本发明专利技术解决了现有坐姿检测中在复杂多目标情况下目标丢失的问题,摒弃了传统的依赖可穿戴设备或传感器的方法,采用了基于目标检测和人体姿态估计的方法,使得在背景复杂,人群密集的情况下能够准确定各个任务目标的坐姿。

Posture detection method based on target detection and human pose estimation

The invention relates to a sitting posture detection method based on target detection and human body posture estimation, belonging to the technical field of image processing and computer vision. Firstly, the fusion features formed by the fusion of feature I and feature II are extracted, and the fused features are input into CNN. If the fusion features come from the training set, they are used to train the network parameters; if the fusion features come from the verification set, they are used to verify the network parameters, and the error signals are transmitted through the back propagation algorithm to update the ladder. Degree, find the optimal value, use the flexible maximum activation function Softmax to do classification regression, get the final classification results and classification accuracy. The invention solves the problem of target loss in the existing sitting posture detection under the condition of complex multi-target, abandons the traditional method of relying on wearable equipment or sensors, and adopts a method based on target detection and human posture estimation, so that each task target can be accurately determined under the condition of complex background and dense crowd. Sitting position.

【技术实现步骤摘要】
基于目标检测和人体姿态估计的坐姿检测方法
本专利技术属于图像处理与计算机视觉
,涉及一种基于目标检测和人体姿态估计的坐姿检测方法。
技术介绍
随着人工智能技术的进一步发展,深度学习技术也已经得到了越来越多的关注。无人驾驶汽车、智能家居系统等这些伴随着人工智能技术而火热起来的产业也在无时不刻地改变着人们的生活方式与生产方式,机器取代人类,解放生产力在各行各业都有着广泛的应用。校园中的教学、管理方式也应当搭乘深度学习这一“顺风车”,去改善教育工作者的工作。之前,人们去评估一名教师的教学效果,都是由专门的教学督导去各个教室巡查,这样不仅费时费力,而且还有可能出现遗漏的状况。现在,我们可以充分利用广泛分布于各个教室的视频监控系统,运用人工智能技术,来对每堂课的教学效果进行智能分析,充分利用现有的设备资源。因此,如何利用人工智能和机器视觉技术并结合校园内广泛分布的监控设备进行智能分析,并提供实时可靠的信息具有重要意义。结合现有的视频监控系统,基于目标检测和人体姿态估计的坐姿检测方法的提出对在校学生的教学管理工作具有特殊的解释意义,主要可以运用于在教室中对学生姿态的检测与定位。这包括了以下两个方面:一方面,如果一名教师的课堂是生动有趣的,那么就足以吸引所有的学生都抬头听课,跟着教师的节奏走。但是,如果听课的学生中出现了趴在课桌上走神、睡觉的情况,就可以说明这名教师的教学质量不佳,需要改善自己的教学方式。通用的方法主要可以分为基于环境布设传感器、基于可穿戴设备和基于单人摄像头的方法,这些方法不仅不能对多目标进行实时在线检测,而且成本高昂,并没有多大优势。专利技术内容有鉴于此,本专利技术的目的在于提供一种基于目标检测和人体姿态估计的坐姿检测方法,可以对人体坐姿进行检测并分类。为达到上述目的,本专利技术提供如下技术方案:利用卷积神经网络CNN进行坐姿检测,且输入到CNN中的融合特征提取包括如下步骤:S1:对原始图像进行人工标注,标注信息包括包围框BoundingBox、坐姿类别和关节点坐标;S2:将原始图像输入到目标检测网络,利用BoundingBox信息截取出单人目标图像;S3:将单人目标图像按坐姿类别进行关节点标记,再将标记的单人目标图像输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征I;S4:将关节点坐标信息和BoundingBox信息输入到多人姿态估计网络,然后对原始图像做多人姿态估计,并将多人姿态估计图截取为单人人体骨架图;S5:将单人人体骨架图输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征II;S6:将特征I和特征II进行融合。进一步的,还包括步骤S7:将融合后的特征输入CNN中,若融合特征来自于训练集,则用于训练网络参数;若融合特征来自验证集,则用于验证网络参数,并通过反向传播算法传递误差信号,更新梯度,寻找最优值,利用柔性最大激活函数Softmax做分类回归,得到最终的分类结果和分类准确率。进一步的,步骤S2具体包括:所述目标检测网络采用FasterRCNN网络,FasterRCNN网络由一个候选区域网络RPN和一个FastRCNN网络组成级联网络;在第一个阶段利用RPN在原始图像中选择出推荐区域,在第二个阶段利用FastRCNN对推荐区域内的目标进一步细分,截取出单人目标图像。进一步的,所述利用RPN在原始图像中选择推荐区域,具体包括:对人工标注的BoundingBox包围区域进行采样,且采样区域为正样本区域时选择该采样区域为推荐区域;所述正样本区域是指采样区域与BoundingBox包围区域的重叠率大于阈值时,该采样区域为正样本区域,阈值为0.6~0.9。进一步的,所述采样区域与BoundingBox包围区域的重叠率计算公式为:其中:area(rg)为BoundingBox包围区域,area(rn)为采样区域。进一步的,步骤3具体包括:根据坐姿类别给单人目标图像赋予标签,将标记的单人目标图像分为训练子集I和验证子集I,在CNN分类网络中输入为40×40像素的三通道单人目标图像,包含三个卷积层和对应的非线性激活单元,前两个卷积层用来表示图像的高水平特征,最后一个卷积层用来产生高层次的特征反应,提取最后一个卷积层产生的特征图作为与后续阶段融合的特征,即特征I。进一步的,步骤S4具体包括:多人姿态估计采用G-RMI方法,第一阶段用FasterRCNN网络检测原始图像中的多个人,并对BoundingBox覆盖区域进行截取;第二个阶段采用基于全卷积网络的残差网络Resnet对BoundingBox覆盖区域中的每一个人物预测密集热图DenseHeatmap和补偿Offset;最后通过DenseHeatmap和Offset的融合得到关键点的精确定位,从而得到单人人体骨架图。进一步的,步骤S5具体包括:将单人人体骨架图分为训练子集II和验证子集II,在CNN分类网络输入为40×40像素的三通道单人人体骨架图,包含三个卷积层和对应的非线性激活单元,前两个卷积层用来表示图像的高水平特征,最后一个卷积层用来产生高层次的特征反应,提取最后一个卷积层产生的特征图作为与后续阶段融合的特征,即特征II。进一步的,所述将特征I和特征II进行融合采用注意力机制模型,首先计算出合理的权重,然后进行加权求和,融合为一个特征向量h*:h*=α1h1+α2h2其中:α1表示特征I的权重,h1表示特征I对应的特征图信息;α2表示特征II的权重,h2表示特征II对应的特征图信息。本专利技术的有益效果在于:本专利技术解决了现有坐姿检测中在复杂多目标情况下目标丢失的问题,摒弃了传统的依赖可穿戴设备或传感器的方法,采用了基于目标检测和人体姿态估计的方法,使得在背景复杂,人群密集的情况下能够准确定各个任务目标的坐姿。附图说明为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:图1为本专利技术融合后特征提取的方法流程图;图2为本专利技术的利用融合后特征实现坐姿分类的方法流程图。具体实施方式下面结合说明书附图对本专利技术一种基于目标检测和人体姿态估计的坐姿检测方法进行进一步的说明。基于目标检测和人体姿态估计的坐姿检测方法主要由人体目标检测、多人姿态估计、特征提取、特征融合和分类五个部分组成。现阶段目标检测的方法有很多,基于候选区域网络RPN的方法取得的结果最好。多人姿态估计选取G-RMI方法的理由是,可以充分利用第一阶段产生的BoundingBox信息,减小模型冗余程度和复杂度,提高运行效率。图像特征的提取和选择是图像处理过程中很重要的环节,对后续图像分类有着重要的影响。在特征提取方面,现阶段一般采用的是提取人工设计的图像特征,如边缘特征、角点特征等,这些特征计算量大,而且所提供的信息过少,因此基于目标检测和人体姿态估计的坐姿检测方法采用的是卷积神经网络中的卷积特征。在特征融合方面,对各个特征并没有进行简单的加权平均,而是采用注意力机制模型Attention-basedModel,让模型自主学习重要的特征。因此,基于目标检测和人体姿态估计的坐姿检测任务就是要在复杂背景及多人条件下准确检测并定位出每个人不同的坐姿。如图1所示,融合特征提取包括如下步骤:S1:对原始图像进行人工标注,标注信息包括包围框Bou本文档来自技高网...

【技术保护点】
1.基于目标检测和人体姿态估计的坐姿检测方法,其特征在于,利用卷积神经网络CNN进行坐姿检测,且输入到CNN中的融合特征提取包括如下步骤:S1:对原始图像进行人工标注,标注信息包括包围框Bounding Box、坐姿类别和关节点坐标;S2:将原始图像输入到目标检测网络,利用Bounding Box信息截取出单人目标图像;S3:将单人目标图像按坐姿类别进行关节点标记,再将标记的单人目标图像输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征I;S4:将关节点坐标信息和Bounding Box信息输入到多人姿态估计网络,然后对原始图像做多人姿态估计,并将多人姿态估计图截取为单人人体骨架图;S5:将单人人体骨架图输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征II;S6:将特征I和特征II进行融合。

【技术特征摘要】
1.基于目标检测和人体姿态估计的坐姿检测方法,其特征在于,利用卷积神经网络CNN进行坐姿检测,且输入到CNN中的融合特征提取包括如下步骤:S1:对原始图像进行人工标注,标注信息包括包围框BoundingBox、坐姿类别和关节点坐标;S2:将原始图像输入到目标检测网络,利用BoundingBox信息截取出单人目标图像;S3:将单人目标图像按坐姿类别进行关节点标记,再将标记的单人目标图像输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征I;S4:将关节点坐标信息和BoundingBox信息输入到多人姿态估计网络,然后对原始图像做多人姿态估计,并将多人姿态估计图截取为单人人体骨架图;S5:将单人人体骨架图输入到卷积神经网络,提取最后一个卷积层输出的深度神经网络特征作为特征II;S6:将特征I和特征II进行融合。2.如权利要求1所述的基于目标检测和人体姿态估计的坐姿检测方法,其特征在于,还包括步骤S7:将融合后的特征输入CNN中,若融合特征来自于训练集,则用于训练网络参数;若融合特征来自验证集,则用于验证网络参数,并通过反向传播算法传递误差信号,更新梯度,寻找最优值,利用柔性最大激活函数Softmax做分类回归,得到最终的分类结果和分类准确率。3.如权利要求1所述的基于目标检测和人体姿态估计的坐姿检测方法,其特征在于,步骤S2具体包括:所述目标检测网络采用FasterRCNN网络,FasterRCNN网络由一个候选区域网络RPN和一个FastRCNN网络组成级联网络;在第一个阶段利用RPN在原始图像中选择出推荐区域,在第二个阶段利用FastRCNN对推荐区域内的目标进一步细分,截取出单人目标图像。4.如权利要求3所述的基于目标检测和人体姿态估计的坐姿检测方法,其特征在于,所述利用RPN在原始图像中选择推荐区域,具体包括:对人工标注的BoundingBox包围区域进行采样,且采样区域为正样本区域时选择该采样区域为推荐区域;所述正样本区域是指采样区域与BoundingBox包围区域的重叠率大于阈值时,该采样区域为正样本区域,阈值为0.6~0.9。5.如权利要求4所述的基于目...

【专利技术属性】
技术研发人员:高陈强汤林陈旭汪澜韩慧
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1