一种基于教室场景的多人关键点检测网络和方法技术

技术编号：25915995 阅读：39 留言：0更新日期：2020-10-13 10:35

本发明专利技术提出一种基于教室场景的多人关键点检测网络和方法。网络包括人体目标检测模块、人体目标区域融合模块、人体目标区域特征提取模块和关键点检测与集成模块。本发明专利技术利用多个stage进行高效特征融合，基于多尺度特征融合策略对OpenPose和YoloV3网络分别做了改进。本发明专利技术提出基于空洞卷积的Inception模块代替OpenPose的特征提取网络，能获取更大感受野的局部信息，将密集连接模块融入YOLOV3的浅层网络中，使浅层与高层特征进行特征融合，并用GIOU损失函数代替YOLO v3的边界框回归损失函数来提升检测精度，再通过人体预测框融合策略进行区域融合输出检测区域。将这两个网络级联为一个框架进行关键点检测，有效改善了教室后排小尺度学生定位难和误检关键点的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于教室场景的多人关键点检测网络和方法
本专利技术涉及一种人体关键点检测，特别是一种基于教室场景的多人关键点检测网络和方法。
技术介绍
人体关键点检测，又称人体姿态估计，是计算机视觉中一个很基础的问题，是人体动作识别、行为分析、人机交互等的前置任务，可以理解为对人体的关键点，如头，手肘，手腕，膝盖等位置的估计。人体姿态估计又可分为2D/3D关键点检测、单人/多人关键点检测，在完成关键点检测之后还能进行关键点的跟踪，也被称为人体姿态跟踪。人体关键点检测也面临了很多挑战，比如灵活、小而几乎看不见的关节、遮挡、衣服和光线变化都为人体关键点检测增加了难度。本专利技术主要涉及2D多人关键点检测，目的在于检测课堂上的学生的关键点，用于后续进行姿态识别。给定一张RGB图像，精确地定位出多个人体的关键点，并确定其隶属的人体。目前对于多人关键点检测，有两个主流方法：(1)Top-down：先进行目标(人体)检测，再对每个检测到的人体进行单人姿态估计的两阶段方法(如CPM、StackedHourglass、HRnet等网络)。自上而下的方法必然会受到目标检测任务的约束，因为基于boundingbox的单人姿态估计，在面对遮挡问题和小尺度人体目标时容易受挫。(2)Bottom-up：先检测所有人的关键点，再用算法将这些关键点关联匹配到相关人体(如OpenPose的动态规划，AssociativeEmbedding的tag匹配，PersonLab的贪婪算法等)。遮挡问题仍然是个挑战，同时由于图像上人体尺度大小不一...

【技术保护点】
1.一种基于教室场景的多人关键点检测网络，包括人体目标区域检测模块(1)、人体目标区域融合模块(2)、人体目标区域特征提取模块(3)、关键点检测与集成模块(4)；其特征在于：/n所述人体目标区域检测模块(1)依次连接人体目标区域融合模块(2)、人体目标区域特征提取模块(3)和关键点检测与集成模块(4)；/n所述人体目标区域检测模块(1)，用于检测图片中每个学生的区域；/n所述人体目标区域融合模块(2)，用于将所述人体目标区域检测模块(1)中粗略检测出的学生的区域进行融合；/n所述人体目标区域特征提取模块(3)，用于对所述人体目标区域融合模块(2)中融合后的学生区域进行特征提取；/n所述关键点检测与集成模块(4)，用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测，再进行肢体匹配，得到最终的多人关键点检测结果。/n

【技术特征摘要】
1.一种基于教室场景的多人关键点检测网络，包括人体目标区域检测模块(1)、人体目标区域融合模块(2)、人体目标区域特征提取模块(3)、关键点检测与集成模块(4)；其特征在于：
所述人体目标区域检测模块(1)依次连接人体目标区域融合模块(2)、人体目标区域特征提取模块(3)和关键点检测与集成模块(4)；
所述人体目标区域检测模块(1)，用于检测图片中每个学生的区域；
所述人体目标区域融合模块(2)，用于将所述人体目标区域检测模块(1)中粗略检测出的学生的区域进行融合；
所述人体目标区域特征提取模块(3)，用于对所述人体目标区域融合模块(2)中融合后的学生区域进行特征提取；
所述关键点检测与集成模块(4)，用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测，再进行肢体匹配，得到最终的多人关键点检测结果。

2.根据权利要求1所述的基于教室场景的多人关键点检测网络，其特征在于：所述人体目标区域检测模块(1)是在浅层网络引入了密集连接模块的YOLOV3网络，并且使用GIOU损失函数代替YOLOV3的边界框回归损失函数，使浅层特征和深层特征可以更好更快地进行融合，提升检测精度，改善对教室后排低分辨率学生检测难的问题。

3.根据权利要求1所述的基于教室场景的多人关键点检测网络，其特征在于：所述人体目标区域融合模块(2)用于对所述人体目标区域检测模块(1)中检测到的人体框区域进行融合，旨在减少后续在非人处检测出关键点的情况。

4.根据权利要求1所述的基于教室场景的多人关键点检测网络，其特征在于：所述人体目标区域特征提取模块(3)是基于空洞卷积的InceptionNet网络，目的是获取更大感受野的局部信息，提高对小尺寸学生的检测性能。

5.根据权利要求1所述的基于教室场景的多人关键点检测网络，其特征在于：所述关键点检测与集成模块(4)是一个级联的多stage的网络，同时对人体关键点置信图和部位关系图进行预测，并且在每一个stage后都设置了损失函数，最终输出关键点置信度图和部位关系图并进行肢体匹配，得到最后的多人关键点检测结果。

6.一种基于教室场景的多人关键点检测方法，采用权利要求1所述基于教室场景的多人关键点检测网络进行操作，其特征在于具体操作步骤如下：
步骤1：人体目标区域检测，粗略检测图片中每个学生的区域；
步骤2：人体检测区域融合，对步骤1中检测得到的学生区域进行区域融合；
步骤3：人体目标区域特征提取，对步骤2中得到的融合后的学生目标区域进行特征提取；
步骤4：关键点检测，用对存在学生的区域进行关键点置信度和部位关系亲和度的预测，再进行肢体匹配，得到最终的关键点检测结果。

7.根据权利要求6所述的基于教室场景的多人关键点检测方法，其特征在于，所述步骤1的具体步骤为：
步骤1.1：对输入图像进行1次密集连接卷积和3次残差卷积提取特征，可更...

【专利技术属性】
技术研发人员：滕国伟，丁敏，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人