一种基于实例分割的多人体姿态检测及状态判别方法技术

技术编号：25346690 阅读：32 留言：0更新日期：2020-08-21 17:06

本发明专利技术提供了一种基于实例分割的多人体姿态检测及状态判别方法，包括：采集课堂视频的原始分帧图像；分割出学生个体和非学生个体，以不同颜色的掩码标注不同学生个体，同时进行姿态检测，提取出各学生人体姿态的关键点，并进行标注连接；对学生的听课状态进行具体判别，对学生脸部进行识别和定位，判断所有学生个体是否能检测到正面人脸，如果能，则初步说明该同学处于听课状态，并判断该同学是否处于举手状态；如果无法检测出人脸，则进一步判断其是否处于不听课状态。结合每个学生个体听课状态对学生听课效率进行评估。本发明专利技术为实现学生听课状态的判别与分析提供解决方法，具有可实时识别，识别精度高，抗复杂环境干扰性强等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于实例分割的多人体姿态检测及状态判别方法
本专利技术涉及机器学习及机器视觉的
，具体涉及一种基于实例分割的多人体姿态检测及状态判别方法。
技术介绍
随着大数据和人工智能时代的到来，信息技术与学校教育教学的融合逐步成为探究的焦点。智慧课堂正是将先进的信息采集技术与传输技术、智能传感技术及计算机处理技术高校整合利用到教育领域的新兴概念。在教育教学过程中，学生的听课状态能够最有效的对于学生的学习程度和教师的授课情况进行反馈。而现有的教学反馈仍旧以人工分析和评估为主，耗时多，效率低且评估不全面。实例分割在检测目标的基础上还能够分割出目标物体的像素，并且可以对同一物体的不同个体进行标注。实例分割已经被广泛用于自动驾驶、医学检测、服装分类、精准农业等领域。随着人工智能的发展，实例分割也可以逐步应用到智慧课堂当中。目前提出的学生听课状态识别分析的方法较少，主要以单一的人脸识别，人体姿态检测，或是脑电波监测等方法。这些方法都存在着不可避免的缺陷，准确率低，实时性不高，成本较高，受众体验感较差等。本专利技术为实现学生听课状态的判别与分析提供解决方法。以摄像头采集学生课堂情况，实现方式简便，成本较低，同时本专利技术可以实现实时识别，识别精度较高，能够在分割学生个体与课堂背景的基础上同时完成对于学生个体的人体姿态检测和课堂状态判别，可以输出学生个体不同听课状态的标签并以不同颜色的掩码对处于不同听课状态的学生个体进行分类。并且本专利技术提供了一种对于多人课堂效率分析的计算方法，可以在一个课堂时段检测结束后得出学生个体的听...

【技术保护点】
1.一种基于实例分割的多人体姿态检测及状态判别方法，其特征在于，包括以下步骤：/n步骤1：以正面角度采集学生上课视频，每5秒提取一帧，对于采集的视频进行分帧处理，得到课堂视频的全部原始分帧图像；/n步骤2：利用实例分割模型分割出课堂视频的全部原始分帧图像中的学生个体和非学生个体，以不同颜色的掩码标注不同学生个体，同时进行姿态检测，提取出各学生人体姿态的18个关键点，并进行标注连接，从而得到不同颜色掩码和人体关键点连接标注的课堂图像；/n步骤3：利用dlib模型，检测出每个学生个体正面人脸所在位置；/n步骤4：对学生的听课状态进行具体判别：如果能够检测到正面人脸则根据提取出的人体姿态关键点信息判断学生是处于一般听课状态还是举手状态；如果无法检测到学生正面人脸则根据提取出的人体姿态关键点信息判断学生是否处在低头或侧身交头接耳状态；/n步骤5：根据步骤1～步骤4对课堂视频的全部原始分帧图像进行处理，得到标注学生个体姿态的全部标注分帧图像，同时输出学生课堂状态，对于不同课堂状态进行打分加权计算，得出各学生在整个课堂时段的听课效率百分比。/n

【技术特征摘要】
1.一种基于实例分割的多人体姿态检测及状态判别方法，其特征在于，包括以下步骤：
步骤1：以正面角度采集学生上课视频，每5秒提取一帧，对于采集的视频进行分帧处理，得到课堂视频的全部原始分帧图像；
步骤2：利用实例分割模型分割出课堂视频的全部原始分帧图像中的学生个体和非学生个体，以不同颜色的掩码标注不同学生个体，同时进行姿态检测，提取出各学生人体姿态的18个关键点，并进行标注连接，从而得到不同颜色掩码和人体关键点连接标注的课堂图像；
步骤3：利用dlib模型，检测出每个学生个体正面人脸所在位置；
步骤4：对学生的听课状态进行具体判别：如果能够检测到正面人脸则根据提取出的人体姿态关键点信息判断学生是处于一般听课状态还是举手状态；如果无法检测到学生正面人脸则根据提取出的人体姿态关键点信息判断学生是否处在低头或侧身交头接耳状态；
步骤5：根据步骤1～步骤4对课堂视频的全部原始分帧图像进行处理，得到标注学生个体姿态的全部标注分帧图像，同时输出学生课堂状态，对于不同课堂状态进行打分加权计算，得出各学生在整个课堂时段的听课效率百分比。

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：
步骤1.1：录制整个课堂时段的全体学生正面视频，并保存；
步骤1.2：对于存储的课堂时段全体学生正面视频进行分帧操作，设置每5秒提取一帧待处理图像，并将图像输出进行存储。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：
步骤2.1：将步骤1得到的课堂视频的全部原始分帧图像输入到实例分割模型的主干神经网络中进行处理从而得到输入图片中的特征图，提取出的特征图将作为后续处理的输入；
步骤2.2：将步骤2.1得到的特征图输入到实例分割模型中的区域生成网络RPN层中，以滑动窗口扫描图像寻找存在目标的区域，得到感兴趣区域RoI；
步骤2.3：对于每一个生成的感兴趣区域进行检测，当检测到感兴趣区域包含人这一种类时，会对人体身上每一个关键点的位置进行独热编码，对应人体每一关键点生成一个掩码；
步骤2.4：对区域生成网络RPN层的输出结果RoI进行对齐操作，在特征图上提取每个RoI对应的特征；
步骤2.5：将经过步骤2.3处理后的RoI分别送入到实例分割模型中的一种基于快速区域的卷积网络FastR-CNN和全卷积神经网络FCN两个分支，FastR-CNN对RoI进行姿态分类和边界框回归，全卷积神经网络FCN为每个RoI生成掩码；
步骤2.6：对于学生个体的姿态关键点进行坐标提取，将提取出的坐标关键点信息以CSV文件形式保存。

4.根据权利要求3所述的方法，其特征在于，所述步骤2.1包括：
所述主干神经网络包括残差网络ResNet101和特征图金字塔网络FPN；
残差网络ResNet101是由一个7*7*64的输入卷积，后经过33个残差块buildingblock，最后通过一个全连接层FC进行分类，由于每个残差块为3层，所以共有101层网络，每一残差块表示为：
xn+1＝h(xn)+F(xn，Wn)
其中xn+1为每一残差块的输出，xn为残差块的输入，Wn指卷积操作，F(xn，Wn)表示残差部分，h(xn)＝W’nxn表示直接映射部分，W’n是1×1卷积操作；
将残差网络ResNet101分为5个阶段，对应得到特征图金字塔网络FPN网络中5个不同尺度的特征图输出。

5.根据权利要求4所述的方法，其特征在于，步骤2.2包括：
步骤2.2.1：区域生成网络RPN层通过滑动窗口为每个位置生成9种预先设定好长宽比和面积的目标框，目标框称为锚箱anchorbox，所述9种初始锚箱包含三种面积(128×128，256×256，512×512)，每种面积又包含三种长宽比(1:1，1:2，2:1)；
步骤2.2.2：对于生成的初始锚箱进行裁剪过滤后，区域生成网络RPN层通过Softmax函数判断锚点属于前景还是背景，即是学生个体还是教室背景，并为属于前景的锚箱进行第一次坐标修正。

6.根据权利要求5所述的方法，其特征在于，步骤2.3...

【专利技术属性】
技术研发人员：谢非，章悦，刘益剑，陆飞，汪璠，吴俊，汪壬甲，钱伟行，
申请(专利权)人：南京师范大学镇江创新发展研究院，南京师范大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人