一种基于实例分割的多人体姿态检测及状态判别方法技术

技术编号:25346690 阅读:32 留言:0更新日期:2020-08-21 17:06
本发明专利技术提供了一种基于实例分割的多人体姿态检测及状态判别方法,包括:采集课堂视频的原始分帧图像;分割出学生个体和非学生个体,以不同颜色的掩码标注不同学生个体,同时进行姿态检测,提取出各学生人体姿态的关键点,并进行标注连接;对学生的听课状态进行具体判别,对学生脸部进行识别和定位,判断所有学生个体是否能检测到正面人脸,如果能,则初步说明该同学处于听课状态,并判断该同学是否处于举手状态;如果无法检测出人脸,则进一步判断其是否处于不听课状态。结合每个学生个体听课状态对学生听课效率进行评估。本发明专利技术为实现学生听课状态的判别与分析提供解决方法,具有可实时识别,识别精度高,抗复杂环境干扰性强等优点。

【技术实现步骤摘要】
一种基于实例分割的多人体姿态检测及状态判别方法
本专利技术涉及机器学习及机器视觉的
,具体涉及一种基于实例分割的多人体姿态检测及状态判别方法。
技术介绍
随着大数据和人工智能时代的到来,信息技术与学校教育教学的融合逐步成为探究的焦点。智慧课堂正是将先进的信息采集技术与传输技术、智能传感技术及计算机处理技术高校整合利用到教育领域的新兴概念。在教育教学过程中,学生的听课状态能够最有效的对于学生的学习程度和教师的授课情况进行反馈。而现有的教学反馈仍旧以人工分析和评估为主,耗时多,效率低且评估不全面。实例分割在检测目标的基础上还能够分割出目标物体的像素,并且可以对同一物体的不同个体进行标注。实例分割已经被广泛用于自动驾驶、医学检测、服装分类、精准农业等领域。随着人工智能的发展,实例分割也可以逐步应用到智慧课堂当中。目前提出的学生听课状态识别分析的方法较少,主要以单一的人脸识别,人体姿态检测,或是脑电波监测等方法。这些方法都存在着不可避免的缺陷,准确率低,实时性不高,成本较高,受众体验感较差等。本专利技术为实现学生听课状态的判别与分析提供解决方法。以摄像头采集学生课堂情况,实现方式简便,成本较低,同时本专利技术可以实现实时识别,识别精度较高,能够在分割学生个体与课堂背景的基础上同时完成对于学生个体的人体姿态检测和课堂状态判别,可以输出学生个体不同听课状态的标签并以不同颜色的掩码对处于不同听课状态的学生个体进行分类。并且本专利技术提供了一种对于多人课堂效率分析的计算方法,可以在一个课堂时段检测结束后得出学生个体的听课效率,具有识别效率高、识别精度良好、抗复杂环境干扰性强等特点。
技术实现思路
本专利技术的目的是提供一种实时性强、识别率高、抗背景环境干扰能力强的基于实例分割的多人体姿态检测及状态判别方法。为实现上述目的,本专利技术采用了如下技术方案:所述的一种基于实例分割的多人体姿态检测及状态判别方法,包括以下步骤:步骤1:以正面角度采集学生上课视频,每5秒提取一帧,对于采集的视频进行分帧处理,得到课堂视频的全部分帧图像;步骤2:利用实例分割模型分割出课堂视频的全部原始分帧图像中的学生个体和非学生个体,以不同颜色的掩码标注不同学生个体,同时进行姿态检测,提取出各学生人体姿态的18个关键点,并进行标注连接,从而得到不同颜色掩码和人体关键点连接标注的课堂图像;步骤3:利用dlib模型,检测出每个学生个体正面人脸所在位置;步骤4:对学生的听课状态进行具体判别:如果能够检测到正面人脸则根据提取出的人体关键点坐标关系判断学生是处于一般听课状态还是举手状态;如果无法检测到学生正面人脸则根据提取出的人体坐标关键点角度判断学生是否处在低头或侧身交头接耳状态;步骤5:根据步骤1~步骤4对课堂视频的全部原始分帧图像进行处理,得到标注学生个体姿态的全部标注分帧图像,同时输出学生课堂状态,对于不同课堂状态进行打分加权计算,得出各学生在整个课堂时段的听课效率百分比。进一步地,所述步骤1包括:步骤1.1:录制整个课堂时段的全体学生正面视频,并保存至计算机;步骤1.2:对于存储的课堂时段全体学生正面视频进行分帧操作,设置每5秒提取一帧待处理图像,并将图像输出进行存储;进一步地,所述步骤2包括:步骤2.1:将步骤1得到的课堂视频的全部原始分帧图像输入到实例分割模型的主干神经网络中进行处理从而得到输入图片中的特征图,提取出的特征图将作为后续处理的输入;步骤2.2:将步骤2.1得到的特征图输入到实例分割模型中的区域生成网络RPN层中,以滑动窗口扫描图像寻找存在目标的区域,从而得到感兴趣区域RoI;步骤2.3:对于每一个生成的感兴趣区域进行检测,当检测到感兴趣区域包含人这一种类时,会对人体身上每一个关键点的位置进行独热编码,对应人体每一关键点生成一个掩码;步骤2.4:对RPN层的输出结果RoI进行对齐操作,然后在特征图上提取每个RoI对应的特征;步骤2.5:将经过步骤2.3处理后的RoI分别送入到实例分割模型中的一种基于快速区域的卷积网络FastR-CNN和全卷积神经网络FCN两个分支,FastR-CNN对RoI进行姿态分类和边界框回归,全卷积神经网络FCN为每个RoI生成掩码。步骤2.6:对于学生个体的姿态关键点进行坐标提取,将提取出的坐标关键点信息以CSV文件形式保存。进一步地,所述步骤2.1包括:所述主干神经网络包括残差网络ResNet101和特征图金字塔网络FPN构成。残差网络ResNet101是由一个7*7*64的输入卷积,后经过33个残差块buildingblock,最后通过一个全连接层FC进行分类,由于每个残差块为3层,所以共有101层网络。每一残差块表示为:xn+1=h(xn)+F(xn,Wn)其中xn+1为每一残差块的输出,xn为该残差块的输入,Wn指卷积操作,F(xn,Wn)表示残差部分,h(xn)=W’nxn表示直接映射部分,W’n是1×1卷积操作。将残差网络ResNet101分为5个阶段,对应得到特征图金字塔网络FPN网络中5个不同尺度的特征图输出。进一步地,所述步骤2.2包括:步骤2.2.1:区域生成网络RPN层通过滑动窗口为每个位置生成9种预先设定好长宽比和面积的目标框,目标框称为锚箱anchorbox。所述9种初始锚箱包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1∶1,1∶2,2∶1);步骤2.2.2:对于生成的初始锚箱进行裁剪过滤后,区域生成网络RPN层通过Softmax函数判断锚点属于前景还是背景,即是学生个体还是教室背景,此外还为属于前景的锚箱进行第一次坐标修正。进一步地,所述步骤2.2.2包括:Softmax函数是用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,并且归一化保证和为1,从而使得多分类的概率之和也刚好为1。Softmax函数定义如下:其中,Vi是分类器前级输出单元的输出。i表示类别索引,C表示总的类别个数。Si表示的是当前元素的指数与所有元素指数和的比值。通过这个Softmax函数就可以将多分类的输出数值转化为相对概率。Softmax的损失函数Loss多数为交叉熵形式:其中ti表示真实值,yi表示Softmax函数求出的值。输入一个样本,只有一个神经元对应了该样本的正确类别;如果这个神经元输出的概率值越高,则按照以上的函数公式,其产生的损失就越小;反之,则产生的损失就越高。训练好的Softmax函数可用于对特征图进行分类。进一步地,所述步骤2.3包括:独热编码为一位有效编码。人体姿态检测时,人本身作为一个目标实例进行分类检测,人体每个部位的关键点对应于一个独热编码,每一个人体标注18个关键点,关键点的标注方式参照COCO数据集中人体关键点的标注方式。进一步地,所述步骤2.4包括:步本文档来自技高网
...

【技术保护点】
1.一种基于实例分割的多人体姿态检测及状态判别方法,其特征在于,包括以下步骤:/n步骤1:以正面角度采集学生上课视频,每5秒提取一帧,对于采集的视频进行分帧处理,得到课堂视频的全部原始分帧图像;/n步骤2:利用实例分割模型分割出课堂视频的全部原始分帧图像中的学生个体和非学生个体,以不同颜色的掩码标注不同学生个体,同时进行姿态检测,提取出各学生人体姿态的18个关键点,并进行标注连接,从而得到不同颜色掩码和人体关键点连接标注的课堂图像;/n步骤3:利用dlib模型,检测出每个学生个体正面人脸所在位置;/n步骤4:对学生的听课状态进行具体判别:如果能够检测到正面人脸则根据提取出的人体姿态关键点信息判断学生是处于一般听课状态还是举手状态;如果无法检测到学生正面人脸则根据提取出的人体姿态关键点信息判断学生是否处在低头或侧身交头接耳状态;/n步骤5:根据步骤1~步骤4对课堂视频的全部原始分帧图像进行处理,得到标注学生个体姿态的全部标注分帧图像,同时输出学生课堂状态,对于不同课堂状态进行打分加权计算,得出各学生在整个课堂时段的听课效率百分比。/n

【技术特征摘要】
1.一种基于实例分割的多人体姿态检测及状态判别方法,其特征在于,包括以下步骤:
步骤1:以正面角度采集学生上课视频,每5秒提取一帧,对于采集的视频进行分帧处理,得到课堂视频的全部原始分帧图像;
步骤2:利用实例分割模型分割出课堂视频的全部原始分帧图像中的学生个体和非学生个体,以不同颜色的掩码标注不同学生个体,同时进行姿态检测,提取出各学生人体姿态的18个关键点,并进行标注连接,从而得到不同颜色掩码和人体关键点连接标注的课堂图像;
步骤3:利用dlib模型,检测出每个学生个体正面人脸所在位置;
步骤4:对学生的听课状态进行具体判别:如果能够检测到正面人脸则根据提取出的人体姿态关键点信息判断学生是处于一般听课状态还是举手状态;如果无法检测到学生正面人脸则根据提取出的人体姿态关键点信息判断学生是否处在低头或侧身交头接耳状态;
步骤5:根据步骤1~步骤4对课堂视频的全部原始分帧图像进行处理,得到标注学生个体姿态的全部标注分帧图像,同时输出学生课堂状态,对于不同课堂状态进行打分加权计算,得出各学生在整个课堂时段的听课效率百分比。


2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤1.1:录制整个课堂时段的全体学生正面视频,并保存;
步骤1.2:对于存储的课堂时段全体学生正面视频进行分帧操作,设置每5秒提取一帧待处理图像,并将图像输出进行存储。


3.根据权利要求2所述的方法,其特征在于,步骤2包括:
步骤2.1:将步骤1得到的课堂视频的全部原始分帧图像输入到实例分割模型的主干神经网络中进行处理从而得到输入图片中的特征图,提取出的特征图将作为后续处理的输入;
步骤2.2:将步骤2.1得到的特征图输入到实例分割模型中的区域生成网络RPN层中,以滑动窗口扫描图像寻找存在目标的区域,得到感兴趣区域RoI;
步骤2.3:对于每一个生成的感兴趣区域进行检测,当检测到感兴趣区域包含人这一种类时,会对人体身上每一个关键点的位置进行独热编码,对应人体每一关键点生成一个掩码;
步骤2.4:对区域生成网络RPN层的输出结果RoI进行对齐操作,在特征图上提取每个RoI对应的特征;
步骤2.5:将经过步骤2.3处理后的RoI分别送入到实例分割模型中的一种基于快速区域的卷积网络FastR-CNN和全卷积神经网络FCN两个分支,FastR-CNN对RoI进行姿态分类和边界框回归,全卷积神经网络FCN为每个RoI生成掩码;
步骤2.6:对于学生个体的姿态关键点进行坐标提取,将提取出的坐标关键点信息以CSV文件形式保存。


4.根据权利要求3所述的方法,其特征在于,所述步骤2.1包括:
所述主干神经网络包括残差网络ResNet101和特征图金字塔网络FPN;
残差网络ResNet101是由一个7*7*64的输入卷积,后经过33个残差块buildingblock,最后通过一个全连接层FC进行分类,由于每个残差块为3层,所以共有101层网络,每一残差块表示为:
xn+1=h(xn)+F(xn,Wn)
其中xn+1为每一残差块的输出,xn为残差块的输入,Wn指卷积操作,F(xn,Wn)表示残差部分,h(xn)=W’nxn表示直接映射部分,W’n是1×1卷积操作;
将残差网络ResNet101分为5个阶段,对应得到特征图金字塔网络FPN网络中5个不同尺度的特征图输出。


5.根据权利要求4所述的方法,其特征在于,步骤2.2包括:
步骤2.2.1:区域生成网络RPN层通过滑动窗口为每个位置生成9种预先设定好长宽比和面积的目标框,目标框称为锚箱anchorbox,所述9种初始锚箱包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1);
步骤2.2.2:对于生成的初始锚箱进行裁剪过滤后,区域生成网络RPN层通过Softmax函数判断锚点属于前景还是背景,即是学生个体还是教室背景,并为属于前景的锚箱进行第一次坐标修正。


6.根据权利要求5所述的方法,其特征在于,步骤2.3...

【专利技术属性】
技术研发人员:谢非章悦刘益剑陆飞汪璠吴俊汪壬甲钱伟行
申请(专利权)人:南京师范大学镇江创新发展研究院南京师范大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1