一种基于物体检测和姿态估计的举手者检测方法技术

技术编号:20655358 阅读:27 留言:0更新日期:2019-03-23 06:58
本发明专利技术涉及一种基于物体检测和姿态估计的举手者检测方法,该方法包括以下步骤:1)获得待测教学视频;2)均匀提取所述待测教学视频中的图片帧,输入训练好的举手动作检测模型中,获取含有举手动作的图片帧和记录举手框位置的第一文本文件;3)对所述含有举手动作的图片帧进行姿态估计,获得每张图片帧中所有人的人体关键点,形成记录关键点位置的第二文本文件;4)根据所述第一文本文件和第二文本文件,利用启发式匹配策略,检测获得举手者。与现有技术相比,本发明专利技术通过改进姿态估计算法解决低分辨率和动作扭曲的问题,采用启发式匹配策略准确获得真实举手者,具有检测准确度和检全率高等优点。

【技术实现步骤摘要】
一种基于物体检测和姿态估计的举手者检测方法
本专利技术涉及一种视频智能检测方法,尤其是涉及一种基于物体检测和姿态估计的举手者检测方法。
技术介绍
近年来,随着人工智能和深度神经网络的快速崛起,物体检测和姿态估计也得到了繁荣发展。得益于大量的图像数据集和计算资源,很多优秀的物体识别算法涌现了出来,包括FastR-CNN、FasterR-CNN、YOLO、SSD和R-FCN,与此同时,通过检测人体关键点的姿态估计算法也有了突破性的进展,而姿态估计算法又通常用于多人场景。一般多人姿态估计算法主要包括两大类方法,Top-down(自顶向下):首先检测到多个人,之后针对每个人做单人姿态估计,Bottom-up(自下而上):先检测图片中所有的人体关键点,再将它们连接成多个完整的人体姿态。Top-down类方法在各类姿态估计公共数据集上取得了迄今最好的结果,包括MPII多人数据集和COCO关键点挑战数据集,但此类方法的效果很容易受到人体检测器的影响,一旦出现人体漏检,后续将没有补救措施。而Bottom-up类方法在公共数据集上的整体姿态估计准确率不高。在复杂的实时场景下,计算机视觉任务会面临很多挑战,人体关键点检测也不例外,其中主要包括两类问题:低分辨率和动作扭曲。低分辨率会造成关键点检测错误和缺失的情况,进而可能带来最终动作检测的失误,如图1的(1a)所示。举手等动作可能会带来十分夸张的人体姿态,比如将手臂高高举起造成人体长度比例失调,将身体一侧的手臂举起后并偏向身体另一侧,向其他方向举起手臂而不是竖直向上举起手臂,如图(1b)所示,这些罕见的姿态不但给关键点检测带来了困难,也给后续的举手者匹配造成了新的问题。总而言之,现有的原多人姿态估计算法面对上述两类问题,检测效果并不理想,会出现很多关于人体关键点的漏检和误检,这给后续的举手者匹配带来了极大的困难。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物体检测和姿态估计的举手者检测方法。本专利技术的目的之一是精确搜寻视频中的举手者。本专利技术的专利技术目的之二是针对低分辨率和动作扭曲的问题,进行更精确的人体关键点检测。本专利技术的目的可以通过以下技术方案来实现:一种基于物体检测和姿态估计的举手者检测方法,该方法包括以下步骤:1)获得待测教学视频;2)均匀提取所述待测教学视频中的图片帧,输入训练好的举手动作检测模型中,获取含有举手动作的图片帧和记录举手框位置的第一文本文件;3)对所述含有举手动作的图片帧进行姿态估计,获得每张图片帧中所有人的人体关键点,形成记录关键点位置的第二文本文件;4)根据所述第一文本文件和第二文本文件,利用启发式匹配策略,检测获得举手者。进一步地,所述举手动作检测模型基于ResNet-101实现特征提取,并在网络中间层实现特征图融合。进一步地,所述举手动作检测模型中仅利用一层卷积层实现最终预测。进一步地,所述第一文本文件中,每一条记录由五个字段组成,第一个字段表示举手动作的置信度,后四个字段表示举手框的坐标。进一步地,对所述含有举手动作的图片帧进行姿态估计具体为:对每张含有举手动作的图片帧进行放大和缩小处理,采用部分亲和域方法进行姿态估计,以估计平均值作为最终图片帧的人体关键点检测结果。进一步地,所述采用部分亲和域方法进行姿态估计时,候选关节连接的权重通过以下公式获得:其中,d1、d2分别表示人体的两个可能连接的候选关键点,||d2-d1||2表示这两个关键点之间的欧式距离,N表示选择的两个候选关键点间的代表点的个数,v()表示向量生成函数。进一步地,所述采用部分亲和域方法进行姿态估计时,候选关节连接的权重通过以下公式获得:其中,d1、d2分别表示人体的两个可能连接的候选关键点,||d2-d1||2表示这两个关键点之间的欧式距离,N表示选择的两个候选关键点间的代表点的个数,v()表示向量生成函数,λ表示肢体长度惩罚系数。进一步地,所述第二文本文件中,每一条记录由18个人体关键点信息组成,每个关键点由3个数字组成,第一个数字为关键点编号,后两个数字为关键点的横纵坐标。进一步地,所述启发式匹配策略包括:A)举手框内包含手肘或手腕关键点时,以判定手肘或手腕关键点对应的人体骨架为举手者;B)将举手框向左下方或右下方进行扩展,以权重值最大的关键点对应的人体骨架为举手者;C)当一个举手框匹配有多个人体骨架时,引入全局惩罚系数。与现有技术相比,本专利技术具有以如下有益效果:1)本专利技术利用举手框的检测结果与人体关键点进行匹配,首次提出了基于深度学习的举手者匹配问题,能够精确地检测出视频中的举手者。2)本专利技术针对低分辨率和动作扭曲的问题,改进PAF方法进行姿态估计,加入尺度搜索和修改权重度量标准后,提升了PAF算法在课堂教学场景下的检测效果。3)本专利技术设计了启发式匹配策略,最大化增加举手动作和学生的匹配准确率,实验表明其可取得83%的匹配准确率,具有一定的使用价值。附图说明图1为现有技术中关键点检测不稳定的结果示意图,其中,(1a)为低分辨率,(1b)为动作扭曲;图2为本专利技术的流程示意图;图3为COCO数据集关键点标注标准示意图;图4为本专利技术举手动作检测模型的结构示意图;图5为本专利技术RFCN模型网络参数设置示意图;图6为本专利技术举手框检测结果示意图;图7为本专利技术第一文本文件示意图;图8为使用改进后的PAF姿态估计算法检测的结果示意图,其中,(8a)为不使用尺度搜索的结果,(8b)为添加放缩策略后的效果,(8c)为加入放大策略的效果,(8d)为同时包含缩小和放大操作后的结果,(8e)为原始算法和改进后的算法的检测结果对比示意图;图9为原始算法与使用改进的权重度量标准后的手臂关节点检测效果对比图;图10为原始算法与加入肢体长度反比惩罚项的检测结果示意图;图11为本专利技术姿态估计效果示意图;图12为本专利技术第二文本文件的示意图;图13为使用启发式匹配策略的匹配示意图,其中,(13a)为设置不同权重值的匹配策略,(13b)为举左手匹配实例,(13c)为关键点重叠的情况下匹配实例;图14为本专利技术的匹配策略逻辑流程图;图15为本专利技术的一个匹配流程实例;图16为实施例的三个匹配效果示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术实现一种基于物体检测和姿态估计的举手者检测方法,该方法先使用了改进版本的R-FCN来检测实际教学视频中的举手,保存其中含有举手动作的图片帧以及记录举手框位置信息的文本文件之后,再用基于Pytorch的openpose(内置的关键点检测算法已经替换为改进版本的部分亲和域(PAF,partaffinityfields))对所有人进行姿态估计,将关键点的位置信息保存到文本文件中,最后根据这些举手检测框和人体关键点信息,恰当的匹配策略可以完成查找举手者的目的,最终的结果可在原始图片上可视化,整体流程如图2所示。本专利技术通过将举手与学生匹配起来,可以了解学生对当前教师教授内容的掌握情况和他们同教师的配合度,对自动评估课堂教学气氛和提升教学质量具有重大意义。关键点检测模型的训练数据集为COCO数据集,如图3所示。本实施例本文档来自技高网
...

【技术保护点】
1.一种基于物体检测和姿态估计的举手者检测方法,其特征在于,该方法包括以下步骤:1)获得待测教学视频;2)均匀提取所述待测教学视频中的图片帧,输入训练好的举手动作检测模型中,获取含有举手动作的图片帧和记录举手框位置的第一文本文件;3)对所述含有举手动作的图片帧进行姿态估计,获得每张图片帧中所有人的人体关键点,形成记录关键点位置的第二文本文件;4)根据所述第一文本文件和第二文本文件,利用启发式匹配策略,检测获得举手者。

【技术特征摘要】
1.一种基于物体检测和姿态估计的举手者检测方法,其特征在于,该方法包括以下步骤:1)获得待测教学视频;2)均匀提取所述待测教学视频中的图片帧,输入训练好的举手动作检测模型中,获取含有举手动作的图片帧和记录举手框位置的第一文本文件;3)对所述含有举手动作的图片帧进行姿态估计,获得每张图片帧中所有人的人体关键点,形成记录关键点位置的第二文本文件;4)根据所述第一文本文件和第二文本文件,利用启发式匹配策略,检测获得举手者。2.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法,其特征在于,所述举手动作检测模型基于ResNet-101实现特征提取,并在网络中间层实现特征图融合。3.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法,其特征在于,所述举手动作检测模型中仅利用一层卷积层实现最终预测。4.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法,其特征在于,所述第一文本文件中,每一条记录由五个字段组成,第一个字段表示举手动作的置信度,后四个字段表示举手框的坐标。5.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法,其特征在于,对所述含有举手动作的图片帧进行姿态估计具体为:对每张含有举手动作的图片帧进行放大和缩小处理,采用部分亲和域方法进行姿态估计,以估计平均值作为最终图片帧的人体关键点检测结果。6.根据权利要求5所述的基于物体检...

【专利技术属性】
技术研发人员:周华毅申瑞民姜飞米里亚姆·赖纳
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1