一种基于图像识别的服务区人员人脸表情识别方法技术

技术编号:34997237 阅读:16 留言:0更新日期:2022-09-21 14:45
本发明专利技术公开一种基于图像识别的服务区人员人脸表情识别方法,包括步骤:先采用SSD网络对图像中的人体进行检测,将检测到的人体截取出来;利用采用Yolo5Face网络构成的人脸检测模型在截取的人体的基础上进行人脸检测,将人脸区域截取下来;利用引入shortcut connections的ResNet残差网络对检测到的人脸区域进行表情的分类,判断当前目标的表情,实现人员的表情识别。本发明专利技术基于图像识别的服务区人员人脸表情识别方法,能有效提升人脸表情的识别效果。的识别效果。的识别效果。

【技术实现步骤摘要】
一种基于图像识别的服务区人员人脸表情识别方法


[0001]本专利技术涉及人脸识别
,特别是涉及一种基于图像识别的服务区人员人脸表情识别方法。

技术介绍

[0002]人脸是最重要的外貌特征,人脸表情可以直观的反应人的情绪变化,通过摄像头捕获门店的顾客画面,分析其面部表情,再进一步解读出客人的情绪信息,从而分析顾客的体验满意度,以提升或改进服务,对于服务区,特别是高速服务区的服务提升或改进,具有重要的意义。
[0003]人脸表情识别需要先将人的脸部检测出来,然后进行分类从而判断出当前人脸的表情,因此如何有效地检测出人脸以及对人脸表情进行正确的分类是本专利技术要解决的主要问题。

技术实现思路

[0004]本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种基于图像识别的服务区人员人脸表情识别方法。
[0005]为实现本专利技术的目的所采用的技术方案是:
[0006]一种基于图像识别的服务区人员人脸表情识别方法,包括步骤:
[0007]先采用SSD网络对图像中的人体进行检测,将检测到的人体截取出来;利用采用Yolo5Face网络构成的人脸检测模型在截取的人体的基础上进行人脸检测,将人脸区域截取下来;利用引入shortcut connections的ResNet残差网络对检测到的人脸区域进行表情的分类,判断当前目标的表情,实现人员的表情识别;
[0008]其中,Yolo5Face网络在处理输入图像时,首先经过Backbone层提取图像特征,然后经过FPN和FAN进行特征融合,FPN自顶向下,将高层的强语义特征向下传递,对整个金字塔的语义信息增强;PAN布置于FPN的输出端,形成一个自底向上的金字塔以对FPN补充,将低层的强定位特征向上传递。
[0009]其中,利用视频监控设备对数据集进行采集,利用图像标注软件进行标注,将人标注为person,人脸部分标注为face。
[0010]其中,检测到人体后,将检测到的人体图像截取出来,并将标注的人脸face标签对应到截取的人体图像上,作为人脸检测模型的输入。
[0011]其中,SSD网络使用单一深度神经网络检测图像中的对象,使用VGG16作为特征提取器,将边界框的输出空间离散化为一组默认框,该组默认框在每个特征图位置上具有不同长宽比和尺度;预测时,SSD网络为每组默认框生成所有对象类别存在的分数,并调整默认框以匹配该对象的形状。
[0012]本专利技术基于图像识别的服务区人员人脸表情识别方法,能有效提升人脸表情的识别效果。
附图说明
[0013]图1是本专利技术的基于图像识别的服务区人员人脸表情识别方法的示意图。
[0014]图2是本专利技术所用的Yolo5Face网络的结构图。
[0015]图3为本专利技术所用的残差网络的结构图。
具体实施方式
[0016]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0017]如图1所示,本专利技术实施例的基于图像识别的服务区人员人脸表情识别方法,包括步骤:
[0018]先采用SSD网络对图像中的人体进行检测,将检测到的人体截取出来;利用采用Yolo5Face网络构成的人脸检测模型在截取的人体的基础上进行人脸检测,将人脸区域截取下来;利用引入shortcut的ResNet残差网络对检测到的人脸区域进行表情的分类,判断当前目标的表情,实现人员的表情识别;
[0019]其中,Yolo5Face网络在处理输入图像时,首先经过Backbone层,包括有空间金字塔池化(Spatial Pyramid Pooling,SPP)及特征金字塔网络Feature Pyramid Network,FPN)提取图像特征,FPN自顶向下,将高层的强语义特征向下传递,对整个金字塔的语义信息增强;然后经过Neck层来进行特征融合,Neck层包括PAN(Path Aggregation Network),PAN布置于FPN的输出端,形成一个自底向上的金字塔以对FPN补充,将低层的强定位特征向上传递。
[0020]在现实场景中,环境较为复杂,若距离摄像头较远,则人脸的特征较少,无法有效的进行特征提取,因此,本专利技术的方法先对人体进行检测,将检测到的人体部分截取出来,再进行人脸的检测,将人脸部分截取下来,进行表情的分类,从而对人员的表情进行识别。
[0021]其中,在数据采集方面,利用视频监控设备对数据集进行采集,利用图像标注软件进行标注,将人标注为person,人脸部分标注为face。
[0022]对于人体检测采用SSD网络,SSD网络是一种使用单一深度神经网络检测图像中对象的方法,该方法将边界框的输出空间离散化为一组默认框,这组默认框在每个特征图位置上具有不同长宽比和尺度。在预测时,网络会为每个默认框生成所有对象类别存在的分数,并调整默认框以更好的匹配该对象的形状。
[0023]此外,SSD网络更加简单,因为SSD网络将所有的计算完全封装在一个网络中。SSD网络使用VGG16作为特征提取器(等效于Faster RCNN中的CNN),它使得SSD网络易于训练、检测迅速,并且可以直接集成到需要实时检测的系统中。SSD网络采用了特征金字塔层次结构,具有快速的检测速度。
[0024]本专利技术实施例中,在检测到人体部分后,将检测到的人体图像截取出来,并将标注的人脸face标签对应到截取的人体图像上,将其作为人脸检测模型的输入。此部分采用Yolo5Face网络,Yolo5Face网络以Yolov5模型作为基础,辅助以人脸特性,得到一个新的人脸检测器。该Yolo5Face网络用Stem模块替代Yolov5中原有Focus模块,提高了网络泛化能力,降低了计算复杂度,同时性能也没有下降,对SPP模块进行更新使用更小的kernel,更适用于人脸检测并提高了检测精度。Yolo5Face网络包括backbone层、FAN层以及输出层
(output)。
[0025]如图2所示,该Yolo5Face网络处理图像时,输入图像(input image)首先经过Backbone层来提取图像特征,然后经过FPN和PAN来进行特征融合,FPN自顶向下,将高层的强语义特征传递下来,对整个金字塔进行增强,不过只增强了语义信息,对定位信息没有传递。PAN针对这一点,在FPN的后面添加一个自底向上的金字塔,对FPN补充,将低层的强定位特征传递上去,最后是输出模块,输出包括class、box、conf和landmark。
[0026]在将检测到的人脸区域截取出来后,输入到ResNet残差网络中进行分类,从而判断当前目标的表情。如图3所示,ResNet残差网络引入shortcut connections,输入数据X经两路汇合作为输出数据{F(X)+X},一路是直接输入的数据X,另一路是经过两个卷积层运算后的结果F(X),能更好的拟合分类函数以获得更高的分类精度,解决了网络在层数加深时优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图像识别的服务区人员人脸表情识别方法,其特征在于,包括步骤:先采用SSD网络对图像中的人体进行检测,将检测到的人体截取出来;利用采用Yolo5Face网络构成的人脸检测模型在截取的人体的基础上进行人脸检测,将人脸区域截取下来;利用引入shortcut connections的ResNet残差网络对检测到的人脸区域进行表情的分类,判断当前目标的表情,实现人员的表情识别;其中,Yolo5Face网络在处理输入图像时,首先经过Backbone层提取图像特征,然后经过FPN和FAN进行特征融合,FPN自顶向下,将高层的强语义特征向下传递,对整个金字塔的语义信息增强;PAN布置于FPN的输出端,形成一个自底向上的金字塔以对FPN补充,将低层的强定位特征向上传递。2.根据权利要求1所述基于...

【专利技术属性】
技术研发人员:胡远族刘丽欣韩冰洋
申请(专利权)人:天津中科智能识别有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1