一种基于yolo和多任务卷积神经网络的导购消极行为监控方法技术

技术编号:20242948 阅读:35 留言:0更新日期:2019-01-29 23:30
基于yolo和多任务卷积神经网络的导购消极行为监控方法,首先训练一个基于yolo的行人检测模型,用ImageNet和voc2007数据集预训练模型,再用监控场景图像微调模型;然后构建一个基于ResNet50的多任务卷积神经网络,用手工标注过的多标签图像数据训练该网络;接着用rtsp协议读取商场监控画面,用行人检测模型检测画面中的行人,而后将行人图像输入到多任务卷积神经网络,识别行人是否为导购,是否闲坐,是否在玩手机,以此判断导购是否存在消极行为,并将“严重消极”和“一般消极”的导购画面保存在本地。最终实现用基于yolo的行人检测网络和多任务卷积神经网络对导购消极行为进行有效的监控和记录。

【技术实现步骤摘要】
一种基于yolo和多任务卷积神经网络的导购消极行为监控方法
本专利技术涉及在新零售领域的导购消极行为监控方法。
技术介绍
随着人工成本的提高,在商场里,招聘更多的导购意味着成本的提升。然而有部分导购存在着消极工作的行为,比如“玩手机”、“附近有顾客时坐着”等消极行为,造成人力资源的浪费。为避免不必要的支出,商场对导购进行有效的考勤管理显得尤为重要。普通的考勤系统只能记录导购的上下班时间,不能自动分析导购在上班时间是否存在消极工作的情况,也不能记录下导购消极工作时的画面。针对这一需求,本专利技术利用计算机视觉技术对商场内普遍存在的监控所采集的图像进行图像识别、分析。针对行人检测,已有的方法中,有利用方向梯度直方图作为行人检测的描述子,再用SVM进行分类,这种方法精度不是很高,容易误检。近年来深度卷积神经网络应用在行人检测方面,对行人检测的精度有很大提升,然而由于迁移学习中跨数据集的拟合问题,这种方法在监控视角下缺乏鲁棒性。针对属性识别,卷积神经网络在属性分类的精度上取得传统方法不能比拟的效果。近年来,VGG、ResNet、DenseNet等CNN模型框架已经得到广泛的应用。然而一个原始的ResNet只能对一个属性进行分类,多个属性则需要训练多个模型,这极大地增加了计算的负担。由此可见,对于识别、记录导购消极行为的监控系统,目前还没有完善的解决方案。
技术实现思路
本专利技术要克服现有技术的上述缺点,提供一种基于yolo和多任务卷积神经网络的导购消极行为监控方法。为实现上述专利技术目的,本专利技术设计一种基于yolo和多任务卷积神经网络的导购消极行为监控系统。首先训练一个基于yolo的行人检测模型以及基于ResNe50的多任务卷积神经网络;进一步的,对于监控定时采样的图像,用基于yolo的检测模型检测行人;更进一步的,用一个基于ResNet50的多任务卷积神经网络去识别商场内导购的多种属性和行为,判断是否存在消极行为,并以图片的形式记录下导购做出消极行为的画面。在一定程度上解决了导购消极行为检测以及对上班情况进行自动考勤的问题。可应用在新零售场景中考勤系统、导购管理、店铺运营等方面。本专利技术解决其技术问题所采用的技术方案是:一种基于yolo和多任务卷积神经网络的导购消极行为监控方法,含有以下步骤:步骤1.训练基于yolo的行人检测模型:构建基于yolo的行人检测模型,用ImageNet数据集预训练分类模型,用voc2007数据集预训练检测模型,用监控视角数据集微调模型:步骤2.训练基于ResNet50的多任务卷积神经网络:构建基于ResNet50的多任务卷积神经网络,训练基于ResNet50的多任务卷积神经网络;步骤3.导购消极行为记录:读取监控画面,商场内行人检测,识别行人属性,记录导购消极行为画面;与现有技术相比,本专利技术技术方案的优点有:(1)本专利技术训练的行人检测模型能在商场监控视角下进行鲁棒的行人检测;(2)本专利技术训练的多任务卷积神经网络能同时识别行人多个属性,并保持高精度和鲁棒性;(3)本专利技术将考勤系统扩展到记录工作过程中的消极行为,而不仅仅是记录上下班的迟到早退,使考勤系统更为完善。附图说明图1是本专利技术的yolo预训练分类模型示意图;图2是本专利技术的基于yolo的行人检测模型示意图;图3是本专利技术的基于ResNet50的多任务卷积神经网络示意图;图4是本专利技术方法的流程图;具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图和实施例对本专利技术作进一步的详细描述。实施例1:一种基于yolo和多任务卷积神经网络的导购消极行为监控系统,含有以下步骤:(1)训练基于yolo的行人检测模型;步骤11:构建基于yolo的行人检测模型;本专利技术借鉴yolo第二代的训练方式和网络结构,在此基础上,对其网络结构进行了改进,使模型在本专利技术的监控视角中更为鲁棒。具体地,原yolo-v2的网络结构中包含19个卷积层和5个最大池化层,本专利技术中使用跳层融合的方式,特征提取的阶段一使用13个卷积层和4个最大池化层,阶段二使用7个卷积层,在阶段一和阶段二中间有1个最大池化层,调整阶段一的输出的特征图大小与阶段二输出的特征图大小一致。然后将这两个调整过大小的特征图通过叠加的方式融合在一起,成为阶段三的输入。阶段三有两种模式,模式一是分类网络,该模式在预训练模型的时候用到,具体而言就是一层3×3的卷积层,再加一层全连接层,全连接层神经元个数等于分类个数;模式二是检测网络,该模式是在加载模式一的预训练参数之后,训练检测网络时用的,具体而言就是一层3×3的卷积层,再加一层1×1的卷积层,卷积核的个数与检测类别相关,具体数值为:anchors个数×(5+检测类别个数)。针对模式一的分类网络,如图1所示,以下进行详细描述:阶段一:输入图像大小为448×448×3,阶段一的第一层是一个卷积核大小为3×3×32的卷积层,对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作;阶段一的第二层是一个卷积核大小为3×3×64的卷积层,对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作;阶段一的第三层是一个卷积核大小为3×3×128的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第四层是一个卷积核大小为1×1×64的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第五层是一个卷积核大小为3×3×128的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第六层是一个卷积核大小为3×3×256的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第七层是一个卷积核大小为1×1×128的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第八层是一个卷积核大小为3×3×256的卷积层,对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作操作;阶段一的第九层是一个卷积核大小为3×3×512的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第十层是一个卷积核大小为1×1×256的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第十一层是一个卷积核大小为3×3×512的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第十二层是一个卷积核大小为1×1×256的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的第十三层是一个卷积核大小为3×3×512的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段一的输出特征图记为output1。阶段二:先对阶段一输出的特征图进行2×2的最大池化操作,阶段二的第一层是一个卷积核大小为3×3×1024的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段二的第二层是一个卷积核大小为1×1×512的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段二的第三层是一个卷积核大小为3×3×1024的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段二的第四层是一个卷积核大小为1×1×512的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段二的第五层是一个卷积核大小为3×3×1024的卷积层,对该层进行批次归一化、ReLu非线性激活操作;阶段二的第六层是一个卷积核本文档来自技高网...

【技术保护点】
1.一种基于yolo和多任务卷积神经网络的导购消极行为监控方法,含有以下步骤:(1)训练基于yolo的行人检测模型;步骤11:构建基于yolo的行人检测模型;使用跳层融合的方式,特征提取阶段一使用13个卷积层和4个最大池化层,阶段二使用7个卷积层,在阶段一和阶段二中间有1个最大池化层,调整阶段一的输出的特征图大小与阶段二输出的特征图大小一致;然后将这两个调整过大小的特征图通过叠加的方式融合在一起,成为阶段三的输入;阶段三有两种模式,模式一是分类网络,该模式在预训练模型的时候用到,具体而言就是一层3×3的卷积层,再加一层全连接层,全连接层神经元个数等于分类个数;模式二是检测网络,该模式是在加载模式一的预训练参数之后,训练检测网络时用的,具体而言就是一层3×3的卷积层,再加一层1×1的卷积层,卷积核的个数与检测类别相关,具体数值为:anchors个数×(5+检测类别个数);步骤12:用ImageNet数据集预训练分类模型;良好的初始化参数是模型收敛的重要一环,而检测数据集由于标注步骤繁琐,导致其每种类别的数据量不多;因此用ImageNet数据集去训练一个分类模型,使训练好的分类模型参数作为检测模型中共有结构的初始化参数;步骤13:用voc2007数据集预训练检测模型;由于检测模型的前几层结构与分类网络一致,将步骤12中训练好的分类网络的参数作为检测网络中共有结构的初始化参数;voc2007数据集是常用的检测数据集,共有20类的标注好的检测物体,其中包括行人图像数据;只取其中的行人图像数据进行训练,对行人数据进行数据增强的操作,调整图像大小为448×448,用SGD优化器训练160个epoch,初始学习率设置为0.0001;步骤14:用监控视角数据集微调模型;由于voc2007中的行人数据大部分都不是监控视角下的行人图像,因此将步骤13训练好的模型去检测商场监控画面中的行人,会有一些困难;因此选取BOT2018新零售技术挑战赛中的数据集进行微调,该数据集的行人图像采集自真实商场场景下的监控摄像头;对该数据集的图像进行水平旋转、中心随机裁剪、HSV空间微调等数据增强的操作,并将尺寸大小调整为448×448;加载步骤13训练好的模型,用SGD优化器训练160个epoch,初始学习率设置为0.001,学习率随着训练次数的增多而减小,0‑5个epoch时学习率设置为0.001,5‑80个epoch时学习率设置为0.0001,80‑160个epoch时学习率设置为0.00001;(2)训练基于ResNet50的多任务卷积神经网络;步骤21:构建基于ResNet50的多任务卷积神经网络;对步骤(1)中检测到的行人,需要去识别行人的属性,以此判断导购是否存在消极工作的行为,数据集中标注的属性有:“顾客”或“导购”、“男性”或“女性”、“站立”或“坐着”、“玩手机”或“不玩手机”;这些属性彼此之间无关联性,视为不相关属性;ResNet50是一个在分类性能表现优异的网络结构,然而一个原始的ResNet50直接去识别多个不相关属性的时候效果往往不佳,而针对每个属性都训练一个模型会导致占用额外的计算资源;因此,针对导购消极行为的识别,基于ResNet50设计了一种多任务卷积神经网络;具体地,将原始ResNet50最后两层的全连接层和池化层去掉,拼接上四个并行的全连接层,每个全连接层的神经元个数为2,分别代表着8种属性:“顾客”与“导购”、“男性”与“女性”、“站立”与“坐着”、“玩手机”与“不玩手机”,在同一个全连接层上的两个属性是关联属性,不在一个全连接层上的属性是不相关属性;每个全连接后分别连一个softmax层;Softmax损失函数的计算公式为:...

【技术特征摘要】
1.一种基于yolo和多任务卷积神经网络的导购消极行为监控方法,含有以下步骤:(1)训练基于yolo的行人检测模型;步骤11:构建基于yolo的行人检测模型;使用跳层融合的方式,特征提取阶段一使用13个卷积层和4个最大池化层,阶段二使用7个卷积层,在阶段一和阶段二中间有1个最大池化层,调整阶段一的输出的特征图大小与阶段二输出的特征图大小一致;然后将这两个调整过大小的特征图通过叠加的方式融合在一起,成为阶段三的输入;阶段三有两种模式,模式一是分类网络,该模式在预训练模型的时候用到,具体而言就是一层3×3的卷积层,再加一层全连接层,全连接层神经元个数等于分类个数;模式二是检测网络,该模式是在加载模式一的预训练参数之后,训练检测网络时用的,具体而言就是一层3×3的卷积层,再加一层1×1的卷积层,卷积核的个数与检测类别相关,具体数值为:anchors个数×(5+检测类别个数);步骤12:用ImageNet数据集预训练分类模型;良好的初始化参数是模型收敛的重要一环,而检测数据集由于标注步骤繁琐,导致其每种类别的数据量不多;因此用ImageNet数据集去训练一个分类模型,使训练好的分类模型参数作为检测模型中共有结构的初始化参数;步骤13:用voc2007数据集预训练检测模型;由于检测模型的前几层结构与分类网络一致,将步骤12中训练好的分类网络的参数作为检测网络中共有结构的初始化参数;voc2007数据集是常用的检测数据集,共有20类的标注好的检测物体,其中包括行人图像数据;只取其中的行人图像数据进行训练,对行人数据进行数据增强的操作,调整图像大小为448×448,用SGD优化器训练160个epoch,初始学习率设置为0.0001;步骤14:用监控视角数据集微调模型;由于voc2007中的行人数据大部分都不是监控视角下的行人图像,因此将步骤13训练好的模型去检测商场监控画面中的行人,会有一些困难;因此选取BOT2018新零售技术挑战赛中的数据集进行微调,该数据集的行人图像采集自真实商场场景下的监控摄像头;对该数据集的图像进行水平旋转、中心随机裁剪、HSV空间微调等数据增强的操作,并将尺寸大小调整为448×448;加载步骤13训练好的模型,用SGD优化器训练160个epoch,初始学习率设置为0.001,学习率随着训练次数的增多而减小,0-5个epoch时学习率设置为0.001,5-80个epoch时学习率设置为0.0001,80-160个epoch时学习率设置为0.00001;(2)训练基于ResNet50的多任务卷积神经网络;步骤21:构建基于ResNet50的多任务卷积神经网络;对步骤(1)中检测到的行人,需要去识别行人的属性,以此判断导购是否存在消极工作的行为,数据集中标注的属性有:“顾客”或“导购”、“男性”或“女性”、“站立”或“坐着”、“玩手机”或“不玩手机”;这些属性彼此之间无关联性,视为不相关属性;ResNet50是一个在分类性能表现优异的网络结构,然而一个原始的ResNet50直接去识别多个不相关属性的时候效果往往不佳,而针对每个属性都训练一个模型会导致占用额外...

【专利技术属性】
技术研发人员:赵云波林建武李灏宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1