一种基于深度学习的智能冰箱存取动作识别方法技术

技术编号:24093110 阅读:19 留言:0更新日期:2020-05-09 08:59
本发明专利技术公开了一种基于深度学习的智能冰箱存取动作识别方法,包括以下步骤:S1、通过摄像头获得视频数据进行输入;S2、采用当前先进的目标检测器对输入的视频按帧切分图像并检测图像中的手部信息;S3、当检测出手部信息位于裁剪区域内时,裁剪手部信息图片并送入食材分类网络进行食材分类,并获得食材分类结果;S4、当检测出手部信息位于跟踪区域内时,将手部信息送入Staple目标跟踪算法,获得手部动作的跟踪轨迹;S5、利用存取状态判断规则对跟踪轨迹内的手部状态进行判断,获得用户的存取状态;S6、将用户的存取状态与食材分类结果相结合并输出存取动作结果;S7、重新初始化,等待进入下一轮动作识别检测。

A recognition method of access action of intelligent refrigerator based on deep learning

【技术实现步骤摘要】
一种基于深度学习的智能冰箱存取动作识别方法本专利技术涉及计算机视觉领域,尤其涉及一种基于深度学习的智能冰箱存取动作识别方法。
技术介绍
动作识别是实现人与智能设备交互的前提与基础,在物联网越来越普及的趋势下,动作识别将越来越重要。目前有一些成熟非深度学习的动作识别方法,例如基于时空识别方法、序列法以及分层法。然而由于动作的差异性、障碍物遮挡、视频长短不一难以确定起始点,因而难以提取到有效、稳定的特征对行为进行描述,且难以兼顾识别率与实时性。近年来,基于深度学习的视频动作识别逐渐成为主流,如基于单帧的识别方法、基于CNN扩展网络的识别方法、双路CNN的识别方法、基于LSTM的识别方法、三维卷积核法,但是这些方法的算法比较复杂,且部署较为困难,难以达到实时性,无法满足人们的使用需求。
技术实现思路
本专利技术目的是针对上述问题,提供一种有效提高识别效果的基于深度学习的智能冰箱存取动作识别方法。为了实现上述目的,本专利技术的技术方案是:一种基于深度学习的智能冰箱存取动作识别方法,包括以下步骤:S1、通过摄像头获得视频数据进行输入;S2、采用当前先进的目标检测器对输入的视频按帧切分图像并检测图像中的手部信息;S3、当检测出手部信息位于裁剪区域内时,裁剪手部信息图片并送入食材分类网络进行食材分类,并获得食材分类结果;S4、当检测出手部信息位于跟踪区域内时,将手部信息送入Staple目标跟踪算法,获得手部动作的跟踪轨迹;S5、利用存取状态判断规则对跟踪轨迹内的手部状态进行判断,获得用户的存取状态;S6、将用户的存取状态与食材分类结果相结合并输出存取动作结果;S7、重新初始化,等待进入下一轮动作识别检测。进一步的,所述步骤S2中的目标检测器采用Caffe-SSD-MobaileNetV1。进一步的,所述步骤S2中的手部信息包括手部食材信息和手部位置信息;手部信息的检测方法包括以下步骤:S21、首先通过目标检测器获得手部区域的候选窗口和边界框的回归向量,并用边界框做回归,对候选窗口进行校准,然后通过非极大值抑制来合并高度重叠的边界框;S22、去掉那些误检区域,精细调整后得到手部框,通过手部框得到手部位置信息;S23、通过手部框获得手部拿取类别向量,并手部拿取类别向量做分类任务,获得手部食材信息。进一步的,所述步骤S3中的裁剪手部信息图片采用OpenCV进行裁剪操作。进一步的,所述步骤S3中的食材分类网络采用多分类模型SqueezeNet。进一步的,所述步骤S5中的存取状态判断规则为:当一段跟踪轨迹中,开始时手部状态为有食材,结束时为无食材,则用户的存取状态为“存”;当一段跟踪轨迹中,开始时手部状态为无食材,结束时为有食材,则用户的存取状态为“取”;当一段跟踪轨迹中,开始时手部状态为有食材,结束时为有食材,则用户的存取状态为“既存又取”;当一段跟踪轨迹中,开始时手部状态为无食材,结束时为无食材,则用户的存取状态为“犹豫”。进一步的,所述存取状态判断规则中,开始时的手部状态和结束时的手部状态均采用多次检测取多数方式进行判断。与现有技术相比,本专利技术具有的优点和积极效果是:本专利技术提出了一种在智能冰箱场景下的全新动作识别方案,其采用MobaileNetV1模型作为目标检测器并与Staple跟踪算法相结合的设计,由于MobaileNetV1模型参数量并不大且Staple跟踪算法并不是神经网络,因此可以避免大的内存开销;另一方面,本专利技术采用SqueezeNet作为分类网络对手部拿取的食材进行分类,SqueezeNet具有速度快、实时性高、占用内存小、高准确率和易于嵌入式部署的特点,并且本专利技术采用只对存取动作前后的几帧进行手部图像截取分类,这样的策略可以大大减少在时间上和内存上的开销,有效提高了运算速率。本专利技术的技术方案算法复杂度较低,可以部署在嵌入式设备中,算法鲁棒性较强且能达到实时处理的要求,其不仅仅可以用于智能冰箱,也符合其他智能家居设备的使用要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的框架流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。如图1所示,本专利技术提出了一种利用目标检测和目标跟踪联合使用来判断存取状态,以及利用分类网络来对食材进行识别的存取动作识别方案。一、存取动作识别智能冰箱中存取动作识别是实现人与冰箱交互的关键步骤。本动作识别模块实现了对四种行为动作的识别,分别为:存、取、犹豫、既存又取。简单的四个动作识别,既大大提高了冰箱的易用性又提高了识别的准确率。四种动作的活动主体是手部,即手腕关节以上的手部,因此摄像头只需要检测到人体的手部信息即可。检测手部采用当前先进的目标检测器来检测获得手部的状态和手部位置信息。通过手部状态来判断是否拿食材,提供手部初始的位置信息给目标跟踪器来跟踪整个存取的动作。实时分析整个动作的前后手部状态,从而达到动作识别的目的。检测器采用CNN(卷积神经网络)来检测手部,采用网络复杂性较低、检测效果较好且实时性较高的目标检测器Caffe-SSD-MobaileNetV1。行为动作识别不能仅仅依靠单帧的静态图像来实现,因为单帧图像只能判断本帧图像的状态,并不能知道动作的开始与结束,所以需要整段的视频来综合判断行为动作。而且对每一帧图像都进行检测会大大降低算法运行的帧率,所以仅仅依靠CNN网络是不够。因此需要利用目标跟踪算法来对整个动作进行跟踪。它可以记录整个动作多帧图像的手部状态信息,通过判断动作的前后的手部信息可以准确判断一段视频内的动作行为。本模块选取了对颜色变化和运动形变较为鲁棒且能够实时处理的Staple目标跟踪算法,该算法融合Hog特征(该特征对形变和运动模糊较为敏感,但是对颜色变化能达到很好的效果)和Color特征(该特征对颜色比较敏感,但是对形变和运动模糊有很好的跟踪算法)能够解决大部分跟踪过程当中遇到的问题。由于MobaileNetV1模型参数量并不大且Staple跟踪算法并不是神经网络,因此可以避免大的内存开销,对嵌入式设备更友好。我们并不会对视频的每一帧的手部进行跟踪,本方案只在图像的中心区域进行跟踪。我们对每一帧视频进行实时处理。每隔两帧通过MobileNetV1检测出手部信息:手部食材信息(是否拿食材)和手部位置信息。若手部在跟踪范围内,将手部信息存入列本文档来自技高网...

【技术保护点】
1.一种基于深度学习的智能冰箱存取动作识别方法,其特征在于:包括以下步骤:/nS1、通过摄像头获得视频数据进行输入;/nS2、采用当前先进的目标检测器对输入的视频按帧切分图像并检测图像中的手部信息;/nS3、当检测出手部信息位于裁剪区域内时,裁剪手部信息图片并送入食材分类网络进行食材分类,并获得食材分类结果;/nS4、当检测出手部信息位于跟踪区域内时,将手部信息送入Staple目标跟踪算法,获得手部动作的跟踪轨迹;/nS5、利用存取状态判断规则对跟踪轨迹内的手部状态进行判断,获得用户的存取状态;/nS6、将用户的存取状态与食材分类结果相结合并输出存取动作结果;/nS7、重新初始化,等待进入下一轮动作识别检测。/n

【技术特征摘要】
1.一种基于深度学习的智能冰箱存取动作识别方法,其特征在于:包括以下步骤:
S1、通过摄像头获得视频数据进行输入;
S2、采用当前先进的目标检测器对输入的视频按帧切分图像并检测图像中的手部信息;
S3、当检测出手部信息位于裁剪区域内时,裁剪手部信息图片并送入食材分类网络进行食材分类,并获得食材分类结果;
S4、当检测出手部信息位于跟踪区域内时,将手部信息送入Staple目标跟踪算法,获得手部动作的跟踪轨迹;
S5、利用存取状态判断规则对跟踪轨迹内的手部状态进行判断,获得用户的存取状态;
S6、将用户的存取状态与食材分类结果相结合并输出存取动作结果;
S7、重新初始化,等待进入下一轮动作识别检测。


2.如权利要求1所述的基于深度学习的智能冰箱存取动作识别方法,其特征在于:所述步骤S2中的目标检测器采用Caffe-SSD-MobaileNetV1。


3.如权利要求2所述的基于深度学习的智能冰箱存取动作识别方法,其特征在于:所述步骤S2中的手部信息包括手部食材信息和手部位置信息;手部信息的检测方法包括以下步骤:
S21、首先通过目标检测器获得手部区域的候选窗口和边界框的回归向量,并用边界框做回归,对候选窗口进行校准,然后通过非极大值抑制来合并高度重叠的边界框;

【专利技术属性】
技术研发人员:白燕楼燚航张永祥陈杰
申请(专利权)人:博云视觉北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1