基于时空混合卷积网络的跌倒检测方法与系统技术方案

技术编号:23625095 阅读:32 留言:0更新日期:2020-03-31 22:48
本发明专利技术提供一种基于时空混合卷积网络的跌倒检测方法与系统,采用时空混合卷积网络的检测方法,把检测分为定位(坐标回归)和分类两部分,结合2D CNN和3D CNN的时空混合卷积网络,同时获取到优质的位置特征和类别特征,坐标回归完的特征全由2D CNN生成,分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合,进行模型训练得到预测模型。利用预测模型对视频流输入进行检测最终得到预测结果,即是否有人跌倒。本发明专利技术具有便捷的扩充网络的识别能力,解决了现有检测方法的精度低,速度慢,扩展性差的问题。

Fall detection method and system based on spatiotemporal mixed convolution network

【技术实现步骤摘要】
基于时空混合卷积网络的跌倒检测方法与系统
本专利技术涉及人脸与行为识别
,具体而言涉及一种基于时空混合卷积网络的跌倒检测方法与系统。
技术介绍
现有跌倒检测技术主要有两种,第一种是通过单张图片进行检测,这种技术只考虑单张图片信息,即只考虑空域信息,没有考虑到时序信息,通常很难得到较好的精度。第二种是基于二阶段的单帧目标检测器进行设计,将二阶段检测器的2DCNN主干网络用3DCNN主干网络替换,3DCNN用于提取视频序列的时序特征,区域提出网络直接使用独立的单帧目标检测器在关键帧上回归出的坐标进行替换,然后把坐标映射到提取的视频流特征上,最后通过三维区域降采样进行行为分类,即识别出是否跌倒。这种方法存在会丢失过多的目标上下文信息、不能端到端训练,以及计算量大的缺点。因此可见,目前的检测方法的缺陷都给跌倒检测的应用都造成了很大的障碍。
技术实现思路
本专利技术目的在于提供一种基于时空混合卷积网络的跌倒检测方法,包括:步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到本文档来自技高网...

【技术保护点】
1.一种基于时空混合卷积网络的跌倒检测方法,其特征在于,包括:/n步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,/n步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;/n步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;/n步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到...

【技术特征摘要】
1.一种基于时空混合卷积网络的跌倒检测方法,其特征在于,包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2DCNN网络,第二个分支是作用是分类,采用3DCNN网络,其中2DCNN网络提取位置特征,3DCNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。


2.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤1中,对于视频片段的截取,得到的N张图片,其中N=3*M,M为视频片段的帧率。


3.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤2中,标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(falldown),跌倒的标注取决于关键帧之前的动作。


4.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤3中,所述2DCNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧。


5.根据权利要求1或4所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤3中,所述3DCNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征,再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3DCNN部分最终得到的特征维度为1x30x10x10。


6.根据权利要求5所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤3中,图片输入尺寸缩放为320x320,3DCNN网络和2DCNN网络使用五次最大池化(Maxpooling),2DCNN网络和3DCNN网络最终提取的特征均为1x30x10x10,其中在特征融合过程中采用YOLO一阶段检测器。


7.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特...

【专利技术属性】
技术研发人员:杨帆冯帅刘利卉胡建国
申请(专利权)人:南京甄视智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1