【技术实现步骤摘要】
【国外来华专利技术】识别视频活动的设备和方法
[0001]本专利技术实施例涉及视频中的动作识别。为此,本专利技术实施例提供了一种用于识别视频中的一个或多个活动的设备和方法,其中该设备和方法使用深度学习网络。相应地,本专利技术实施例还涉及设计一种有效的深度学习网络架构,该架构尤其适用于识别视频中的活动。例如,本专利技术实施例适用于视频监控系统和摄像机。
技术介绍
[0002]传统的视频监控系统协助警察或安保人员等预防犯罪。监控摄像机网络的好处显而易见:可以由少数人员例如从控制室监控很大的区域,而不是在每个角落都部署安全人员或执法人员。自上世纪90年代以来,监控摄像机的数量呈指数级增长。视频监控系统通常使用运动检测算法,视频监控系统对光照变化、摄像机抖动、摇晃的枝叶或远处的车辆等背景运动敏感,但通常无法处理摄像机视场中的连续运动。
[0003]因此,目前正在进行大量的研究工作,将图像和视频分析方法与深度学习技术结合起来,以便进行更加自主的分析。使用深度学习算法可以增强视频监控系统的稳健性,特别是在使用了大量数据和对算法进行长时间(例如几天) ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于识别视频(101)中的一个或多个活动的设备(100),其特征在于,每个活动与一个预定标签(104)相关联,所述设备(100)用于使用深度学习网络(102)以及在推理阶段执行以下操作:
‑
接收所述视频(101),
‑
将所述视频(101)分为RGB部分(101a)和光流(optical flow,OF)部分(101b),
‑
使用所述深度学习网络(102)的空间部分(102a),基于所述RGB部分(101a)计算多个空间标签预测值(103a),
‑
使用所述深度学习网络(102)的时间部分(102b),基于所述OF部分(101b)计算多个时间标签预测值(103b),以及
‑
融合所述空间标签预测值(103a)和所述时间标签预测值(103b)以获得与所述视频(101)中的活动相关联的标签(104)。2.根据权利要求1所述的设备(100),其特征在于,还用于:
‑
从所述视频(101)中提取多个RGB片段(200a)和多个OF片段(200b),以便将所述视频分为所述RGB部分(101a)和所述OF部分(101b),
‑
使用所述深度学习网络(102)的所述空间部分(102a)为所述RGB片段(200a)中的每个RGB片段计算多个标签预测值(201a),
‑
使用所述深度学习网络(102)的所述时间部分(102b)为所述OF片段(200b)中的每个OF片段计算多个标签预测值(201b),
‑
基于所述RGB片段(200a)的所述标签预测值(201a)计算所述多个空间标签预测值(103a),以及
‑
基于所述OF片段(200b)的所述标签预测值(201b)计算所述多个时间标签预测值(103b)。3.根据权利要求1或2所述的设备(100),其特征在于,还用于:
‑
使用所述深度学习网络(102)的所述空间部分(102a)为给定RGB片段(200a)中的每个RGB帧计算多个标签预测值,并且基于所述RGB帧的所述标签预测值为所述给定RGB片段(200a)计算所述多个标签预测值(201a),和/或
‑
使用所述深度学习网络(102)的所述时间部分(102b)为给定OF片段(200b)中的每个OF帧计算多个标签预测值,并且基于所述OF帧的所述标签预测值为所述给定OF片段(200b)计算所述多个标签预测值(201b)。4.根据权利要求1至3之一所述的设备(100),其特征在于,还用于,为了融合所述空间标签预测值(103a)和所述时间标签预测值(103b):
‑
根据所述多个空间标签预测值(103a)的确定数量和所述多个时间标签预测值(103b)的确定数量,计算同一标签的归一化标签预测值的总和,以及
‑
选择得分最高的归一化标签预测值作为所述标签(104)。5.根据权利要求4所述的设备(100),...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。