一种基于深度学习的人体行为识别算法制造技术

技术编号:26172529 阅读:54 留言:0更新日期:2020-10-31 13:50
本发明专利技术提出一种基于深度学习的人体行为识别算法,(1)对输入视频段进行预处理;(2)构建网络模型RD3D;(3)定义损失函数、准确率和优化器的操作;(4)训练网络模型包括以下子步骤:(41)初始化参数;(42)学习率为0.0001,batchsize为16;(43)由RD3D模型前向传播的值与真实标签计算损失,并将该损失通过反向传播更新权重参数;(44)训练100个epoch后结束训练;(5)测试结果。本发明专利技术从特征角度来追求识别算法精度,克服了目前算法对数据集严重依赖的问题,降低了对数据集类型的敏感度,可以应用在任意行为识别数据集上。

【技术实现步骤摘要】
一种基于深度学习的人体行为识别算法
本专利技术涉及计算机视觉
,更具体地,涉及一种基于深度学习的人体行为识别算法。
技术介绍
近年来,随着深度学习等相关技术的兴起,深度神经网络在计算机视觉等各领域都取得了突破性的进展。深度学习由于其端到端的训练特性,能够从训练数据中学习其共性特征,并且拟合出适用于当前任务的网络。同时,现今社会获取海量数据变得十分容易,也为深度学习运用到视频理解、识别等领域提供了便利条件。而在传统方法中主要是提取局部特征(如HOG、HOF和MBH),需要依靠很强的先验知识。虽然考虑了表观和运动信息,但是这种信息只局限在单帧中,其中帧的上下文表观及运动信息被忽略,这将导致人体行为识别不够精确。如何设计一种针对行为识别的算法显得尤为重要。因此,将深度学习应用与人体行为识别已是大势所趋。基于深度学习的行为识别方法主要有:双流卷积神经网络,3D卷积神经网络,卷积神经网络和循环神经结合。本专利技术以3D卷积网络为基础,提高识别精度。专利CN110163133A《一种基于深度残差网络的人体行为识别方法》公开了一种基于深度残差网络的人体行为识别方法,将人体关节数据和深度图像数据同时输入进ResNet进行识别,识别精度虽然提高了,但需要人体关节数据和深度图作为输入,不能端到端的学习,且在日常生活中缺乏这种数据。专利CN107862275A《人体行为识别模型及其构建方法和人体行为识别方法》公开了一种采用采用3D卷积神经网络提取人体行为特征向量,再将提取的特征向量输入库伦力场,所有特征向量在相同类产生引力,不同类产生斥力的作用下相对移动进行聚类,完成人体行为识别。将RGB图和光流图输入网络进行学习,同样不能端到端的进行学习,且整个网络只有七层,其中只有三层进行特征提取,虽然计算量小,但是精度很低;以上都是从符合数据集角度来提高识别精度,能不能仅依靠RGB图像就能提高行为识别的精度,专利CN109002808A《一种人体行为识别方法及系统》公开了一种人体行为识别方法及系统,运用多任务深度学习方法训练3D卷积神经网络,将多种人体行为属性以及背景视频的连续视频帧作为输入,经过训练后完成识别任务。更多的是讲述在运用多任务学习中如何制作数据集,从而区分行为视频和背景视频,仅依靠七层的普通3D卷积网络完成特征提取,并实现分类。仍然是从数据集的角度来完成人体行为的识别的。
技术实现思路
针对上述技术问题,本专利技术提出一种基于深度学习的人体行为识别算法,包括以下步骤:(1)对输入视频段进行预处理;(2)构建网络模型RD3D;(3)定义损失函数和优化器的操作;(4)训练网络模型包括以下子步骤:(41)初始化参数;(42)学习率为0.0001,batchsize为16;(43)由RD3D模型前向传播的值和真实标签根据损失函数计算损失,并将该损失通过反向传播更新权重参数;(44)训练100个epoch后结束训练;(5)测试结果。进一步的,步骤(1)预处理阶段,为综合考虑视频全局动作信息,提出并采用二次采样算法采集n帧关键视频帧,从而提高识别准确率,具体内容如下:a:将每个视频片段按采集率α采集图像帧(α=3),获得每个视频对应图像数据集A;b:采用二次采样算法从图像数据集A中均匀采集n帧(n=16),作为视频片段的关键帧,并将其缩放到k*k(k=224),形成数据集B;d:将所采集的数据集B按7:3比例分为训练集和测试集,以备训练和测试使用,其中训练集中的每个样本为四元组(anchor,positive,negative,label),分别是待预测样本,和待预测样本同一类别的其它样本,和待预测样本不同类的其它样本,待预测样本的类别标签。进一步的,步骤(2)为提高识别准确率,结合特征复用思想和shortcut思想,提出并设计了一种新型的网络模型RD3D(ResidualDense3D)。所述的RD3D模型设计了134层即1+4*4+6*6*3+2*4+1,6个stage。进一步的,步骤(3)提出并设计了一种新型的损失函数:F=H(P,Q)+Lre+Ltr其中:交叉熵H(P,Q)=-P(x)log(Q(x)),衡量预测分布和真实分布的形似性,损失越小,分类越准确。其中P为真实样本分布,Q为预测样本分布;L2正则化损失为防止过拟合,其中λ为惩罚因子(λ=0.009),n为权重W的个数;三元损失其中为xi和xpi的欧式距离,为xi和xni的欧式距离,f(x)为样本x经RD3D提取的特征,bs为batchsize,xi为当前预测的样本,xpi为和当前计算样本xi同一类的样本,xni为和当前计算样本xi不是同一类的样本,β为xi和xpi、xi和xni的距离阈值(β=0.2)。本专利技术在追求识别算法精度的同时,克服目前算法对数据集严重依赖的问题,从人体行为提取的特征角度来实现网络结构设计,对数据集的类型不敏感,可以应用在任意数据集上。附图说明图1为本专利技术的RD3D模型;图2为本专利技术的ConvBlock结构;图3为本专利技术的IDBlock结构;图4为本专利技术的流程图。具体实施方式结合实施例说明本专利技术的具体技术方案。如图4所示,一种基于深度学习的人体行为识别算法,包括以下步骤:(1)对输入视频段进行预处理(本实施例以UCF101数据集为例);(2)构建网络模型RD3D;(3)定义损失函数、准确率和优化器的操作;(4)训练网络模型包括以下子步骤:(41)初始化参数;(42)学习率为0.0001,batchsize为16;(43)由RD3D模型前向传播的值和真实标签根据损失函数计算损失,并将该损失通过反向传播更新权重参数;(44)训练100个epoch后结束训练;(5)测试结果。具体的:(1)预处理阶段,为综合考虑视频全局动作信息,提出并采用二次采样算法采集n帧关键帧,从而提高识别准确率,具体内容如下:a:将每个视频片段按采集率α采集图像帧(α=3),获得每个视频对应图像数据集A;b:采用二次采样算法从图像数据集A中均匀采集n帧(n=16),作为视频片段的关键帧,并将其缩放到k*k(k=224),形成数据集B;d:将所采集的数据集B按7:3比例分为训练集和测试集,以备训练和测试使用,其中训练集中的每个样本为四元组(anchor,positive,negative,label),分别是待预测样本,和待预测样本同一类别的其它样本,和待预测样本不同类的其它样本,待预测样本的类别标签。(2)为提高识别准确率,结合特征复用思想和shortcut思想,提出并设计了一种新型的网络模型RD3D(ResidualDense3D),其结构如图1所示,该RD3D模型设计了127层,6个stage,内容如下:本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的人体行为识别算法,其特征在于,包括以下步骤:/n(1)对输入视频段进行预处理;/n(2)构建网络模型RD3D;/n(3)定义损失函数和优化器的操作。/n(4)训练网络模型;包括以下子步骤:/n(41)初始化参数;/n(42)学习率为0.0001,batchsize为16;/n(43)由RD3D模型前向传播的值和真实标签根据损失函数计算损失,并将该损失通过反向传播更新权重参数;/n(44)训练100个epoch后结束训练;/n(5)测试结果。/n

【技术特征摘要】
1.一种基于深度学习的人体行为识别算法,其特征在于,包括以下步骤:
(1)对输入视频段进行预处理;
(2)构建网络模型RD3D;
(3)定义损失函数和优化器的操作。
(4)训练网络模型;包括以下子步骤:
(41)初始化参数;
(42)学习率为0.0001,batchsize为16;
(43)由RD3D模型前向传播的值和真实标签根据损失函数计算损失,并将该损失通过反向传播更新权重参数;
(44)训练100个epoch后结束训练;
(5)测试结果。


2.根据权利要求1所述的一种基于深度学习的人体行为识别算法,其特征在于,步骤(1)预处理阶段,提出并采用二次采样算法采集n帧关键帧,具体包括以下过程:
a:将每个视频片段按采集率α采集图像帧,获得每个视频对应图像数据集A;
b:采用二次采样算法从图像数据集A中均匀采集n帧,作为视频片段的关键帧,并将其缩放到k*k,形成数据集B;
d:将所采集的数据集B按7:3比例分为训练集和测试集,以备训练和测试使用,其中训练集中的每个样本为四元组,分别是待预测样本,和待预测样本同一类别的其它样...

【专利技术属性】
技术研发人员:张鹏超罗朝阳徐鹏飞刘亚恒
申请(专利权)人:陕西理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1