基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法技术

技术编号:32032806 阅读:22 留言:0更新日期:2022-01-27 13:12
本发明专利技术公开了一种基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法,其内容包括:使用在ImageNet上预训练的2D CNN作为骨干模型,并在CNN中数个固定的网络层位置之后插入AH

【技术实现步骤摘要】
基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法


[0001]本专利技术涉及视频中的人体行为识别领域,具体涉及一种基于卷积神经网络(Convolutional Neural Networks,缩略为CNN)和累加隐层状态卷积长短期记忆(Convolutional Long Short

term Memory,缩略为ConvLSTM)的视频人体行为识别方法。

技术介绍

[0002]视频动作识别是视频理解的代表性任务之一。由于深度学习的出现,视频动作识别取得了巨大的进步,但同时也遇到了新的挑战。对视频中的远程时间信息进行建模,高昂的计算成本以及由于数据集和评估协议差异而产生的差异性的结果。视频理解中最重要的任务之一就是了解人类的行为,它具有许多实际的应用场景,包括行为分析,视频检索,人机交互,游戏和娱乐等。人类行为理解涉及识别、定位和预测人类行为。识别视频中人为动作的任务称之为视频中的人体行为识别。CNN具有强大的特征提取能力,现在CNN在各个计算机视觉的应用已经十分的纯熟,但是二维卷积神经网络(简称2D CNN)本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法,其特征在于,该方法包括以下步骤:步骤1:使用在ImageNet上预训练的卷积神经网络作为骨干模型,并在卷积神经网络数个固定的网络层位置之后插入累加隐层状态卷积长短期记忆模块来构建整体网络;步骤2:获取包含视频数据及标签的视频数据样本集,Data
X
=[x1,x1,...,x
N
]代表所有的视频数据构成的样本集,每一个视频数据记为x
i
,{i=1,2,...,N},N为视频数据样本总数,Data
Y
=[y1,y2,...,y
M
]代表视频数据对应的标签;在视频数据样本集中选取n个视频数据作为训练样本集,剩余的N

n个视频数据作为测试样本集;训练样本集用于整体网络的训练,测试样本集用于整体网络的测试;使用FFmpeg将视频数据样本集中的视频进行抽帧操作,将视频帧保存为RGB格式,并按照每个视频单独建立文件夹将RGB帧存放其中;步骤3:将视频数据样本集中的所有视频数据定义为V∈R
L
×
C
×
H
×
W
,其中上、C、H、W分别为视频的片段数、视频帧的通道数、高度和宽度,定义视频帧为I∈R
C
×
H
×
W
;对视频帧进行片段采样,将采样得到的T
×
K帧作为输入送到整体网络中,T为片段数,K为每个片段采样帧数;步骤4:设置学习率对整体网络进行训练,卷积神经网络使用设置的学习率进行学习,累加隐层状态卷积长短期记忆模块使用设置学习率的5倍进行学习,训练数据使用训练样本集;然后使用分类器生成各类别识别分数,通过反向传播来更新整体网络参数,对每次训练在测试样本集上进行验证,并将参数保存为权重文件;步骤5:使用已验证准确率最高的权重文件初始化整体网络,在测试样本集上进行测试;对测试样本集视频帧进行片段采样,并使用多个剪辑的方法,将采样得到的帧输入到整体网络中来学习视频中的时空信息,得到识别结果;以识别结果与视频数据对应的标签进行对比,若二者相同则识别正确,否则识别错误;对识别正确的视频进行计数,得到识别正确的视频数量与测试样本集视频数量的比例,该比例即为识别准确率,以测试样本集识别准确率作为指标评判性能。2.根据权利要求1所述的一种基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法,其特征在于:在步骤1中,所述使用卷积神经网络作为骨干模型,并在卷积神经网络数个固定的网络层位置之后插入累加隐层状态卷积长短期记忆模块来构建整体网络;其具体内容包括以下步骤:(1)使用二维神经网络中的ResNet50作为网络的骨干模型;(2)在ResNet50的res2和res4之后,插入累加隐层状态卷积长短期记忆模块来构建整体网...

【专利技术属性】
技术研发人员:张建新王振伟张冰冰董微
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1