【技术实现步骤摘要】
基于局部特征聚合编码和长短期记忆网络的行为识别方法
本专利技术涉及计算机视觉与人工智能、多媒体信号处理领域,特别是涉及基于局部特征聚合编码和长短期记忆网络的行为识别方法。
技术介绍
人类作为社会活动的主体,人类活动也成为视频数据中的主要有效信息,因此对视频中人体行为的分析识别,是视频内容分析的重要组成部分。视频行为识别是从给定的未知的视频或者图像序列中自动分析其中正在进行的行为。该技术由于其巨大的应用前景和潜在的经济价值备受学业界以及工业界的关注,可以满足智能视频监控、医疗视频监护,视频内容检索与分析以及人机交互和虚拟现实等领域的自动分析和智能化需求,极大程度地改善人们的生活。基于计算机视觉的识别方法大多遵循以下的统一处理过程:输入视频,提取特征对行为进行表征,对行为进行分类。基于传统机器学习的行为识别算法,一般先提取底层特征,而提取的特征通常无法直接用于最终的行为分类判别,需要对底层特征进行编码后得到视频的全局描述,最后将得到的全局描述子输入SVM、Adaboost、决策树等分类器得到分类结果。而随着GPU等硬件设施的发展,愈来愈多的学者尝试将深度学习应用于行为 ...
【技术保护点】
1.基于局部特征聚合编码和长短期记忆网络的行为识别方法,包括以下步骤,其特征在于:(1)对视频稀疏采样,得到用于学习行为时空特征的有序帧序列;(2)使用卷积神经网络提取图片特征;(3)使用VLAD层对图像局部特征编码,生成图像的全局特征向量;(4)使用长短期记忆网络学习帧间时序关系,生成视频的整体描述向量;(5)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值;(6)在UCF101和something‑something数据集上进行网络的训练与测试。
【技术特征摘要】
1.基于局部特征聚合编码和长短期记忆网络的行为识别方法,包括以下步骤,其特征在于:(1)对视频稀疏采样,得到用于学习行为时空特征的有序帧序列;(2)使用卷积神经网络提取图片特征;(3)使用VLAD层对图像局部特征编码,生成图像的全局特征向量;(4)使用长短期记忆网络学习帧间时序关系,生成视频的整体描述向量;(5)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值;(6)在UCF101和something-something数据集上进行网络的训练与测试。2.根据权利要求1所述的基于局部特征聚合编码和长短期记忆网络的行为识别方法,其特征在于:所述步骤(1)中对视频稀疏采样,对于给定的视频V,将视频均匀分段,从每段中分别随机采样一帧来得到25帧有序视频帧序列用于网络的训练和测试。3.根据权利要求1所述的基于局部特征聚合编码和长短期记忆网络的行为识别方法,其特征在于:所述步骤(2)中使用卷积神经网络提取图片特征,具体实现为:将采样帧送入VGG-16网络进行特征提取,经过截止到conv5_3的卷积层提取到14×14×512大小的特征图作为下一层的输入。4.根据权利要求1所述的基于局部特征聚合编码和长短期记忆网络的行为识别方法,其特征在于:所述步骤(3)中将传统的VLAD算法引入卷积神经网络,对卷积层提取的局部特征进行聚合,得到图像的全局特征,具体步骤为:步骤3.1:将14×14×512大小的特征图向量重塑为14×14个512维的特征向量,视为在不同空间位置提取到的512维特征向量,得到512维的特征数据集X=(x1,x2,…,xN),其中N=14×14;步骤3.2:采用K-means等聚类算法将得到的14×14个512维的局部特征聚类为64类,保存得到的聚类中心向量集合C={c1,c2,…,c64};步骤3.3:对第i个局部特征属于第k个聚类的权重ak(xi)进行软分配,其中i=1,2,…,512,k=1,2,…,64,计算方法如下:进一步地,对ak(xi)解耦合,得到最终的权重计算公式:其中,wk=2αck,bk=-α||ck||2;因此权重具体分配方式为,用64个1×1的卷积核对特征数据集卷积,卷积参数矩阵为{wk},偏置项为{bk},产生结果将该结果再经过s...
【专利技术属性】
技术研发人员:李春国,常颖,徐琴珍,杨绿溪,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。