当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于CNN和卷积LSTM网络的行人再识别方法技术

技术编号:13994840 阅读:43 留言:0更新日期:2016-11-15 00:17
本发明专利技术提出了一种基于CNN和卷积LSTM网络的行人再识别方法,属于图像处理技术领域。首先用一组CNN提取编码在帧中的空间信息,再利用卷积LSTM构成的编码‑解码框架,得到帧级别的深度时空外观描述器,最后使用Fisher向量编码,使描述器可以描述视频级别的特征。通过这种方式可以提取一种特征表示,这一特征表示能将视频当作排列好的序列,同时保持其空间信息,建立精确的模型。

【技术实现步骤摘要】

本专利技术涉及视频图像处理领域,特别涉及一种基于CNN和卷积LSTM网络的行人再识别方法
技术介绍
行人再识别是指,从无重叠的摄像机视图中识别单个行人,即确认不同位置的摄像机在不同时间捕捉到的是否为同一个行人。这一问题在视频监控领域有重要的现实价值。通常通过匹配空间外观特征的方式进行行人再识别。匹配的方法包括:基于一对单帧的行人图像,匹配它们的颜色和强度梯度直方图。但是,单帧的外观特征本质上很容易改变,因为光照,位置,姿势和视角不同都会导致人体外观的巨大变化。此外,匹配从不同人体部位提取出的空间外观特征本质上是空间校正的一种形式,而在一个动作的不同阶段,人体部位也会呈现不同的外观。基于多帧行人图像的算法虽然提高了匹配的稳定性,但依然只是运用了一部分视频中的信息,它们的效果取决于识别对应帧的机制是否表现良好,即是否能识别不同时间,地点和视角的视频的对应帧。基于视频的行人再识别提供了一种更加自然的在监控系统下识别行人的方法。监控系统中很容易捕捉行人的视频,与视频中的一部分图像相比,完整的视频蕴含了更丰富的信息。在以往的研究中,时空信息并没有很好地运用于行人再识别。传统的基于视频解决行人再识别问题的方式为:选取最能表示特征的帧或是手动调整时间序列,而后进行低等级的特征提取,这种方法的最大缺点在于,它不能精确地从视频序列中学习特征。此外,该方法在提取低水平特征中表现出色,但是这些特征与行人外观的关系并不紧密,尤其难于区分不同人的外观特征。
技术实现思路
本专利技术针对现有技术存在的不足,提出一种基于CNN和卷积LSTM网络的行人再识别方法,既能提升行人再识别的准确度,又能应用于多种复杂的场景中。本专利技术通过以下技术方案实现:一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN提取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述器,使用Fisher向量编码,使描述器可以描述视频级别的特征;具体包括如下步骤:步骤A:采集视频图像。步骤B:视频图像预处理,提取步行周期。步骤C:训练CNN。步骤D:训练卷积LSTM网络。步骤E:提取CNN特征:CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示,全连接层用fc表示,下标为该层在整个网络中的位置。。卷积层的卷积核分别设置为:96(11×11),256(5×5),384(3×3),384(3×3)和256(3×3)。将提取的步行周期送入完成训练的CNN,从conv5输出CNN特征。步骤F:编码和解码:LSTM编码-解码框架包含一个编码网络和一个解码网络,每个网络各有两个的卷积LSTM层。在conv5的最后,每个输入序列都能用帧级别的256个特征映射表示。将CNN特征送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定长度的表示。复制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码,解码LSTM将编码网络得到的表示展开。步骤G:视频级别特征提取:将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用Θ={(μk,σk,πk),k=1,2,…,C本文档来自技高网...

【技术保护点】
一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN提取空间信息,用卷积LSTM网络构成的编码‑解码网络,提取帧级别的深度时空外观描述器,使用Fisher向量编码,使描述器可以描述视频级别的特征;具体包括如下步骤:步骤A:采集视频图像;步骤B:视频图像预处理,提取步行周期;步骤C:训练CNN;步骤D:训练卷积LSTM网络;步骤E:提取CNN特征:将提取的步行周期送入完成训练的CNN,从conv5输出CNN特征,每个输入序列都能用帧级别的256个特征映射表示;步骤F:编码和解码:将CNN特征送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定长度的表示;复制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码,解码LSTM将编码网络得到的表示展开;步骤G:视频级别特征提取:将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用Θ={(μk,σk,πk),k=1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),μk,σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数,上述组成部分从LSTM重新构建的帧级别的描述符中得到;利用LSTM网络从视频中提取的深度描述符,计算从第c个组成部分中获取的均值和方差的偏移向量uk和vk;Fisher向量由所有C个组成部分的uk和vk相连接而构成,可以描述视频级别的特征;步骤H:特征比对:将两个相机的视频提取的步骤G获得的特征进行比对,判断视频中是否同一行人。...

【技术特征摘要】
1.一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN提取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述器,使用Fisher向量编码,使描述器可以描述视频级别的特征;具体包括如下步骤:步骤A:采集视频图像;步骤B:视频图像预处理,提取步行周期;步骤C:训练CNN;步骤D:训练卷积LSTM网络;步骤E:提取CNN特征:将提取的步行周期送入完成训练的CNN,从co...

【专利技术属性】
技术研发人员:尤鸣宇沈春华徐杨柳
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1