基于区域引导和时空注意力的视频行人重识别方法技术

技术编号:24170801 阅读:48 留言:0更新日期:2020-05-16 02:53
本发明专利技术公开一种基于区域引导和时空注意力的视频行人重识别方法,该方法先构建全局特征,基于时间注意力模型来计算视频流中每一帧所提取的全局特征,聚合得到全局特征向量;构建区域特征,将提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的引导帧去提取对应的区域特征,结合时空注意力模型计算获得区域特征向量;待识别行人视频流的特征向量由全局特征向量和区域特征向量结合获得,与选定地理区域的视频图像的行人的特征向量对比,得到距离最小的行人目标视频流并输出最终重识别匹配结果。本发明专利技术能够解决行人视频图像成像质量差,细节损失严重,行人部位缺失而特征提取困难导致的视频行人重识别准确率不高的问题。

【技术实现步骤摘要】
基于区域引导和时空注意力的视频行人重识别方法
本专利技术涉及计算机视觉领域,具体涉及一种基于区域引导和时空注意力的视频行人重识别方法。
技术介绍
随着人工智能领域、计算机视觉和硬件技术的不断发展,视频图像处理技术已经广泛应用于智慧城市系统、公安安防系统中。行人重识别技术(PersonRe-identification)也称行人再检索,简称为Re-ID。这是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。一般地,在监控摄像头所拍摄的监控视频中,由于摄像头分辨率通常较低,很难得到高质量清晰的人脸图片。这时人脸识别可能会失效,那么Re-ID就成为了一个非常重要的替代品技术。由于不同摄像头所拍摄的角度、光照、色差等条件会不同,因此,如何跨摄像头检索出同一行人图片就成为了Re-ID的关键。大多已有的视频行人重识别问题算法是把视频流每一帧编码成一个向量,然后聚合所有的帧向量提取时间信息得到整个视频流的特征嵌入。但是在实践中,检测到的行人可能会被部分遮挡或者部位没有对齐,导致提取的特征表达力不强。<br>
技术实现思路
<本文档来自技高网
...

【技术保护点】
1.一种基于区域引导和时空注意力的视频行人重识别方法,其特征在于,包括:/nS1、使用ResNet50结构构造主干网络,作为视频流的特征图提取器;/nS2、构建全局特征提取分支,基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示,得到全局特征特征向量;/nS3、构建区域特征提取分支,将主干网络ResNet50提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征,拼接后结合时空注意力模型计算区域特征的聚合表示,得到区域特征向量;/nS4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量,拼接后作为将待识别...

【技术特征摘要】
1.一种基于区域引导和时空注意力的视频行人重识别方法,其特征在于,包括:
S1、使用ResNet50结构构造主干网络,作为视频流的特征图提取器;
S2、构建全局特征提取分支,基于时间注意力模型来计算视频流中每一帧所提取的全局特征的聚合表示,得到全局特征特征向量;
S3、构建区域特征提取分支,将主干网络ResNet50提取的行人深度特征图水平划分为四块,经由关键帧生成层生成四个区域各自的关键帧并将其作为引导帧去提取对应的区域特征,拼接后结合时空注意力模型计算区域特征的聚合表示,得到区域特征向量;
S4、根据步骤S2和S3获取待识别行人视频流的全局特征向量和区域特征向量,拼接后作为将待识别行人视频流的特征向量,与选定地理区域范围内的视频图像的行人的特征向量对比,比较得到距离最小的行人目标视频流并输出最终重识别匹配结果。


2.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述S1中视频流输入格式为:
视频流由有序的一组采样帧表示In(n=1...N),其中每一帧图像检测的都是同一个行人,图像为256*128(长*宽)的RGB图像。


3.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述主干网络为:
原始ResNet50结构截去通道数为2048的卷积块以及最后的全连接层。


4.根据权利要求1所述基于区域引导和时空注意力的视频行人重识别方法,其特征在于,所述步骤S2包括:
S2.1、对步骤S1中主干网络输出的特征图Mn(n=1,…,N),特征图尺寸为2048*8*4,做平均池化后得到N个全局特征向量Fn(n=1,…,N);
S2.2、由空间注意力模型与全局特征向量计算全局特征的聚合表示f′g,这里的空间注意力模型是使用2D卷积在空间维度上做聚合;
S2.3、全局特征的聚合表示f′g经过1×1卷积做通道压缩与融合得到全局特征的最终表示fg;
S2.4、由行人重识别损失函数lid,ltriplet、反向传播训练该分支,两个损失函数具体公式分别如下:



其中是视频流每一帧的全局特征向量,yn是全连接层预测的身份分类结果;



其中和分别是当前输入视频流的全局特征,与当前输入视频流同属一个行人的全局特征以及与当前输入视频流属不同行人的全局特征;为取正函数,即输入小于0时置零,输入大于等于0时不变,m为裕量,取值影响所学特征向量距离是否...

【专利技术属性】
技术研发人员:汪壮雄周智恒彭永坚张昱晟彭明朱湘军
申请(专利权)人:广州视声智能科技有限公司华南理工大学广州视声智能股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1