一种基于异常感知语义自对齐的视频行人重识别方法及系统技术方案

技术编号：40671107 阅读：4 留言：0更新日期：2024-03-18 19:07

本发明专利技术公开了一种基于异常感知语义自对齐的视频行人重识别方法及系统，利用骨干网络从视频片段输入中提取特征图；训练语义部位分类器，将特征图输入到分类器中得到各语义部位的置信图；用置信图对特征图执行加权池化以获得局部嵌入；再构造串联嵌入、前景嵌入和全局嵌入，并在此基础上构造三个联合损失函数来优化模型网络；重复执行步骤直到模型收敛；最后利用训练后的模型，固定模型参数，提取行人视频片段的前景嵌入和全局嵌入计算待检索行人样本与候选行人样本的距离，最终按距离从小到大进行排序得到行人重识别结果。本方法在没有先验人体拓扑信息的情况下定位不同语义部位，学习对异常信息具有鲁棒性的局部特征表示，有效提升了识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和图像检索的，具体涉及一种基于异常感知语义自对齐的视频行人重识别方法及系统。

技术介绍

1、行人重新识别旨在从多相机网络中匹配关键目标行人。这项技术在在跨摄像头目标计数、无人零售、跨场景人员跟踪等实际应用中发挥着举足轻重的作用。得益于深度学习的快速发展，行人重识别技术取得了重大进展。然而，在真实场景中，由于存在不可靠的边界框、背景杂乱以及来自街道物体的不可控遮挡等，行人重识别任务仍然是一项具有挑战性的任务。

2、现有的关于行人重识别的工作可以分为两类，即基于图像的行人重识别和基于视频的行人重识别。对于前者，查询和候选样本是图像，而后者的查询和候选样本是视频片段。基于视频的行人重识别的关键在于聚合视频序列中多个帧的有用信息。大多数现有的基于视频的行人重识别方法都侧重于提取目标行人的全局特征表示。然而，真实场景下的行人图像存在光照差异大、拍摄视角不统一、物体遮挡等问题,因此从图像整体提取的全局特征易受无关因素的干扰,识别精度不高。

3、局部特征表示方法学习局部聚合特征，以此提升模型对错位干扰的鲁棒性。精确的局部目标定位是局部特征学习的一个重要前提。现有的局部定位策略可以大致分为语义划分和启发式划分。前者需要一个额外的姿态检测器，并且容易引入姿态检测误差。后者对遮挡和大的背景干扰很敏感。

技术实现思路

1、本专利技术正是针对现有技术在提取图像局部特征能力不足的问题，提供一种基于异常感知语义自对齐的视频行人重识别方法及系统，首先利用骨干网络从

2、为了实现上述目的，本专利技术采取的技术方案是：一种基于异常感知语义自对齐的视频行人重识别方法，包括如下步骤：

3、s1，特征图提取：利用骨干网络从视频片段输入中提取特征图，所述视频片段至少包括4帧；

4、s2，置信图获取：对语义部分分类器进行训练，将步骤s1提取的特征图输入到分类器中，得到各语义部位的置信图；

5、s3，局部嵌入获取：用步骤s2分类器得到的置信图对特征图执行加权池化以获得局部嵌入；

6、s4，模型优化：构造串联嵌入、前景嵌入和全局嵌入，并在此基础上构造三个联合损失函数来优化模型网络；

7、s5，模型收敛：重复执行步骤s1-s4，直到模型收敛；

8、s6，识别结果获取：根据步骤s5训练后的模型，固定模型参数，提取行人视频片段的前景嵌入和全局嵌入计算待检索行人样本与候选行人样本的距离，按照距离从小到大进行排序得到行人重识别结果。

9、作为本专利技术的一种改进，所述步骤s1中提取的特征图为x＝[x0,x1,…,xt-1]，其中x0、x1和xt-1代表视频片段中前两帧和最后一帧图像的特征图，[·]表示连接操作，t表示输入视频片段的图像帧数。

10、作为本专利技术的一种改进，所述步骤s2具体包括：

11、s21：为特征图的每个通道分配一个权重，得到中间特征图，然后计算中间特征图在每个空间位置的响应值，根据每个空间位置的响应值是否大于0.8来区分前景区域和背景区域；

12、s22：对于每一帧图像特征图的前景像素，通过执行固定聚类数n的聚类算法来分配伪标签，根据每个语义部位的平均位置设置标签值为{1，…，n}，背景标签设置为0；

13、s23：通过语义部位伪标签得到每个语义部位的掩膜{m1，...，mn}，其中m1，mn分别表示第1和第n个语义部位的掩膜，mn(t，h，w)表示在空间位置(t，h，w)的第n个语义部位的掩膜值，当空间位置(t，h，w)属于第n个语义部位时，mn(t，h，w)的值为1，否则为0；计算出每个语义部位的代理特征an，再计算帧内代理特征及异常分数当大于时，第t帧第n个语义部位就不会被用来训练分类器，其中表示第t帧第n个语义部位的异常分数，表示第i帧第n个语义部位的代理特征；

14、s24：根据异常分数，去掉异常部位之后，用剩下的语义部位的伪标签构造交叉熵损失函数监督分类器的训练；

15、s25：将相应的特征图输入到分类器中得到各个语义部位的置信图。

16、作为本专利技术的另一种改进，所述步骤s21中，为特征图的每个通道分配的权重具体为：

17、

18、其中，t代表图像帧索引号，c是通道索引号，代表第t图像帧的特征图的第c通道，表示去掉首行、首列、末行、末列的的子区域，gap表示全局池化操作，表示第t图像帧的特征图的c通道的权重；

19、得到的中间特征图具体为：

20、

21、其中，c是特征图的通道数，表示第t图像帧的特征图的第0和第c-1通道的权重，xt代表第t图像帧的特征图，表示第t图像帧的中间特征图。

22、作为本专利技术的另一种改进，所述步骤s21中，中间特征图在每个空间位置的响应值具体为：

23、

24、其中，分别表示在(x，y)，(i，j)空间位置的向量，||·||2表示2范数，表示所有空间位置向量的2范数的最大值，rt(x，y)表示空间位置(x，y)的响应值。

25、作为本专利技术的又一种改进，所述步骤s23中，语义部位的代理特征an具体为：

26、

27、其中，an表示第n个部位的代理特征，mn表示第n个语义部位的掩膜，表示对应元素的乘法运算；

28、帧内代理特征具体为：：

29、

30、其中，表示第t帧第n个语义部位的代理特征，表示第t帧第n个语义部位的掩膜，xt表示第t帧图像的特征图；

31、异常分数具体为：

32、

33、其中，表示第t帧第n个语义部位的异常分数。

34、作为本专利技术的又一种改进，所述步骤s3中，构造串联嵌入具体为：

35、ec＝[e1，...，en]，

36、其中，ec表示串联嵌入，e1，en分别表示第1个和第n个语义部位的局部嵌入；

37、构造前景嵌入具体为：

38、

39、其中，ef表示前景嵌入，pf表示前景热点图；

40、构造全局嵌入具体为：

41、eg＝gap(x)，

42、其中eg表示全局嵌入。

43、作为本专利技术的更进一步改进，所述步骤s6中待检索行本文档来自技高网...

【技术保护点】

1.一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S1中提取的特征图为X＝[x0,X1,…,XT-1]，其中X0、X1和XT-1代表视频片段中前两帧和最后一帧图像的特征图，[·]表示连接操作，T表示输入视频片段的图像帧数。

3.如权利要求2所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S2具体包括：

4.如权利要求3所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S21中，为特征图的每个通道分配的权重具体为：

5.如权利要求3或4所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S21中，中间特征图在每个空间位置的响应值具体为：

6.如权利要求5所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S23中，语义部位的代理特征An具体为：

7.如权利要求6所述的一种基于异常感知语义自对齐的视频行

8.如权利要求7所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤S6中待检索行人样本与候选行人样本的距离为：

9.一种基于异常感知语义自对齐的视频行人重识别系统，包括计算机程序，其特征在于：所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。

...

【技术特征摘要】

1.一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤s1中提取的特征图为x＝[x0,x1,…,xt-1]，其中x0、x1和xt-1代表视频片段中前两帧和最后一帧图像的特征图，[·]表示连接操作，t表示输入视频片段的图像帧数。

3.如权利要求2所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤s2具体包括：

4.如权利要求3所述的一种基于异常感知语义自对齐的视频行人重识别方法，其特征在于：所述步骤s21中，为特征图的每个通道分配的权重具体为：

5.如权利要求3或4所述的一种基于异常感知语...

【专利技术属性】
技术研发人员：路小波，冉智丹，刘维，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人