基于多尺度信息交互网络的文本-图像行人重识别方法技术

技术编号：40702899 阅读：2 留言：0更新日期：2024-03-22 11:01

本发明专利技术公开一种基于多尺度信息交互网络的文本‑图像行人重识别方法，其步骤包括：1、收集成对的文本描述和行人图像并进行统一的预处理，获取跨模态行人重识别数据集；2、构建多尺度信息交互网络包括：双路径图像‑文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；3、采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。本发明专利技术充分利用两种模态的细粒度信息，缩小模态之间的差距，提高文本‑图像行人重识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，具体涉及一种基于多尺度信息交互网络的文本-图像行人重识别方法。

技术介绍

1、文本-图像行人重识别是智能视频监控中的一项任务，用于在多个相机中查询目标行人。传统方法忽略了无法获取行人图像的复杂或特殊场景，如偏远道路或遮挡情况。为解决此问题，可利用目击者提供的语言描述进行搜索，即文本-图像行人重识别。该方法通过比较查询文本与图像的相似度，对大型图像库中的人物图像进行排序，并选择排名靠前的图像作为匹配项。由于使用文本描述作为查询更简单自然，文本-图像行人重识别具有广阔的应用前景。文本-图像行人重识别是一项具有挑战性的任务。在处理过程中，图像可能存在遮挡、背景杂波和姿态干扰等问题，而文本描述的任意顺序和歧义性会增加特征对齐的不确定性。近些年，人们主要使用两种方法来缩小图文之间的模态差距：全局匹配方法和局部匹配方法。全局匹配方法既无法充分挖掘图像中的局部细节，又缺乏中间层的充分跨模态交互。局部匹配方法复杂度高，极有可能会破坏图像和文本的上下文信息或者引入噪声，进而影响图像和文本特征的对齐结果，同时又因为需要较大的计算量，局部匹配方法中的信息交互不可避免地会降低推理效率，难以在实际应用中实现。

技术实现思路

1、本专利技术是为了解决上述现有技术存在的不足之处，提出一种基于多尺度信息交互网络的文本-图像行人重识别方法，以期能挖掘细粒度的有效匹配信息，以缩小模态之间的差距，从而提高文本-图像行人重识别的准确率。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种基于多尺度信息交互网络的文本-图像行人重识别方法的特点在于，包括以下步骤：

4、步骤1、收集成对的文本描述和行人图像并进行统一的预处理，获取跨模态行人重识别数据集；

5、步骤1.1、用不同规格的相机分别采集处于不同的场景、视点下的若干个行人图像，得到行人图像数据集i＝{i1,i2,...,in,...,in}，其中，in表示第n张行人图像，n为行人图像数据集i中行人图像的总数；

6、步骤1.2、生成行人图像数据集i中行人图像对应的文本描述，从而得到文本数据集t＝{t1,t2,...,tn,...,tn}；其中，tn表示第n张行人图像in对应的文本描述；

7、步骤2、构建多尺度信息交互网络包括：双路径图像-文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；

8、步骤2.1、所述双路径图像-文本特征提取网络使用vit图像编码器从in中提取初级特征，得到视觉特征vn＝{vn,g,vn,1,vn,2,...,vn,k,...,vn,k}，并使用transformer文本编码器从tn中提取初级特征，得到文本特征tn＝{tn,g,tn,1,tn,2,...,tn,l,...,tn,l}，其中，vn,g是in的全局视觉特征，vn,k是in中第k个补丁的局部特征，tn,g是tn的全局文本特征，tn,l是tn的第l个文本局部特征；k表示网格状补丁的数量，l表示文本特征的固定长度，当文本特征的长度大于l时，选择前l个单词；当文本特征的长度小于l时，在文本特征的末尾进行零填充；

9、步骤2.2、所述基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成；

10、步骤2.2.1、所述前景增强判别器模块对vn进行处理，得到增强后的映射特征

11、步骤2.2.2、随机语言掩码模块以δ％的概率用掩码符号“[mask]”对tn进行随机屏蔽，得到文本映射特征其中，δ表示阈值；

12、步骤2.2.3、所述语义一致特征金字塔网络使用卷积对进行降采样后，得到2r层不同尺度的特征图；接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理，得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合，得到r个经过交叉融合的特征图；随后对r个特征图进行相同处理，将高分辨率特征图进行降采样处理后，与对应的低分辨率特征图进行两两交叉融合，最终得到一个包含丰富的局部和全局信息的图像特征

13、步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块对和进行处理，得到图像表示和文本表示以实现图像-文本对齐；

14、步骤3、采用联合跨模态投影匹配损失lcmpm、身份损失lnd(fnv)和多样性损失ldiv来构建总的损失函数ltotal，并基于i和t，使用adam优化策略对多尺度信息交互网络进行训练，直至总的损失函数ltotal收敛为止，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。

15、本专利技术所述的基于多尺度信息交互网络的文本-图像行人重识别方法的特点也在于，所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成；

16、所述空间引导定位模块对vn分别进行最大池化和平均池化操作，并将两个操作的结果串联后，再通过一个卷积层和sigmoid激活函数的处理，从而得到空间权重系数an,sgl；再将vn与an,sgl进行逐元素相乘，得到增强后的映射特征

17、所述通道去噪模块对依次进行全局最大池化和全局平均池化操作后，再将得到的特征向量分别送入共享的两层神经网络中进行处理，将得到的两个结果相加后，再经过一个sigm oid激活函数的处理，得到通道权重系数an,cdm；最后将与an,cdm进行逐元素相乘后，得到增强后的映射特征

18、所述步骤2.3包括：

19、步骤2.3.1、所述多头注意模块利用patch embedding操作将转换成一维序列矩阵并利用式(1)所示的线性投影计算，得到m个注意力头中第m个注意力头的图像查询向量图像键向量和图像值向量

20、

21、式(1)中，表示第m个注意力头的待训练的3个参数矩阵，d表示掩码令牌的嵌入维度；

22、步骤2.3.2、所述多头注意模块利用linear操作将转换成一维序列矩阵并利用式(1)得到m个注意力头中第m个注意力头的文本查询向量文本键向量和文本值向量

23、步骤2.3.3、所述交叉注意力模块利用式(2)获取m个注意力头中第m个注意力头的图像注意力图和文本注意力图

24、

25、式(2)中，dk表示向量的维度；t表示转置；

26、所述交叉注意力模块利用式(3)分别得到m个注意力头的图像注意力图和文本注意力图

27、

28、式(3)中，cat表示拼接；

29、步骤2.3.4、所述交叉注意力模块利用transformer的前馈网络对和进行处理，得到最终的图像表示和文本表示

30、所述步骤3中的总的损失函数ltotal是按如下步骤得到：

31、步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹本文档来自技高网...

【技术保护点】

1.一种基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成；

3.根据权利要求2所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述步骤2.3包括：

4.根据权利要求3所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述步骤3中的总的损失函数Ltotal是按如下步骤得到：

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述文本-图像行人重识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述文本-图像行人重识别方法的步骤。

【技术特征摘要】

1.一种基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述步骤2.3包括：

4.根据权利要求3所述的基于多尺度信息交互网络的文本-图像行人重识别方法，...

【专利技术属性】
技术研发人员：孙锐，杜云，陈龙，黄国熙，王学斌，张旭东，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人