基于自监督掩码模型和跨模态码本的文本行人搜索方法技术

技术编号：37960825 阅读：7 留言：0更新日期：2023-06-30 09:35

一种基于自监督掩码模型和跨模态码本的文本行人搜索方法，包括：先对输入的文本和图片进行遮盖，然后输入到特征提取主干网络中，得到视觉特征F

全部详细技术资料下载

【技术实现步骤摘要】
基于自监督掩码模型和跨模态码本的文本行人搜索方法

[0001]本专利技术基于跨模态检索领域，特别涉及一种是使用基于掩码和跨模态码本的特征对齐方式的方法。

技术介绍

[0002]基于文本的行人搜索旨在将文本描述查询与正确的行人图像进行匹配，这在监控系统，活动分析和智能相册方面具有巨大的潜力。与图像查询行人重识别(也称为基于图像的行人重识别)相比，文本描述在大多数情况下更容易访问，这使得基于文本的人员搜索在近年来变得流行起来。解决跨模态检索的方法主要分成两类，一类是学习特征表示，另一类是提取两个模态特征，然后进行特征对齐。
[0003]为了更好地从图片和文本中学习到合适的特征，有使用生成对抗网络和文本描述对人物图像进行着色(事先灰度处理)；也有利用自监督学习方法通过CLIP获得到先验知识，然后传递到跨模态动量对比学习框架中。同时，为了解决两个模态之间的差异，也有很多工作使用注意力机制来帮助实现文本和图像特征之间的对齐。这会需要使用预训练物体检测模型或者是通过人为设定区域方式获取图片中人的各个位置的图片信息，然后将对应的图片信息和相对应的文本信息共同输入到注意力模块中，从而实现特征对齐。这无疑会对训练和测试带来很大的计算压力。为了更好的实现跨模态的行人检索准确率，解决两个模态之间的特征对齐问题和特征学习问题就十分重要。

技术实现思路

[0004]为了克服现有技术在跨模态特征学习和对齐上存在的不足，本专利技术提供了一种将掩码模型和跨模态码本结合的方法来增强模型特征学习和对齐能力，进一步提高了跨模态行人...

【技术保护点】

【技术特征摘要】
1.一种基于自监督掩码模型和跨模态码本的文本行人搜索方法，其特征在于，遮盖住部分比例的图片块、文本块，以及创建了一个跨模态的码本，包括以下步骤：步骤1，读取数据集，将每一对匹配的文本描述和图片作为模型的数据输入；步骤1.1，先将图片缩放到预定的大小，并执行水平翻转、随机增加高斯噪声等进行数据增强，然后将一张图片分成(h/p)*(w/p)个方形的小块，p为每个小块边长，h和w分别是图片的长和宽尺寸；步骤1.2，然后随机选取部分图片块，并使用统一的掩码令牌进行遮盖；步骤1.3，将文字描述输入到分词器中，将单词、词组转换为对应的编号；同时，随机选取部分文本块，并使用统一的掩码令牌进行遮盖；步骤2，将处理好的经过掩码遮盖的图片和描述文本输入到两个模态的特征编码器中；具体包括：步骤2.1，视觉主干网络E
V
，并加载在数据集ImageNet上预训练的模型参数，处理图像输入得到视觉特征F
V
；步骤2.2，文本主干网络E
T
，同样加载预训练的模型参数，处理文本输入，得到文本特征F
T
；步骤2.3，再分别将两个特征输入到映射层中，得到两个模态的全局特征；步骤2.4，对于得到的两个模态的全局特征，计算CMPC损失函数和CMPM损失函数来度量匹配的文本图片之间的距离和不匹配的文本图片之间的距离大小关系；其中CMPC损失函数表达如下：其中CMPC损失函数表达如下：其中CMPC损失函数表达如下：L
cmpc
＝L
tpi
+L
ipt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)CMPM损失函数表达如下：CMPM损失函数表达如下：CMPM损失函数表达如下：
L
cmpm
＝L
i2t
+L
t2i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中x
i
为视觉特征，z
i
为文本特征，W
j
为权重矩阵，y
i,j
代表输入是否为匹配的图文对，∈为一个很小的正数，防止除0；步骤3，将步骤2中经过特征提取主干网络得到的视觉特征F
V
和文本特征F
T
输入到跨模态码本中，视觉特征F
V
的维度大小为(h/p)*(w/p)*D，文本特征F
T
的维度大小为L*D，L为文本的长度，D为视觉特征或文本特征的通道数，视觉特征和文本特征的通道数相同；具体包括：对步骤2得到的特征进一步处理，具体操作按以下步骤实施；步骤3.1，视觉特征F
V
和文本特征F
T
一共有((h/p)*(w/p)+L)个特征向量，这些特征向量的通道数和码本中的特征向量的通道数相同，然后计算码本中特征向量与所有文本特征和视觉特征的距离，将视觉特征F
V
和文本特征F
T
都用在码本中找到与之相对应的、距离最近的特征向量进行替换，查找方法如下公式：特征向量进行替换，查找方法如下公式：其中z
i
代表视觉特征F
V
和文本特征F
T
，c
i
代表码本中的特征向量，K代表码本中特征向量的个数；步骤3.2，使用码本中的特征向量替换原来视觉特征F
V
和文本特征F
T
中的向量后，得到新的视觉特征F
V2
和新的文本特征F
T2
；因为替换的特征向量是离散的，且替换过程是不可微的，所以需要梯度估计straight
‑
through来将将梯度反向传播到前面的模块，具体方法如下公式所示：其中sg(
·
)代表停止传播梯度，l2代表归一化操作；步骤3.3，替换完输入的特征向量之后，要同步动量更新码本中的特征，使用更新的公式如下...

【专利技术属性】
技术研发人员：吴一鸣，潘企何，高楠，梁荣华，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人