基于Transformer网络和超球空间学习的多模态图像处理方法及系统技术方案

技术编号：32825792 阅读：20 留言：0更新日期：2022-03-26 20:28

本发明专利技术公开了一种基于Transformer网络和超球空间学习的多模态图像处理方法及系统，包括获取预训练的Transformer网络模型，得到教师模型；构建由教师模型和多模态融合模型组成的多分支模型；提取教师蒸馏向量和学生蒸馏向量，以及各模态图像在单位超球空间的特征及其分类概率；计算各模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失，并由此更新多模态融合模型；采用更新后的多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。本发明专利技术能够有效提升多模态融合模型的建模和对齐多模态分布的能力，消除不同模态之间的模态差异问题，从而实现零样本跨模态检索。从而实现零样本跨模态检索。从而实现零样本跨模态检索。

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer网络和超球空间学习的多模态图像处理方法及系统

[0001]本专利技术涉及深度学习领域，具体涉及一种基于Transformer网络和超球空间学习的多模态图像处理方法及系统。

技术介绍

[0002]随着科学技术的快速发展，图像数据变得越来越容易获取。这些图像数据具有多样的来源、视角、风格等等，形成多模态图像数据集。例如，素描图和照片是具有不同风格的两种模态图像，素描图具有高度的抽象性和描绘对象的结构细节，照片具有描绘对象的丰富视觉特征和复杂的背景信息。对于多模态图像的数据处理以及检索成为了深度学习
的研究热点。
[0003]但是，现有的多模态图像处理方法，绝大多数假定实际应用时待查询模态的图像和被查询模态的图像所包含的类别与训练模型时所用数据类别完全一致，未考虑实际应用时遇到训练数据所不包含的类别的情况，造成检索结果较差。
[0004]此外，现有的多模态图像处理方法，均采用深度卷积神经网络作为基础网络架构，提取特征以供下游任务。然而，深度卷积网络的性能受限于卷积操作的局部性，无法建模对象的全局结构信息。最近提出的Transformer网络具有多头自注意力机制，能够有效建模对象的全局结构信息，在图像识别任务表现良好。
[0005]综上所述，现有的多模态图像处理方法具有应用设置不合理以及基础网络结构限制性能的问题。

技术实现思路

[0006]有鉴于此，本专利技术提供了一种基于Transformer网络和超球空间学习的多模态图像处理方法及其处理系统，解决了...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer网络和超球空间学习的多模态图像处理方法，其特征在于，该方法具体包括如下步骤：步骤S1：获取预训练的Transformer网络模型，并基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型，得到各个模态对应的教师模型；步骤S2：构建能够基于多模态图像进行超球空间学习的多分支模型，其由各个模态对应的教师模型和一个多模态融合模型构成；步骤S3：基于各个模态对应的教师模型分别提取各个模态图像的教师蒸馏向量，基于所述多模态融合模型提取各个模态图像的学生蒸馏向量，并基于所述多模态融合模型提取各个模态图像在单位超球空间的特征及其分类概率；步骤S4：基于所述各个模态图像的教师蒸馏向量、所述各个模态图像的学生蒸馏向量、所述各个模态图像在单位超球空间的特征以及所述各个模态图像在单位超球空间的分类概率计算各个模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失，并基于所述蒸馏损失、所述模态间中心对齐损失、所述模态内均匀性损失和所述分类损失更新所述多模态融合模型；步骤S5：采用更新后的所述多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。2.根据权利要求1所述的基于Transformer网络和超球空间学习的多模态图像处理方法，其特征在于，所述步骤S1中各个模态的图像数据包括照片和素描图，此时基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型具体包括：分别采用照片和素描图数据以自监督方式微调该预训练Transformer网络模型，获得照片模态和素描图模态的教师模型，所述自监督方式，即把标签信息排除在外，以避免在微调过程中模型泛化性的退化，即用“多裁剪”策略为每个照片图像或素描图图像生成一组不同的视图V，其中包括两个分辨率为224
×
224的全局视图x
g,1
和x
g,2
，以及10个分辨率为96
×
96的局部视图；然后，从预训练的Transformer网络模型初始化出两个待微调模型，记为模型P和模型T；微调过程遵循从局部到整体的策略，把V中的所有视图输入模型P，而只把全局视图输入模型T，则优化公式定义如下：其中，Z
t
，τ
t
，θ
t
和Z
p
，τ
p
，θ
p
分别表示模型T和P的输出、温度超参和参数，ψ表示Softmax归一化操作，KL表示Kullback
‑
Leibler散度；x可以是任意全局视图，但不可以是局部视图；x
′
可以是任意视图，但不可以和x相同；表示最小化Kullback
‑
Leibler散度，因此，上述公式用于对齐局部视图和全局视图的输出，以及对齐不同的全局视图；最后，模型T的参数以指数移动平均方式更新：θ
t
＝ζθ
t
+(1
‑
ζ)θ
p
，其中，ζ是预设的处于(0,1)之间的参数；分别取得图像模态和素描图模态的训练完成后的模型T，作为对应模态的教师模型。3.根据权利要求2所述的基于Transformer网络和超球空间学习的多模态图像处理方法，其特征在于，所述步骤S2的具体实现方式为：将步骤S1获取到的照片模态的教师模型和素描图模态的教师模型分别记为g
I
和g
S
，其中，I和S分别表示照片模态和素描图模态，照片模态的教师模型的结构是由骨架网络f
I
和
投影网络h
I
构成，素描图模态的教师模型的结构是由骨架网络f
S
和投影网络h
S
构成；进一步构建能够基于多模态图像进行超球学习的多分支模型，其由上述两个模态的教师模型和一个多模态融合模型构成，多模态融合模型的基础网络结构也是Transformer网络，并基于知识蒸馏适应性地增加蒸馏标记，同时基于超球空间学习适应性地增加融合标记，多模态融合模型的结构是由一个骨架网络f
F
和两个投影网络h
D
和h
F
构成，用g
D
表示f
F
和h
D
构成的模型，g
F
表示f
F
和h
F
构成的模型，教师模型的蒸馏标记用于计算教师蒸馏向量，多模态融合模型的蒸馏标记用于计算所述各个模态的学生蒸馏向量，多模态融合模型的融合标记的输出用于计算单位超球空间上的特征和分类概率。4.根据权利要求3所述的基于Transformer网络和超球空间学习的多模态图像处理方法，其特征在于，所述步骤S3的具体实现方式为：不论是教师模型或多模态融合模型，蒸馏标记由骨架网络f
I
，f
S
或f
F
学习得到，并由投影网络h
I
，h
S
或h
D
投影到一个K维的空间中，得到蒸馏向量；以任意第i张照片或任意第i张素描图为例，和分别表示照片和素描图的教师蒸馏向量，而和分别表示照片和素描图的学生蒸馏向量；另外，融合标记由f
F
学习得到，并由h
F
投影到单位超球空间，得到图像在这个单...

【专利技术属性】
技术研发人员：徐行，田加林，沈复民，申恒涛，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人