基于Transformer网络和超球空间学习的多模态图像处理方法及系统技术方案

技术编号:32825792 阅读:20 留言:0更新日期:2022-03-26 20:28
本发明专利技术公开了一种基于Transformer网络和超球空间学习的多模态图像处理方法及系统,包括获取预训练的Transformer网络模型,得到教师模型;构建由教师模型和多模态融合模型组成的多分支模型;提取教师蒸馏向量和学生蒸馏向量,以及各模态图像在单位超球空间的特征及其分类概率;计算各模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失,并由此更新多模态融合模型;采用更新后的多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。本发明专利技术能够有效提升多模态融合模型的建模和对齐多模态分布的能力,消除不同模态之间的模态差异问题,从而实现零样本跨模态检索。从而实现零样本跨模态检索。从而实现零样本跨模态检索。

【技术实现步骤摘要】
基于Transformer网络和超球空间学习的多模态图像处理方法及系统


[0001]本专利技术涉及深度学习领域,具体涉及一种基于Transformer网络和超球空间学习的多模态图像处理方法及系统。

技术介绍

[0002]随着科学技术的快速发展,图像数据变得越来越容易获取。这些图像数据具有多样的来源、视角、风格等等,形成多模态图像数据集。例如,素描图和照片是具有不同风格的两种模态图像,素描图具有高度的抽象性和描绘对象的结构细节,照片具有描绘对象的丰富视觉特征和复杂的背景信息。对于多模态图像的数据处理以及检索成为了深度学习
的研究热点。
[0003]但是,现有的多模态图像处理方法,绝大多数假定实际应用时待查询模态的图像和被查询模态的图像所包含的类别与训练模型时所用数据类别完全一致,未考虑实际应用时遇到训练数据所不包含的类别的情况,造成检索结果较差。
[0004]此外,现有的多模态图像处理方法,均采用深度卷积神经网络作为基础网络架构,提取特征以供下游任务。然而,深度卷积网络的性能受限于卷积操作的局部性,无法建模对象的全局结构信息。最近提出的Transformer网络具有多头自注意力机制,能够有效建模对象的全局结构信息,在图像识别任务表现良好。
[0005]综上所述,现有的多模态图像处理方法具有应用设置不合理以及基础网络结构限制性能的问题。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种基于Transformer网络和超球空间学习的多模态图像处理方法及其处理系统,解决了现有的多模态图像处理方法存在的应用设置不合理以及基础网络结构限制性能的问题。
[0007]为解决以上问题,本专利技术的技术方法为采用一种基于Transformer网络和超球空间学习的多模态图像处理方法,包括:获取预训练的Transformer网络模型,并基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型,得到教师模型;构建能够基于多模态图像进行超球空间学习的多分支模型,其由各个模态对应的教师模型和一个多模态融合模型构成;基于教师模型提取各个模态图像的教师蒸馏向量;基于多模态融合模型提取各个模态图像的学生蒸馏向量,并基于多模态融合模型提取各个模态图像在单位超球空间的特征及其分类概率;根据教师蒸馏向量、学生蒸馏向量、特征、分类概率计算各个模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失;基于蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失更新所述多模态融合模型;更新后的多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。
[0008]进一步的是,构建能够基于多模态图像进行超球空间学习的多分支模型,其由各
个模态对应的所述教师模型和一个多模态融合模型构成,包括:所述教师模型的网络结构是Transf ormer网络,并基于各个模态的图像数据以自监督训练方式微调预训练的Transformer网络模型,并基于知识蒸馏适应性地增加蒸馏标记;所述多模态融合模型是基于消除模态差异的目的提出的模型,其基础网络结构为Transformer网络,并基于知识蒸馏适应性地增加蒸馏标记,并基于超球学习适应性地增加融合标记。
[0009]进一步的是,所述蒸馏标记和所述融合标记是Transformer网络模型的输入嵌入向量,基于Transformer网络模型的多头自注意力层和全连接层训练得到。
[0010]进一步的是,教师模型的所述蒸馏标记的输出用于计算所述教师蒸馏向量,多模态融合模型的所述蒸馏标记的输出用于计算所述学生蒸馏向量,多模态模型的所述融合标记的输出用于计算单位超球空间的特征和分类概率。
[0011]进一步的是,基于所述教师蒸馏向量、所述学生蒸馏向量、所述特征、所述分类概率计算蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失,包括:基于所述教师蒸馏向量和所述学生蒸馏向量计算各个模态的蒸馏损失;基于各个模态的特征计算模态间中心对齐损失和模态内均匀性损失;基于各个模态的分类概率计算分类损失。
[0012]进一步的是,基于各个模态的特征计算模态间中心对齐损失和模态内均匀性损失,包括:所述特征是由多模态融合模型的所述融合标记的输出计算得到的,其位于单位超球空间,具有向量模为一的性质;所述模态间中心对齐损失,基于所述特征,为每个模态中的每个类别计算类中心,归一化类中心使其向量模为一,对齐不同模态的同种类别的类中心,计算模态间中心对齐损失;所述模态内均匀性损失,包括:基于所述特征和径向基函数,为每个模态的特征计算模态内均匀性损失,其中模态内均匀性损失定义为成对特征的高斯势的对数的平均。
[0013]进一步的是,基于各个模态的分类概率计算分类损失,包括:所述分类概率是基于所述对应模态的特征经过一个线性分类器输出得到,其中线性分类器的权值是所有模态共享的。
[0014]相应地,所述多模态图像处理方法的各个模态的图像数据的获取方式为:获取不同模态的图像样本,包括但不限于人工绘制的素描图样本和成像设备采集的照片样本,构成训练所述预训练的Transformer网络模型参数的数据集。
[0015]相应地,所述多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果,包括:所述多模态融合模型基于待检测模态的图像提取待检测图像的融合标记;所述多模态融合模型基于待查询模态的图像提取待查询图像的融合标记;计算所述待检测图像与所述待查询图像的余弦相似度,按从大到小顺序排序后生成所述零样本跨模态检索结果。
[0016]相应地,本专利技术提供了一种基于Transformer网络和超球空间学习的多模态图像处理系统,包括:成像单元,用于采集多模态的图像样本;数据存储单元,用于存储多模态的图像样本;神经网络单元,包括预训练的Transformer网络模型、以自监督方式微调的各个模态的教师模型和多模态融合模型;数据处理单元,基于所述教师模型提取各个模态图像的教师蒸馏向量,基于所述多模态融合模型提取各个模态图像的学生蒸馏向量,并基于所述多模态融合模型提取各个模态图像在单位超球空间的特征及其分类概率;同时,基于所述教师蒸馏向量、学生蒸馏向量、所述特征、所述分类概率计算各个模态的蒸馏损失、模态
间中心对齐损失、模态内均匀性损失和分类损失,并基于所述蒸馏损失、所述模态间中心对齐损失、所述模态内均匀性损失和所述分类损失更新多模态融合模型。
[0017]进一步的是,所述数据处理单元基于所述教师蒸馏向量和所述学生蒸馏向量计算蒸馏损失,基于所述特征计算模态间中心对齐损失和模态内均匀性损失,基于各个模态的所述分类概率计算分类损失,并基于线性加权的方式加权所述蒸馏损失、所述模态间中心对齐损失、所述模态内均匀性损失和所述分类损失,计算得到最终的损失值,更新多模态融合模型。
[0018]本专利技术基于Transformer网络和超球空间学习的多模态图像处理方法,适应性地为Trans former网络添加蒸馏标记和融合标记,构建能够基于多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer网络和超球空间学习的多模态图像处理方法,其特征在于,该方法具体包括如下步骤:步骤S1:获取预训练的Transformer网络模型,并基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型,得到各个模态对应的教师模型;步骤S2:构建能够基于多模态图像进行超球空间学习的多分支模型,其由各个模态对应的教师模型和一个多模态融合模型构成;步骤S3:基于各个模态对应的教师模型分别提取各个模态图像的教师蒸馏向量,基于所述多模态融合模型提取各个模态图像的学生蒸馏向量,并基于所述多模态融合模型提取各个模态图像在单位超球空间的特征及其分类概率;步骤S4:基于所述各个模态图像的教师蒸馏向量、所述各个模态图像的学生蒸馏向量、所述各个模态图像在单位超球空间的特征以及所述各个模态图像在单位超球空间的分类概率计算各个模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失,并基于所述蒸馏损失、所述模态间中心对齐损失、所述模态内均匀性损失和所述分类损失更新所述多模态融合模型;步骤S5:采用更新后的所述多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。2.根据权利要求1所述的基于Transformer网络和超球空间学习的多模态图像处理方法,其特征在于,所述步骤S1中各个模态的图像数据包括照片和素描图,此时基于各个模态的图像数据以自监督方式微调该预训练的Transformer网络模型具体包括:分别采用照片和素描图数据以自监督方式微调该预训练Transformer网络模型,获得照片模态和素描图模态的教师模型,所述自监督方式,即把标签信息排除在外,以避免在微调过程中模型泛化性的退化,即用“多裁剪”策略为每个照片图像或素描图图像生成一组不同的视图V,其中包括两个分辨率为224
×
224的全局视图x
g,1
和x
g,2
,以及10个分辨率为96
×
96的局部视图;然后,从预训练的Transformer网络模型初始化出两个待微调模型,记为模型P和模型T;微调过程遵循从局部到整体的策略,把V中的所有视图输入模型P,而只把全局视图输入模型T,则优化公式定义如下:其中,Z
t
,τ
t
,θ
t
和Z
p
,τ
p
,θ
p
分别表示模型T和P的输出、温度超参和参数,ψ表示Softmax归一化操作,KL表示Kullback

Leibler散度;x可以是任意全局视图,但不可以是局部视图;x

可以是任意视图,但不可以和x相同;表示最小化Kullback

Leibler散度,因此,上述公式用于对齐局部视图和全局视图的输出,以及对齐不同的全局视图;最后,模型T的参数以指数移动平均方式更新:θ
t
=ζθ
t
+(1

ζ)θ
p
,其中,ζ是预设的处于(0,1)之间的参数;分别取得图像模态和素描图模态的训练完成后的模型T,作为对应模态的教师模型。3.根据权利要求2所述的基于Transformer网络和超球空间学习的多模态图像处理方法,其特征在于,所述步骤S2的具体实现方式为:将步骤S1获取到的照片模态的教师模型和素描图模态的教师模型分别记为g
I
和g
S
,其中,I和S分别表示照片模态和素描图模态,照片模态的教师模型的结构是由骨架网络f
I

投影网络h
I
构成,素描图模态的教师模型的结构是由骨架网络f
S
和投影网络h
S
构成;进一步构建能够基于多模态图像进行超球学习的多分支模型,其由上述两个模态的教师模型和一个多模态融合模型构成,多模态融合模型的基础网络结构也是Transformer网络,并基于知识蒸馏适应性地增加蒸馏标记,同时基于超球空间学习适应性地增加融合标记,多模态融合模型的结构是由一个骨架网络f
F
和两个投影网络h
D
和h
F
构成,用g
D
表示f
F
和h
D
构成的模型,g
F
表示f
F
和h
F
构成的模型,教师模型的蒸馏标记用于计算教师蒸馏向量,多模态融合模型的蒸馏标记用于计算所述各个模态的学生蒸馏向量,多模态融合模型的融合标记的输出用于计算单位超球空间上的特征和分类概率。4.根据权利要求3所述的基于Transformer网络和超球空间学习的多模态图像处理方法,其特征在于,所述步骤S3的具体实现方式为:不论是教师模型或多模态融合模型,蒸馏标记由骨架网络f
I
,f
S
或f
F
学习得到,并由投影网络h
I
,h
S
或h
D
投影到一个K维的空间中,得到蒸馏向量;以任意第i张照片或任意第i张素描图为例,和分别表示照片和素描图的教师蒸馏向量,而和分别表示照片和素描图的学生蒸馏向量;另外,融合标记由f
F
学习得到,并由h
F
投影到单位超球空间,得到图像在这个单...

【专利技术属性】
技术研发人员:徐行田加林沈复民申恒涛
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1