一种基于互信息最大化的视觉语言模型提示学习方法技术

技术编号：39749171 阅读：8 留言：0更新日期：2023-12-17 23:47

本发明专利技术公开了一种基于互信息最大化的视觉语言模型提示学习方法，属于数据挖掘技术领域

全部详细技术资料下载

【技术实现步骤摘要】
一种基于互信息最大化的视觉语言模型提示学习方法

[0001]本专利技术涉及一种基于互信息最大化的视觉语言模型提示学习方法，属于数据挖掘

。

技术介绍

[0002]在过去十年中，基于深度学习的视觉识别模型，如
VGG、ResNet
和
Vision Transformer
，已经取得了重大进展
。
这些模型通常是在图像和离散标签对的大型数据集上训练，其中标签是一个简单的标量，通过转换详细的文本描述来生成，以减少损失的计算负担
。
然而
,
这种模式有两个主要的局限性：
(1)
文本描述之间丰富的语义关系没有得到充分的利用
。(2)
模型只局限于训练集中的已知类别
。
近年来
,
对大规模视觉语言模型
(VLMs)
的研究，如基于对比学习的语言
‑
图像预训练模型
(CLIP)、Flamingo
模型
(
一种用于小样本学习的视觉语言模型
)
和
ALIGN
模型，都在零照图像识别中表现出显著的性能
。
图像识别中表现出显著的性能，表明用这种模式学习开放世界的潜力，表明用这种模式学习开放世界的视觉概念的潜力
。
在
CLIP
模型中，模型被训练来关联图像和相应的文本，从而使两种模式的表征在联合嵌入空间中接近
。r/>预训练过程包括从一个大型的图像和文本语料库中生成许多这样的图像
‑
文本对
。
提示学习包括寻找最佳文本提示来生成这些对
。
发现哪些提示能在下游任务，如跨模态检索，字幕生成等任务取得最佳表现
。
具体来说，提示学习可以分为两类：
[0003](1)
基于模板的提示：一种常见的调整提示的方法是使用人的评价或模板调整提示语
。
例如，如果任务是要识别物体，提示的调整可能涉及生成带有强调物体类别的提示的图像文本对，例如：
"
一张
[
类别
]的照片
"。[
类别
]指的是
"
汽车
"
这样的标签
。
[0004](2)
软提示
。
另一种方法是使用算法或其他搜索技术来探索可能的提示空间并找到取得最佳精确度的提示
。
在这种方法中，经常使用软提示，其格式为
"{v1,v2,...,vM,[
类别
]}"
，其中
vM
表示可学习向量并由下游任务进行优化
。
[0005]虽然基于模板的提示可以更广泛地应用于未见过的类，即具有更强的泛化能力
。
但它们往往会导致下游任务
(
即见过的类别
)
的表现不佳
。
相反，软提示往往在下游任务中表现良好，但它们的缺乏泛化能力
。

技术实现思路

[0006]本专利技术所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于互信息最大化的视觉语言模型提示学习方法，将基于模板的提示中的泛化知识迁移到软提示信息中
。
从而较大提升视觉语言模型的下游任务的学习能力和对未知类别的泛化能力
。
[0007]为实现上述技术目的，本专利技术采用以下的技术方案：
[0008]本专利技术提供一种基于互信息最大化的视觉语言模型提示学习方法，首先进行训练软提示，通过最大化的互信息辅助交叉熵损失，可进一步优化软提示，方法包括：
[0009]S1:
构建预训练的网络结构和预训练参数，提取文本图像对数据信息；
[0010]S2
：计算所述文本图像对数据随机变量间的互信息，并最大化所述互信息；
[0011]S3
：将基于模板的提示和泛化性知识迁移到可学习的软提示中；
[0012]S4
：引入交叉熵损失，结合所述互信息，进一步优化软提示，平衡下游任务的学习能力和对未知类别的泛化能力
。
[0013]进一步的，所述训练软提示前需要构建数据集，步骤为：
[0014]S11
：数据集划分为已知类别和未知类别；
[0015]S12
：将已知类别数据集的
80
％用作已知类别训练集，
20
％用作已知类别测试集；
[0016]S13
：未知类别数据集中全部数据当作测试集；
[0017]所述数据集表示为：
X
＝
{(a
i
,b
i
)|i
＝
1,2,...,N}
，其中
a
i
为文字模态数据，
b
i
为图片模态数据；
[0018]所述训练集，数据以文本图像对的形式输入网络；
[0019]所述测试集为随机输入图像
。
[0020]进一步的，所述构建预训练的网络结构和预训练参数方法为，用开源的
CLIP
模型，文本编码器采用
Transformer
结构，图片编码器采用
ResNet
‑
50
结构
。
[0021]进一步的，所述提取文本图像对数据为：
[0022]根据所述文本编码器和所述图片编码器，分别提取文本嵌入空间1，文本嵌入空间2，以及图片特征
3。
[0023]进一步的，所述计算文本图像对数据随机变量间互信息，并最大化，是根据不变信息聚类准则
(Invariant Information Clustering)
来计算，计算方法为：
[0024]S21
：两个变量
X1和
X2；
[0025]S22
：互信息表示为：
MI(X1,X2)
＝
H(X1)
‑
H(X1|X2)
；其中，
H(X1)
和
H(X1|X2)
分别表示信息熵和条件信息熵；条件熵可以表示为
H(X1|X2)
＝
H(X1,X2)
‑
H(X2)
；
[0026]S23:
条件熵公式带入
,
互信息可以表示如下：
[0027][0028]S24:
简化互信息，互信息
MI(X1
，
X2)
可以简化为：
[0029][0030]S25
：采取用不变信息聚类准则
(Invariant Information Clusteri本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于互信息最大化的视觉语言模型提示学习方法，其特征在于，包括：训练软提示，所述训练软提示的方法：
S1:
构建预训练的网络结构和预训练参数，提取文本图像对数据信息；
S2
：计算所述文本图像对数据随机变量间的互信息，并最大化所述互信息；
S3
：将基于模板的提示和泛化性知识迁移到可学习的软提示中；
S4
：引入交叉熵损失，结合所述互信息，进一步优化软提示，平衡下游任务的学习能力和对未知类别的泛化能力
。2.
如权利要求1所述的方法，其特征在于，所述
S1
中构建预训练的网络结构和预训练参数的方法，用开源的
CLIP
模型，文本编码器采用
Transformer
结构，图片编码器采用
ResNet
‑
50
结构
。3.
如权利要求1所述的方法，其特征在于，所述
S1
中提取文本图像对数据的方法：根据所述文本编码器和所述图片编码器，分别提取文本嵌入空间1，文本嵌入空间2，以及图片特征
3。4.
如权利要求1所述的方法，其特征在于，所述
S2
中计算所述文本图像对数据随机变量间互信息，并最大化，是根据不变信息聚类准则
(Invariant Information Clustering)
来计算，计算方法：
S21
：两个变量
X1和
X2；
S22
：互信息表示为：
MI(X1,X2)
＝
H(X1)
‑
H(X1|X2)
；其中，
H(X1)
和
H(X1|X2)
分别表示信息熵和条件信息熵；条件熵可以表示为
H(X1|X2)
＝
H(X1,X2)
‑
H(X2)
；
S23:
条件熵公式带入
,
互信息可以表示如下：
S24:
简化互信息，互信息

【专利技术属性】
技术研发人员：马骏，王晓磊，杨钰群，
申请(专利权)人：北京芯联心科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人