基于文本对抗生成网络的无监督图像描述生成方法技术

技术编号:37210168 阅读:25 留言:0更新日期:2023-04-20 23:01
本发明专利技术公开了一种基于文本对抗生成网络的无监督图像描述生成方法,其步骤包括:1、对图像数据库进行图像特征提取,对辅助文本库进行文本数据清洗;2、构建基于语言

【技术实现步骤摘要】
N]},其中,e
Ii
表示第i张图像的特征;N表示图像总数;对所述辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{S
j
|j∈[1,M]},其中,S
j
表示第j个句子;步骤2、构建图像描述生成器G,是由K个提示生成器和一个基于GPT

2语言生成模型的解码器构成;其中,所述提示生成器由H个线性层构成,前H

1个线性层后分别连接一个tanh激活函数;K个提示生成器分别将第i张图像的特征e
Ii
转化K个提示向量后,输入所述基于GPT

2语言生成模型的解码器中进行处理,并输出解码后的句子C
i
;步骤3、利用语言

图像对比学习预训练模型CLIP中的文本特征提取器CLIP

TextEncoder对第j个句子S
j
进行特征提取,得到文本特征e
Sj
;步骤4、构建文本

图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,是按如下步骤进行:步骤1、获取训练数据,包括:图像集和辅助文本库;利用语言

图像对比学习预训练模型CLIP中的图像特征提取器CLIP

ImageEncoder对所述图像集中的N张图像进行特征提取,得到图像特征集合{e
Ii | i∈[1, N]},其中,e
Ii
表示第i张图像的特征;N表示图像总数;对所述辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{S
j | j∈[1, M]},其中,S
j
表示第j个句子;步骤2、构建图像描述生成器G,是由K个提示生成器和一个基于GPT

2语言生成模型的解码器构成;其中,所述提示生成器由H个线性层构成,前H

1个线性层后分别连接一个tanh激活函数;K个提示生成器分别将第i张图像的特征e
Ii
转化K个提示向量后,输入所述基于GPT

2语言生成模型的解码器中进行处理,并输出解码后的句子C
i
;步骤3、利用语言

图像对比学习预训练模型CLIP中的文本特征提取器CLIP

TextEncoder对第j个句子S
j
进行特征提取,得到文本特征e
Sj
;步骤4、构建文本

图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接;所述文本

图像特征转换器对文本特征e
Sj
进行处理,得到虚拟图像表征e
Fj
;步骤5、由文本特征e
Sj
和第j个句子S
j
构造一对特征

图像描述伪标签,由虚拟图像表征e
Fj
和第j个句子S
j
构造另一对特征

图像描述伪标签,从而利用两对伪标签训练图像描述生成器G进行预热,得到具备初步生成能力的训练图像描述生成器G;步骤6、构建文本判别器D,是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成;其中,所述真实度预测器由Y个线性层构成,在前Y

1个线性层后均连接一个tanh激活函数;所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子S
j
转化为文本特征后,输入所述真实度预测器中进行处理,从而将文本特征转化为S
j
的真实度预测值f
D
(S
j
);步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G,并使用二分类交叉熵损失训练文本判别器D,使得两者在对抗学习中交替优化,从而得到最优图像描述生成模型。2.根据权利要求1所述的基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,所述步骤5包括:步骤5.1、领域适应学习策略:从图像特征集合{e
Ii | i∈[1, N]}中选取一批包含有A个图像特征的特征数据;从文本库{S
j | j∈[1, M]}中选取一批包含B个句子的文本数据,并利用文本特征提取器CLIP

TextEncoder和文本

图像特征转换器对一批文本数据进行处理,得到B个虚拟图像特征;从而利用式(1)构建领域适应的损失函数L
mmd
:(1)式(1)中,k为高斯核函数;e
Ia
表示一批真实图像特征数据中的第a张图像的特征;e
Ib

示一批真实图像特征数据中的第b张图像的特征,e
Fa
表示一批虚拟图像特征中的第a个虚拟图像特征,e
Fb
表示一批虚拟图像特征中的第b个虚拟图像特征;步骤5.2、语义约束学习策略:利用式(2)构建语义约束损失L
cos
:(2)步骤5.3、文本重建学习策略:构造伪标签对(e
Sj
, S
j )和伪标签对(e
Fj
, S
j ),从而利用式(3)构建文本重建损失函数L
mle
:(3)式(3)中,S
j,t
表示S
j
中第t个单词,S
j,1:t
‑1表示由S
j
中前t

1个单词构成的文本,P
G (S
j,t | e
Sj , S
j,1:t
‑1)表示文本特征e
Sj

【专利技术属性】
技术研发人员:郝艳宾于佳睿徐童何向南
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1