一种基于迁移学习的风格化图像描述生成方法技术

技术编号:35468409 阅读:46 留言:0更新日期:2022-11-05 16:12
本发明专利技术涉及一种基于迁移学习的风格化图像描述生成方法,属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法,使用两个映射网络,分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息,并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法,将文本风格知识迁移到图像描述模型中,有效生成风格化图像语义。利用提示符(prompt)训练方式在大规模预训练语言模型GPT

【技术实现步骤摘要】
一种基于迁移学习的风格化图像描述生成方法


[0001]本专利技术涉及一种基于迁移学习的风格化图像描述生成方法,具体涉及一种利用提示符(prompt)控制语言模型生成风格化图像描述的方法,以及利用迁移学习将在文本上学习到的语言风格知识迁移到图像描述生成领域的方法,属于多模态图像描述生成


技术介绍

[0002]进入21世纪以来,随着互联网、智能手机以及社交网络的快速发展,图像描述工作得到了人们越来越多的重视。图像描述可以有效的应用在人们的日常生活中,帮助学龄前和视觉障碍的用户理解图像,以及帮助人们在社交网络发布照片时提供文字素材、标签等。例如在2018年底,Instagram推出了一款包含AI图片描述功能的社交软件,当用户点击所看到的图片时,软件可以自动的对该图片进行详细的描述,能够有效帮助具有视觉障碍用户轻松使用这款软件。
[0003]然而现阶段的图像描述技术主要停留在对图像的客观描述上,语言风格偏向于中性。无法满足人们对风格化、个性化的图像描述生成的需求。但由于高质量的风格化图像描述数据集的获取需要很高的成本,无论是从海量风格繁杂的图像文本对中筛选符合要求的数据,还是人工为图像编写对应风格的描述,都需要大量的人力和时间,且质量难以把控。因此大规模风格化图像描述数据集数量相对较少,极大地阻碍了风格化图像描述工作的发展。
[0004]因此,有必要对图像描述工作进行更加深入的研究,让图像描述模型可以在风格化图像描述数据不充分的情况下,利用半监督或者无监督等技术,生成风格丰富、具有可读性的描述,以满足不同用户的需求。

技术实现思路

[0005]本专利技术的目的是针对现阶段图像描述工作所生成的句子风格单一,并且在风格化图像描述数据集数量和规模不充分的情况下,模型难以有效进行训练的问题,提出一种基于迁移学习的风格化图像描述生成方法。
[0006]本方法的创新点在于:针对风格化图像描述数据集缺乏的情况,利用风格化文本语料库对模型进行训练,以获得风格化描述知识,并将其迁移到图像描述工作中,以生成风格化图像描述。利用prompt范式对大规模预训练模型中包含的知识进行充分的利用,在不对语言模型进行微调的情况下生成高质量的风格化图像描述,极大降低了训练成本。
[0007]本专利技术采用以下技术方案实现。
[0008]首先,对相关概念进行说明:
[0009]定义1:风格化图像描述数据集
[0010]指针对图像描述任务提供相应具体的图片及相应描述的图像文本对的集合。其中,数据集同一张图片可能对应多个不同的文本。并且不同文本可能对应不同风格,例如积
极或者消极风格。
[0011]定义2:多模态预训练模型
[0012]指在大规模数据集上进行训练,在训练结束时得到结果比较好的一组权重值,研究人员分享出来供其他人使用的模型。由于模型在海量数据上进行了训练,所以模型学习到了丰富的知识,可以通过微调等手段迁移到其他领域的研究上。本工作使用的多模态预训练模型为CLIP。
[0013]定义3:预训练自回归语言模型
[0014]指在大规模数据集上进行训练,通过输入前缀提示,根据句子前面的单词,预测下一个单词的模型。由于其蕴含大量的知识,常应用于少样本学习或零样本学习。本工作使用的预训练自回归语言模型为GPT

2。
[0015]定义4:提示符(prompt)
[0016]指研究者们为下游任务设计的一种模板或者范式,这种范式能够帮助预训练模型回忆起自己预训练学到的知识。提示符可以是人工设计或模型自动学习生成的,包含离散或者连续、前缀或者完形填空等多种形式。本工作使用的是连续前缀形式的prompt。
[0017]定义5:自编码器
[0018]是一类在半监督学习和非监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习,常用于压缩和提取特征。
[0019]本专利技术的目的是通过下述技术方案实现的。
[0020]一种基于迁移学习的风格化图像描述生成方法,包括以下步骤:
[0021]步骤1:利用文本语义映射网络学习文本在GPT

2空间的自身表示
[0022]具体的,使用没有语言风格倾向的文本数据(T)进行训练,利用自监督的方法,学习文本T从CLIP特征空间到GPT

2特征空间的自我表示。首先使用CLIP文字编码器抽取文本T的特征T

clip,并利用一个文本语义映射网络Text Semantic Mapping Network将T

clip映射到GPT

2的特征空间,得到特征向量T

prefix。然后利用GPT

2对文本T进行嵌入,得到文本T在GPT

2特征空间的向量表示T

embedding。以T

prefix作为source,T

embedding作为target,以prompt=[source][target]形式进行组合,作为GPT

2的输入。在训练的过程中,将GPT

2的参数进行冻结,只对文字语义前缀映射网络Text Semantic Mapping Network进行训练。
[0023]步骤2:利用文本风格映射网络学习文本在GPT

2空间的风格表示
[0024]使用成对的风格化文本数据(T,S)进行训练,学习文本从CLIP特征空间到GPT

2特征空间的风格表示。在步骤1模型的基础上,利用预训练的自编码器对T

prefix进行信息压缩,得到T

prefix的高密度语义信息表示T

prefix'并输入文本风格映射网络Text Style Mapping Network,对T

prefix'向量进行映射,得到风格向量表示TS

prefix。然后以T

prefix作为source1,TS

prefix作为source2,T

embedding作为target,以prompt=[source2][source1][target]形式进行组合,作为GPT

2输入。在训练的过程中,将GPT

2和文字语义映射网络Text Semantic Mapping Network的参数进行冻结,只对文字风格映射网络Text Style Mapping Network进行训练。
[0025]步骤3:利用图像语义网络学习图像在GPT

2空间的语义表示
[0026]使用无语言风格倾向的图像描述数据(I,T)进行训练,学习图像I从CLIP特征空间
到GPT<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的风格化图像描述生成方法,其特征在于,包括以下步骤:步骤1、利用文本语义映射网络学习文本在GPT

2空间的自身表示使用没有语言风格倾向的文本数据(T)进行训练,利用自监督的方法,学习文本T从CLIP特征空间到GPT

2特征空间的自我表示;首先使用CLIP文字编码器抽取文本T的特征T

clip,并利用一个文本语义映射网络Text Semantic Mapping Network将T

clip映射到GPT

2的特征空间,得到特征向量T

prefix;然后利用GPT

2对文本T进行嵌入,得到文本T在GPT

2特征空间的向量表示T

embedding;以T

prefix作为source,T

embedding作为target,以prompt=[source][target]形式进行组合,作为GPT

2的输入;在训练的过程中,将GPT

2的参数进行冻结,只对文字语义前缀映射网络Text Semantic Mapping Network进行训练;步骤2、利用文本风格映射网络学习文本在GPT

2空间的风格表示使用成对的风格化文本数据(T,S)进行训练,学习文本从CLIP特征空间到GPT

2特征空间的风格表示;在步骤1模型的基础上,利用预训练的自编码器对T

prefix进行信息压缩,得到T

prefix的高密度语义信息表示T

prefix'并输入文本风格映射网络Text Style Mapping Network,对T

prefix'向量进行映射,得到风格向量表示TS

prefix;然后以T

prefix作为source1,TS

prefix作为source2,T

【专利技术属性】
技术研发人员:史树敏田君玉陈雨涛
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1