一种基于迁移学习的风格化图像描述生成方法技术

技术编号：35468409 阅读：46 留言：0更新日期：2022-11-05 16:12

本发明专利技术涉及一种基于迁移学习的风格化图像描述生成方法，属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法，使用两个映射网络，分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息，并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法，将文本风格知识迁移到图像描述模型中，有效生成风格化图像语义。利用提示符(prompt)训练方式在大规模预训练语言模型GPT

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迁移学习的风格化图像描述生成方法

[0001]本专利技术涉及一种基于迁移学习的风格化图像描述生成方法，具体涉及一种利用提示符(prompt)控制语言模型生成风格化图像描述的方法，以及利用迁移学习将在文本上学习到的语言风格知识迁移到图像描述生成领域的方法，属于多模态图像描述生成

技术介绍

[0002]进入21世纪以来，随着互联网、智能手机以及社交网络的快速发展，图像描述工作得到了人们越来越多的重视。图像描述可以有效的应用在人们的日常生活中，帮助学龄前和视觉障碍的用户理解图像，以及帮助人们在社交网络发布照片时提供文字素材、标签等。例如在2018年底，Instagram推出了一款包含AI图片描述功能的社交软件，当用户点击所看到的图片时，软件可以自动的对该图片进行详细的描述，能够有效帮助具有视觉障碍用户轻松使用这款软件。
[0003]然而现阶段的图像描述技术主要停留在对图像的客观描述上，语言风格偏向于中性。无法满足人们对风格化、个性化的图像描述生成的需求。但由于高质量的风格化图像描述数据集的获取需要很高的成本，无论是从海量风格繁杂的图像文本对中筛选符合要求的数据，还是人工为图像编写对应风格的描述，都需要大量的人力和时间，且质量难以把控。因此大规模风格化图像描述数据集数量相对较少，极大地阻碍了风格化图像描述工作的发展。
[0004]因此，有必要对图像描述工作进行更加深入的研究，让图像描述模型可以在风格化图像描述数据不充分的情况下，利用半监督或者无监督等技术，生成风格丰富、具有可读性的描述，以满...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的风格化图像描述生成方法，其特征在于，包括以下步骤：步骤1、利用文本语义映射网络学习文本在GPT
‑
2空间的自身表示使用没有语言风格倾向的文本数据(T)进行训练，利用自监督的方法，学习文本T从CLIP特征空间到GPT
‑
2特征空间的自我表示；首先使用CLIP文字编码器抽取文本T的特征T
‑
clip，并利用一个文本语义映射网络Text Semantic Mapping Network将T
‑
clip映射到GPT
‑
2的特征空间，得到特征向量T
‑
prefix；然后利用GPT
‑
2对文本T进行嵌入，得到文本T在GPT
‑
2特征空间的向量表示T
‑
embedding；以T
‑
prefix作为source，T
‑
embedding作为target，以prompt＝[source][target]形式进行组合，作为GPT
‑
2的输入；在训练的过程中，将GPT
‑
2的参数进行冻结，只对文字语义前缀映射网络Text Semantic Mapping Network进行训练；步骤2、利用文本风格映射网络学习文本在GPT
‑
2空间的风格表示使用成对的风格化文本数据(T，S)进行训练，学习文本从CLIP特征空间到GPT
‑
2特征空间的风格表示；在步骤1模型的基础上，利用预训练的自编码器对T
‑
prefix进行信息压缩，得到T
‑
prefix的高密度语义信息表示T
‑
prefix'并输入文本风格映射网络Text Style Mapping Network，对T
‑
prefix'向量进行映射，得到风格向量表示TS
‑
prefix；然后以T
‑
prefix作为source1，TS
‑
prefix作为source2,T

【专利技术属性】
技术研发人员：史树敏，田君玉，陈雨涛，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人