【技术实现步骤摘要】
多模态预训练模型的训练方法、应用方法及装置
本申请属于计算机应用
,具体涉及一种多模态预训练模型的训练方法、应用方法及装置。
技术介绍
近年来,预训练模型已成为自然语言处理(NLP,NaturalLanguageProcessing)研究领域的热门话题。涉及多种模态信息交互的多模态预训练模型适用于更多的应用场景,如针对图文对的多模态预训练模型逐渐受到广泛关注。目前,相关技术中提供了一些处理图文对的多模态预训练模型,这些多模态预训练模型假设输入的图文对中文本与图像之间存在强语义相关性,通过判断文本中包括的单词与图像所展示的内容之间是否存在语义对应关系,来确定输入的图文对中的文本与图像是否对应。但实际应用中图文对中图像与文本之间不一定存在强语义相关性,上述相关技术通过单词与图像的语义对应关系来判断文本与图像是否对应,准确性很低。
技术实现思路
本申请提出一种多模态预训练模型的训练方法、应用方法及装置,本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样 ...
【技术保护点】
1.一种多模态预训练模型的训练方法,其特征在于,包括:/n构建双塔结构的多模态预训练模型;/n获取正样本数据集和负样本数据集,所述正样本数据集包括正样本图文对,所述负样本数据集包括负样本图文对;/n根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型,所述多模态预训练模型包括跨模态对比学习模块,所述跨模态对比学习模块用于对所述正样本图文对和所述负样本图文对进行图文相似度对比学习。/n
【技术特征摘要】 【专利技术属性】
1.一种多模态预训练模型的训练方法,其特征在于,包括:
构建双塔结构的多模态预训练模型;
获取正样本数据集和负样本数据集,所述正样本数据集包括正样本图文对,所述负样本数据集包括负样本图文对;
根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型,所述多模态预训练模型包括跨模态对比学习模块,所述跨模态对比学习模块用于对所述正样本图文对和所述负样本图文对进行图文相似度对比学习。
2.根据权利要求1所述的方法,其特征在于,所述构建双塔结构的多模态预训练模型,包括:
将图像编码器和图像动量编码器均与第一全连接层连接;
将文本编码器和文本动量编码器均与第二全连接层连接;
将所述第一全连接层和所述第二全连接层均与多层感知机连接;
将所述多层感知机与跨模态对比学习模块连接,得到双塔结构的多模态预训练模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述正样本数据集和所述负样本数据集训练所述多模态预训练模型,包括:
在当前训练周期,将至少一个所述正样本图文对和多个所述负样本图文对输入所述多模态预训练模型;
通过所述图像编码器获得第一正样本图文对中图像对应的正样本图像特征向量;通过所述图像动量编码器获得每个所述负样本图文对中图像对应的负样本图像特征向量,所述第一正样本图文对为输入的任一正样本图文对;
通过所述第一全连接层将所述正样本图像特征向量和每个所述负样本图像特征向量拼接为图像特征向量序列;
通过所述文本编码器提取第一正样本图文对中文本对应的正样本文本特征向量;通过所述文本动量编码器提取每个所述负样本图文对中文本对应的负样本文本特征向量;
通过所述第二全连接层将所述正样本文本特征向量和每个所述负样本文本特征向量拼接成文本特征向量序列;
通过所述多层感知机将所述图像特征向量序列和所述文本特征向量序列映射至同一空间下;
根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列,通过所述跨模态对比学习模块进行图文相似度对比学习。
4.根据权利要求3所述的方法,其特征在于,所述根据所述正样本图像特征向量、所述正样本文本特征向量、处于同一空间下的所述图像特征向量序列和所述文本特征向量序列,通过所述跨模态对比学习模块进行图文相似度对比学习,包括:
通过所述跨模态对比学习模块分别计算所述正样本图像特征向量与所述文本特征向量序列中每个文本特征向量之间的相似度,得到图-文相似度序列;
通过所述跨模态对比学习模块分别计算所述正样本文本特征向量与所述图像特征向量序列中每个图像特征向量之间的相似度,得到文-图相似度序列;
技术研发人员:霍宇琦,张曼黎,刘光镇,卢志武,窦志成,金琴,赵鑫,宋睿华,文继荣,
申请(专利权)人:北京智源人工智能研究院,中国人民大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。