一种图文预训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:33348546 阅读:46 留言:0更新日期:2022-05-08 09:49
本公开提供了一种图文预训练方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理等场景。具体实现方案为:获取图文样本数据,图文样本数据包括多组图文对,每组图文对包括样本图像和样本文本;将每组图文对中的样本图像输入图像编码器,得到每组图文对的第一图像特征,并将每组图文对中的样本文本输入文本编码器,得到每组图文对的文本特征;将每组图文对的第一图像特征输入图像解码器,得到每组图文对的解码信息;利用每组图文对的第一图像特征、文本特征和解码信息,对图像编码器、文本编码器和图像解码器进行训练。文本编码器和图像解码器进行训练。文本编码器和图像解码器进行训练。

【技术实现步骤摘要】
一种图文预训练方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,具体为深度学习、计算机视觉
,可应用于图像处理等场景。

技术介绍

[0002]随着人工智能技术的不断发展,一系列大规模的图文多模态预训练(Pretrain Multi

Modal Model)模型广泛兴起。这些预训练模型通常使用大规模的数据集在较为简单的任务上进行预训练,预训练完成后,用户根据特定的下游任务,加载预训练模型的参数后,继续进行微调,便可以让预训练模型在相关下游任务上取得显著的性能提升。

技术实现思路

[0003]本公开提供了一种图文预训练方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种图文预训练方法,包括:
[0005]获取图文样本数据,所述图文样本数据包括多组图文对,每组图文对包括样本图像和样本文本;
[0006]将每组图文对中的样本图像输入图像编码器,得到每组图文对的第一图像特征,并将每组图文对中的样本文本输入文本编码器,得到每组图文对的文本特征;...

【技术保护点】

【技术特征摘要】
1.一种图文预训练方法,包括:获取图文样本数据,所述图文样本数据包括多组图文对,每组图文对包括样本图像和样本文本;将每组图文对中的样本图像输入图像编码器,得到每组图文对的第一图像特征,并将每组图文对中的样本文本输入文本编码器,得到每组图文对的文本特征;将每组图文对的第一图像特征输入图像解码器,得到每组图文对的解码信息;利用每组图文对的第一图像特征、文本特征和解码信息,对所述图像编码器、所述文本编码器和所述图像解码器进行训练。2.根据权利要求1所述的方法,其中,所述图像解码器包括正向图像解码器和反向图像解码器;所述将每组图文对的第一图像特征输入图像解码器,得到每组图文对的解码信息的步骤,包括:将每组图文对的第一图像特征分别输入所述正向图像解码器和所述反向图像解码器,得到每组图文对的正向解码信息和反向解码信息。3.根据权利要求1所述的方法,其中,所述利用每组图文对的第一图像特征、文本特征和解码信息,对所述图像编码器、所述文本编码器和所述图像解码器进行训练的步骤,包括:利用每组图文对的第一图像特征和文本特征进行对比学习,得到第一损失值,并利用每组图文对的解码信息进行自监督学习,得到第二损失值;利用所述第一损失值,调整所述图像编码器和所述文本编码器的参数,利用所述第二损失值,调整所述图像编码器和所述图像解码器的参数。4.根据权利要求1所述的方法,所述方法还包括:在所述图像编码器、所述文本编码器和所述图像解码器的训练结束后,获取带标注结果的训练图像,将所述训练图像输入图像编码器,得到第二图像特征;将所述第二图像特征输入下游深度学习模型,得到预测结果;根据所述预测结果与所述标注结果,确定第三损失值;响应于根据所述第三损失值确定所述下游深度学习模型收敛,结束对所述下游深度学习模型的训练。5.根据权利要求4所述的方法,所述方法还包括:响应于根据所述第三损失值确定所述下游深度学习模块未收敛,调整所述下游深度学习模型的参数,并重新执行所述将所述第二图像特征输入下游深度学习模型,得到预测结果的步骤。6.一种图文预训练装置,包括:第一获取单元,用于获取图文样本数据,所述图文样本数据包括多组图文对,每组图文对包括样本图像和样本文本;第一处理单元,用于将每组图文对中的样本图像输入图像编码器,得到每组图文对的第一图像特征,并将每组图文对中的样本文本输入文本编码器,...

【专利技术属性】
技术研发人员:王龙超孙逸鹏姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1