【技术实现步骤摘要】
视觉语言模型获得及任务处理方法、装置、设备及介质
[0001]本公开涉及人工智能
,具体而言,涉及一种视觉语言模型 获得方法、视觉语言任务处理方法、装置、设备及可读存储介质。
技术介绍
[0002]视觉和语言是人工智能的两项基本能力,两者之间的交互支持一系 列独特的模拟人类大脑处理信息的能力,如视觉语言(Vision-Language, VL)理解(例如视觉问答)和VL生成(例如图像描述)。VL技术在机 器人视觉、帮助视障人士等方面具有良好的应用前景。
[0003]受自然语言预训练技术的发展的启发,对VL模型进行预训练以提高 模型处理VL任务的性能成为发展趋势。相关技术中用掩码(MASK)标 记替换某些输入的图像/单词标记作为VL模型输入的训练数据,然后以 VL模型可恢复被替换的输入为目标对VL模型进行预训练。但由于在为 处理具体下游任务而对VL模型进行微调时不设计人工进行掩码的输入, 预训练过程与微调过程的差异较大,导致最终获得的VL模型的精度较 差。
[0004]如上所述,如何提高训练后的VL模型处 ...
【技术保护点】
【技术特征摘要】
1.一种视觉语言模型获得方法,其特征在于,包括:获取预训练图像和与所述预训练图像对应的文本描述;将所述文本描述进行遮盖处理获得掩码文本描述;获取初始视觉语言模型;将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型以获得预测文本描述;基于所述预训练图像、所述文本描述、所述掩码文本描述和所述预测文本描述通过所述初始视觉语言模型执行多个预训练任务以训练所述初始视觉语言模型,获得预训练后的视觉语言模型以处理图像文本任务。2.根据权利要求1所述的方法,其特征在于,所述将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型以获得预测文本描述包括:将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型,获得所述初始视觉语言模型输出的预测文本描述分布;从所述预测文本描述分布中采样获得所述预测文本描述。3.根据权利要求2所述的方法,其特征在于,所述初始视觉语言模型包括初始句子编码器、初始目标编码器、初始跨模态编码器和初始跨模态解码器;所述多个预训练任务包括掩码语言建模任务和掩码句子生成任务;所述预测文本描述分布包括第一编码器预测文本描述分布和第一解码器预测文本描述分布;所述预测文本描述包括编码器预测文本描述和解码器预测文本描述;所述将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型,获得所述初始视觉语言模型输出的预测文本描述分布包括:将所述预训练图像输入所述初始目标编码器获得第一目标编码器输出;将所述掩码文本描述输入所述初始句子编码器获得第一句子编码器输出;将所述第一目标编码器输出与所述第一句子编码器输出通过所述初始跨模态编码器执行所述掩码语言建模任务,获得所述第一编码器预测文本描述分布;将所述第一目标编码器输出与所述第一句子编码器输出通过所述初始跨模态解码器执行所述掩码句子生成任务,获得所述第一解码器预测文本描述分布;所述从所述预测文本描述分布中采样获得所述预测文本描述包括:从所述第一编码器预测文本描述分布中采样获得所述编码器预测文本描述;从所述第一解码器预测文本描述分布中采样获得所述解码器预测文本描述。4.根据权利要求3所述的方法,其特征在于,还包括:将所述预训练图像进行遮盖处理获得掩码预训练图像;所述多个预训练任务还包括掩码目标分类任务和图像句子匹配任务;所述基于所述预训练图像、所述文本描述、所述掩码文本描述和所述预测文本描述通过所述初始视觉语言模型执行多个预训练任务以训练所述初始视觉语言模型包括:以所述文本描述为标签基于所述第一编码器预测文本描述分布获得第一掩码语言建模损失;将所述文本描述输入所述初始句子编码器获得第二句子编码器输出;
将所述掩码预训练图像输入所述初始目标编码器获得第二目标编码器输出;将所述第二目标编码器输出与所述第二句子编码器输出通过所述初始跨模态编码器执行所述掩码目标分类任务,获得第一编码器预测目标分布;以所述预训练图像为标签基于所述第一编码器预测目标分布获得第一掩码目标分类损失;根据所述第二句子编码器输出和所述第一目标编码器输出执行所述图像句子匹配任务,获得图像句子匹配损失;以所述文本描述为标签基于所述第一解码器预测文本描述分布获得第一掩码句子生成损失;基于所述编码器预测文本描述、所述解码器预测文本描述和所述预训练图像通过所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器获得第二阶段任务损失;基于所述第一掩码语言建模损失、所述第一掩码目标分类损失、所述图像句子匹配损失、所述第一掩码句子生成损失和所述第二阶段任务损失获得预训练总损失函数;利用所述预训练总损失函数训练所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器。5.根据权利要求4所述的方法,其特征在于,所述基于所述编码器预测文本描述、所述解码器预测文本描述和所述预训练图像通过所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器获得第二阶段任务损失包括:将所述编码器预测文本描述输入所述初始句子编码器获得第三句子编码器输出;将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态编码器执行所述掩码语言建模任务,获得第二编码器预测文本描述分布;以所述文本描述为标签基于所述第二编码器预测文本描述分布获得第二掩码语言建模损失;将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态编码器执行所述掩码目标分类任务,获得第二编码器预测目标分布;以所述预训练图像为标签基于所述第二编码器预测目标分布获得第二掩码目标分类损失;将所述解码器预测文本描述输入所述初始句子编码器获得第四句子编码器输出;将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态解码器执行所述掩码句子生成任务,获得第二解码器预测文本描述分布;以所述文本描述为标签基于所述第二解码器预测文本描述分...
【专利技术属性】
技术研发人员:潘滢炜,李业豪,姚霆,梅涛,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。