【技术实现步骤摘要】
视觉问答的训练方法、系统及计算机可读存储介质
[0001]本申请涉及人工智能
,特别涉及一种视觉问答的训练方法、系统及计算机可读存储介质。
技术介绍
[0002]视觉问答(Visual Question Answering)是一种基于图片内容对给出问题做出回答的技术。这一技术的提出旨在提供更丰富的人机交互方式,从技术上来说也是人工智能从感知智能向认知智能转变的重要支持部分。一个成熟的视觉问答系统能够在很多场景下协助未来的人工智能:手机、电脑、平板等智能设备的智能助手可以被赋能视觉和自然语言处理的能力,更好地处理人类有关图片的问题;视障人群可以通过询问语音助手与周围环境相关的问题帮助自己导航,规避风险,如询问“现在是红灯还是绿灯?”;其他的跨模态任务,如图文检索和图片描述所需要的跨模态推理能力也需要视觉问答的辅助。
[0003]一种常用的方式是使用图文对预训练的模型参数初始化视觉问答模型,并在问答数据上进行参数的微调。一方面,模型在预训练中可以学习到通用的图片与文本知识与特征表达,这有助于模型的微调;另一方面,现 ...
【技术保护点】
【技术特征摘要】
1.一种视觉问答的训练方法,其特征在于,包括:获取预训练样本以及微调样本;所述预训练样本包括若干第一图片以及与所述第一图片一一对应的若干图片文本描述;所述微调样本包括若干第二图片以及与所述第二图片一一对应的若干问题文本描述;对所述第一图片对应的图片文本描述进行预处理,得到所述第一图片对应的训练文本描述;通过视觉问答模型的图片编码器对所述第一图片进行特征提取,得到第一图片特征向量,并通过所述视觉问答模型的文本编码器对所述第一图片对应的所述训练文本描述进行特征提取,得到文本特征向量;将所述文本特征向量、对应的所述第一图片特征向量通过所述视觉问答模型的图文融合网络进行融合处理,得到第一多模态特征向量;将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理,得到训练答案信息;根据所述训练答案信息进行损失计算,并更新所述视觉问答模型的参数信息;将所述微调样本输入到已进行预训练的视觉问答模型中重复依次进行特征提取、融合处理、文本解码、损失计算以及更新所述视觉问答模型的参数信息,得到目标视觉问答模型。2.根据权利要求1所述的视觉问答的训练方法,其特征在于,所述对所述第一图片对应的图片文本描述进行预处理,得到所述第一图片对应的训练文本描述,包括:在所述图片文本描述中提取目标答案信息,并采用第一标记替换所述目标答案信息的位置作为所述第一图片对应的训练文本描述。3.根据权利要求2所述的视觉问答的训练方法,其特征在于,所述将所述第一多模态特征向量输入至所述视觉问答模型的答案解码器进行文本解码处理,得到训练答案信息,包括:通过所述视觉问答模型的答案解码器对所述第一多模态特征向量进行序列化生成训练答案信息。4.根据权利要求1所述的视觉问答的训练方法,其特征在于,所述对所述第一图片对应的图片文本描述进行预处理,得到所述第一图片对应的训练文本描述,包括:在所述图片...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。