生成VQA系统的训练数据的方法、装置、设备和介质制造方法及图纸

技术编号：20160506 阅读：39 留言：0更新日期：2019-01-19 00:13

本公开的实施例涉及生成视觉问答(VQA)系统的训练数据的方法、装置、设备和计算机可读介质。一种用于生成VQA系统的训练数据的方法包括获取VQA系统的第一组训练数据，第一组训练数据包括针对VQA系统中的图像的第一问题和与所述第一问题相对应的第一答案。该方法还包括获取与该图像有关的信息。此外，该方法还包括基于该信息来生成与第一答案相对应的第二问题，以得到针对VQA系统中的该图像的第二组训练数据，第二组训练数据包括第二问题和第一答案。本公开的实施例能够自动、低成本且高效地获得用于VQA系统的大量训练数据，从而提高模型训练的效率。此外，由于所获得的训练数据包括针对图像的推理性问题，因此能够提高VQA系统对图像的理解能力。

全部详细技术资料下载

【技术实现步骤摘要】
生成VQA系统的训练数据的方法、装置、设备和介质
本公开的实施例涉及计算机领域，并且更具体地涉及用于生成视觉问答(VQA)系统的训练数据的方法、装置、电子设备和计算机可读存储介质。
技术介绍
VQA系统涉及计算机视觉、自然语言处理和知识表示(KR)等多领域，目前已成为人工智能研究的热点。针对给定的图像，VQA系统能够回答围绕该图像的问题。也就是说，VQA系统接收图像和针对该图像的问题作为输入，并且生成针对该问题的自然语言的答案作为输出。当前VQA系统通常基于有监督的机器学习方法来实现，其中利用大量的训练图像和围绕训练图像的问题和答案来作为训练数据，使得所训练的模型能够根据图像内容对问题进行回答。这种训练方法的效果直接依赖于训练数据的量。目前，用于VQA系统的训练数据通常通过人工标注而获得。例如，针对给定训练图像，由标注人员对该图像提出问题并标注相应的答案。这种方式的成本高、速度慢并且训练数据量有限。此外，标注人员通常直接围绕图像中的目标对象进行提问，使得训练数据中的问题形式简单，不涉及针对目标对象的更复杂的描述和推理。因此，所训练的模型通常无法实现对图像内容的深层...

【技术保护点】
1.一种用于生成视觉问答系统的训练数据的方法，包括：获取所述视觉问答系统的第一组训练数据，所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案；获取与所述图像有关的信息；以及基于所述信息来生成与所述第一答案相对应的第二问题，以得到针对所述视觉问答系统中的所述图像的第二组训练数据，所述第二组训练数据包括所述第二问题和所述第一答案。

【技术特征摘要】
1.一种用于生成视觉问答系统的训练数据的方法，包括：获取所述视觉问答系统的第一组训练数据，所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案；获取与所述图像有关的信息；以及基于所述信息来生成与所述第一答案相对应的第二问题，以得到针对所述视觉问答系统中的所述图像的第二组训练数据，所述第二组训练数据包括所述第二问题和所述第一答案。2.根据权利要求1所述的方法，其中获取所述第一组训练数据包括：从预先标注的、针对所述视觉问答系统的已有训练数据集合中获取所述第一组训练数据。3.根据权利要求1所述的方法，其中获取所述信息包括：获取针对所述图像而预先标注的以下信息中的至少一项：标识所述图像中的一个或多个对象的第一信息；标识所述一个或多个对象之间的关系的第二信息；以及标识所述一个或多个对象的相应属性的第三信息。4.根据权利要求1所述的方法，其中生成所述第二问题包括：确定所述第一问题中用于描述所述图像中的对象的关键词；确定所述关键词的上位词；基于所述信息来生成用于限定所述上位词的一个或多个约束条件，以使得由所述一个或多个约束条件限定的所述上位词唯一地标识所述图像中的所述对象；以及基于所述上位词和所述一个或多个约束条件，将所述第一问题转换成所述第二问题。5.根据权利要求4所述的方法，其中确定所述上位词包括：通过查询语义词典来确定所述关键词的所述上位词。6.根据权利要求4所述的方法，其中所述信息标识所述对象与所述图像中的其他对象之间的关系，并且其中生成所述一个或多个约束条件包括：基于所述关系来生成所述一个或多个约束条件中的至少一个约束条件。7.根据权利要求4所述的方法，其中所述信息标识所述对象的属性，并且其中生成所述一个或多个约束条件包括：基于所述属性来生成所述一个或多个约束条件中的至少一个约束条件。8.根据权利要求4所述的方法，其中生成所述一个或多个约束条件包括：基于所述信息来生成所述一个或多个约束条件，以使得所述一个或多个约束条件的数目低于预定阈值。9.根据权利要求4所述的方法，其中将所述第一问题转换成所述第二问题包括：利用由所述一个或多个约束条件限定的所述上位词来替换所述第一问题中的所述关键词，以得到所述第二问题。10.一种用于生成视觉问答系统的训练数据的装置，包括：第一获取模块，被配置为获取所述视觉问答系统的第一组训练数据，所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案；第二获取模块，被配置为...

【专利技术属性】
技术研发人员：黄苹苹，乔敏，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人