生成VQA系统的训练数据的方法、装置、设备和介质制造方法及图纸

技术编号:20160506 阅读:21 留言:0更新日期:2019-01-19 00:13
本公开的实施例涉及生成视觉问答(VQA)系统的训练数据的方法、装置、设备和计算机可读介质。一种用于生成VQA系统的训练数据的方法包括获取VQA系统的第一组训练数据,第一组训练数据包括针对VQA系统中的图像的第一问题和与所述第一问题相对应的第一答案。该方法还包括获取与该图像有关的信息。此外,该方法还包括基于该信息来生成与第一答案相对应的第二问题,以得到针对VQA系统中的该图像的第二组训练数据,第二组训练数据包括第二问题和第一答案。本公开的实施例能够自动、低成本且高效地获得用于VQA系统的大量训练数据,从而提高模型训练的效率。此外,由于所获得的训练数据包括针对图像的推理性问题,因此能够提高VQA系统对图像的理解能力。

【技术实现步骤摘要】
生成VQA系统的训练数据的方法、装置、设备和介质
本公开的实施例涉及计算机领域,并且更具体地涉及用于生成视觉问答(VQA)系统的训练数据的方法、装置、电子设备和计算机可读存储介质。
技术介绍
VQA系统涉及计算机视觉、自然语言处理和知识表示(KR)等多领域,目前已成为人工智能研究的热点。针对给定的图像,VQA系统能够回答围绕该图像的问题。也就是说,VQA系统接收图像和针对该图像的问题作为输入,并且生成针对该问题的自然语言的答案作为输出。当前VQA系统通常基于有监督的机器学习方法来实现,其中利用大量的训练图像和围绕训练图像的问题和答案来作为训练数据,使得所训练的模型能够根据图像内容对问题进行回答。这种训练方法的效果直接依赖于训练数据的量。目前,用于VQA系统的训练数据通常通过人工标注而获得。例如,针对给定训练图像,由标注人员对该图像提出问题并标注相应的答案。这种方式的成本高、速度慢并且训练数据量有限。此外,标注人员通常直接围绕图像中的目标对象进行提问,使得训练数据中的问题形式简单,不涉及针对目标对象的更复杂的描述和推理。因此,所训练的模型通常无法实现对图像内容的深层次理解,因而无法回答针对图像的复杂的推理性问题。
技术实现思路
根据本公开的示例实施例,提供了用于生成VQA系统的训练数据的方案。在本公开的第一方面中,提供了一种用于生成VQA系统的训练数据的方法。该方法包括获取VQA系统的第一组训练数据,第一组训练数据包括针对VQA系统中的图像的第一问题和与所述第一问题相对应的第一答案。该方法还包括获取与该图像有关的信息。此外,该方法还包括基于该信息来生成与第一答案相对应的第二问题,以得到针对VQA系统中的该图像的第二组训练数据,第二组训练数据包括第二问题和第一答案。在本公开的第二方面中,提供了一种用于生成VQA系统中的训练数据的装置。该装置包括第一获取模块,被配置为获取VQA系统的第一组训练数据,第一组训练数据包括针对VQA系统中的图像的第一问题和与所述第一问题相对应的第一答案。该装置还包括第二获取模块,被配置为获取与该图像有关的信息。此外,该装置还包括问题生成模块,被配置为基于该信息来生成与第一答案相对应的第二问题,以得到针对VQA系统中的该图像的第二组训练数据,第二组训练数据包括第二问题和第一答案。在本公开的第三方面中,提供了一种电子设备。该电子设备包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本公开的第一方面的方法。在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本公开的实施例可以在其中实施的示例环境的示意图;图2示出了根据本公开实施例的用于生成VQA系统的训练数据的方法的流程图;图3示出了根据本公开的实施例的示例训练数据的示意图;图4示出了根据本公开的实施例的用于生成推理性问题的方法的流程图;图5示出了根据本公开实施例的用于生成VQA系统的训练数据的装置的框图;以及图6示出了可以实施本公开实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如上所述,在传统方案中,用于VQA系统的训练数据通常通过人工标注而获得。例如,针对给定训练图像,由标注人员对该图像提出问题并标注相应的答案。这种方式的成本高、速度慢并且训练数据量有限。此外,标注人员通常直接围绕图像中的目标对象进行提问,使得训练数据中的问题形式简单,不涉及针对目标对象的更复杂的描述和推理。因此,所训练的模型通常无法实现对图像内容的深层次理解,因而无法回答针对图像的复杂的推理性问题。根据本公开的实施例,提出了一种用于生成VQA系统的训练数据的方案。该方案利用针对训练图像而预先标注的物体关系和物体属性等信息,基于原训练数据集中人工标注的具有简单问题的训练数据来自动生成具有推理性问题的训练数据,以此方式,该方案能够自动、低成本且高效地获得用于VQA系统的大量训练数据,从而提高模型训练的效率。此外,由于所获得的训练数据中包括针对图像的推理性问题,因此能够提高VQA系统对图像的理解能力。这使得经训练的VQA系统能够回答针对图像的更复杂的推理性问题。以下将参照附图来具体描述本公开的实施例。图1示出了本公开的实施例可以在其中实施的示例环境100的示意图。示例环境100示出了用于VQA系统的模型(也称为“VQA模型”)的训练过程。在本文中,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。应当理解,在图1中仅出于示例性的目的描述环境100的结构和功能,而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。如图1所示,示例环境100总体上可以包括训练数据扩展装置110和模型训练装置120。在一些实施例中,训练数据扩展装置110和模型训练装置120可以被实现在同一设备中。备选地,在另一些实施例中,训练数据扩展装置110和模型训练装置120可以被分别实现在不同设备中。在一些实施例中,训练数据扩展装置110可以获取预先标注的、针对VQA系统的训练数据集合101。例如,训练数据扩展装置110可以从现有的VisualGenome数据集获取训练数据集合101。训练数据集合101可以包括多组训练数据。例如,训练数据集合101中的第一组训练数据可以包括针对特定训练图像的问题(以下也称为“第一问题”)和该问题的答案(以下也称为“第一答案”)。在一些实施例中,训练数据扩展装置110可以基于训练数据集合101来生成另一训练数据集合102。例如,训练数据扩展装置110可以基于训练数据集合101中的第一组训练数据来生成与之对应的第二组训练数据。第二训练数据可以包括基于第一问题而生成的推理性问题(以下也称为“第二问题”)和该推理性问题的答案。例如,该推理性问题和第一问题可以具有相同的答案。在一些实施例中,如图1所示,训练数据集合101和训练数据集合102两者可以被提供给模型训练装置120,以用于训练VQA模型103。附加地或者备选地,在本文档来自技高网
...

【技术保护点】
1.一种用于生成视觉问答系统的训练数据的方法,包括:获取所述视觉问答系统的第一组训练数据,所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案;获取与所述图像有关的信息;以及基于所述信息来生成与所述第一答案相对应的第二问题,以得到针对所述视觉问答系统中的所述图像的第二组训练数据,所述第二组训练数据包括所述第二问题和所述第一答案。

【技术特征摘要】
1.一种用于生成视觉问答系统的训练数据的方法,包括:获取所述视觉问答系统的第一组训练数据,所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案;获取与所述图像有关的信息;以及基于所述信息来生成与所述第一答案相对应的第二问题,以得到针对所述视觉问答系统中的所述图像的第二组训练数据,所述第二组训练数据包括所述第二问题和所述第一答案。2.根据权利要求1所述的方法,其中获取所述第一组训练数据包括:从预先标注的、针对所述视觉问答系统的已有训练数据集合中获取所述第一组训练数据。3.根据权利要求1所述的方法,其中获取所述信息包括:获取针对所述图像而预先标注的以下信息中的至少一项:标识所述图像中的一个或多个对象的第一信息;标识所述一个或多个对象之间的关系的第二信息;以及标识所述一个或多个对象的相应属性的第三信息。4.根据权利要求1所述的方法,其中生成所述第二问题包括:确定所述第一问题中用于描述所述图像中的对象的关键词;确定所述关键词的上位词;基于所述信息来生成用于限定所述上位词的一个或多个约束条件,以使得由所述一个或多个约束条件限定的所述上位词唯一地标识所述图像中的所述对象;以及基于所述上位词和所述一个或多个约束条件,将所述第一问题转换成所述第二问题。5.根据权利要求4所述的方法,其中确定所述上位词包括:通过查询语义词典来确定所述关键词的所述上位词。6.根据权利要求4所述的方法,其中所述信息标识所述对象与所述图像中的其他对象之间的关系,并且其中生成所述一个或多个约束条件包括:基于所述关系来生成所述一个或多个约束条件中的至少一个约束条件。7.根据权利要求4所述的方法,其中所述信息标识所述对象的属性,并且其中生成所述一个或多个约束条件包括:基于所述属性来生成所述一个或多个约束条件中的至少一个约束条件。8.根据权利要求4所述的方法,其中生成所述一个或多个约束条件包括:基于所述信息来生成所述一个或多个约束条件,以使得所述一个或多个约束条件的数目低于预定阈值。9.根据权利要求4所述的方法,其中将所述第一问题转换成所述第二问题包括:利用由所述一个或多个约束条件限定的所述上位词来替换所述第一问题中的所述关键词,以得到所述第二问题。10.一种用于生成视觉问答系统的训练数据的装置,包括:第一获取模块,被配置为获取所述视觉问答系统的第一组训练数据,所述第一组训练数据包括针对所述视觉问答系统中的图像的第一问题和与所述第一问题相对应的第一答案;第二获取模块,被配置为...

【专利技术属性】
技术研发人员:黄苹苹乔敏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1