当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于具有多个文本标签的图像的嵌入空间制造技术

技术编号:15878909 阅读:52 留言:0更新日期:2017-07-25 16:54
描述用于具有多个文本标签的图像的嵌入空间。在嵌入空间中,嵌入了文本标签和图像区域二者。嵌入的文本标签描述可以在图像内容中被展示的语义概念。嵌入空间被训练以将嵌入的文本标签语义地相关,从而使得如“太阳”和“日落”之类的标签比“太阳”和“鸟”被更接近地相关。训练嵌入空间也包括将具有举例说明语义概念的图像内容的代表性图像映射到相应的文本标签。不同于对于与训练图像关联的每个文本标签将整个训练图像嵌入到嵌入空间中的常规技术,这里描述的技术处理训练图像以生成与多个文本标签对应的区域。训练图像的区域然后以将该区域映射到对应的文本标签的方式被嵌入到训练空间中。

The embedding space for an image with multiple text labels

Describes the embedding space for images with multiple text labels. In embedded space, two text tags and image regions are embedded. Embedded text labels describe semantic concepts that can be displayed in the content of the image. The embedding space is trained to semantically embed embedded text tags so that labels such as the sun and sunset are more closely related than the sun and the bird. The training embedding space also includes mapping a representative image with image content illustrating an semantic concept to the corresponding text tag. Each text label is different from the training and for the images associated with the conventional technology of the training image is embedded into the embedding space, the technique described here processing training images to generate multiple text labels and corresponding area. The region of the training image is then embedded into the training space by mapping the region to the corresponding text label.

【技术实现步骤摘要】
用于具有多个文本标签的图像的嵌入空间
本申请的各实施例涉及用于具有多个文本标签的图像的嵌入空间。
技术介绍
图像分类是计算机视觉中的基本问题。广而言之,图像分类尝试从图像提取语义信息,从而使得图像可以被标注以描述图像的内容。语义信息可以例如包括在图像中描绘的物体(和图像的其中描绘物体的位置)、在图像中描绘的景象(例如,图像是否描绘海滩或者日落)、与在图像中描绘的人脸或者脸部表情关联的情绪、图像审美(例如,良好组成、不良组成、遵守三分法(rule-of-thirds)等)、图像感情(例如,恐惧、愤怒等)等等。一些常规图像分类技术通过训练多类分类器将图像分类成代表语义信息的固定类集合。然而,由于在类之间的语义关系可能复杂(例如,分级、不相交等),所以难以定义对语义关系中的许多语义关系编码的分类器。为了解决这些缺点,已经开发了可视语义嵌入技术。常规可视语义嵌入技术利用来自无注解文本数据的语义信息来学习在文本标签之间的语义关系,并且将图像显式地映射到丰富语义嵌入空间中。然而,这些常规可视语义嵌入技术限于用单个文本标签对图像作注解。因而,用于自动地将文本标签与图像关联以描述它们的内容的常规技术对于一些图像标注任务是不够的。
技术实现思路
描述了用于具有多个文本标签的图像的嵌入空间。在嵌入空间中,可以嵌入文本标签和图像区域二者。在嵌入空间中嵌入的文本标签被配置为描述在图像内容中展示的语义概念,例如,图像是否包括海滩或者日落、图像审美(比如图像是否根据摄影“规则”备良好地组成)等等。嵌入空间被训练以将嵌入的文本标签语义地相关,从而使得如“太阳”和“日落”的文本标签比如“太阳”和“鸟”的文本标签被更接近地相关。训练嵌入空间也包括将具有举例说明语义概念的图像内容的代表性图像映射到相应的文本标签。不同于常规可视语义嵌入技术,这里描述的技术使用各自与多个文本标签关联的训练图像来训练嵌入空间。并非对于与训练图像关联的多个文本标签中的每个文本标签将整个训练图像嵌入到嵌入空间中,这里描述的技术处理训练图像以生成与多个文本标签对应的区域。训练图像的区域然后以将区域映射到对应的文本标签的方式被嵌入到嵌入空间中。在训练图像的区域与对应的文本标签之间的映射被学习作为映射函数。一旦嵌入空间被训练,就可以通过应用映射函数来使用嵌入空间以用多个文本标签对图像作注解以描述图像的内容。为了对图像作注解,为图像提议了多个语义有意义区域。然后使用在训练期间学习的映射函数对于多个区域中的每个区域从嵌入空间发现至少一个文本标签。学习的映射函数取得待注解的图像的图像区域作为输入,并且将图像区域中的每个图像区域映射到嵌入空间中的文本标签。对于图像的多个区域而发现的文本标签然后可以用来对图像作注解。这一
技术实现思路
以简化形式介绍了以下在具体实施方式中被进一步描述的概念的选集。这样,这一
技术实现思路
未旨在于标识要求保护的主题内容的实质特征、也未旨在于在确定要求保护的主题内容的范围时用作辅助。附图说明参照附图描述具体实施方式。在各图中,标号的最左数字标识该标号在其中首次出现的图。在描述和各图中在不同实例中使用相同标号可以指示相似或者相同项目。在各图中代表的实体可以指示一个或者多个实体,并且因此可以在讨论中可互换地指代实体的单数或者复数形式。图1是示例实现方式中的数字环境的图示,该数字环境可操作用于运用这里描述的技术。图2是描绘具有多个文本标签的图像和图像的与多个文本标签对应的区域的指示的示例实现方式。图3是被配置为嵌入文本标签和被映射到文本标签的图像区域二者的嵌入空间的示例实现方式。图4是嵌入空间的另一示例实现方式,其中由文本标签描述的语义概念被建模为嵌入空间中的分布。图5是描绘示例实现方式中的过程的流程图,在该过程中,与多个文本标签关联的训练图像的区域被映射到嵌入空间中的对应的文本标签以训练嵌入空间,并且在该过程中,使用嵌入空间对于查询图像发现文本标签。图6是描绘另一示例实现方式中的过程的流程图,在该过程中,训练的嵌入空间被用来将多个文本标签与待注解的图像的相应的区域关联。图7是描绘另一示例实现方式中的过程的流程图,在该过程中,嵌入空间被生成以将由文本标签描述的语义概念建模为嵌入空间中的分布。图8图示了包括示例设备的各种部件的示例系统,该设备可以被运用于用于这里描述的用于具有多个文本标签的图像的嵌入空间的技术的一个或者多个实现方式。具体实施方式概述常规可视语义嵌入技术利用来自无注解文本数据的语义信息以学习在文本标签之间的语义关系并且将图像显式地映射到丰富语义嵌入空间中。虽然这些常规可视语义嵌入技术用于对具有单个标签的图像的图像任务,但是这样的常规技术尚未被扩展用于对具有多个文本标签的图像使用。这些缺点使常规可视语义技术不适合用于多种应用,因为图像经常与多个文本标签关联。此外,将单标签可视语义模型扩展成多标签可视语义模型是不平凡任务。常规可视语义技术的实现方式部分基于图像标签与图像的全部对应的假设。然而,这对于与多个文本标签关联的图像完全不是这种情况。实际上,多标签图像的不同文本标签可以对应于图像的不同区域。用于具有多个文本标签的图像的嵌入空间被描述。如这里所用,“嵌入空间”是指能够代表已经在模型中嵌入的文本标签和图像的计算机生成的模型。嵌入空间也能够代表在嵌入的文本标签与图像之间的关系,比如在不同文本标签之间的语义关系和在图像与文本标签之间的对应性。使用这里描述的技术,各自与多个文本标签关联的训练图像被用来训练嵌入空间。一旦嵌入空间被训练,嵌入空间就可以用来对图像作注解。具体而言,嵌入空间可以用来发现用于图像的多个文本标签。被发现的多个文本标签然后可以与图像关联(例如,通过与图像包括作为元数据或者以其它方式)以对图像作注解。再次关于这里使用的嵌入空间,嵌入空间被配代表联合图像-文本嵌入空间,该嵌入空间代表已经在嵌入空间中嵌入的文本标签和图像(例如,图像的区域)二者。具体而言,被嵌入的文本标签来自为了训练嵌入空间而被选择的文本词汇表,并且可以用来描述在图像中描绘的语义概念。文本标签也在嵌入空间中被语义地相关作为训练嵌入空间的部分。在嵌入空间中将文本标签语义地相关涉及对在文本标签之间的关系编码,这些关系指示由文本标签描述的语义概念如何接近地被相关。举例而言,文本词汇表的文本标签被语义地相关,从而使得如“太阳”和“日落”的文本标签比“太阳”和“鸟”的文本标签被更接近地相关。除了将文本标签语义地相关之外,还训练嵌入空间,从而使得举例说明由文本词汇表的文本标签描述的语义概念的图像区域被嵌入在嵌入空间中并且被映射到文本标签。从已经出于训练嵌入空间的目的而选择的并且各自与多个文本标签关联的训练图像提取被嵌入作为训练嵌入空间的部分的图像区域。在训练中,图像区域被映射到相应的文本标签,例如,描绘太阳的训练图像的区域可以被映射到嵌入空间中的文本标签“太阳”,而描绘鸟的训练图像的不同区域可以被映射到嵌入空间中的文本标签“鸟”。如以上指出的那样,用来训练嵌入空间的训练图像中的每个训练图像在被用来训练嵌入空间之前与多个文本标签关联,例如,文本标签与训练图像关联作为元数据。作为训练嵌入空间的部分,每个训练图像被处理以生成训练图像的与关联于训练图像的多个文本标签对应的区域的集合。为了生成区本文档来自技高网
...
用于具有多个文本标签的图像的嵌入空间

【技术保护点】
一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及用发现的所述文本标签中的至少两个文本标签对所述查询图像作注解。

【技术特征摘要】
2016.01.15 US 14/997,0111.一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及用发现的所述文本标签中的至少两个文本标签对所述查询图像作注解。2.根据权利要求1所述的方法,其中发现的所述文本标签描述所述查询图像的所述图像内容。3.根据权利要求1所述的方法,其中处理所述训练图像以生成与相应的所述多个文本标签对应的图像区域的所述集合包括:确定用于图像区域的所述集合的候选图像区域;以及使用至少一种后处理技术来减少确定的所述候选图像区域的数目。4.根据权利要求3所述的方法,其中所述候选图像区域使用测地对象提议被确定。5.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有少于阈值大小的候选图像区域来实行大小标准。6.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有在可允许纵横比的预定义集合以外的纵横比的候选图像区域来实行纵横比标准。7.根据权利要求3所述的方法,其中所述至少一种后处理技术使用单标签嵌入模型来向所述训练图像的所述多个文本标签中的每个文本标签指派单个候选图像区域。8.根据权利要求1所述的方法,还包括处理所述查询图像以生成所述查询图像的所述图像区域,包括:确定所述查询图像的语义有意义图像区域的集合;以及使用至少一种后处理技术来丢弃所述语义有意义图像区域中的至少一个语义有意义图像区域,所述丢弃将语义有意义图像区域的所述集合减少成所述查询图像的所述图像区域。9.根据权利要求1所述的方法,其中发现与所述查询图像的所述图像区域对应的所述文本标签包括计算所述嵌入空间中的在所述查询图像的所述图像区域与所述查询图像的所述图像区域被映射到的所述文本标签之间的距离。10.根据权利要求9所述的方法,其中所述距离使用代表所述查询图像的相应的图像区域的矢量被计算,所述矢量利用卷积神经网络(CNN)从所述查询图像的所述图像区域被提取。11.根据权利要求9所述的方法,还包括基于所述距离来选择用来对所述查询图像作注解的发现的所述文本标签。12.根据权利要求1所述的方法,还包括呈现所述查询图像的与用来对所述查询图像作注解的发现的所述文本标签对应的所述图像...

【专利技术属性】
技术研发人员:金海琳任洲林哲方晨
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1