Describes the embedding space for images with multiple text labels. In embedded space, two text tags and image regions are embedded. Embedded text labels describe semantic concepts that can be displayed in the content of the image. The embedding space is trained to semantically embed embedded text tags so that labels such as the sun and sunset are more closely related than the sun and the bird. The training embedding space also includes mapping a representative image with image content illustrating an semantic concept to the corresponding text tag. Each text label is different from the training and for the images associated with the conventional technology of the training image is embedded into the embedding space, the technique described here processing training images to generate multiple text labels and corresponding area. The region of the training image is then embedded into the training space by mapping the region to the corresponding text label.
【技术实现步骤摘要】
用于具有多个文本标签的图像的嵌入空间
本申请的各实施例涉及用于具有多个文本标签的图像的嵌入空间。
技术介绍
图像分类是计算机视觉中的基本问题。广而言之,图像分类尝试从图像提取语义信息,从而使得图像可以被标注以描述图像的内容。语义信息可以例如包括在图像中描绘的物体(和图像的其中描绘物体的位置)、在图像中描绘的景象(例如,图像是否描绘海滩或者日落)、与在图像中描绘的人脸或者脸部表情关联的情绪、图像审美(例如,良好组成、不良组成、遵守三分法(rule-of-thirds)等)、图像感情(例如,恐惧、愤怒等)等等。一些常规图像分类技术通过训练多类分类器将图像分类成代表语义信息的固定类集合。然而,由于在类之间的语义关系可能复杂(例如,分级、不相交等),所以难以定义对语义关系中的许多语义关系编码的分类器。为了解决这些缺点,已经开发了可视语义嵌入技术。常规可视语义嵌入技术利用来自无注解文本数据的语义信息来学习在文本标签之间的语义关系,并且将图像显式地映射到丰富语义嵌入空间中。然而,这些常规可视语义嵌入技术限于用单个文本标签对图像作注解。因而,用于自动地将文本标签与图像关联以描述它们的内容的常规技术对于一些图像标注任务是不够的。
技术实现思路
描述了用于具有多个文本标签的图像的嵌入空间。在嵌入空间中,可以嵌入文本标签和图像区域二者。在嵌入空间中嵌入的文本标签被配置为描述在图像内容中展示的语义概念,例如,图像是否包括海滩或者日落、图像审美(比如图像是否根据摄影“规则”备良好地组成)等等。嵌入空间被训练以将嵌入的文本标签语义地相关,从而使得如“太阳”和“日落”的文本标签比如“太阳 ...
【技术保护点】
一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及用发现的所述文本标签中的至少两个文本标签对所述查询图像作注解。
【技术特征摘要】
2016.01.15 US 14/997,0111.一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及用发现的所述文本标签中的至少两个文本标签对所述查询图像作注解。2.根据权利要求1所述的方法,其中发现的所述文本标签描述所述查询图像的所述图像内容。3.根据权利要求1所述的方法,其中处理所述训练图像以生成与相应的所述多个文本标签对应的图像区域的所述集合包括:确定用于图像区域的所述集合的候选图像区域;以及使用至少一种后处理技术来减少确定的所述候选图像区域的数目。4.根据权利要求3所述的方法,其中所述候选图像区域使用测地对象提议被确定。5.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有少于阈值大小的候选图像区域来实行大小标准。6.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有在可允许纵横比的预定义集合以外的纵横比的候选图像区域来实行纵横比标准。7.根据权利要求3所述的方法,其中所述至少一种后处理技术使用单标签嵌入模型来向所述训练图像的所述多个文本标签中的每个文本标签指派单个候选图像区域。8.根据权利要求1所述的方法,还包括处理所述查询图像以生成所述查询图像的所述图像区域,包括:确定所述查询图像的语义有意义图像区域的集合;以及使用至少一种后处理技术来丢弃所述语义有意义图像区域中的至少一个语义有意义图像区域,所述丢弃将语义有意义图像区域的所述集合减少成所述查询图像的所述图像区域。9.根据权利要求1所述的方法,其中发现与所述查询图像的所述图像区域对应的所述文本标签包括计算所述嵌入空间中的在所述查询图像的所述图像区域与所述查询图像的所述图像区域被映射到的所述文本标签之间的距离。10.根据权利要求9所述的方法,其中所述距离使用代表所述查询图像的相应的图像区域的矢量被计算,所述矢量利用卷积神经网络(CNN)从所述查询图像的所述图像区域被提取。11.根据权利要求9所述的方法,还包括基于所述距离来选择用来对所述查询图像作注解的发现的所述文本标签。12.根据权利要求1所述的方法,还包括呈现所述查询图像的与用来对所述查询图像作注解的发现的所述文本标签对应的所述图像...
【专利技术属性】
技术研发人员:金海琳,任洲,林哲,方晨,
申请(专利权)人:奥多比公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。