当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于具有多个文本标签的图像的嵌入空间制造技术

技术编号:15878909 阅读:68 留言:0更新日期:2017-07-25 16:54
描述用于具有多个文本标签的图像的嵌入空间。在嵌入空间中,嵌入了文本标签和图像区域二者。嵌入的文本标签描述可以在图像内容中被展示的语义概念。嵌入空间被训练以将嵌入的文本标签语义地相关,从而使得如“太阳”和“日落”之类的标签比“太阳”和“鸟”被更接近地相关。训练嵌入空间也包括将具有举例说明语义概念的图像内容的代表性图像映射到相应的文本标签。不同于对于与训练图像关联的每个文本标签将整个训练图像嵌入到嵌入空间中的常规技术,这里描述的技术处理训练图像以生成与多个文本标签对应的区域。训练图像的区域然后以将该区域映射到对应的文本标签的方式被嵌入到训练空间中。

The embedding space for an image with multiple text labels

Describes the embedding space for images with multiple text labels. In embedded space, two text tags and image regions are embedded. Embedded text labels describe semantic concepts that can be displayed in the content of the image. The embedding space is trained to semantically embed embedded text tags so that labels such as the sun and sunset are more closely related than the sun and the bird. The training embedding space also includes mapping a representative image with image content illustrating an semantic concept to the corresponding text tag. Each text label is different from the training and for the images associated with the conventional technology of the training image is embedded into the embedding space, the technique described here processing training images to generate multiple text labels and corresponding area. The region of the training image is then embedded into the training space by mapping the region to the corresponding text label.

【技术实现步骤摘要】
用于具有多个文本标签的图像的嵌入空间
本申请的各实施例涉及用于具有多个文本标签的图像的嵌入空间。
技术介绍
图像分类是计算机视觉中的基本问题。广而言之,图像分类尝试从图像提取语义信息,从而使得图像可以被标注以描述图像的内容。语义信息可以例如包括在图像中描绘的物体(和图像的其中描绘物体的位置)、在图像中描绘的景象(例如,图像是否描绘海滩或者日落)、与在图像中描绘的人脸或者脸部表情关联的情绪、图像审美(例如,良好组成、不良组成、遵守三分法(rule-of-thirds)等)、图像感情(例如,恐惧、愤怒等)等等。一些常规图像分类技术通过训练多类分类器将图像分类成代表语义信息的固定类集合。然而,由于在类之间的语义关系可能复杂(例如,分级、不相交等),所以难以定义对语义关系中的许多语义关系编码的分类器。为了解决这些缺点,已经开发了可视语义嵌入技术。常规可视语义嵌入技术利用来自无注解文本数据的语义信息来学习在文本标签之间的语义关系,并且将图像显式地映射到丰富语义嵌入空间中。然而,这些常规可视语义嵌入技术限于用单个文本标签对图像作注解。因而,用于自动地将文本标签与图像关联以描述它们的内容的常规技术本文档来自技高网...
用于具有多个文本标签的图像的嵌入空间

【技术保护点】
一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及...

【技术特征摘要】
2016.01.15 US 14/997,0111.一种由计算设备实施以用多个文本标签对个体图像作注解以描述所述图像的内容的方法,所述方法包括:处理具有多个文本标签的训练图像以生成与相应的所述多个文本标签对应的图像区域的集合;部分基于与所述训练图像的所述图像区域对应的所述多个文本标签在嵌入空间中被嵌入的位置,在被配置为嵌入文本标签和被映射到所述文本标签的图像区域二者的所述嵌入空间内嵌入图像区域的所述集合;学习将图像区域映射到在所述嵌入空间中嵌入的所述文本标签的映射函数,所述学习部分基于在所述嵌入空间内所述嵌入图像区域的所述集合;通过使用学习的所述映射函数将查询图像的图像区域映射到所述嵌入空间来发现与所述查询图像的所述图像区域对应的文本标签;以及用发现的所述文本标签中的至少两个文本标签对所述查询图像作注解。2.根据权利要求1所述的方法,其中发现的所述文本标签描述所述查询图像的所述图像内容。3.根据权利要求1所述的方法,其中处理所述训练图像以生成与相应的所述多个文本标签对应的图像区域的所述集合包括:确定用于图像区域的所述集合的候选图像区域;以及使用至少一种后处理技术来减少确定的所述候选图像区域的数目。4.根据权利要求3所述的方法,其中所述候选图像区域使用测地对象提议被确定。5.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有少于阈值大小的候选图像区域来实行大小标准。6.根据权利要求3所述的方法,其中所述至少一种后处理技术包括通过丢弃具有在可允许纵横比的预定义集合以外的纵横比的候选图像区域来实行纵横比标准。7.根据权利要求3所述的方法,其中所述至少一种后处理技术使用单标签嵌入模型来向所述训练图像的所述多个文本标签中的每个文本标签指派单个候选图像区域。8.根据权利要求1所述的方法,还包括处理所述查询图像以生成所述查询图像的所述图像区域,包括:确定所述查询图像的语义有意义图像区域的集合;以及使用至少一种后处理技术来丢弃所述语义有意义图像区域中的至少一个语义有意义图像区域,所述丢弃将语义有意义图像区域的所述集合减少成所述查询图像的所述图像区域。9.根据权利要求1所述的方法,其中发现与所述查询图像的所述图像区域对应的所述文本标签包括计算所述嵌入空间中的在所述查询图像的所述图像区域与所述查询图像的所述图像区域被映射到的所述文本标签之间的距离。10.根据权利要求9所述的方法,其中所述距离使用代表所述查询图像的相应的图像区域的矢量被计算,所述矢量利用卷积神经网络(CNN)从所述查询图像的所述图像区域被提取。11.根据权利要求9所述的方法,还包括基于所述距离来选择用来对所述查询图像作注解的发现的所述文本标签。12.根据权利要求1所述的方法,还包括呈现所述查询图像的与用来对所述查询图像作注解的发现的所述文本标签对应的所述图像...

【专利技术属性】
技术研发人员:金海琳任洲林哲方晨
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1