当前位置: 首页 > 专利查询>奥多比公司专利>正文

将嵌入空间中的语义概念建模为分布制造技术

技术编号:15878908 阅读:86 留言:0更新日期:2017-07-25 16:54
描述了将嵌入空间中的语义概念建模为分布。在嵌入空间中,图像和文本标签二者被代表。文本标签描述在图像内容中展示的语义概念。在嵌入空间中,由文本标签描述的语义概念被建模为分布。通过使用分布,每个语义概念被建模为可以与对其它语义概念建模的其它聚类重叠的连续聚类。例如,用于语义概念“苹果”的分布可以与用于语义概念“水果”和“树木”的分布重叠,因为苹果可以是指水果和树木二者。与使用分布形成对照,常规地配置的可视语义嵌入空间将语义概念代表为单个点。因此,不同于这些常规地配置的嵌入空间,这里描述的嵌入空间被生成以将语义概念建模为分布,比如高斯分布、高斯混合等。

The semantic concepts in the embedded space are modeled as distributions

The semantic concepts in the embedded space are modeled as distributions. In embedded space, images and text labels are represented by two. The text labels describe the semantic concepts displayed in the content of the image. In embedded spaces, semantic concepts described by text labels are modeled as distributions. By using the distribution, each semantic concept is modeled as a continuous clustering that overlaps other clusters modeled on other semantic concepts. For example, the distribution of apples used in semantic concepts can overlap with the distribution of semantic concepts \fruit\ and \trees\, because apples can be the two of fruits and trees. In contrast to the usage distribution, the visual semantic embedding space, which is conventionally configured, represents semantic concepts as a single point. Thus, unlike these conventionally configured embedded spaces, the embedding space described here is generated to model semantic concepts such as Gauss distribution and Gauss mixing.

【技术实现步骤摘要】
将嵌入空间中的语义概念建模为分布
本申请的各实施例涉及将嵌入空间中的语义概念建模为分布。
技术介绍
图像分类是计算机视觉中的基本问题。广而言之,图像分类尝试从图像提取语义信息,从而使得图像可以被标注以描述图像的内容。语义信息可以例如包括在图像中描绘的物体(和图像的其中描绘物体的位置)、在图像中描绘的景象(例如,图像是否描绘海滩或者日落)、与在图像中描绘的人脸或者脸部表情关联的情绪、图像审美(例如,良好组成、不良组成、遵守三分法(rule-of-thirds)等)、图像感情(例如,恐惧、愤怒等)等等。一些常规图像分类技术利用可视语义嵌入空间,在这些可视语义嵌入空间中嵌入了描述语义概念的文本标签和举例说明语义概念的图像二者。根据常规技术创建的可视语义嵌入空间通常地代表由文本标签描述为嵌入空间中的单个点的语义概念。然而,由于在语义概念与单个语义概念可以传达的含义的多样性之间的复杂关系,将语义概念代表为嵌入空间中的单个点可能没有反映在现实世界中理解它们的方式。常规地配置的可视语义嵌入空间因此可能不准确地代表语义概念。由于在用来标注图像时这些不准确性可能遗留下来,所以这样的嵌入空间可能不适合用于用文本标签准确地标注图像以描述它们的内容。
技术实现思路
描述了将嵌入空间中的语义概念建模为分布。在嵌入空间中,图像和文本标签二者被代表。文本标签描述在图像内容中展示的语义概念。在嵌入空间中,由文本标签描述的语义概念被建模为分布。通过使用分布,每个语义概念在嵌入空间中被建模为可能与对其它语义概念建模的其它聚类重叠的连续聚类。例如,用于语义概念“苹果”的分布可以与用于语义概念“水果”和“树木”的分布重叠,因为苹果可以是指水果和树木二者。与使用分布对照,常规地配置的可视语义嵌入空间将语义概念代表为单个点。因此,不同于这些常规地配置的嵌入空间,这里描述的嵌入空间被生成以将语义概念建模为分布(例如,高斯分布、高斯混合等)、从而产生语义概念的更准确代表、用于用更准确地描述图像的描绘的内容对图像作注解的更大能力等等。一旦嵌入空间被训练,嵌入空间就可以用来发现用于描述图像的内容的文本标签。为了使用训练的嵌入空间以发现描述图像的内容的文本标签,可以确定图像的多个语义有意义区域,并且可以在用于区域中的每个区域的训练的嵌入空间中发现对应的文本标签。为图像的多个区域发现的文本标签然后可以与图像关联,例如,用来对图像作注解。这一
技术实现思路
以简化形式介绍了以下在具体实施方式中被进一步描述的概念的选集。这样,这一
技术实现思路
未旨在于标识要求保护的主题内容的实质特征、也未旨在于在确定要求保护的主题内容的范围时用作辅助。附图说明参照附图描述具体实施方式。在各图中,标号的最左数字标识该标号在其中首次出现的图。在描述和各图中在不同实例中使用相同标号可以指示相似或者相同项目。在各图中代表的实体可以指示一个或者多个实体,并且因此可以在讨论中可互换地指代实体的单数或者复数形式。图1是示例实现方式中的数字环境的图示,该数字环境可操作用于运用这里描述的技术。图2是描绘具有多个文本标签的图像和图像的与多个文本标签对应的区域的指示的示例实现方式。图3是被配置为嵌入文本标签和被映射到文本标签的图像区域二者的嵌入空间的示例实现方式。图4是嵌入空间的另一示例实现方式,其中由文本标签描述的语义概念被建模为嵌入空间中的分布。图5是描绘示例实现方式中的过程的流程图,在该过程中,与多个文本标签关联的训练图像的区域被映射到嵌入空间中的对应的文本标签,并且在该过程中,标签发现技术被应用于查询图像以发现嵌入空间中的与查询图像的区域对应的文本标签。图6是描绘另一示例实现方式中的过程的流程图,在该过程中,训练的嵌入空间被用来将多个文本标签与待注解的图像的相应的区域关联。图7是描绘另一示例实现方式中的过程的流程图,在该过程中,嵌入空间被生成以将由文本标签描述的语义概念建模为嵌入空间中的分布。图8图示了包括示例设备的各种部件的示例系统,该设备可以被运用以用于这里描述的用于将嵌入空间中的语义概念建模为分布的技术的一个或者多个实现方式。具体实施方式概述常规可视语义嵌入技术利用来自无注解文本数据的语义信息以学习在文本标签之间的语义关系并且将图像显式地映射到丰富语义嵌入空间中。然而,常规地配置的可视语义嵌入空间通常地将语义概念代表为嵌入空间中的单个点。然而,由于在语义概念与单个语义概念可以传达的含义的多样性之间的复杂关系,将语义概念代表为单个点可能没有反映在现实世界中理解它们的方式。因而,常规地配置的可视语义嵌入空间可能不准确地代表语义概念。另外,在这样的嵌入空间用来标注图像时这些不准确性可能遗留下来。这样,常规地配置的可视语义嵌入空间可能不适合用于用文本标签准确地标注图像以描述它们的内容。描述了将嵌入空间中的语义概念建模为分布。具体而言,生成其中图像和文本标签二者被代表的嵌入空间。与常规技术对照,生成嵌入空间涉及将由文本词汇表的文本标签描述的语义概念建模为分布,比如高斯分布、高斯混合等。考虑由字词“树木”、“苹果”和“水果”描述的语义概念。在语义概念之间存在至少一些重叠,因为苹果是水果并且也是树木的类型。将这样的语义概念代表为分布而不是单个点允许语义概念重叠,从而使得用于苹果的语义概念的分布与用于树木和水果二者的语义概念的分布重叠。嵌入空间被配置为其中文本标签和代表性图像(例如,图像的区域)二者被代表的联合图像-文本嵌入空间。在嵌入空间中,分布对可以在图像中展示的并且由文本词汇表的文本标签描述的语义概念建模。在将语义概念建模为分布时,也考虑在这些文本标签之间的语义关系。换而言之,对语义概念建模,从而使得代表语义概念如“太阳”和“日落”的分布比代表语义概念“太阳”和“鸟”的分布被更接近地相关。嵌入空间一旦如这里描述的那样被训练就可以用来用文本标签对图像作注解。考虑其中尚未与文本标签关联的图像被接收作为输入以用于作注解的示例。标签发现技术可以被应用于输入图像以从训练的嵌入空间发现文本标签以描述输入图像的内容。为了这样做,例如使用测地对象提议来提议输入图像的语义有意义区域。术语“测地对象提议”是指其中根据为放置在图像中的种子计算的测地距离变换中的临界水平集合标识给定的图像中的候选对象的集合的技术。为了放置种子,测地对象提议使用被优化为发现对象的训练的分类器。一旦被提议,然后例如通过比较指示嵌入的图像区域和输入图像的提议的区域的可视特性的矢量来比较为输入图像提议的语义有意义区域与相对于被建模为分布的语义概念在嵌入空间中嵌入的图像区域。基于比较,可以将图像的提议的区域映射到可视地相似的嵌入的图像区域,并且因此也映射到文本标签,这些文本标签描述相似的嵌入的图像区域对应于的语义概念。然后可以用在这一过程中发现的文本标签对输入图像作注解。这里描述的可视语义嵌入空间(例如,这些可视语义嵌入空间将由文本标签描述的语义概念代表为分布)比将语义概念代表为单个点的常规地配置的可视语义嵌入空间更准确地代表语义概念和在它们之间的关系。另外,这里描述的技术实现使用具有多个文本标签的训练图像来训练联合图像-文本嵌入空间,并且实现使用联合图像-文本嵌入空间用多个文本标签对图像作注解。这里描述的技术也实现对于与图像关联的多个文本标签中的本文档来自技高网
...
将嵌入空间中的语义概念建模为分布

【技术保护点】
一种由计算设备实施以用确定的文本标签对图像作注解以描述所述图像的内容的方法,所述方法包括:生成代表图像和文本词汇表的文本标签二者的嵌入空间,所述生成包括:计算所述嵌入空间中的用于代表语义概念的分布,所述分布被计算用于的所述语义概念由所述文本词汇表的相应的文本标签描述并且能够在图像内容中被描绘,以及将代表性图像映射到所述嵌入空间的所述分布,其中由所述代表性图像描绘的所述图像内容举例说明所述分布的对应的语义概念,使用所述嵌入空间来确定所述文本标签中的至少一个文本标签,所述至少一个文本标签描述输入图像的所述图像内容中的至少一个描绘的语义概念;以及通过将确定的所述文本标签与所述输入图像关联来对所述输入图像作注解。

【技术特征摘要】
2016.01.15 US 14/996,9591.一种由计算设备实施以用确定的文本标签对图像作注解以描述所述图像的内容的方法,所述方法包括:生成代表图像和文本词汇表的文本标签二者的嵌入空间,所述生成包括:计算所述嵌入空间中的用于代表语义概念的分布,所述分布被计算用于的所述语义概念由所述文本词汇表的相应的文本标签描述并且能够在图像内容中被描绘,以及将代表性图像映射到所述嵌入空间的所述分布,其中由所述代表性图像描绘的所述图像内容举例说明所述分布的对应的语义概念,使用所述嵌入空间来确定所述文本标签中的至少一个文本标签,所述至少一个文本标签描述输入图像的所述图像内容中的至少一个描绘的语义概念;以及通过将确定的所述文本标签与所述输入图像关联来对所述输入图像作注解。2.根据权利要求1所述的方法,其中所述分布被计算为高斯分布以代表所述语义概念。3.根据权利要求1所述的方法,其中所述分布被计算为高斯混合以代表所述语义概念。4.根据权利要求1所述的方法,其中生成所述嵌入空间还包括:确定在所述文本词汇表的所述文本标签之间的语义关系;基于为所述相应的文本标签确定的所述语义关系来对所述嵌入空间中的所述分布定位;处理多个训练图像,每个训练图像具有多个文本标签,所述处理包括生成与相应的所述多个文本标签对应的图像区域的集合;以及将图像区域的所述集合设置为所述代表性图像以用于所述映射到所述嵌入空间的所述分布。5.根据权利要求4所述的方法,其中处理所述多个训练图像包括:对于每个训练图像,确定用于所述训练图像的图像区域的相应的集合的候选图像区域;以及使用至少一种后处理技术来减少确定的所述候选图像区域的数目。6.根据权利要求5所述的方法,其中所述候选图像区域使用测地对象提议被确定。7.根据权利要求5所述的方法,其中所述至少一种后处理技术涉及通过丢弃具有少于阈值大小的候选图像区域来实行大小标准。8.根据权利要求5所述的方法,其中所述至少一种后处理技术涉及通过丢弃具有在预定义的可允许纵横比以外的纵横比的候选图像区域来实行纵横比标准。9.根据权利要求5所述的方法,其中所述至少一种后处理技术包括基于单标签嵌入模型向所述训练图像的相应的所述多个文本标签中的每个文本标签指派单个候选图像区域。10.根据权利要求1所述的方法,其中确定描述在所述输入图像的所述图像内容中的所述至少一个描绘的语义概念的所述至少一个文本标签包括:确定所述输入图像的语义有意义图像区域的集合;使用后处理技术来丢弃所述输入图像的所述语义有意义图像区域中的至少一个语义有意义图像区域;以及将所述输入图像的剩余语义有意义图像区域映射到...

【专利技术属性】
技术研发人员:金海琳任洲林哲方晨
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1