将嵌入空间中的语义概念建模为分布制造技术

技术编号：15878908 阅读：86 留言：0更新日期：2017-07-25 16:54

描述了将嵌入空间中的语义概念建模为分布。在嵌入空间中，图像和文本标签二者被代表。文本标签描述在图像内容中展示的语义概念。在嵌入空间中，由文本标签描述的语义概念被建模为分布。通过使用分布，每个语义概念被建模为可以与对其它语义概念建模的其它聚类重叠的连续聚类。例如，用于语义概念“苹果”的分布可以与用于语义概念“水果”和“树木”的分布重叠，因为苹果可以是指水果和树木二者。与使用分布形成对照，常规地配置的可视语义嵌入空间将语义概念代表为单个点。因此，不同于这些常规地配置的嵌入空间，这里描述的嵌入空间被生成以将语义概念建模为分布，比如高斯分布、高斯混合等。

The semantic concepts in the embedded space are modeled as distributions

The semantic concepts in the embedded space are modeled as distributions. In embedded space, images and text labels are represented by two. The text labels describe the semantic concepts displayed in the content of the image. In embedded spaces, semantic concepts described by text labels are modeled as distributions. By using the distribution, each semantic concept is modeled as a continuous clustering that overlaps other clusters modeled on other semantic concepts. For example, the distribution of apples used in semantic concepts can overlap with the distribution of semantic concepts \fruit\ and \trees\, because apples can be the two of fruits and trees. In contrast to the usage distribution, the visual semantic embedding space, which is conventionally configured, represents semantic concepts as a single point. Thus, unlike these conventionally configured embedded spaces, the embedding space described here is generated to model semantic concepts such as Gauss distribution and Gauss mixing.

全部详细技术资料下载

【技术实现步骤摘要】
将嵌入空间中的语义概念建模为分布
本申请的各实施例涉及将嵌入空间中的语义概念建模为分布。
技术介绍
图像分类是计算机视觉中的基本问题。广而言之，图像分类尝试从图像提取语义信息，从而使得图像可以被标注以描述图像的内容。语义信息可以例如包括在图像中描绘的物体(和图像的其中描绘物体的位置)、在图像中描绘的景象(例如，图像是否描绘海滩或者日落)、与在图像中描绘的人脸或者脸部表情关联的情绪、图像审美(例如，良好组成、不良组成、遵守三分法(rule-of-thirds)等)、图像感情(例如，恐惧、愤怒等)等等。一些常规图像分类技术利用可视语义嵌入空间，在这些可视语义嵌入空间中嵌入了描述语义概念的文本标签和举例说明语义概念的图像二者。根据常规技术创建的可视语义嵌入空间通常地代表由文本标签描述为嵌入空间中的单个点的语义概念。然而，由于在语义概念与单个语义概念可以传达的含义的多样性之间的复杂关系，将语义概念代表为嵌入空间中的单个点可能没有反映在现实世界中理解它们的方式。常规地配置的可视语义嵌入空间因此可能不准确地代表语义概念。由于在用来标注图像时这些不准确性可能遗留下来，所以这样的嵌入空间可能不适合用于用文本标签准确地标注图像以描述它们的内容。
技术实现思路
描述了将嵌入空间中的语义概念建模为分布。在嵌入空间中，图像和文本标签二者被代表。文本标签描述在图像内容中展示的语义概念。在嵌入空间中，由文本标签描述的语义概念被建模为分布。通过使用分布，每个语义概念在嵌入空间中被建模为可能与对其它语义概念建模的其它聚类重叠的连续聚类。例如，用于语义概念“苹果”的分布可以与用于语义概念“水果...
将嵌入空间中的语义概念建模为分布

【技术保护点】
一种由计算设备实施以用确定的文本标签对图像作注解以描述所述图像的内容的方法，所述方法包括：生成代表图像和文本词汇表的文本标签二者的嵌入空间，所述生成包括：计算所述嵌入空间中的用于代表语义概念的分布，所述分布被计算用于的所述语义概念由所述文本词汇表的相应的文本标签描述并且能够在图像内容中被描绘，以及将代表性图像映射到所述嵌入空间的所述分布，其中由所述代表性图像描绘的所述图像内容举例说明所述分布的对应的语义概念，使用所述嵌入空间来确定所述文本标签中的至少一个文本标签，所述至少一个文本标签描述输入图像的所述图像内容中的至少一个描绘的语义概念；以及通过将确定的所述文本标签与所述输入图像关联来对所述输入图像作注解。

【技术特征摘要】
2016.01.15 US 14/996,9591.一种由计算设备实施以用确定的文本标签对图像作注解以描述所述图像的内容的方法，所述方法包括：生成代表图像和文本词汇表的文本标签二者的嵌入空间，所述生成包括：计算所述嵌入空间中的用于代表语义概念的分布，所述分布被计算用于的所述语义概念由所述文本词汇表的相应的文本标签描述并且能够在图像内容中被描绘，以及将代表性图像映射到所述嵌入空间的所述分布，其中由所述代表性图像描绘的所述图像内容举例说明所述分布的对应的语义概念，使用所述嵌入空间来确定所述文本标签中的至少一个文本标签，所述至少一个文本标签描述输入图像的所述图像内容中的至少一个描绘的语义概念；以及通过将确定的所述文本标签与所述输入图像关联来对所述输入图像作注解。2.根据权利要求1所述的方法，其中所述分布被计算为高斯分布以代表所述语义概念。3.根据权利要求1所述的方法，其中所述分布被计算为高斯混合以代表所述语义概念。4.根据权利要求1所述的方法，其中生成所述嵌入空间还包括：确定在所述文本词汇表的所述文本标签之间的语义关系；基于为所述相应的文本标签确定的所述语义关系来对所述嵌入空间中的所述分布定位；处理多个训练图像，每个训练图像具有多个文本标签，所述处理包括生成与相应的所述多个文本标签对应的图像区域的集合；以及将图像区域的所述集合设置为所述代表性图像以用于所述映射到所述嵌入空间的所述分布。5.根据权利要求4所述的方法，其中处理所述多个训练图像包括：对于每个训练图像，确定用于所述训练图像的图像区域的相应的集合的候选图像区域；以及使用至少一种后处理技术来减少确定的所述候选图像区域的数目。6.根据权利要求5所述的方法，其中所述候选图像区域使用测地对象提议被确定。7.根据权利要求5所述的方法，其中所述至少一种后处理技术涉及通过丢弃具有少于阈值大小的候选图像区域来实行大小标准。8.根据权利要求5所述的方法，其中所述至少一种后处理技术涉及通过丢弃具有在预定义的可允许纵横比以外的纵横比的候选图像区域来实行纵横比标准。9.根据权利要求5所述的方法，其中所述至少一种后处理技术包括基于单标签嵌入模型向所述训练图像的相应的所述多个文本标签中的每个文本标签指派单个候选图像区域。10.根据权利要求1所述的方法，其中确定描述在所述输入图像的所述图像内容中的所述至少一个描绘的语义概念的所述至少一个文本标签包括：确定所述输入图像的语义有意义图像区域的集合；使用后处理技术来丢弃所述输入图像的所述语义有意义图像区域中的至少一个语义有意义图像区域；以及将所述输入图像的剩余语义有意义图像区域映射到...

【专利技术属性】
技术研发人员：金海琳，任洲，林哲，方晨，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人