当前位置: 首页 > 专利查询>奥多比公司专利>正文

使用图像到题目嵌入的大规模图像加标记制造技术

技术编号:19122571 阅读:32 留言:0更新日期:2018-10-10 05:26
本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。提供了一种框架以用于利用嵌入学习来将图像与题目相关联。框架利用图像而被训练,每个图像具有多个视觉特性和与其相关联的多个关键词标签。视觉特征利用卷积神经网络从视觉特性被计算,并且图像特征矢量从视觉特性被生成。关键词标签被用于通过计算词矢量表示的加权平均来生成针对每个图像的加权词矢量(或者“软题目特征矢量”),词矢量表示表示与图像相关联的关键词标签。图像特征矢量和软题目特征矢量在共用嵌入空间中被对齐,并且相关性分数针对关键词标签中的每个关键词标签被计算。一旦经训练,框架就可以自动地标记图像,并且基于文本的搜索引擎可以基于预测的相关性分数、相对于查询的关键词来对图像相关性排名。

【技术实现步骤摘要】
使用图像到题目嵌入的大规模图像加标记
本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。
技术介绍
利用因特网的信息搜索在年轻人和老年人等等中是广泛发展的实践。一般地,希望获得与特定题目或者事物有关的知识(或者以其他方式对它们有兴趣)的人导航至在线搜索引擎,并且将查询输入到合适的查询输入字段中。然后对查询发起,并且与输入的查询相关的搜索结果的选择被呈现以用于由用户检验和/或用户的享受。随着这样的基于查询的搜索实践的普遍扩散,用于响应于输入的查询来定位和呈现相关信息的方法和系统已经变得越来越重要。例如,想要成为用户的用于进行在线搜索的首选(go-to)资源的搜索引擎正在继续精华其用以确定对输入的搜索查询的潜在搜索结果的相关性的系统和方法。在线信息搜索中的另一发展趋势是在除了基于文本的文档之外或者代替基于文本的文档的,对在线图像的搜索。图像搜索的两种主要方法已经被广泛使用。在第一方法中,用户输入一个或者多个文本关键词,并且作为响应,与关键词相关的图像被呈现。例如,在进行关键词搜索时,可以向输入文本关键词“狗”的用户呈现示出狗的图片的多个图像。在第二方法中,例如,当用户想要查看类似图像和/或检查关于输入图像中所描绘的内容的文本信息时,利用图像作为输入的查询。通过示例的方式,在执行图像搜索之后,可以向输入文森特·梵高的“繁星之夜”图像的用户呈现文森特·梵高的其他作品和/或关于艺术家、绘画等有关的基于文本的信息。关于是响应于基于文本的查询还是基于图像的查询来呈现图像,确定特定图像的相对于所查询的信息的相关性可能是艰苦的工作。在一些情况下,用户可以手动地将关键词与图像数据库中包括的图像相关联,和/或可以从结合图像获得和/或与图像接近的信息提取关键词。这样的关键词然后可以作为关键词标签与图像相关联。随后,当用户利用至少类似于与给定图像相关联的关键词标签的关键词来搜索图像时,可以响应于查询来呈现该给定图像。类似地,具有与其相关联的关键词作为关键词标签的输入图像在被搜索时,可以提示类似地具有与其相关联的关键词(或者类似关键词)作为关键词标签的其他图像的返回。然而,诸如这些的基于标签的方法和系统经常呈现与给定查询仅略微相关的图像,特别是在与图像相关联的关键词标签由于多个项目正在图像中被描绘而变化的情况中。在其他情况中,搜索系统可以从给定图像提取视觉特性,并且试图将这样的特性与图像数据库中的图像的类似视觉特性匹配,以用于响应于查询来向用户呈现。例如,由于图像中可能包括大量视觉信息并且仅其一部分可能与输入查询相关,所以诸如这些类似的基于视觉特性的方法和系统可能呈现与给定查询仅略微相关的图像。
技术实现思路
除了其他内容以外,本专利技术的实施方式涉及一种用于利用嵌入学习来将图像与题目相关联的框架,这些题目指示图像的主题。框架使用多个图像被训练,每个图像具有相关联的视觉特性和关键词标签。关于视觉特性,图像特征矢量从计算自图像的一个或者多个视觉特征被生成。关于标签信息,关键词标签被用来生成针对每个图像的加权词矢量(也就是,词矢量表示从关键词标签得到的主体图像中主导的概念)。加权词矢量和图像特征矢量在共用嵌入空间被对齐(即,使得尽可能彼此接近)。利用对齐的矢量,相关性分数针对属于主体图像的关键词标签中的每个关键词标签被计算(例如,利用欧几里德距离计算)。一旦经训练,在此描述的框架就可以被用来自动地将关键词标签与附加输入图像关联,并且基于相关联的相关性分数、相对于查询的关键词来对图像的相关性排名。提供了本
技术实现思路
以便以简化形式引入概念的选择,其将在下文具体实施方式中被进一步描述。被
技术实现思路
不旨在标识所要求保护的主题的关键特征或者本质特征,也不旨在被用作帮助确定所要求保护的主题的范围。附图说明下文参考附图对本专利技术进行详细描述,其中:图1是图示了根据本公开内容的一些实现方式的示例性图像到题目关联和加标记系统的框图;图2是图示了根据本公开内容的一些实现方式的图像加标记与基于本文的图像搜索之间的示例性关系的示意图;图3是图示了根据本公开内容的一些实现方式的示例性图像到题目关联和加标记系统的示意图;图4是图示了根据本公开内容的一些实现方式的利用图像到题目嵌入系统、针对输入图像而被返回的示例性搜索结果的示意图;图5是图示了根据本公开内容的一些实现方式的用于利用软题目来嵌入学习的示例性嵌入网络的示意图;图6是图示了根据本公开内容的一些实现方式的用于利用硬题目的特征训练的示例性方法的示意图;图7是图示了根据本公开内容的一些实现方式的用于利用图像到查询嵌入的图像搜索排名优化的示例性方法的示意图;图8是图示了根据本公开内容的一些实现方式的用于图像到题目关联和加标记的示例性方法的流程图;以及图9是根据本公开内容的一些实现方式的适合使用的示例性计算环境的框图。具体实施方式除了其他内容以外,本专利技术的实施方式涉及一种用于利用嵌入学习来将图像与指示图像的主题的题目相关联的框架。框架利用多个图像被训练,每个图像具有相关联的视觉特性和关键词标签。关于视觉特性,图像特征矢量从一个或者多个计算出的视觉特征被生成。关于标签信息,关键词标签被用来生成针对每个图像的加权词矢量或者“软题目特征矢量”(也就是,表示从关键词标签得到的主体图像的主导概念的特征矢量)。软题目特征矢量(加权词矢量)和图像特征矢量被映射至共用嵌入空间,其中软题目特征矢量和图像特征矢量被对齐(即,被使得尽可能彼此接近)。利用对齐的矢量,相关性分数针对关键词标签中的每个关键词标签、在其属于主体图像时被计算(例如,使用欧几里德距离计算),相关性分数表示特定标签与嵌入的图像特征矢量之间的相似性程度。一旦经训练,在此描述的框架就可以被用来自动地将关键词标签与附加输入图像相关联,并且基于相关联的相关性分数、相对于查询的关键词来对图像的相关性排名。在线图像搜索的传统方法受制于其响应于输入查询来充分地标识并且呈现可得的最相关图像的能力。关于是响应于基于文本的查询还是基于图像的查询来呈现图像,精化用于确定相对于查询的信息的特定图像的相关性的方法和系统是针对搜索引擎和采用在线搜索功能的其他实体而在进行的工作。基于元数据关键词标签的方法和系统经常呈现与给定查询仅松散相关的图像,特别是在与图像相关联的关键词标签由于图像中描绘的多个项目而变化的情况中。类似地,基于视觉特性的方法和系统可能呈现与给定查询仅松散相关的图像,例如,由于图像中可能包括大量视觉信息,而仅仅其一部分可能与输入查询相关。本专利技术的各种实施方式通过提供允许利用嵌入学习将图像与指示图像的主题的题目相关联的方法,解决了如下技术挑战,即响应于输入搜索查询来适当地标识和呈现可得的最相关图像。在训练阶段期间,多个图像被接收,每个图像具有相关联的视觉特性和关键词标签。在一些实施方式中,关键词标签是用户提供的。关于与图像相关联的视觉特性,针对每个图像,一个或者多个视觉特征被计算,并且视觉特征被用来创建针对每个图像的图像特征矢量。在关键词方面,在训练阶段期间,关键词标签被用来创建图像特定的软题目特征矢量(或者加权词矢量)。更特别地,词矢量表示针对与图像相关联的每个关键词标签被生成,并且所生成的词矢量表示的加权平均被计算以生成针对图像的软题目特征(或者加权词)矢量,即,本文档来自技高网
...
使用图像到题目嵌入的大规模图像加标记

【技术保护点】
1.一种计算机系统,包括一个或者多个处理器;以及存储计算机可用指令的一个或者多个计算机存储介质,所述计算机可用指令在由所述一个或者多个处理器使用时,使得所述一个或者多个处理器:接收多个图像,所述多个图像中的每个图像与多个标签相关联;以及针对所述多个图像中的每个主体图像:从相关联的所述多个标签生成加权词矢量;从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量;在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐;以及使用对齐的所述矢量,针对相关联的所述多个标签中的每个标签,在其属于所述主体图像时计算相关性分数。

【技术特征摘要】
2017.03.20 US 15/463,7691.一种计算机系统,包括一个或者多个处理器;以及存储计算机可用指令的一个或者多个计算机存储介质,所述计算机可用指令在由所述一个或者多个处理器使用时,使得所述一个或者多个处理器:接收多个图像,所述多个图像中的每个图像与多个标签相关联;以及针对所述多个图像中的每个主体图像:从相关联的所述多个标签生成加权词矢量;从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量;在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐;以及使用对齐的所述矢量,针对相关联的所述多个标签中的每个标签,在其属于所述主体图像时计算相关性分数。2.根据权利要求1所述的计算系统,其中针对所述多个图像中的每个图像,所述一个或者多个处理器还被使得计算所述一个或者多个视觉特征。3.根据权利要求2所述的计算系统,其中所述一个或者多个视觉特征利用卷积神经网络被计算。4.根据权利要求1所述的计算系统,其中针对所述多个图像中的每个图像,所述一个或者多个处理器还被使得:生成针对相关联的所述多个标签中的每个标签的词矢量表示;计算生成的所述词矢量表示的加权平均以生成所述加权词矢量;以及在所述共用嵌入空间中将所述加权词矢量归一化。5.根据权利要求4所述的计算系统,其中针对相关联的所述多个标签中的每个标签的所述词矢量表示利用逐点互信息被生成。6.根据权利要求4所述的计算系统,其中所述加权平均至少部分地利用逆文档频率被计算。7.根据权利要求4所述的计算系统,其中相关联的所述多个标签中的每个标签是用户提供的标签,并且其中所述加权平均至少部分地利用标签顺序被计算,在所述标签顺序中,当相关联的所述多个标签中的第一标签在相关联的所述多个标签中的第二标签之前由所述用户提供时,所述第一标签被指派比所述第二标签更大的权重。8.根据权利要求1所述的计算系统,其中针对所述多个标签中的每个标签的所述相关性分数表示所述多个标签中的特定标签与所述图像特征矢量之间的相似性程度。9.根据权利要求1所述的计算系统,其中所述加权词矢量和所述图像特征矢量利用余弦相似性损失被对齐。10.根据权利要求1所述的计算系统,其中所述一个或者多个处理器还被使得:通过K均值聚类来对针对所述多个图像的至少一个子集的所述加权词矢量聚类以形成K个集群,每个集群表示与所述K个集群中的其他集群相比,在语义上彼此更相似的题目的集合;以及至少部分地利用柔性最大值损失函数来向所述K个集群中的一个集群指派针对所述至少...

【专利技术属性】
技术研发人员:林哲李英伟沈晓辉张健明金海琳
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1