使用图像到题目嵌入的大规模图像加标记制造技术

技术编号：19122571 阅读：34 留言：0更新日期：2018-10-10 05:26

本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。提供了一种框架以用于利用嵌入学习来将图像与题目相关联。框架利用图像而被训练，每个图像具有多个视觉特性和与其相关联的多个关键词标签。视觉特征利用卷积神经网络从视觉特性被计算，并且图像特征矢量从视觉特性被生成。关键词标签被用于通过计算词矢量表示的加权平均来生成针对每个图像的加权词矢量(或者“软题目特征矢量”)，词矢量表示表示与图像相关联的关键词标签。图像特征矢量和软题目特征矢量在共用嵌入空间中被对齐，并且相关性分数针对关键词标签中的每个关键词标签被计算。一旦经训练，框架就可以自动地标记图像，并且基于文本的搜索引擎可以基于预测的相关性分数、相对于查询的关键词来对图像相关性排名。

全部详细技术资料下载

【技术实现步骤摘要】
使用图像到题目嵌入的大规模图像加标记
本申请的各实施方式涉及使用图像到题目嵌入的大规模图像加标记。
技术介绍
利用因特网的信息搜索在年轻人和老年人等等中是广泛发展的实践。一般地，希望获得与特定题目或者事物有关的知识(或者以其他方式对它们有兴趣)的人导航至在线搜索引擎，并且将查询输入到合适的查询输入字段中。然后对查询发起，并且与输入的查询相关的搜索结果的选择被呈现以用于由用户检验和/或用户的享受。随着这样的基于查询的搜索实践的普遍扩散，用于响应于输入的查询来定位和呈现相关信息的方法和系统已经变得越来越重要。例如，想要成为用户的用于进行在线搜索的首选(go-to)资源的搜索引擎正在继续精华其用以确定对输入的搜索查询的潜在搜索结果的相关性的系统和方法。在线信息搜索中的另一发展趋势是在除了基于文本的文档之外或者代替基于文本的文档的，对在线图像的搜索。图像搜索的两种主要方法已经被广泛使用。在第一方法中，用户输入一个或者多个文本关键词，并且作为响应，与关键词相关的图像被呈现。例如，在进行关键词搜索时，可以向输入文本关键词“狗”的用户呈现示出狗的图片的多个图像。在第二方法中，例如，当用户想要查看类似图像和/或检查关于输入图像中所描绘的内容的文本信息时，利用图像作为输入的查询。通过示例的方式，在执行图像搜索之后，可以向输入文森特·梵高的“繁星之夜”图像的用户呈现文森特·梵高的其他作品和/或关于艺术家、绘画等有关的基于文本的信息。关于是响应于基于文本的查询还是基于图像的查询来呈现图像，确定特定图像的相对于所查询的信息的相关性可能是艰苦的工作。在一些情况下，用户可以手动地将关...
使用图像到题目嵌入的大规模图像加标记

【技术保护点】
1.一种计算机系统，包括一个或者多个处理器；以及存储计算机可用指令的一个或者多个计算机存储介质，所述计算机可用指令在由所述一个或者多个处理器使用时，使得所述一个或者多个处理器：接收多个图像，所述多个图像中的每个图像与多个标签相关联；以及针对所述多个图像中的每个主体图像：从相关联的所述多个标签生成加权词矢量；从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量；在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐；以及使用对齐的所述矢量，针对相关联的所述多个标签中的每个标签，在其属于所述主体图像时计算相关性分数。

【技术特征摘要】
2017.03.20 US 15/463,7691.一种计算机系统，包括一个或者多个处理器；以及存储计算机可用指令的一个或者多个计算机存储介质，所述计算机可用指令在由所述一个或者多个处理器使用时，使得所述一个或者多个处理器：接收多个图像，所述多个图像中的每个图像与多个标签相关联；以及针对所述多个图像中的每个主体图像：从相关联的所述多个标签生成加权词矢量；从与所述主体图像相关联的一个或者多个视觉特征生成图像特征矢量；在共用嵌入空间中将所述图像特征矢量与所述加权词矢量对齐；以及使用对齐的所述矢量，针对相关联的所述多个标签中的每个标签，在其属于所述主体图像时计算相关性分数。2.根据权利要求1所述的计算系统，其中针对所述多个图像中的每个图像，所述一个或者多个处理器还被使得计算所述一个或者多个视觉特征。3.根据权利要求2所述的计算系统，其中所述一个或者多个视觉特征利用卷积神经网络被计算。4.根据权利要求1所述的计算系统，其中针对所述多个图像中的每个图像，所述一个或者多个处理器还被使得：生成针对相关联的所述多个标签中的每个标签的词矢量表示；计算生成的所述词矢量表示的加权平均以生成所述加权词矢量；以及在所述共用嵌入空间中将所述加权词矢量归一化。5.根据权利要求4所述的计算系统，其中针对相关联的所述多个标签中的每个标签的所述词矢量表示利用逐点互信息被生成。6.根据权利要求4所述的计算系统，其中所述加权平均至少部分地利用逆文档频率被计算。7.根据权利要求4所述的计算系统，其中相关联的所述多个标签中的每个标签是用户提供的标签，并且其中所述加权平均至少部分地利用标签顺序被计算，在所述标签顺序中，当相关联的所述多个标签中的第一标签在相关联的所述多个标签中的第二标签之前由所述用户提供时，所述第一标签被指派比所述第二标签更大的权重。8.根据权利要求1所述的计算系统，其中针对所述多个标签中的每个标签的所述相关性分数表示所述多个标签中的特定标签与所述图像特征矢量之间的相似性程度。9.根据权利要求1所述的计算系统，其中所述加权词矢量和所述图像特征矢量利用余弦相似性损失被对齐。10.根据权利要求1所述的计算系统，其中所述一个或者多个处理器还被使得：通过K均值聚类来对针对所述多个图像的至少一个子集的所述加权词矢量聚类以形成K个集群，每个集群表示与所述K个集群中的其他集群相比，在语义上彼此更相似的题目的集合；以及至少部分地利用柔性最大值损失函数来向所述K个集群中的一个集群指派针对所述至少...

【专利技术属性】
技术研发人员：林哲，李英伟，沈晓辉，张健明，金海琳，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人