当前位置: 首页 > 专利查询>微软公司专利>正文

使用多个视觉输入模态的视觉搜索制造技术

技术编号:8271532 阅读:231 留言:0更新日期:2013-01-31 03:48
提供了用于web规模的视觉搜索的、能够使用视觉输入模态的组合的系统、方法和计算机可读存储媒体。创建边缘元索引,其包括对应于多个图像中的每个图像的形状描述符,所述形状描述符包括基于边缘元的表示。每个基于边缘元的表示包括描绘图像的边缘或边界轮廓的像素,并且至少部分地通过将所述图像分段成多个图像段以及在每个段上执行多相轮廓检测而被创建。在接收到具有视觉查询输入的搜索查询后,视觉查询输入被转换成包括基于边缘元的表示的形状描述符,以及多个图像中的每个图像的、包括基于边缘元的表示的形状描述符被与所述视觉查询输入的、包括基于边缘元的表示的形状描述符进行比较,以便识别所述多个图像中的、与所述视觉查询输入匹配的至少一个图像。

【技术实现步骤摘要】
使用多个视觉输入模态的视觉搜索的制作方法使用多个视觉输入模态的视觉搜索对相关串请的交叉引用 本申请要求2011年10月18日提交的美国临时专利申请序列号No. 61/548,585的利益,该申请通过引用被并入,就如同其全文在这里被阐明一样。
技术介绍
因特网通过它的数十亿的Web页面提供了巨大的和快速增长的信息和资源库。为了找到想要的内容,计算机用户常常利用搜索工具。示范性的因特网搜索引擎在本领域内是熟知的,例如,普遍已知的商业引擎是由华盛顿州、雷蒙德的微软公司提供的Bing 搜索引擎。许多当前的商用图像搜索技术使用文本查询来从主要通过文本数据索引的抓取(crawled)图像的大型数据库中获取结果。这限制了什么图像可以被搜索的范围,其进而又影响搜索结果的质量和相关性。另外,可用性被交互式细化(refinement)的缺乏所影响。·
技术实现思路
本概要被提供来以简化的形式介绍概念的选择,这些概念在下面的详细说明中被进一步描述。本概要既不打算确认所要求保护的主题的关键特征或必要特征,也不打算被使用来帮助确定所要求保护的主题的范围。本专利技术的实施例涉及系统、方法和计算机可读存储媒体,它们尤其用于为web规模的视觉搜索提供能够使用诸如草图(sketch)、图像或拼贴画(collage)这样的视觉输入模态(modality)的组合的统一系统。创建边缘元(edgel)(即,边缘像素)索引,其包括对应于多个图像中的每个图像的基于边缘元的表示。在实施例中,其它的形状描述符,诸如基于梯度的表示和/或梯度的直方图,也可以被包括在边缘元索引中。每个基于边缘元的表示包括描绘图像的一个或多个边缘或边界轮廓的像素组,并且至少部分地通过将图像分段成多个图像段并在每个段上执行多相轮廓检测而被创建。在接收到具有视觉查询输入(例如,图像、草图和/或拼贴画)的搜索查询后,视觉查询输入被转换成基于边缘元的表示(例如,通过使用分段和多相轮廓检测),以及多个图像中的每个图像的基于边缘元的表示被与视觉查询输入的基于边缘元的表示进行比较,以便识别所述多个图像中的、与所述视觉查询输入匹配的至少一个图像。在实施例中,视觉查询输入也可以被转换成一个或多个其它的形状描述符(例如,基于梯度的表示和/或梯度的直方图)并与边缘元索引中包括的类似的数据进行比较。以这种方式,本专利技术的系统被配置成经由各种各样的视觉输入模态接收搜索查询,并且基于接收的输入返回基于图像的搜索结果。本专利技术的实施例的统一系统能够通过使用文本索引结构和用于与不同的视觉输入匹配的单个视觉输入索引结构来操控文本和多个视觉输入模态。提供了既改进结果质量又改进性能的算法,从而使得能进行数百万图像的快速索引和视觉搜索。还提供了直观的、触摸友好(touch-friendly)的用户体验,其使得用户能够使用输入模态(例如,文本、图像、草图和拼贴画)的组合灵活地制定搜索查询,以及使得用户能够在同一个搜索会话中在不同输入模态间切换以及对它们进行组合。用户体验可以包括搜索画布(search canvas)或窗口,其使得用户能够诸如通过绘制草图、输入图像、绘制或输入拼贴画以及输入一个或多个文本关键字来构成复杂的查询。附图说明本专利技术在附图中借助例子而非被限制地图示,附图中的同样的参考标号指示类似的单元,以及其中 图I是适合于在实施本专利技术的实施例时使用的示范性计算环境的框 图2是在其中可以利用本专利技术实施例的示范性计算系统的框 图3是在其中可以利用本专利技术实施例的示范性索引系统的框 图4是显示按照本专利技术的实施例的、用于生成边缘元(B卩,边缘像素)索引的示范性方法的流程图; 图5是显示按照本专利技术的实施例的示范性方法的流程图,所述方法为web规模的视觉搜索提供能够使用诸如草图、图像和/或拼贴画这样的视觉输入模态的组合的统一系统;图6是显示按照本专利技术的实施例的、基于文本输入而呈现的图像搜索结果的示范性屏幕显示的示意 图7是显示按照本专利技术的实施例的、提供查询细化选项的特定图像搜索结果的用户选择的示范性屏幕显示的示意 图8是显示按照本专利技术的实施例的、基于图像输入而细化和呈现的图像搜索结果的示范性屏幕显示的示意 图9是显示按照本专利技术的实施例的、基于图像选择而细化和呈现的图像搜索结果的示范性屏幕显示的示意图;和 图10是显示按照本专利技术的实施例的、基于草图输入而呈现或细化的图像搜索结果的示范性屏幕显示的示意图。具体实施例方式本专利技术的主题在这里被带有特异性地描述以满足法定的要求。然而,描述本身并不打算限制本专利的范围。而是,本专利技术人已经设想到所要求保护的主题也可以结合其它目前的或未来的技术以其它的方式来体现,以便包括不同的步骤或与本文档中描述的步骤类似的步骤的组合。而且,尽管术语“步骤”和/或“方框”在这里可被使用来意指所利用的方法的不同单元,但是所述术语不应当被解释为暗示在这里公开的各种步骤当中或之间的任何特定的次序,除非和除了一个个步骤的次序被明确地描述时。视觉搜索属性已经被证明是在用户搜索某些项目(诸如,衣服)时使用的关键因素之一。通常,商用搜索引擎随搜索结果一起显示产品图像。此外,诸如粗略草图和颜色描述符这样的视觉输入在搜索诸如图像这样的视觉数据时对于用户而言是直观的。借力于(leverage)这样的自然模态的任何搜索体验将是有趣的和易于使用的。消费者研究表明通过使用多种输入模态来细化查询的能力在使能发现和探索的同时带来更加吸引人的体验。例如,搜索未知品牌/样式的特定鞋的用户可以通过使用文本输入“鞋”来发起查询。在浏览结果的时候,用户可能注意到看起来与想要的鞋类似的鞋,然后他/她可能期望经由“视觉上类似”的查询来细化所述查询,以便找到具有相同的形状、颜色和纹理的更多的鞋。另夕卜,用户可能希望将类似的鞋添加到草图画布并通过勾画更多的细节来创建拼贴图,以便进一步细化所述查询。因此,这里描述的技术的各种方面总地针对系统、方法和计算机可读存储媒体,它们尤其是为web规模的视觉搜索提供能够使用诸如草图、图像或拼贴画这样的视觉输入模态的组合的统一系统。创建边缘元(即,边缘像素)索引,其包括对应于多个图像中的每个图像的基于边缘元的表示。在实施例中,其它的形状描述符,诸如基于梯度的表示和/或梯度的直方图,也可以被包括在边缘元索引中。每个基于边缘元的表示包括描绘图像的一个或多个边缘或边界轮廓的像素组,并且至少部分地通过将所述图像分段成多个图像段并在每个段上执行多相轮廓检测而被创建。在接收到具有视觉查询输入(例如,图像、草图和/或拼贴画)的搜索查询后,视觉查询输入被转换成基于边缘元的表示(例如,通过使用分段和多相轮廓检测),并且所述多个图像的每个图像的基于边缘元的表示被与视觉查询输入的基于边缘元的表示进行比较,以便识别所述多个图像中的、与视觉查询输入匹配的至少一个图像。在实施例中,视觉查询输入也可以被转换成一个或多个其它的形状描述符(例如,基于梯度的表示和/或梯度的直方图)并与包括在边缘元索引中的类似的数据进行比较。 以这种方式,本专利技术的系统被配置成经由各种各样的视觉输入模态接收搜索查询,并基于接收到的输入返回基于图像的搜索结果。因此,本专利技术的一个实施例针对一种为web规模的视觉搜索提供能够使用视觉输入模态的组合的统一系统的系本文档来自技高网...

【技术保护点】
一种系统(200),包括处理器(114),其与计算机可读存储媒体进行通信;索引(230),其被维持在所述计算机可读存储媒体中,所述索引包括图像数据,其描述多个图像中的每个图像的一个或多个形状描述符,所述形状描述符包括基于边缘元的表示;查询接收组件(222),其接收视觉输入作为搜索查询;查询解析器(224),其将所述视觉输入转换成包括基于边缘元的表示的至少一个形状描述符;和视觉输入匹配组件(228),其将所述多个图像的、包括基于边缘元的表示的一个或多个形状描述符与来自搜索查询的视觉输入的、包括基于边缘元的表示的至少一个形状描述符进行匹配,以便识别所述多个图像中的至少一个匹配的图像。

【技术特征摘要】
2011.10.18 US 61/548,585;2011.11.21 US 13/301,3811.一种系统(200),包括 处理器(114),其与计算机可读存储媒体进行通信; 索引(230),其被维持在所述计算机可读存储媒体中,所述索引包括图像数据,其描述多个图像中的每个图像的一个或多个形状描述符,所述形状描述符包括基于边缘元的表示; 查询接收组件(222),其接收视觉输入作为搜索查询; 查询解析器(224),其将所述视觉输入转换成包括基于边缘元的表示的至少一个形状描述符;和 视觉输入匹配组件(228),其将所述多个图像的、包括基于边缘元的表示的一个或多个形状描述符与来自搜索查询的视觉输入的、包括基于边缘元的表示的至少一个形状描述符进行匹配,以便识别所述多个图像中的至少一个匹配的图像。2.权利要求I的系统,其中所述视觉输入是图像、草图和拼贴画中的一个或多个。3.权利要求I的系统,其中所述视觉输入匹配组件识别所述多个图像中的多个匹配的图像,以及其中所述视觉输入匹配组件还为所述多个匹配的图像中的每个匹配图像指派视觉分数。4.权利要求3的系统,还包括排名引擎(236),其至少部分地基于分别指派给每个匹配图像的视觉分数来对所述多个匹配的图像进行排名。5.权利要求I的系统,其中所述索引至少部分地通过将所述多个图像中的每个图像分段成各自的多个段以及在各个各自的多个段上执行多相轮廓检测而被构造。6.权利要求5的系统,其中各个各自的多个段中的每个段基于颜色和梯度改变中的至少一个而被识别。7.权利要求I的系统,其中由所述查询接收组件接收的搜索查询包括视觉输入和文本输入,以及其中所述查询解析器从视觉输入中提取文本输入。8.一种或多种计算机可读存储媒体,其存储计算机可用的指令,当所述指令由一个或多个计算设备使用时,使得所述一个或多个计算设备执行方法,所述方法包括 接收(510)搜索查询; 提供(512)多个图像结果,所述多个图像结果中的每个具有一个或多个相关联的形状描述符,所述形状描述符包括它们的第一基于边缘元的表示; 接收(5...

【专利技术属性】
技术研发人员:A苏德R普拉萨德AMAH卡希尔PK米什拉S阿马曹堪澄
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1