当前位置: 首页 > 专利查询>雅虎公司专利>正文

通过基于注释聚集搜索结果来进行数字图像取得制造技术

技术编号:7154972 阅读:247 留言:0更新日期:2012-04-11 18:40
提供了用于响应对数字图像的基于文本的查询的方案。接收标识出一个或多个关键字的请求。选择若干个带注释数字图像。每个所选的带注释数字图像在其外观上具有有界区域,该有界区域具有与这些关键字中的至少一个相关联的注释。对于每个带注释数字图像选择一候选数字图像集合。针对特定带注释数字图像的候选图像集合是一数字图像集合中的具有与该特定带注释数字图像最相似的外观的数字图像。这些候选图像集合被聚集成单个数字图像集合。生成标识出该单个数字图像集合中对该一个或多个关键字的响应度最高的数字图像的响应。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施例总地涉及处理对数字图像的基于文本的请求。
技术介绍
在许多情形下用户可能希望搜索数字图像。例如,用户可能希望在因特网上寻找特定的数字图片。又例如,用户可能希望从其在其个人计算机本地存储的数字图像的集合中取得特定的数字图像。因此,许多不同类型的软件应用需要支持使用户能够搜索数字图像的功能。虽然存在若干种不同的用于取得数字图像的方案,但这些方案不是没有限制的。 用于执行对数字图像的搜索的一种方案(称为“按关键字查询”方案)是搜索一数字图像集合中的与匹配提出请求的用户提交的一个或多个搜索字词(各自被称为“关键字”)的字符串相关联的所有数字图像。例如,如果用户提交具有关键字“dog”的查询,并且字词“dog” 在特定数字图像的名称中,则此方案可建议在名称中有单词“dog”的数字图像满足该查询。按关键字查询方案的一个问题在于,若一数字图像要满足查询,则查询中标识的关键字需要匹配与该数字图像相关联的字符串。用户可自由地基于任何原因对数字图像赋予任何名称和/或描述。用户可决定对整个数字图像赋予名称和/或描述,这可能是出于描述数字图像的视觉内容的目的,但也可基于主题的、空间的、时间的和社交的原因。例如, 数字图像的名称或描述可由人类或软件实体基于时间戳、包含数字图像的文件夹的名称或者指示出该数字图像相对于其他数字图像的位置的序列号来赋予。这使基于关键字的搜索的任务变得复杂,因为本来可能满足用户查询的特定数字图像可能与不匹配查询所标识的任何关键字的文本相关联。按关键字查询方案的另一个问题在于一系列关键字就是缺乏数字图像所固有的表达力。换言之,用户很难仅使用几个关键字来表达期望图像的视觉特性。用于执行对数字图像的搜索的另一种方案(称为“按图像查询方案”)是搜索一数字图像集合中的与提出请求的用户提交的样本数字图像相似的所有数字图像。按图像查询方案的最初障碍在于,提出请求的用户必须使用样本数字图像来找到其他图像,而在许多情况下提出请求的用户可能就是没有用作搜索基础的样本数字图像。按图像查询方案的另一个问题在于可能难以识别出与提出请求的用户提交的样本数字图像相似的其他数字图像。这是由被称为语义差距问题的现象导致的。语义差距问题用不同的语言表示来表征一对象的两个描述之间的差异。在按图像查询方案中,高级别概念(例如旗帜、飞机或新闻播报员)是从提取自提出请求的用户提交的样本数字图像的低级别特征(例如对象的颜色、对象的形状或对象的大小)得出的。从而,如果要识别存在于数字图像的外观中的高级别概念以理解数字图像的含义,那么唯一可用的独立信息是数字图像的低级别像素数据。然而,即使是对诸如圆形或黄色之类的形状或颜色的简单语言表示也要求完全不同的数学形式化方法。由于此复杂性,经常难以判定用户对其提交的样本数字图像的什么高级别特征感兴趣,并且接下来就不可能针对物理世界中的所有概念构5建特定的高级别概念检测器。因此,希望在数字图像搜索领域有新的改进。本部分中描述的方案是可以从事的方案,但不一定是先前已经设想到或从事过的方案。因此,除非另有指明,否则不认为本部分中描述的任何方案仅因为其被包括在本部分中就应被当作是现有技术。
技术实现思路
提供了用于通过对利用具有与基于文本的请求所标识的关键字相关联的视觉注释的数字图像执行的按图像查询搜索的结果集合进行聚集来改善取得满足该请求的数字图像的性能的技术。当接收到标识出一个或多个关键字的请求时,基于该一个或多个关键字来选择一个或多个带注释数字图像。在一实施例中,选择各自具有与这一个或多个关键字中的至少一个相关联的视觉注释的一个或多个带注释数字图像。在另一实施例中,选择各自具有与该请求所标识的关键字完全匹配的视觉注释的一个或多个带注释数字图像。其他实施例可使用多种不同的标准来判定关键字与视觉注释之间的关联何时强到足以将与该视觉注释相关联的数字图像包括在所选择的一个或多个带注释数字图像中。视觉注释是数字图像的视觉外观的一部分上的有界区域,该有界区域被用户赋予了注释。例如,可接收到标识出关键字“英式”、“电话”和“亭”的请求。作为响应,可以识别出具有与“英式电话亭”相关联的视觉注释的若干个带注释数字图像,例如可以识别出图3 所示的数字图像中的一个或多个,因为图3所示的每个视觉注释被赋予了与“英式电话亭” 相关联的注释。在一实施例中,为特定请求选择的带注释数字图像的数目可以是可配置的, 因为本专利技术的实施例所选择的带注释数字图像的特定数目可影响对请求做出响应的准确度和速度。在选择一个或多个带注释数字图像之后,对于所选择的一个或多个带注释数字图像中的每一个,取得由一个或多个候选数字图像构成的集合。例如,如果选择了三个带注释数字图像,则识别并取得三个不同的候选数字图像集合(对于三个带注释数字图像中的每一个有一个集合)。在一实施例中,以这种方式取得的每个候选数字图像集合可以是排名列表。每个候选数字图像集合是利用所选择的带注释数字图像之一通过按图像查询方案来获得的。在一实施例中,只有带注释数字图像的由视觉注释标识的部分被用于按图像查询搜索中来为该带注释数字图像取得由一个或多个候选数字图像构成的集合。在针对每个所选择的带注释数字图像获得一候选数字图像集合之后,这些候选数字图像集合被聚集成单个数字图像集合。例如,可以使用博尔达计数方案来将这些候选数字图像集合中的每个集合聚集到单个数字图像集合中。然后,可生成对请求的响应,其标识出该单个数字图像集合中对请求的响应度最高的数字图像。在本专利技术的实施例中,响应可被发送到原来发送请求的实体。聚集结果的替换方案可基于马尔可夫链。附图说明在附图中以示例方式而非限制方式图示了本专利技术的实施例,附图中相似的标号指代类似的元件,其中图1是示出根据本专利技术实施例执行搜索的高级别功能步骤的流程图2是根据本专利技术实施例的示例性系统的框图;图3是示出根据本专利技术实施例的八个不同的带注释数字图像的图示;图4是示出根据本专利技术实施例的候选数字图像的识别和搜索结果的聚集的图示; 并且图5是本专利技术的实施例可在其上实现的计算机系统的框图。 具体实施例方式在以下描述中,出于说明目的,阐述了许多具体细节以帮助透彻理解这里给出的本专利技术的实施例。然而,很明显,没有这些具体细节也可以实现这里给出的本专利技术的实施例。在其他情况下,以框图形式示出公知的结构和设备,以避免不必要地模糊这里给出的本专利技术的实施例。接收对数字图像的请求将参考图1来描述本专利技术的实施例,图1是示出根据本专利技术实施例执行搜索的高级别功能步骤的流程图。在步骤110中,接收对数字图像的请求。步骤110的请求标识了由定界字符(例如空格)分隔开的一个或多个字符串。该请求所标识的每个字符串在本领域中可被称为“关键字”。不要求关键字本身是认可的单词,因为请求所标识的字符串可对应于任何可能的字符串。例如,“beach”、“kittens”、“T220”和“e$r&u6”都是可能的关键字,虽然只有“beach”和“kittens”是正式认可的单词。步骤110的请求可在多种不同的情境中由多种不同的当事人接收。为了举例说明步骤Iio的请求的接收者的宽广范围,将参考图2来论述步骤110的请求,图2是根据本专利技术实施例的示例性系统200的框图。在一实施例中,客户端21本文档来自技高网
...

【技术保护点】
1.一种方法,包括:接收对数字图像的请求,其中所述请求标识出一个或多个关键字;选择带注释数字图像集合,其中所述带注释数字图像集合的每个成员具有与之相关联的有界区域,每个有界区域被赋予了与所述一个或多个关键字中的至少一个相关联的注释,并且每个有界区域标识出与所述有界区域相关联的带注释数字图像的外观的一部分;对于所述带注释数字图像集合的每个带注释数字图像,从数字图像的集合中选择候选数字图像集合,其中特定候选数字图像集合中的数字图像是基于所述特定候选数字图像集合的成员和所述带注释数字图像集合的与所述特定候选数字图像集合相关联的特定带注释数字图像所共有的视觉特性而被选择来包括在所述特定候选数字图像集合中的;把针对所述带注释数字图像集合的所述每个带注释数字图像的候选数字图像集合聚集到单个数字图像集合中;以及生成对所述请求的响应,其中所述响应标识出预定数目的响应数字图像,其中所述响应数字图像是所述单个数字图像集合中对所述请求的响应度最高的数字图像。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:鲁洛夫·范兹沃尔
申请(专利权)人:雅虎公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1