当前位置: 首页 > 专利查询>谷歌公司专利>正文

共同选择图像分类制造技术

技术编号:7448539 阅读:420 留言:0更新日期:2012-06-21 12:48
基于主题分值来为共同选择图像加标签,该主题分值是共同选择图像与引用图像属于的第一主题的相关性的度量。基于与引用图像相关联的引用标签来识别引用图像属于的第一主题。共同选择图像是在用户会话期间继对引用图像的选择之后被选择用于展现的图像。基于关于用户会话的选择数据来识别共同选择图像,在所述用户会话中引用图像被选择用于展现。基于共同选择图像的选择的频率来生成主题分值。可以对关于第二主题的图像搜索结果进行过滤以移除被加标签为属于第一主题的图像,或可以对图像搜索结果重新排序以基于图像属于的主题来调整图像被引用的展现位置。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及数据处理,具体地涉及图像分类。
技术介绍
用户可以通过将搜索查询提交给搜索引擎来定位在因特网上可获得的图像。搜索查询可以是文本查询,其包括描述用户正试图定位的图像主题的词。搜索系统识别对应于该主题的图像,并且提供包括对所识别的图像的引用的图像搜索结果。图像可以例如基于与图像相关联的标签和/或在图像与其一起展现的网页上的图像附近出现的文本来识别。所识别的图像可以是例如与网页一起展现的图像。许多不同类别的网页可以包括响应于搜索查询而识别的图像。例如,图像与可以由许多不同个体发布的网页一起提供,所述网页诸如网络博客(“博客”)、社交网络页面以及新闻组。在单个域(例如,www. example, com)内,可能存在数千网页,其中的许多具有不同的单独作者。由于大量不同作者创建位于同一域中的网页,可能困难的是,将通过该域提供的图像分类为属于共同主题。例如,在单个博客域内,用户可能发布针对范围从运动到政治、 养育建议或甚至露骨(例如,色情)主题的主题的博客。因此,如果通过共同域可获得的每一个图像被分类为属于共同主题,则图像可能没有被准确分类。与图像相关联的标签和/或在图像附近出现的文本可能不准确地描述图像的主题或在不同主题之间是有歧义的。例如,在博客中出现的贝比鲁斯的图像可以与文本“贝比”相关联。虽然该文本与图像有关,但是可能的是,图像可能是贝比鲁斯、扮演贝比鲁斯的演员、在名为“贝比”的电影中主演的小猪的,或甚至露骨图像。提供与用户查询的主题较不相关的图像可能减少图像搜索结果的质量。当包括露骨内容(例如,色情描绘)的图像在对未针对该露骨内容的查询作出响应的搜索结果中被引用时,这尤其如此。例如,对正搜索贝比鲁斯的图像的用户而言,包括露骨图像的响应于对“贝比电影”的搜索查询的搜索结果可能显著降低搜索结果的质量。当图像被准确分类,使得与用户查询不相关的图像可以被过滤或抑制时,可以提高图像搜索结果的质量。
技术实现思路
图像分类系统对图像选择数据进行分析以基于先前选择的图像属于的主题来对图像分类并且加标签(to label)。然后可以使用这些标签来过滤图像搜索结果,以移除对与除搜索查询针对的主题外的主题更相关的图像的引用。另外,可以使用标签来过滤针对主题(例如,露骨内容)的所有图像,除非用户选择使对这些图像的引用展现。还可以使用标签来基于图像属于的主题来调整图像在图像搜索结果中引用的展现位置。总的来说,在本说明书中描述的主题的一个方面可以在包括以下动作的方法中实现为引用图像获取引用标签,引用标签是指定引用图像属于的第一主题的标签;在数据处理系统中识别在其期间引用图像被选择用于展现的用户会话,每一个用户会话是图像的选择被关联成会话集的时段;在数据处理系统中为引用图像识别在用户会话期间被选择用于展现的共同选择图像,共同选择图像是继对引用图像的选择之后被选择的图像;对于每一个共同选择图像,在数据处理系统中,基于对关于引用图像的共同选择图像的选择的频率来生成主题分值,主题分值表示共同选择图像与第一主题的相关性的度量;以及将具有满足阈值主题分值的主题分值的共同选择图像加标签为属于第一主题。本方面的这个和其他实施例包括对应的系统、装置和计算机程序产品。 这些和其他实施例可以可选地包括以下特征中的一个或多个。该方法可以进一步包括以下动作为用户会话识别对引用图像的第一选择时间;识别对在用户会话期间选择的共同选择图像的随后选择时间;以及仅将具有在相对于第一选择时间的阈值时间段内的随后选择时间的图像识别为共同选择图像,其中用户会话具有会话时间段,以及阈值时间段小于会话时间段。 主题分值可以通过为共同选择图像获取初始主题分值来生成,每一个初始主题分值是图像与第一主题的初始相关性度量;为共同选择图像获取共同选择数据,共同选择数据指定相对于对引用图像或其他共同选择图像的选择的对共同选择图像的选择;基于初始主题分值和共同选择数据的函数来为共同选择图像计算更新的主题分值;确定是否已发生停止条件;当尚未发生停止条件时,基于共同选择数据和先前计算的更新的主题分值来计算另外的更新的主题分值;当已发生停止条件时,基于更新的主题分值来对共同选择图像进行分类;以及其中加标签基于更新的主题分值。本专利技术的特定实施例可以被实现,以实现以下优势中的一个或多个。基于相对于引用主题的引用图像的共同选择数据,可以将未分类的图像属于的主题识别为属于引用主题。可以将被识别为属于引用主题的图像从图像搜索结果过滤出。相对于没有被识别为属于引用主题的图像,属于引用主题的图像可以被选择用于在图像搜索结果中的更高或更低展现位置处展现。基于相对于引用主题的引用图像的共同选择数据,可以用对应于引用主题的标签为图像加标签。基于在对具有为色情的较高可能性的图像的选择之后的对图像的随后选择,可以将图像识别并加标签为色情图像。图像语料库中的每一个图像可以基于其相对于引用主题的引用图像的选择的选择来被分类。在附图和下面的描述中阐述了本专利技术的一个或多个实施例的细节。本专利技术的其他特征、方面和优势从描述、附图和权利要求将变得显而易见。附图说明图1是在其中搜索系统提供搜索服务的示例环境的框图。图2是用于将图像分类到主题的示例过程的流程图。图3是在其中生成并索引用户会话数据的示例环境。图4是使用选择数据来生成的加权图的图示。图5是用于生成加权图的示例过程的流程图。图6A是其中可以存储并跟踪图像集的主题分值的示例表。图6B是其中可以存储定义共同选择矩阵的共同选择数据的示例表。图7A-7D是在迭代的主题分值生成过程的不同点处的示例加权图。图8是用于迭代地生成主题分值的示例过程。各附图中相同的参考数字和标记指示相同的元素。具体实施例方式图像分类系统对图像选择数据进行分析以基于先前选择的图像属于的主题来对图像分类并且加标签。然后可以使用这些标签来过滤图像搜索结果,以移除对与除搜索查询针对的主题外的主题更相关的图像的引用。另外,可以使用标签来过滤针对主题(例如, 露骨内容)的所有图像,除非用户选择使对这些图像的引用展现。在下面描述了在其中提供搜索服务的在线环境。关于该在线环境,将基于选择数据来为图像加标签的图像分类系统描述为搜索系统的子系统。然而,图像分类子系统可以独立于图像搜索系统实现。图1是在其中搜索系统110提供搜索服务的示例环境100的框图。示例环境100 包括网络,诸如局域网(LAN)、广域网(WAN)、因特网或其组合,其连接网站104、用户设备 106和搜索系统110。在线环境100可以包括成千上万的网站104和用户设备106。网站104是与域名相关联并且由一个或多个服务器托管的一个或多个资源。示例网站是以超文本标记语言(HTML)格式化的网页集合,其可以包含文本、图像、多媒体内容和例如脚本的编程元素。每一个网站104由发布者维护,所述发布者例如管理和/或拥有该网站的实体。资源是可以由网站104通过网络102提供并且与资源地址相关联的任何数据。资源包括HTML页面、字处理文档以及可移植文档格式(PDF)文档、图像、视频以及馈给源,仅列出一些。资源可以包括内容,例如字、短语、图像和声音,以及可以包括嵌入式信息(诸如元信息和超链接)和/或嵌入式指令(诸如JavMcript脚本)。每一个资源具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:景宇石布恩洛克·约张勇李光华李钢江李珲
申请(专利权)人:谷歌公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术