当前位置: 首页 > 专利查询>微软公司专利>正文

用于基于客户机的WEB蠕动的系统和方法技术方案

技术编号:2864423 阅读:139 留言:0更新日期:2012-04-11 18:40
一种数据分析系统,其特征在于包括:    第一部件,用于促进生成与经由通信系统而获得的web网页信息有关的第一数据集;以及,    第二部件,用于协调来自与该通信系统交互作用的至少一个分布式资源的与web网页信息相关的数据集;该第二数据集被用来提炼该第一数据集。

【技术实现步骤摘要】

本专利技术一般涉及数据分析,更具体地说,涉及用于利用分布式web爬虫(crawler)来从联网系统获得信息的系统和方法。
技术介绍
计算机和联网技术从高成本、低性能的数据处理系统发展为低成本、高性能的通信、问题求解和娱乐系统,这提供了一种有成本效益并节省时间的方法,可减轻执行诸如通信联系、帐单支付、购物、预算和信息搜集等日常任务的负担。例如,经由有线或无线技术而与因特网接口的计算机系统可以为用户提供通道,用于对来自位于全世界的web站点和服务器的仓库的大量信息进行几乎瞬间的访问,而这只运作于该用户的指尖。通常,经由在web客户机(例如,计算机)上执行的web浏览器,来访问经由web站点和服务器可获得的信息。例如,通过将web站点“统一资源定位器”(URL)(例如,web地址和/或因特网地址)输入web浏览器的地址栏,并且通过按压键盘上的回车键或利用鼠标来单击“进行(go)”按钮,web用户可以部署web浏览器并访问web站点。该URL通常包括促进访问的四个信息指出关于信息交换的一套规则和标准的协议(供计算机彼此通信的语言)、到该web站点的位置、维持该web站点的组织的名称和识别组织类型的后缀(例如,com、org、net、gov和edu)。在一些实例中,用户先验地知道站点或服务器的名称,以及/或者到用户希望访问的站点或服务器的URL。在这类情况中,如上所述,通过在地址栏中输入URL并连接到该站点,用户可以访问站点。但是,在大多数实例中,用户不知道URL或站点名。用户而是使用搜索引擎,以促进根据用户所提供的关键字来定位站点。一般而言,该搜索引擎由可执行应用程序或程序组成,这些可执行应用程序或程序在web站点和服务器的内容中搜索关键字,并将链接清单返回到在那里发现这些关键字的web站点和服务器。基本上,该搜索引擎并入web“爬虫”(aka,“蜘蛛”或“机器人”),该web“爬虫”检索与其关联的URL一样尽可能多的文档。然后,存储该信息,以便索引器可以处理被检索的数据。该索引器读取这些文档,并根据每个文档中所包含的这些关键字和该文档的其他属性来创建区分优先次序的索引。各自的搜索引擎通常使用专用算法来创建索引,以便为查询返回有意义的结果。这样,web爬虫对于搜索引擎的操作而言至关重要。为了提供当前和最新的搜索结果,该爬虫必须不断地搜索web,以发现新的网页、更新旧的网页信息并除去被删除的网页。在因特网上发现的网页数量庞大得无法估计。所以,要求web爬虫极端快速。由于大多数web爬虫通过轮询提供这些web网页的服务器来搜集其数据,因此,当访问特定的服务器时,爬虫也必须尽可能地谨慎。否则,该爬虫会非常迅速地吸收该服务器的所有资源,并导致该服务器关闭。通常,爬虫在访问服务器的web网页之前,向服务器识别自身,并寻求许可。这时,服务器可以拒绝对窃取该服务器的所有资源的滥用的爬虫进行访问。web网页宿主服务器通常受益于搜索引擎,因为这些搜索引擎允许用户更容易地找到其web网页。这样,只要爬虫不耗尽该服务器的所有资源,大多数服务器就欢迎爬虫,以便该服务器的内容可以被用户更好地利用。爬虫向服务器识别自身的下降趋势之一是该服务器随后会“欺骗”该爬虫。服务器通常具有它们不想向通用因特网暴露的保护区。当爬虫识别自身时,它也被告知它无法访问什么区域。如果该爬虫想要保持与那个特定服务器的工作关系,则它会遵守该服务器的要求。但是,如果服务器想要欺骗或伪装其真实的内容,则它会将该爬虫提交给模仿那个服务器的真实的URL、但包含“替换”内容的网页区。这样,通常只提供关于猫的信息的服务器可以在只有web爬虫访问的部分中设立具有关于狗的信息的其URL。实行这一点,以便当用户搜索“狗”时,搜索引擎将示出该服务器的关于猫的web网页。通常,当服务器的内容引起社会反对时,利用电子欺骗法,但该服务器希望将其内容扩散到其正常的“关键字”以外。利用这种方式,可以通过使用诸如花、狗、猫、天气等普通的词,在搜索引擎清单中返回引起反对的材料。电子欺骗法降低了利用该被欺骗的web爬虫数据的搜索引擎的准确度和信誉。专利技术概述为了提供对本专利技术的一些方面的基本理解,下文呈现了本专利技术的简化的概述。此概述不是本专利技术的广泛纵览。它并不意在识别本专利技术的关键/紧要的元件或勾画出本专利技术的范围。它唯一的目的是用简化的形式来呈现本专利技术的一些概念,作为以后提出的更加详细的说明的序言。本专利技术一般涉及数据分析,更具体地说,涉及用于利用分布式web爬虫来从联网系统获得信息的系统和方法。利用服务器的客户机的分布式性质来提供快速、正确的web蠕动(crawling)数据。将服务器的web爬虫所搜集的信息与该服务器的客户机所检索的数据进行比较,以更新该爬虫的数据。在本专利技术的一个实例中,通过利用经由搜索引擎结果网页而传播的信息,来实现数据比较。在本专利技术的另一个实例中,由概括web爬虫数据的客户机词典(从服务器发出)来实现数据证实。在本专利技术的一个方面中,来自弱指示器函数集的“弱指示器”函数被随机地发送到客户机。这些弱指示器函数比服务器的web爬虫发现的所有URL的总清单小得多,从而极大地减少了服务器-客户机通信量。这促进了对服务器-客户机接口的简化,同时保持了web爬虫的数据的最佳准确度。本专利技术通过提供用于抵抗web爬虫的电子欺骗法的方法来提高数据准确度,还可促进数据分析。使用本专利技术的服务器通过将其web爬虫数据与客户机所提供的数据进行比较,可以抵抗电子欺骗法。这允许该服务器从其搜索引擎中排除被欺骗的数据,从而可获得更高质量的搜索引擎结果。这个性能促进过滤出通常在无害搜索期间不被返回的引起反对的材料,从而提供了关于该搜索引擎的客户机的更具用户友好性的体验。为了实现前述目标和有关的目标,这里连同下文和附图来描述本专利技术的某些说明性方面。但是,这些方面只表现出可以使用本专利技术的原理的各种方法中的一些方法,并且,本专利技术意在包括所有这类方面及其相等物。通过本专利技术的以下的详细说明并结合这些附图,本专利技术的其他优点和新颖的特点可以变得一目了然。附图简述附图说明图1是根据本专利技术的某个方面的数据分析系统的框图。图2是根据本专利技术的某个方面的数据分析系统的另一幅框图。图3是根据本专利技术的某个方面的数据分析系统的另一幅框图。图4是根据本专利技术的某个方面的数据分析系统的又一幅框图。图5根据本专利技术的某个方面的、利用搜索网页结果的数据分析系统的插图。图6是根据本专利技术的某个方面的、涉及web爬虫系统的电子欺骗过程的框图。图7是根据本专利技术的某个方面的、涉及web爬虫系统的反电子欺骗过程的框图。图8是根据本专利技术的某个方面的基于客户机的web蠕动的方法的流程图。图9是根据本专利技术的某个方面的基于客户机的web蠕动的方法的另一幅流程图。图10是根据本专利技术的某个方面的基于客户机的web蠕动的方法的另一幅流程图。图11是根据本专利技术的某个方面的基于客户机的web蠕动的方法的另一幅流程图。图12是根据本专利技术的某个方面的、用于为基于客户机的web蠕动生成弱指示器函数的适当集合的方法的流程图。图13展示了本专利技术可以在其中运作的范例操作环境。图14展示了本专利技术可以在其中运作的另一个范例操作环境。专利技术详述现在参照这些附图(其中,各处使用相似的参考数字来本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:E·D·布里尔C·A·米克
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1