用于基于客户机的WEB蠕动的系统和方法技术方案

技术编号：2864423 阅读：139 留言：0更新日期：2012-04-11 18:40

一种数据分析系统，其特征在于包括：　　　　第一部件，用于促进生成与经由通信系统而获得的ｗｅｂ网页信息有关的第一数据集；以及，　　　　第二部件，用于协调来自与该通信系统交互作用的至少一个分布式资源的与ｗｅｂ网页信息相关的数据集；该第二数据集被用来提炼该第一数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般涉及数据分析，更具体地说，涉及用于利用分布式web爬虫(crawler)来从联网系统获得信息的系统和方法。
技术介绍
计算机和联网技术从高成本、低性能的数据处理系统发展为低成本、高性能的通信、问题求解和娱乐系统，这提供了一种有成本效益并节省时间的方法，可减轻执行诸如通信联系、帐单支付、购物、预算和信息搜集等日常任务的负担。例如，经由有线或无线技术而与因特网接口的计算机系统可以为用户提供通道，用于对来自位于全世界的web站点和服务器的仓库的大量信息进行几乎瞬间的访问，而这只运作于该用户的指尖。通常，经由在web客户机(例如，计算机)上执行的web浏览器，来访问经由web站点和服务器可获得的信息。例如，通过将web站点“统一资源定位器”(URL)(例如，web地址和/或因特网地址)输入web浏览器的地址栏，并且通过按压键盘上的回车键或利用鼠标来单击“进行(go)”按钮，web用户可以部署web浏览器并访问web站点。该URL通常包括促进访问的四个信息指出关于信息交换的一套规则和标准的协议(供计算机彼此通信的语言)、到该web站点的位置、维持该web站点的组织的名称和识别组织类型的后缀(例如，com、org、net、gov和edu)。在一些实例中，用户先验地知道站点或服务器的名称，以及/或者到用户希望访问的站点或服务器的URL。在这类情况中，如上所述，通过在地址栏中输入URL并连接到该站点，用户可以访问站点。但是，在大多数实例中，用户不知道URL或站点名。用户而是使用搜索引擎，以促进根据用户所提供的关键字来定位站点。一般而言，该搜索引擎由可执行应...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：E·D·布里尔，C·A·米克，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人