网络蜘蛛垂直数据收集方法技术

技术编号：8326045 阅读：271 留言：0更新日期：2013-02-14 09:03

本发明专利技术公开了一种网络蜘蛛垂直数据收集方法，包括以下步骤：1）在客户端上建立URL类库和Page类库；2）将客户端进程与服务端进程建立连接；3）客户端上构造请求消息体并发送给服务端；4）客户端获取网页头信息和网页体信息；5）客户端解析网页头信息，保存符合要求的网页体信息，完成网页数据收集。本发明专利技术的网络蜘蛛垂直数据收集方法，能够为用户提供更加准确的信息，更好的满足用户的检索要求，且算法准确、稳定、不会引起本地资源耗尽，具有良好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息分析抓取
，具体涉及一种。
技术介绍
目前，随着网络信息的迅速膨胀，互联网的信息量越来越大，现在有的搜索引擎如Google、百度等，搜狗等都是面向所有的用户免费开放的，都力争在搜索返回结果上做到全面，但是上述搜索引擎并不是专门为搜索特定领域资料而设计的，然而人们往往需要借助搜索引擎来帮助他们在大量信息中寻找指定领域的资料，比如求职者在百度中搜索“苏州旅游”，会有部分的旅游信息，但是结果中很多旅游信息都已经过期，有的甚至是一年前甚至更久的职位信息，对于旅游信息这样的时效性非常高的信息，百度这样的搜索引擎明显不能满足用户需求。还有开发网页搜索的产生背景是因为互联网上的网页太多，用户无法找到自己想要的网页，存在两个问题，第一用户从开放式的网页搜索中想要找到自己想要的某一个特定领域的信息时，需要花费大量的时间，例如，对于求职而言，如果用户在google中输入Java开发”，得到的结果都是讲java开发技巧的，要想看到关于“java开发”的职位，需要用不断的翻页；垂直搜索产生的第二个原因是，领域性网站数量的日益增多，拿招聘来说，现在国内的招聘网站可...

【技术保护点】
一种网络蜘蛛垂直数据收集方法，其特征在在于：包括以下步骤：步骤（1）在客户端上建立URL类库和Page类库？URL类库用于组成消息体，并将消息体发送给Web服务器，Page类库用于解析网页头信息、提取链接信息的Page类；步骤（2）将客户端进程与服务端进程建立连接采用非阻塞方式建立客户端进程与服务端进程的连接；步骤（3）客户端上构造请求消息体并发送给服务端？；步骤（4）客户端获取网页头信息和网页体信息服务端接受客户端上构造请求消息体后，返回网页头信息和网页体信息；步骤（5）客户端解析网页头信息，保存符合要求的网页体信息，完成网页数据收集。

【技术特征摘要】
1.一种网络蜘蛛垂直数据收集方法，其特征在在于包括以下步骤步骤(I)在客户端上建立URL类库和Page类库URL类库用于组成消息体，并将消息体发送给Web服务器，Page类库用于解析网页头信息、提取链接信息的Page类；步骤(2)将客户端进程与服务端进程建立连接采用非阻塞方式建立客户端进程与服务端进程的连接；步骤(3)客户端上构造请求消息体并发送给服务端；步骤(4)客户端获取网页头信息和网页体信息服务端接受客户端上构造请求消息体后，返回网页头信息和网页体信息；步骤(5)客户端解析网页头信息，保存符合要求的网页体信息，完成网页数据收集。2.根据权利要求I所述的网络蜘蛛垂直数据收集方法，其特征在在于步骤(4)所述网页头信息包括文件类型、大小、最后修改时间内容，所述网页体信息包括网页全文内容。3.根据权利要求I所述的网络蜘蛛垂直数据收集方法，其特征在在于步骤(5)所述客户端解析网页头信息的方法为，(1)解析网页头信息的返回码，判断服务器是否对步骤(3)的构造请求消息体转向，若转向，则重新构造消息体，并通过客户端发送请求；(2)解析网页头信息的传输类型及网页体信息的大小，客户...

【专利技术属性】
技术研发人员：丁国平，
申请(专利权)人：昆山鼎胜数据服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人