当前位置: 首页 > 专利查询>金博专利>正文

一种实现网络爬虫任务的方法技术

技术编号:8489824 阅读:201 留言:0更新日期:2013-03-28 11:40
本发明专利技术公开了一种实现网络爬虫任务的方法,1.初始给所述客户端待爬网页的链接地址;2.客户端将待爬网页的链接地址封装成任务请求发送到服务器;3.服务器向待爬取页面发送HTTP请求,并把请求到的多信息返回客户端;4.客户端接收信息,并对信息进行处理:5.重复上述过程,依次完成待爬列表中的网页爬取。本发明专利技术为爬取不同的网站内容提供了一个通用的网络爬虫框架,通过使用本方法可以快速完成编写用于爬取某个特定网站的爬虫。这种方法极大降低了开发人员的开发难度,缩短了开发周期。由于这种方法是建立在分布式网络爬虫框架的基础之上,因此爬取网站的速度也可以得到保证。本发明专利技术方法可用于医疗信息系统。

【技术实现步骤摘要】

本专利技术涉及网络爬虫
,更具体地说,涉及网络爬虫任务的实现方法,主要用于医疗信息系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件后终止运行。目前实用的网络爬虫程序通常采用分布式,分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。网络爬虫的任务分配没有固定的模式,不同的爬虫的任务分配方法也都不尽相同。任务分配的首要前提是不重复分配任务,重复的任务会影响程序的效率。当然,任务分配也必须保证不能漏掉任务。一个好的任务分配应该根据情况采取不同的分配方式,以达到最本文档来自技高网...

【技术保护点】
一种实现网络爬虫任务的方法,其特征在于,硬件部分包括互联网中的服务器和客户端,所述客户端包括解析器和执行器;所述解析器,利用正则表达式从待爬取的网站中解析出下一层待爬网页链接地址;所述执行器,用于将爬取的信息存入存储设备,以及为待爬网页链接地址设置爬取顺序的优先级;具体实现过程包括如下步骤:S1、初始给所述客户端一个或多个待爬网页的链接地址或客户端从数据库中取出一个最优待爬网页的链接地址;S2、所述客户端将待爬网页的链接地址封装成任务请求发送到所述服务器;S3、所述服务器向待爬取页面发送HTTP请求,并把请求到的多信息返回给相应的所述客户端。S4、所述客户端接收所述多信息,并对所述多信息做以下...

【技术特征摘要】

【专利技术属性】
技术研发人员:金博
申请(专利权)人:金博
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1