【技术实现步骤摘要】
本专利技术涉及网络爬虫
,更具体地说,涉及网络爬虫任务的实现方法,主要用于医疗信息系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件后终止运行。目前实用的网络爬虫程序通常采用分布式,分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。网络爬虫的任务分配没有固定的模式,不同的爬虫的任务分配方法也都不尽相同。任务分配的首要前提是不重复分配任务,重复的任务会影响程序的效率。当然,任务分配也必须保证不能漏掉任务。一个好的任务分配应该根据情况采取不同 ...
【技术保护点】
一种实现网络爬虫任务的方法,其特征在于,硬件部分包括互联网中的服务器和客户端,所述客户端包括解析器和执行器;所述解析器,利用正则表达式从待爬取的网站中解析出下一层待爬网页链接地址;所述执行器,用于将爬取的信息存入存储设备,以及为待爬网页链接地址设置爬取顺序的优先级;具体实现过程包括如下步骤:S1、初始给所述客户端一个或多个待爬网页的链接地址或客户端从数据库中取出一个最优待爬网页的链接地址;S2、所述客户端将待爬网页的链接地址封装成任务请求发送到所述服务器;S3、所述服务器向待爬取页面发送HTTP请求,并把请求到的多信息返回给相应的所述客户端。S4、所述客户端接收所述多信息, ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。