网页爬取方法和装置制造方法及图纸

技术编号:18940546 阅读:22 留言:0更新日期:2018-09-15 11:04
本发明专利技术公开了一种网页爬取方法和装置,所述方法包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。从而,通过对爬取到的外链进行控制,有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用。

Web crawling method and device

The invention discloses a web page crawling method and device, which comprises the following steps: configuring a crawling task and a crawling strategy; the crawling task includes a target website, the crawling strategy includes a URL restriction strategy; generating a crawling list according to the target website; and crawling the target website in turn in the crawling list. A web page obtains a web link in the web page, filters the web link according to the URL restriction policy to filter out invalid links in the web link, and adds the filtered remaining web link to the crawling list as a link to the target web site for subsequent crawling. Thus, by controlling the outside chain of crawling, the relevant websites are effectively filtered, the crawling data of websites are reduced, and the crawling of useful information is positioned to a greater extent. The crawling efficiency is improved, the useless impurity data is reduced, the storage space requirement is reduced, and the bandwidth occupancy is greatly reduced.

【技术实现步骤摘要】
网页爬取方法和装置
本专利技术涉及互联网
,尤其涉及一种网页爬取方法和装置。
技术介绍
随着网络信息技术的迅猛发展,网站上的大数据正呈指数级形式飞速增长,网页已经成为海量信息的载体。现有技术中,通常采用网络爬虫来抓取网站数据的方式来采集网页中的信息。传统的网页爬取方案抓取网站数据时,采用全部爬取方式,爬取的杂质数据通常是有效数据的十倍以上,既大大增加了对存储空间的要求,也为用户后期数据提取增加了难度。特别是网页中包含大量与主题无关的网站链接,对网页中所有的网站链接进行爬取时,既抓取了大量无用的杂质数据,又占用了大量的带宽资源,因此对带宽要求较高。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种网页爬取方法和装置,以解决传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。本专利技术解决上述技术问题所采用的技术方案如下:根据本专利技术的一个方面,提供的一种网页爬取方法,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。可选地,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。可选地,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。可选地,所述爬取策略还包括数量限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。可选地,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。可选地,所述依次爬取所述爬取列表中目标网站的网页包括:抓取所述目标网站的网页信息;根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。可选地,所述解析插件为通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。根据本专利技术的另一个方面,提供的一种网页爬取装置,所述装置包括:配置模块,用于配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;网页爬取模块,用于根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;链接过滤模块,用于根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供所述网页爬取模块后续爬取。可选地,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。可选地,所述爬取策略还包括频率限制策略,所述网页爬取模块用于:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。可选地,所述爬取策略还包括数量限制策略,所述网页爬取模块用于:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。可选地,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。可选地,所述网页爬取模块包括:抓取单元,用于抓取所述目标网站的网页信息;解析单元,根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。可选地,所述装置还包括插件开发模块,所述插件开发模块用于:接收用户对通用解析插件进行二次开发的指令,生成自定义解析插件。本专利技术实施例的网页爬取方法,通过配置URL限制策略,根据URL限制策略过滤爬取的网页中的网站链接,以滤除网站链接中的无效链接,将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用,解决了传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。同时,利用解析插件对抓取的网页信息进行去噪处理,提取出网页信息中的有效内容予以存储,从而大大降低了对存储空间的要求,并减小了杂质数据的干扰,为用户后期数据提取降低了难度。并且,允许用户对通用解析插件进行二次开发生成自定义解析插件,利用自定义解析插件解析网页信息,实现了对网站数据进行精确爬取,并满足了用户的个性化需求。附图说明图1为本专利技术第一实施例的网页爬取方法的流程图;图2为本专利技术第二实施例的网页爬取装置的模块示意图;图3为图2中的网页爬取模块的模块示意图;图4为本专利技术第三实施例的网页爬取装置的模块示意图;图5为图4中的网页爬取装置进行网页爬取时各模块的交互示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一参见图1,提出本专利技术第一实施例的网页爬取方法,所述方法包括以下步骤:S11、配置爬取任务和爬取策略,爬取任务包括目标网站,爬取策略包括URL限制策略。本步骤S11中,网页爬取装置接收用户的配置操作,对爬取任务和爬取策略进行配置。爬取任务至少包括目标网站,即接收用户对待爬取的网站入口的设置,配置出待爬取的目标网站。此外,爬取任务还可以进一步地包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种,即用户还可以配置任务每天启动时间、任务每天停止时间、任务爬取深度、任务每天循环次数、任务循环间隔时间等参数信息。爬取策略至少包括URL限制策略,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取,例如:某些URL执行一次爬取之后,后续不需要再次爬取;某些URL爬取一次之后,一段时间内不再爬取。进一步地,爬取策略还可以包括频率限制策略、数量限制策略等,其中,频率限制策略是指对网页中不同的内容设置不同的爬取频率,数量限制策略是指只爬取网页中预设数量的指定内容。S12、根据目标网站生成爬取列表。本步骤S12中,网页爬取装置首先读取用户配置的目标网站,将目标网站的URL进行合并,消除重复的URL入口;然后对合并处理后的URL进行排序,如通过域名、链接数和哈希(hash)算法综合进行降序(或升序)排列,生成爬取列表。S13、依次爬取爬取列表中目标网站的网页,获取网页中的网站链接。本步骤S13中,网页爬取装置根据爬取列表中各目标网站的URL的排列顺序,依次爬取目标网站的网页。网页爬取装置向目标网站发送请求,抓取目标网站的网页信息,该网页信息包括正文、评论、网站链接等各种网页内容,并将网页信息存储起来。网页爬取装置可配置多线程进行抓取,以提高抓取效率,对于同一域名的网站可以采取特定的爬取策略,以避开网站的防爬设计,如采取降低爬取频率、延长爬取周期、采用多台机器进行爬取等策略。进一步地,还可以预设解析插本文档来自技高网...

【技术保护点】
1.一种网页爬取方法,其特征在于,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。

【技术特征摘要】
1.一种网页爬取方法,其特征在于,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。2.根据权利要求1所述的网页爬取方法,其特征在于,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。3.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。4.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括数量限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。5.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。6.根据权利要求1-5任一项所述的网页爬取方法,其特征在于,所述依次爬取所述爬取列表中目标网站的网页包括:抓取所述目标网站的网页信息;根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。7.根据权利要求6所述的网页爬取方法,其特征在于,所述解析插件为通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。8.一种网页爬取装置,其特征...

【专利技术属性】
技术研发人员:单长美李玲
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1