The invention discloses a web page crawling method and device, which comprises the following steps: configuring a crawling task and a crawling strategy; the crawling task includes a target website, the crawling strategy includes a URL restriction strategy; generating a crawling list according to the target website; and crawling the target website in turn in the crawling list. A web page obtains a web link in the web page, filters the web link according to the URL restriction policy to filter out invalid links in the web link, and adds the filtered remaining web link to the crawling list as a link to the target web site for subsequent crawling. Thus, by controlling the outside chain of crawling, the relevant websites are effectively filtered, the crawling data of websites are reduced, and the crawling of useful information is positioned to a greater extent. The crawling efficiency is improved, the useless impurity data is reduced, the storage space requirement is reduced, and the bandwidth occupancy is greatly reduced.
【技术实现步骤摘要】
网页爬取方法和装置
本专利技术涉及互联网
,尤其涉及一种网页爬取方法和装置。
技术介绍
随着网络信息技术的迅猛发展,网站上的大数据正呈指数级形式飞速增长,网页已经成为海量信息的载体。现有技术中,通常采用网络爬虫来抓取网站数据的方式来采集网页中的信息。传统的网页爬取方案抓取网站数据时,采用全部爬取方式,爬取的杂质数据通常是有效数据的十倍以上,既大大增加了对存储空间的要求,也为用户后期数据提取增加了难度。特别是网页中包含大量与主题无关的网站链接,对网页中所有的网站链接进行爬取时,既抓取了大量无用的杂质数据,又占用了大量的带宽资源,因此对带宽要求较高。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种网页爬取方法和装置,以解决传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。本专利技术解决上述技术问题所采用的技术方案如下:根据本专利技术的一个方面,提供的一种网页爬取方法,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。可选地,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。可选地,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。可选 ...
【技术保护点】
1.一种网页爬取方法,其特征在于,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。
【技术特征摘要】
1.一种网页爬取方法,其特征在于,包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。2.根据权利要求1所述的网页爬取方法,其特征在于,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。3.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。4.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括数量限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。5.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。6.根据权利要求1-5任一项所述的网页爬取方法,其特征在于,所述依次爬取所述爬取列表中目标网站的网页包括:抓取所述目标网站的网页信息;根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。7.根据权利要求6所述的网页爬取方法,其特征在于,所述解析插件为通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。8.一种网页爬取装置,其特征...
【专利技术属性】
技术研发人员:单长美,李玲,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。