【技术实现步骤摘要】
数据爬取方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据爬取方法及装置。
技术介绍
爬虫是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫通过下载指定网站的所有链接来获取开发者想要获取的信息。爬虫在爬取网页时,首先需要具备一个指定的网址种子表,该表中记录着每一个需要爬取的网站入口地址,以及一些爬取行为的配置信息,如爬取深度,模拟请求的元信息等。然后将网址种子表定时注入到爬虫系统中,使得爬虫系统将网址种子表中的爬取任务分配给各个爬虫程序。其中,对于爬虫爬取的网页中不包含具体内容的网页为列表页;包含具体内容的网页为文章页。目前,爬虫程序在爬取列表页后,会向广播服务器发送其爬取的列表页信息,广播服务器在接收到爬取的列表页信息后,将爬取的列表页信息转发给其他爬虫程序,以减少爬虫程序重复爬取列表页的情况。然而,由于广播服务器发送信息的延迟,将会导致其他爬虫程序对已爬取过的列表页进行重复爬取,因此现有的数据爬取方法的爬取重复率较 ...
【技术保护点】
一种数据爬取方法,其特征在于,包括:接收爬虫程序发送的页面爬取请求信息,所述页面爬取请求信息中包括列表页链接;判断缓存队列中是否存在所述列表页链接,所述缓存队列中存储有爬虫程序已经爬取过的列表页链接;若所述缓存队列中不存在所述列表页链接,则向所述爬虫程序发送所述页面爬取请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行爬取。
【技术特征摘要】
1.一种数据爬取方法,其特征在于,包括:接收爬虫程序发送的页面爬取请求信息,所述页面爬取请求信息中包括列表页链接;判断缓存队列中是否存在所述列表页链接,所述缓存队列中存储有爬虫程序已经爬取过的列表页链接;若所述缓存队列中不存在所述列表页链接,则向所述爬虫程序发送所述页面爬取请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行爬取。2.根据权利要求1所述的方法,其特征在于,所述页面爬取请求信息中还包括与所述列表页链接对应的爬取间隔时间、剩余爬取层级,在所述缓存队列中不存在所述列表页链接之后,所述方法还包括:将所述页面爬取请求信息中的列表页链接,及与所述列表页链接对应的缓存时间、爬取间隔时间、剩余爬取层级对应存储到所述缓存队列中。3.根据权利要求2所述的方法,其特征在于,所述判断缓存队列中是否存在所述列表页链接之后,所述方法还包括:若所述缓存队列中存在所述列表页链接,则判断缓存队列中与所述列表页链接对应链接的缓存时间及爬取间隔时间的和,是否早于当前时间;若所述对应链接的缓存时间及爬取间隔时间的和早于当前时间,则向所述爬虫程序发送所述页面爬取请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行爬取。4.根据权利要求3所述的方法,其特征在于,所述判断缓存队列中与所述列表页链接对应链接的缓存时间及爬取间隔时间的和,是否早于当前时间之后,所述方法还包括:若所述对应链接的缓存时间及爬取间隔时间的和晚于当前时间,则判断所述列表页链接的剩余爬取层级是否大于缓存队列中对应链接的剩余爬取层级;若大于缓存队列中对应链接的剩余爬取层级,则向所述爬虫程序发送所述页面爬取请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行爬取;若小于等于缓存队列中对应链接的剩余爬取层级,则向所述爬虫程序发送所述页面爬取请求的取消信息,以使得所述爬虫程序取消对所述列表页链接的爬取任务。5.根据权利要求3或4所述的方法,其特征在于,若所述对应链接的缓存时间及爬取间隔时间的和早于当前时间,或所述列表页链接的剩余爬取层级...
【专利技术属性】
技术研发人员:李可欣,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。