适于URL数据抓取中对数据缓存的方法及装置制造方法及图纸

技术编号:13671944 阅读:32 留言:0更新日期:2016-09-07 19:58
本发明专利技术公开了一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。采用本发明专利技术能够以空间换时间,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。

【技术实现步骤摘要】
本申请为申请号为201310293574.8、申请日为2013年7月12日、专利技术名称为“适于URL数据抓取中对数据缓存的方法及装置”的专利技术申请的分案申请。
本专利技术涉及互联网领域,具体涉及一种适于URL数据抓取中对数据缓存的方法及装置。
技术介绍
在网页抓取系统中,对于大多数网页的抓取都有周期性参数设置,比如至少间隔若干时间,才考虑更新性抓取。过于频繁的抓取易导致抓取资源的浪费,对目标网站也带来不必要的压力。由于一般存储器的空间有限,为了处理这种源源不断的数据流,直接的思路就是设定一个时间窗口,将时间窗口之前的数据清理掉,腾出空间接纳即将到来的新数据。但是,一次性清空时间窗口之前的所有数据,数据本身会产生很大的波动,容易对于业务产生较大的影响。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的适于URL数据抓取中对数据缓存的方法和相应的装置。依据本专利技术的一个方面,提供了一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。可选地,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,包括:在所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。可选地,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,还包括:在所述第二Bloomfilter存储容器首次被清空后,当所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及当所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。可选地,所述预设临界值为存储容量的1/2。可选地,所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量根据抓取URL数据的周期变化进行调节。依据本专利技术的另一个方面,提供了一种适于URL数据抓取中对数据缓存的装置,包括:数据抓取器,配置为周期性抓取URL数据;第一布隆过滤器Bloomfilter存储容器,配置为有序缓存所述数据抓取器每次抓取的URL数据;第二Bloomfilter存储容器,与所述第一Bloomfilter存储容器容量相同,配置为与所述第一Bloomfilter存储容器同步有序缓存所述数据抓取器每次抓取的URL数据;监控器,配置为在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;数据清空器,配置为根据所述监控器监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。可选地,所述数据清空器还配置为:在所述监控器监控到所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。可选地,所述数据清空器还配置为:在所述第二Bloomfilter存储容器首次被清空后,当所述监控器监控到所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及当所述监控器监控到所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。可选地,所述预设临界值为存储容量的1/2。可选地,上述装置还包括:容量调节器,配置为根据所述数据抓取器抓取URL数据的周期变化,对所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量进行调节。采用本专利技术实施例提供的方法及装置,可以达到如下有益效果:在本专利技术实施例中,URL数据是周期性抓取的,因此URL数据是呈数据流式持续存在的,因此,URL数据的总量也是流式增加。将每次抓取的URL数据均有序缓存到第一Bloomfilter存储容器和第二Bloomfilter存储容器中,两个存储容器中的数据是同步的,两个存储容器互为冗余。在存储过程中,监控第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量,根据监控结果轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器。由上述分析可知,在本专利技术实施例中,提供了第一Bloomfilter存储容器和第二Bloomfilter存储容器进行URL数据存储,而不仅仅是一个Bloomfilter存储容器。相应的,在数据删除部分,本专利技术实施例中第二Bloomfilter存储容器和第一Bloomfilter存储容器是轮流清空的,也就是说,每次清空仅会清除一部分URL数据,保留一部分URL数据,将时间顺序属性转化为空间顺序属性,清理方式简单。且本专利技术实施例并不会将所有的数据一次性清除,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的适于URL数据抓取中对数据缓存的方法的处理流程图;图2示出了根据本专利技术一个实施例的适于URL数据抓取中对数据缓存的装置的第一种结构示意图;以及图3示出了根据本专利技术一个实施例的适于URL数据抓取中对数据缓存的装置的第二种结构示意图。具体实施方式在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本专利技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本专利技术的内容,并且上面对特定语言所做的描述是为了披露本专利技术的最佳实施方式。为解决上述技术问题,本专利技术采用布隆过滤器来提供一种适于URL数据抓取中对数据缓存的专利技术构思。由于布隆过滤器的优点是空间效率和查询时间都远远超过一般的算法,而缺点是有一定的误识别率和删除困难,不适合设置时间窗口类的部分清除,一般采用的清理方式就是全部清空Bloomfilter,但是这种做法对数据本文档来自技高网...

【技术保护点】
一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。

【技术特征摘要】
1.一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。2.根据权利要求1所述的方法,其中,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,包括:在所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。3.根据权利要求2所述的方法,其中,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,还包括:在所述第二Bloomfilter存储容器首次被清空后,当所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及当所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。4.根据权利要求2或3所述的方法,其中,所述预设临界值为存储容量的1/2。5.根据权利要求1至4任一项所述的方法,其中,所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量根据抓取URL数据的周期变化进行调节。6.一种适于UR...

【专利技术属性】
技术研发人员:韩孟岗
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1