当前位置: 首页 > 专利查询>南京大学专利>正文

一种有效链接获取的网页增量抓取方法技术

技术编号:11766418 阅读:184 留言:0更新日期:2015-07-23 18:18
有效链接获取的网页增量抓取方法,包括如下步骤:1)有效链接获取阶段:a.初始化抓取网页链接,指定抓取入口URL;b.判断入口网页链接是否具有分页;c.计算入口网页与其分页的公共链接;d.通过公共链接获取有效链接;e.结束;2)增量抓取阶段:a.构建布隆过滤器,并通过布隆过滤器判断步骤1)-d中有效网页链接是否已经抓取;b.通过HTTP请求抓取未抓取的网页;c.结束;本发明专利技术采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。通过过滤无效链接,避免无效网页的抓取。

【技术实现步骤摘要】

:本专利技术涉及一种基于无效链接过滤的有效网页链接获取方法,以及对获取的有效网页链接增量抓取的技术。
技术介绍
:互联网技术的高速发展以及智能移动终端的迅速普及,使得信息呈现爆炸式的增长,也给快速、高效的从互联网中抓取所需信息带来新的挑战。传统网页信息抓取通常采用深度或广度遍历的抓取方式,从指定的网页链接开始逐层信息抓取,并提取每层中的URL链接作为下一层抓取的起始链接。由于网页中链接并非都指向有用的信息,如网页中的菜单、广告、页脚等,如果不能有效的过滤无效链接将抓取大量的无效信息,降低网页抓取的准确性和效率。同时,无效链接间的相互指向将导致抓取过程陷于无限循环。由于互联网中信息更新速度快,网页信息需要定时重新抓取。在重新抓取过程中需要快速判断链接是否已经抓取,避免重复网页信息抓取。网页URL具有唯一性,在抓取过程中维持一个已抓取网页URL集合,重新抓取时判断待抓取网页URL是否在该集合中便可判断该网页信息是否已经抓取。随着抓取数量增大,判断URL是否在已抓取URL集合将严重影响效率。本专利技术实现了一种网页中无效链接过滤来获取网页中有效链接集合,并通过将网页URL随机哈希到布隆过滤器位图集合中来实现已抓取网页URL快速、高效的判断,从而增量抓取网页信息。
技术实现思路
:本专利技术要解决的技术问题是,实现网页中有效链接获取,并同过布隆过滤器维持已抓取链接集合,以高效、实时的增量抓取网页信息。针对上述技术问题,本专利技术的技术方案是,有效链接获取的网页增量抓取方法,包括如下步骤:I)有效链接获取阶段:a初始化抓取网页链接,指定抓取入口 URL ;b判断入口网页链接是否具有分页;c计算入口网页与其分页的公共链接;d通过公共链接获取有效链接;e 结束。2)增量抓取阶段:a构建布隆过滤器,并通过布隆过滤器判断步骤l)_d中有效网页链接是否已经抓取;b通过HTTP请求抓取未抓取的网页;c 结束。步骤I) -a中抓入口 URL是指抓取程序以此URL开始逐层抓取。步骤l)-b中分页是指在网页中由于信息太多采用分页形式显示,每一页显示一部分信息。分页的具体判断方法如下:I)获取入口 URL页面中所有的链接,保存集合PageAllUrl中;2)通过匹配PageAllUrl中每个URL链接文本中是否为“下一页”或“下页”等分页标志来判断是否有分页。步骤l)-c中公共链接是指入口 URL页面与其分页网页中相同的URL,其具体计算方法如下:I)获取入口 URL分页网页中所有的链接,保存集合NextPageAllUrl中;2)比较集合PageAl IUrl和集合NextPageAl IUrl,找出它们相同的URL并保存在集合 CommonUrl 中,即公共链接集合 CommonUrl = PageAllUrl Π NextPageAllUrl。步骤l)-d中有效链接是指非菜单、导航、广告等无效链接,其具体方法如下:I)在步骤l)-b中判断入口 URL是否具有分页,如有执行2),否则执行3);2)从集合PageAllUrl中链接去掉集合CommonUrl中链接,并将结果保存在集合EffectiveUrl 中,即有效链接集合 EffectiveUrl = PageAlIUrl-CommonUrl ;3)分析入口 URL链接,获取其主机域名HostUrl ;4)判断集合PageAllUrl是否为空,如果不为空则执行5),否则执行8);5)从集合 PageAllUrl 中取出一个 Url ;6)判断Url是否是入口 URL的前缀,如果是则执行7),否则执行4);7)将Url加入有效链接集合EffectiveUrl中,执行4);8)结束。步骤2)_a和2)_b中构建布隆过滤器是指设定布隆过滤器的大小、误判率以及随机哈希函数。本专利技术设置其大小为90000000,误判率为0.000001,随机哈希函数为MD5Hash。其判断方法具体如下:I)初始化布隆过滤器BloomFilter ;2)判断集合EffectiveUrl是否为空,如果不为空则执行3),否则执行7);3)从集合 EffectiveUrl 中取出一个 Url ;4)判断Url是否在BloomFilter中,如果在则执行2),否则执行5);5)通过HTTP请求抓取Url链接的网页信息;6)将 Url 保存到 BloomFilter 中,执行 2);7)结束。本专利技术的有益效果:本专利技术有效链接获取的网页增量抓取方法,采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。本专利技术通过过滤无效链接,避免无效网页的抓取,提高抓取效率的同时也增加抓取信息的准备率。此外,本专利技术采用增量抓取策略不但避免重复抓取,而且大幅提尚网页抓取频率。【附图说明】:图1为本专利技术的流程图。图2为有效链接获取阶段的流程图。图3为增量抓取阶段的结构图。【具体实施方式】:为了更好的了解本专利技术的
技术实现思路
,下面结合附图对本专利技术进行详细说明。图1是本专利技术实施例的用于有效链接获取的增量网页抓取方法的流程图,其包括两个阶段:有效链接获取阶段和增量抓取阶段。步骤O为本专利技术的起始状态;在有效链接获取阶段(步骤1-4),步骤I是初始化抓取入口 URL链接,抓取程序从此逐层抓取;步骤2通过匹配中入口 URL网页中每个URL链接文本中是否为“下一页”或“下页”等分页标志判断其是否有分页;步骤3通过比较入口 URL网页中链接和其分页网页中链接,找出其公共链接;步骤4将入口 URL网页以及其分页网页中链接去掉步骤3中获取的公共链接,获取有效链接。在增量抓取阶段(步骤5、6),步骤5使用布隆过滤器维持已抓取链接集合,并通过随机哈希快速判断链接所指向网页是否已抓取;步骤6通过当前第1页1 2 本文档来自技高网
...
一种有效链接获取的网页增量抓取方法

【技术保护点】
有效链接获取的网页增量抓取方法,其特征是包括如下步骤:1)有效链接获取阶段:a初始化抓取网页链接,指定抓取入口URL;b判断入口网页链接是否具有分页;c计算入口网页与其分页的公共链接;d通过公共链接获取有效链接;e结束;2)增量抓取阶段:a构建布隆过滤器,并通过布隆过滤器判断步骤1)‑d中有效网页链接是否已经抓取;b通过HTTP请求抓取未抓取的网页;c结束;步骤1)‑a中抓取入口URL是指抓取程序以此URL开始逐层抓取;步骤1)‑b中分页是指在网页中由于信息太多采用分页形式显示,每一页显示一部分信息;分页的具体判断方法如下:   1)获取入口URL页面中所有的链接,保存集合PageAllUrl中;   2)通过匹配PageAllUrl中每个URL链接文本中是否为“下一页”或“下页”等分页标志来判断是否有分页;步骤1)‑c中公共链接是指入口URL页面与其分页网页中相同的URL,其具体计算方法如下:   1)获取入口URL分页网页中所有的链接,保存集合NextPageAllUrl中;   2)比较集合PageAllUrl和集合NextPageAllUrl,找出它们相同的URL并保存在集合CommonUrl中,即公共链接集合CommonUrl=PageAllUrl∩NextPageAllUrl;步骤1)‑d中有效链接是指非菜单、导航、广告等无效链接,其具体方法如下:1)在步骤1)‑b中判断入口URL是否具有分页,如有执行2),否则执行3);2)从集合PageAllUrl中链接去掉集合CommonUrl中链接,并将结果保存在集合EffectiveUrl中,即有效链接集合EffectiveUrl=PageAllUrl‑CommonUrl;3)分析入口URL链接,获取其主机域名HostUrl;4)判断集合PageAllUrl是否为空,如果不为空则执行5),否则执行8);5)从集合PageAllUrl中取出一个Url;6)判断Url是否是入口URL的前缀,如果是则执行7),否则执行4);7)将Url加入有效链接集合EffectiveUrl中,执行4);8)结束。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张雷刘有力资帅韩军华冯瀚洋谢俊元
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1