当前位置: 首页 > 专利查询>浙江大学专利>正文

基于稀疏隧道的主题网页爬取方法技术

技术编号:4017344 阅读:347 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于稀疏隧道的主题网页爬取方法。目前的专业网络蜘蛛通常使用隧道技术来爬取主题相关的网页,隧道技术在扩大搜索范围时引进了“噪音”,需要处理的无关网页以指数递增,从而增加了网络的负载和本地负担。本发明专利技术针对上述缺点,对隧道技术进行改进,将网络社区分成三种:主题相关、无关和未知类型。对主题相关的网络社区不做限制,对主题无关的网络社区通过建立网络社区黑名单禁止专业网络蜘蛛进入,对未知类型的网络社区控制专业网络蜘蛛在该网络社区中的路径数量。本发明专利技术使得专业网络蜘蛛能够在整个网络中有选择性地探索未知网页,避开了大量无关网页的下载,在保证网页质量的前提下有效地提高了专业网络蜘蛛的准确率和效率。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
垂直搜索引擎时针对某一个行业的专业搜索引擎,相比较通用搜索引擎的海量信息无序化,其特点就是专、精、深。通用搜索引擎的目标是要发现和下载尽可能多的网页,以 使搜索引擎能回答更多的用户查询,因此通用网络蜘蛛(Generic Crawler)在技术上采用 了宽度优先或深度优优先的搜索策略,使网络蜘蛛有更广的覆盖面。专业网络蜘蛛(Focused Crawler)是与通用网络蜘蛛相对的一个概念,专业网络 蜘蛛只抓取与主题相关的网页,忽视那些与主题无关的网页。它的优点在于不用遍历整个 网络就可以找到尽可能多与主题相关的网页。但是,专业网络蜘蛛也存在着问题,由于它使 用的最佳优先算法是一种局部最优算法,只能收集到初始爬取网址周边的一些相关网页, 还有很大一部分相关的网页无法通过该方法搜索到。特别是由于网络社区的存在,使得这 种问题更加复杂严重。Bergmark提出了隧道技术来解决上述问题,隧道技术是一种启发式的全局最优算 法,使用隧道技术的网络蜘蛛在碰到不相关的网页时,不是立即停止,而继续往这个路径上向 前探索K步,K的大小由人工设定。这样就允许专业网络蜘蛛从一个网络社区跳到另外一个 网络社区,尽管两个网络社区之间没有直接的链接关系。如果两个网络社区之间的距离不大 的前提下,就可能发现Web中所有与主题相关的网页。隧道技术还有一个优点在于初始爬取 网址中的网页不要求是主题相关的,专业网络蜘蛛会穿过若干不相关的网页,最终找到相关 的网页,这种优势在高质量的初始爬取网址收集工作有一定难度的场合下是比较受欢迎的。 当然初始爬取网址与主题相关会减少这种无谓的穿越,相应地提高网络蜘蛛的性能。但是,隧道技术在扩大搜索范围从而提高网络社区发现概率的同时,也引进了“噪 音”。隧道技术原理,可以形象地理解为网络蜘蛛扩大了探索范围,也就是说,网络蜘蛛以初 始爬取网址和相关网页为圆心,以K为半径的圆周范围中探索其它的网络社区,随着半径K 的增大,发现其它网络社区的概率也在增大,探索到相关网页的概率也相应增大,同时增大 的还有大量无关网页的下载,需要处理的无关网页的以指数递增,极大地降低了网络蜘蛛 的效率,增加了网络的负载和本地的负担。为了解决这个问题,本文对隧道技术进行了改进,提出了一种基于稀疏隧道的主 题网页爬取方法,该方法在隧道技术的基础上,建立网络社区黑名单,网络社区黑名单避免 网络蜘蛛陷入到无关网络社区中去探索资源,同时对探索的方向和数量进行控制,使得专 业网络蜘蛛能够在整个Web中有选择性地探索未知网页,从而在保证网页质量的前提下有 效地提高了网络蜘蛛的效率。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种。包括以下步骤1)从存放初始爬取网址的队列开始,对队列中的网址的主题相关度进行预测,并根据预测值的高低进行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低 顺序下载网址所指定的网页;2)从所指定的网页中提取网址,判别网址是否指向网络社区黑名单中的某个站 点,若是,则放弃该网址;3)对于没有指向网络社区黑名单中站点的网址,计算该网址的穿越步长,穿越步 长是一个整数,代表了主题相关的最近的祖先网页到本网页长度,判断该穿越步长是否超 过一个指定的步长阈值K,K为1 30,如果超过步长阈值K,表明已经穿越了连续K个不相 关的网页,应该放弃这条路径,则放弃该网址;4)将路径没有超过步长阈值K的网址分为两部分,一部分是指向主题相关的网络 社区,对应网址的穿越步长为0,另一部分则是指向未知类型的网络社区,对应网址的穿越 步长大于等于1。将指向主题相关的网络社区的网址直接放入队列中;对于指向未知类型 的网络社区的网址,计算在队列中与该网址具有相同站点的网址数,限定该网址数不能超 过一个数量阈值R,R为15,超过数量阈值R的放弃该网址,没有超过数量阈值R的将该网 址放入队列中;5)从队列中取出主题相关度值最高的网址,下载指定的网页,并重复步骤2) 步 骤5),直到队列为空。所述的网络社区黑名单的建立方法为如果指向某些网络社区的无关网页数量超 过预先设定的数值P,P为20,则将该网络社区放入黑名单中,同时将一些非常明显的不相 关站点手工加入到网络社区黑名单中。所述的计算该网址的穿越步长将网址指定的网页下载到本地后,首先判断该网 页是否主题相关,若相关,则该网址的穿越步长置为0 ;若与主题不相关,将该网址的穿越 步长置为父网址的穿越步长加1。本专利技术与现有技术相比具有的有益效果1)通过网络社区黑名单的方法使得网络蜘蛛避免陷入到主题无关社区中,从而提 高了准确率和效率;2)存放网址的队列需要根据主题相关度值对网址进行排序,使得网络蜘蛛尽可能 少地遍历网络,又尽可能多地访问到主题相关的网页,提高了网络蜘蛛的效率;3)通过控制在未知类型的网络社区中的路径数量,减少无关网页的下载,极大的 降低了网络的负载和本地负担。附图说明图1的流程;图2普通隧道技术中页面数量与步长阈值K关系图;图3中页面数量与步长阈值K关系图。具体实施方式包括以下步骤1)从存放初始爬取网址的队列开始,对队列中的网址的主题相关度进行预测,并 根据预测值的高低进行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低 顺序下载网址所指定的网页;2)从所指定的网页中提取网址,判别网址是否指向网络社区黑名单中的某个站 点,若是,则放弃该网址;3)对于没有指向网络社区黑名单中站点的网址,计算该网址的穿越步长,穿越步 长是一个整数,代表了主题相关的最近的祖先网页到本网页长度,判断该穿越步长是否超 过一个指定的步长阈值K,K为1 30,如果超过步长阈值K,表明已经穿越了连续K个不相 关的网页,应该放弃这条路径,则放弃该网址; 4)将路径没有超过步长阈值K的网址分为两部分,一部分是指向主题相关的网络 社区,对应网址的穿越步长为0,另一部分则是指向未知类型的网络社区,对应网址的穿越 步长大于等于1。将指向主题相关的网络社区的网址直接放入队列中;对于指向未知类型 的网络社区的网址,计算在队列中与该网址具有相同站点的网址数,限定该网址数不能超 过一个数量阈值R,R为15,超过数量阈值R的放弃该网址,没有超过数量阈值R的将该网 址放入队列中;5)从队列中取出主题相关度值最高的网址,下载指定的网页,并重复步骤2) 步 骤5),直到队列为空。所述的网络社区黑名单的建立方法为如果指向某些网络社区的无关网页数量超 过预先设定的数值P,P为20,则将该网络社区放入黑名单中,同时将一些非常明显的不相 关站点手工加入到网络社区黑名单中。所述的计算该网址的穿越步长将网址指定的网页下载到本地后,首先判断该网 页是否主题相关,若相关,则该网址的穿越步长置为0 ;若与主题不相关,将该网址的穿越 步长置为父网址的穿越步长加1。实施例比如当用户想要寻找与天文地理有关的网页时,首先给定初始爬取网址,使用最 佳优先策略访问网络,即对队列中的网址的主题相关度进行预测,并根据预测值的高低进 行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低顺序下载网址所指定 的网页。从所指定的网页中提取出网址,判别该网址是否指向网络社区黑名单中的站点,网 络社区黑名单中存放的是指向某本文档来自技高网
...

【技术保护点】
一种基于稀疏隧道的主题网页爬取方法,其特征在于包括以下步骤:1)从存放初始爬取网址的队列开始,对队列中的网址的主题相关度进行预测,并根据预测值的高低进行调度,预测值高的网址具有更高的优先权,爬虫按照优先权的高低顺序下载网址所指定的网页;2)从所指定的网页中提取网址,判别网址是否指向网络社区黑名单中的某个站点,若是,则放弃该网址;3)对于没有指向网络社区黑名单中站点的网址,计算该网址的穿越步长,穿越步长是一个整数,代表了主题相关的最近的祖先网页到本网页长度,判断该穿越步长是否超过一个指定的步长阈值K,K为1~30,如果超过步长阈值K,表明已经穿越了连续K个不相关的网页,应该放弃这条路径,则放弃该网址;4)将路径没有超过步长阈值K的网址分为两部分,一部分是指向主题相关的网络社区,对应网址的穿越步长为0,另一部分则是指向未知类型的网络社区,对应网址的穿越步长大于等于1。将指向主题相关的网络社区的网址直接放入队列中;对于指向未知类型的网络社区的网址,计算在队列中与该网址具有相同站点的网址数,限定该网址数不能超过一个数量阈值R,R为15,超过数量阈值R的放弃该网址,没有超过数量阈值R的将该网址放入队列中;5)从队列中取出主题相关度值最高的网址,下载指定的网页,并重复步骤2)~步骤5),直到队列为空。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林怀忠蒋雨倩
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1