【技术实现步骤摘要】
本专利技术涉及网络信息搜索,具体地说,涉及在万维网爬行处理过程中,对尚未访问的网页进行基于路径的排队的方法和系统。
技术介绍
目前通用的搜索引擎可以帮助用户在万维网上查找其所需的信息。然而,当用户试图在特定域内对窄范围查询进行实时信息获取时,这样的通用搜索引擎常常不能令用户满意。据估计,即使爬行范围最大的“爬虫”也只能收集30%-40%的网页并将这些网页放到该“爬虫”所支持的搜索引擎中,而要进行全部网页的更新则需要大约几个星期到一个月的时间。于是,大部分最新消息不在搜索范围之内。目前通用的搜索引擎的另一个缺点是尽管能够通过快速搜索来建立内容索引,但通常会丢失网页中的大量信息。现在普遍认为“聚焦式爬行”是一种能够满足上述搜索要求的优选方案。“聚焦式爬行”可以在资源非常有限的情况下收集到大量有用的信息。例如,用户正在使用的基于PC机的“聚焦式爬行”实施方案。“聚焦式爬行”还可以开采出隐藏在原始网页和网络拓扑之中的许多信息,以便对它们的相关性做出更精确的判断。“聚焦式爬行”是一种智能爬行处理方式,它仅收集与所需的特定信息相关的网页。具体地说,“爬虫”从一“种子”网页 ...
【技术保护点】
一种在万维网爬行处理过程中对尚未访问的网页进行基于路径的排队的方法,包括以下步骤: 将所有从“种子”URL开始通向已访问的相关网页的路径标识为“优选路径集”,并且对于每一尚未访问的网页,将从“种子”URL开始通向该尚未访问网页的路径标识为“部分路径集”, 对所有已访问网页进行分类,并且用每个网页所属的类别来标记该网页; 训练一统计模型,用于概括“优选路径集”中所有路径的共同路径模式;以及 使用所述统计模型对“部分路径集”进行评估,并使用评估结果对所有尚未访问的网页进行排队。
【技术特征摘要】
【专利技术属性】
技术研发人员:苏辉,潘越,马小川,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。