在web爬取过程期间给网站排优先级的系统和方法技术方案

技术编号:2837903 阅读:217 留言:0更新日期:2012-04-11 18:40
一种用于给网页的读取顺序排优先级的系统和方法。所述方法包括:由web爬取器提取要爬取的候选网页集合。所述候选网页集合中的每个网页关联于计算机网络中的网站。确定所述网站的第一网站分数是否在网站分数数据库中。如果所述第一网站分数存在于所述网站分数数据库中,则把所述第一网站分数关联于所述候选网页集合中的网页。相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级。从所述候选网页集合检索内容。从所述内容提取超链接。把所述超链接存储在存储器单元中。

【技术实现步骤摘要】

本专利技术涉及在web爬取(crawl)过程期间给网站和网页排优先级的系统和相关联方法。
技术介绍
由于多种因素,网络用户可能发现使搜索过程成为流线型以在网络上定位信息是必要的。因此,存在对于使搜索过程成为流线型以在网络上定位和收集信息的高效方法的需要。
技术实现思路
本专利技术提供了一种排优先级方法,包括由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。本专利技术提供了一种计算机系统,包括耦合于计算机可读存储器单元的处理器,所述存储器单元包括web爬取器、候选网页集合、联机分析软件应用、脱机分析软件应用、网站分数数据库以及指令,所述指令当由处理器执行时实现一种排优先级方法,所述方法包括由所述web爬取器提取要爬取的所述候选网页集合;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。本专利技术提供了包括计算机可用媒体的计算机程序产品,所述计算机可用媒体包括联机分析软件应用、脱机分析软件应用、网站分数数据库、web爬取器、候选网页集合、以及其中实现的计算机可读程序指令,所述计算机可读程序指令包括适于在计算系统内实现一种排优先级方法的算法,所述方法包括 由所述web爬取器提取要爬取的所述候选网页集合;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。本专利技术有利地提供了一种用于使搜索过程成为流线型以在网络上定位和收集信息的系统和相关联方法。附图说明图1示出根据本专利技术实施例的包括连接于计算机网络的计算系统的web爬取器系统的框图示图。图2示出根据本专利技术实施例的图1的web爬取器系统的详细框图示图。图3是描述根据本专利技术实施例的用于实现图1和图2的web爬取器系统的算法的流程图。图4是示出根据本专利技术实施例的用于进一步详述图3的步骤的嵌入式功能的流程图。图5示出根据本专利技术实施例的用于在web爬取过程期间给网站排优先级的计算机系统。具体实施例方式图1示出根据本专利技术实施例的包括连接于计算机网络6的计算系统5的web爬取器(crawler)系统2的框图示图。计算机网络6可包括对于本领域普通技术人员已知的任何类型的计算机网络,特别地包括因特网。万维网(此处被称为“Web”)是信息共享模型,包括用于在因特网上访问信息的方法。计算系统5包括web爬取器8。Web爬取器(例如图1中的web爬取器8)是在Web中搜索内容(即网页)并将内容馈送给搜索引擎的软件工具。网页包括Web上的文档。Web包括数量上几乎无限的信息,并因此web爬取器可能无法整体地扫描Web或即时地刷新所有用户定义内容。Web包括海量的具有有问题价值的内容(即,成人内容、垃圾邮件等),因此在保存有限资源(诸如带宽、处理时间和存储装置)的努力中,web爬取器必须避免这样的有问题内容,同时将努力转到发现更高价值内容以及刷新已知的好的内容。Web爬取器维护已经发现但尚未下载的统一资源定位符(URL)的列表。URL列表(例如,对于网页的候选集合,包括要爬取的URL集合)存储在URL边界(frontier)(例如参见图2中的URL数据库8c)。大多数web爬取器执行网页级分析来确定URL边界中的URL的优先级。在这些网页级分析技术中是基于内容和基于链接的分析。一般而言,在成本上不允许对于每个遇到的页都执行广泛分析。基于内容的分析固有地需要下载给定URL的内容。基于链接的分析通常必须通过不仅使用所述页的内容而且使用包含与每个网页相关的链接的页集合来执行。图1中的web爬取器系统2把web近似为网站(即一组网页)的集合而不是独立网页。网页由web爬取器系统2根据其源网站的重要性或实用性来分级。为了实现这样,网站分数经由从该网站对网页采样(即,仅检索网站中的某些网页)来进行编译。对网页采样可包括对于本领域普通技术人员已知的任何采样过程,特别地包括随机采样、每隔指定数量的页进行一次采样等等。编译网站分数的过程对于web爬取器系统2的用户需求来说是灵活的和可扩展的,并能够考虑到多种web爬取关注(例如成人内容、垃圾邮件等)。计算系统5包括连接于计算机可读存储器系统4的中央处理单元(CPU)7。计算机可读存储器系统4包括web爬取器8、联机分析工具17、脱机分析软件应用22以及网站分数数据库20。Web爬取器8执行对web上的(即来自网站的)内容(即信息)的搜索。Web爬取器8包括以自动化和条理化方式从web定位和检索内容的软件工具。Web爬取器8执行对Web的web爬取。对Web的web爬取包括检索已知网页和提取到其它网页的超链接(即URL),从而增加已知和已下载/可下载文档的数据存储库。Web爬取器8把web上可用的内容复制到数据存储系统用于索引和进一步分析。Web爬取器8典型地基于搜索标准通过URL的种子列表(即,到用户感兴趣的多种网页的链接)来启动。当web爬取器8读取到关联于URL的网页(即,作为网站一部分的独立信息页)时,它提取超链接并把它们添加到图2的URL数据库8c。网页典型地基于搜索标准以相关性顺序被打分(即,由web爬取器8分配网页分级分数)。可替换地,网页可能已经包括网页分级分数。联机分析软件应用17包括当新内容被收集和分析时与web爬取器8相交互的软件工具。Web爬取器8还与联机分析软件应用17相交互来检索之前分配给网站的任何网站分数,以便在未来给网页的本文档来自技高网...

【技术保护点】
一种排优先级方法,包括:由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由 所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件 应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容; 由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。

【技术特征摘要】
US 2006-3-29 11/392,8561.一种排优先级方法,包括由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。2.根据权利要求1所述的方法,其中所述联机确定确定所述第一网站分数不在所述网站分数数据库中,其中所述存储器单元还包括网页分数数据库,并且其中所述方法还包括由所述web爬取器从所述网站请求网页的样本集合,其中所述网页的样本集合不包括来自所述网站的网页的全体集合;由所述脱机分析软件应用用多种脱机试探法脱机分析所述样本网页的每个样本网页;由所述脱机分析软件应用基于所述脱机分析的结果生成每个所述样本网页的一组网页分数;把每个所述一组网页分数存储在所述网页分数数据库中;由所述脱机分析软件应用生成所述网页的样本集合的每个所述网页的最终网页分数,其中每个所述最终网页分数通过组合每个所述一组网页分数内的每个网页分数来生成;把每个所述最终网页分数存储在所述网页分数数据库中;由所述脱机分析软件应用生成每个网站的第二网站分数,其中所述第二网站分数通过组合所述网页的样本集合的所述最终网页分数来生成,并且其中所述第一网站分数通过使用用来生成所述第二网站分数的同一技术来生成;以及把所述第二网站分数存储在所述网站分数数据库中。3.根据权利要求2所述的方法,其中所述脱机分析软件应用包括多个数据挖掘软件工具。4.根据权利要求2所述的方法,其中所述脱机分析包括执行对于来自每个所述样本网页的所述内容中的特定表达的搜索,其中来自所述指定表达的每个指定表达从包括短语和词的组中选择,并且其中所述指定表达被划分为所述web爬取器的用户有兴趣的第一组表达以及所述用户无兴趣的第二组表达。5.根据权利要求4所述的方法,其中所述脱机分析还包括确定每个所述样本网页是否包括到包括来自所述第一组或所述第二组的表达的可替换网页的超链接。6.根据权利要求2所述的方法,其中所述请求包括动态确定所述网页的样本集合的样本大小。7.根据权利要求2所述的方法,还包括由所述联机分析软件应用基于多种试探法把一组网页从所述网页的样本集合...

【专利技术属性】
技术研发人员:A马库斯IE冈萨雷斯DN梅雷迪思S迪尔DL布莱克曼M青LAL源
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1