【技术实现步骤摘要】
本专利技术涉及在web爬取(crawl)过程期间给网站和网页排优先级的系统和相关联方法。
技术介绍
由于多种因素,网络用户可能发现使搜索过程成为流线型以在网络上定位信息是必要的。因此,存在对于使搜索过程成为流线型以在网络上定位和收集信息的高效方法的需要。
技术实现思路
本专利技术提供了一种排优先级方法,包括由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。本专利技术提供了一种计算机系统,包括耦合于计算机可读存储器单元的处理器,所述存储器单元包括web爬取器、候选网页集合、联机分析软件应用、脱机分析软件应用、网站分数数据库以及指令,所述指令当由处理器执行时实现一种排优先级方法,所述方法包括由所述web爬取器提取要爬取的所述候选网页集合;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于 ...
【技术保护点】
一种排优先级方法,包括:由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由 所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件 应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容; 由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。
【技术特征摘要】
US 2006-3-29 11/392,8561.一种排优先级方法,包括由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。2.根据权利要求1所述的方法,其中所述联机确定确定所述第一网站分数不在所述网站分数数据库中,其中所述存储器单元还包括网页分数数据库,并且其中所述方法还包括由所述web爬取器从所述网站请求网页的样本集合,其中所述网页的样本集合不包括来自所述网站的网页的全体集合;由所述脱机分析软件应用用多种脱机试探法脱机分析所述样本网页的每个样本网页;由所述脱机分析软件应用基于所述脱机分析的结果生成每个所述样本网页的一组网页分数;把每个所述一组网页分数存储在所述网页分数数据库中;由所述脱机分析软件应用生成所述网页的样本集合的每个所述网页的最终网页分数,其中每个所述最终网页分数通过组合每个所述一组网页分数内的每个网页分数来生成;把每个所述最终网页分数存储在所述网页分数数据库中;由所述脱机分析软件应用生成每个网站的第二网站分数,其中所述第二网站分数通过组合所述网页的样本集合的所述最终网页分数来生成,并且其中所述第一网站分数通过使用用来生成所述第二网站分数的同一技术来生成;以及把所述第二网站分数存储在所述网站分数数据库中。3.根据权利要求2所述的方法,其中所述脱机分析软件应用包括多个数据挖掘软件工具。4.根据权利要求2所述的方法,其中所述脱机分析包括执行对于来自每个所述样本网页的所述内容中的特定表达的搜索,其中来自所述指定表达的每个指定表达从包括短语和词的组中选择,并且其中所述指定表达被划分为所述web爬取器的用户有兴趣的第一组表达以及所述用户无兴趣的第二组表达。5.根据权利要求4所述的方法,其中所述脱机分析还包括确定每个所述样本网页是否包括到包括来自所述第一组或所述第二组的表达的可替换网页的超链接。6.根据权利要求2所述的方法,其中所述请求包括动态确定所述网页的样本集合的样本大小。7.根据权利要求2所述的方法,还包括由所述联机分析软件应用基于多种试探法把一组网页从所述网页的样本集合...
【专利技术属性】
技术研发人员:A马库斯,IE冈萨雷斯,DN梅雷迪思,S迪尔,DL布莱克曼,M青,LAL源,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。