当前位置: 首页 > 专利查询>浙江大学专利>正文

定向抓取页面资源的方法和装置制造方法及图纸

技术编号:2913222 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种定向抓取页面资源的方法,包括:依据种子站点URL预先抓取符合数量阈值的页面;在所述预抓取页面中确定特征页面;生成概括所述特征页面URL的正则表达式;将所述种子站点URL与所述正则表达式进行匹配,并将满足匹配条件的种子站点URL保留为抓取目标URL;依据所述抓取目标URL抓取页面。本发明专利技术可以有效提高页面资源抓取的收获率与招回率,从而更好地帮助人们从互联网上大范围、高效率、高精度地获取所需的信息。

【技术实现步骤摘要】

本专利技术涉及互联网资源搜集领域,特别是涉及一种定向抓取页面资源的方法和一种定向抓取页面资源的装置。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(Search Engine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。搜索引擎从万维网上自动提取网页的功能是通过网络爬虫实现的。目前的网络爬虫可以分为通用爬虫和聚焦爬虫。通用爬虫是基于广度优先搜索的思想,从一个或若干个初始网页的URL(Uniform ResourceLocator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。而聚焦爬虫是一个自动下载网页的程序,用于定向抓取相关页面资源。它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源,因而聚焦爬虫是目前网络爬虫技术发展的主流方向。通常,聚焦爬虫的工作流程为,根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列;然后,将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。显然,如何指导聚焦爬虫集中抓取-->与主题相关的页面,而尽量避免访问到非主题相关的页面,成为聚焦爬虫技术需要解决的关键问题。对此,现有技术的一种解决方案为,借鉴通用搜索引擎的链接分析技术,对URL的重要性进行排序,优先抓取那些重要性高的页面。比如Junghoo Cho在其论文(Junghoo 1998)中利用页面的PageRank(Sergey1998)值排序URL,优先抓取PageRank值高的页面。但是这种方法仅仅计算待抓页面的重要性值,并没有考虑页面与特定主题相关性,因此用这种算法引导的聚焦爬虫很容易迷失方向,抓下的页面很少是与特定主题相关的,如果统计聚焦爬虫抓取的所有网页中与主题相关的页面所占的比重为收获率,那么这种解决方案的收获率是比较低的。现有技术中的另一种解决方案为,基于Davison(Davison 2000)发现的互联网页面的主题相邻性(topical locality)现象,即用超链接连接起来的两个页面比随机的两个页面具有更大的相似性,来预测待抓取页面与特定主题的相关性,即如果一张页面与特定主题相关,那么它所连出去的页面与该主题相关的可能性比较大,所以顺着与特定主题相关的页面出去的链接更可能找到其他主题相关的页面。然而,这种仅仅利用父页面与主题的相关度来预测子页面与主题的相关度,并以此作为指导的聚焦爬虫,不可避免地会错失许多与该主题相关的页面,如果统计聚焦爬虫抓取的主题相关页面与互联网上所有的主题相关页面的比率为招回率,那么这种解决方案的招回率是比较低的。因此,如何提高网络爬虫抓取页面资源的收获率与招回率,用以帮助人们从互联网上大范围、高效率、高精度地获取所需的信息,成为本领域技术人员迫切需要解决的技术问题之一。
技术实现思路
本专利技术所要解决的技术问题是提供一种定向抓取页面资源的方法,用以提高页面资源抓取的收获率与招回率,从而帮助人们从互联网上大范围、高效率、高精度地获取所需的信息。本专利技术的另一个目的是提供了一种定向抓取页面资源的装置,用以保-->证上述方法在实际中的实现和应用。为解决上述技术问题,本专利技术实施例提供了一种定向抓取页面资源的方法包括:依据种子站点URL预先抓取符合数量阈值的页面;在所述预抓取页面中确定特征页面;生成概括所述特征页面URL的正则表达式;将所述种子站点URL与所述正则表达式进行匹配,并将满足匹配条件的种子站点URL保留为抓取目标URL;依据所述抓取目标URL抓取页面。优选的,所述生成正则表达式的步骤包括:将所述特征页面URL划分成多个URL子集;将所述URL子集聚合成多个URL类;抽取所述URL类的正则表达式。优选的,所述URL包括站点参数和路径参数,所述划分多个URL子集的子步骤包括:将具有相同站点参数的URL划分至同一URL子集;将目录数量相同的路径参数的URL划分至同一URL子集。优选的,所述URL还包括查询参数,所述划分多个URL子集的子步骤还包括:将具有相同查询参数的URL划分至同一URL子集。优选的,所述聚合多个URL类的子步骤包括:预置所述URL类的聚类规则;从所述URL子集中读取URL,并判断所述URL是否符合所述URL类的聚类规则,如果是,则将所述URL分配至所述URL类中;如果否,则依据所述URL新建一个URL类。优选的,所述聚合多个URL类的子步骤还包括:统计所述URL类的个数和URL的总数;依据所述统计结果调整所述URL类的聚类规则。优选的,在预先抓取页面步骤前,还包括:-->过滤种子站点URL,所述种子站点URL包括种子站点的URL及其链接的URL。优选的,所述过滤种子站点URL的步骤包括:读入所述种子站点URL至数组中,对所述数组进行排序;提取某个URL的站点参数,判断所述数组中是否包含所述站点参数,如果是,则保留所述URL;如果否,则去除所述URL。优选的,所述数量阈值的取值范围为1000至5000。优选的,所述预先抓取页面的步骤包括:将所述种子站点URL写入数据库;从所述数据库中读取URL,并提取所述URL的站点参数;更新所述站点参数对应的URL抓取数量;判断所述URL抓取数量是否超过所述数量阈值,如果否,则将所述URL添加至URL抓取列表中;下载所述URL抓取列表中的URL对应的页面,并生成相应的页面数据段;依据所述页面数据段更新所述数据库。优选的,所述特征页面包括主题相关页面,所述主题相关页面包括主题相关内容页面和主题相关目录页面。优选的,所述匹配步骤包括:若所述种子站点URL与所述主题相关页面的正则表达式匹配,则所述种子站点URL满足匹配条件。优选的,所述特征页面还包括主题无关页面。优选的,所述匹配步骤还包括:若所述种子站点URL与所述主题无关页面的正则表达式匹配,则所述种子站点URL不满足匹配条件。优选的,所述的方法还包括:统计所述正则表达式匹配的URL数量;若所述URL数量小于预设过滤阈值,则删除所述正则表达式。本专利技术实施例还公开了一种定向抓取页面资源的装置,包括:-->实验爬虫模块,用于依据所述种子站点URL预先抓取符合数量阈值的页面;分类模块,用于在所述预抓取页面中确定特征页面;正则表达式学习模块,用于生成概括所述特征页面URL的正则表达式;匹配模块,用于将所述种子站点URL与所述正则表达式进行匹配,并将满足匹配条件的种子站点URL保留为抓取目标URL;聚焦爬虫模块,用于依据所述抓取目标URL抓取页面。优选的,所述正则表达式学习模块包括:集合划分子模块,用于将所述特征页面URL划分成多个URL子集;聚类子模块,用于将所述URL子集聚合成多个URL类;抽取子模块,用于抽取所述U本文档来自技高网
...

【技术保护点】
一种定向抓取页面资源的方法,其特征在于,包括: 依据种子站点URL预先抓取符合数量阈值的页面; 在所述预抓取页面中确定特征页面; 生成概括所述特征页面URL的正则表达式; 将所述种子站点URL与所述正则表达式进行匹配 ,并将满足匹配条件的种子站点URL保留为抓取目标URL; 依据所述抓取目标URL抓取页面。

【技术特征摘要】
1、一种定向抓取页面资源的方法,其特征在于,包括:依据种子站点URL预先抓取符合数量阈值的页面;在所述预抓取页面中确定特征页面;生成概括所述特征页面URL的正则表达式;将所述种子站点URL与所述正则表达式进行匹配,并将满足匹配条件的种子站点URL保留为抓取目标URL;依据所述抓取目标URL抓取页面。2、如权利要求1所述的方法,其特征在于,所述生成正则表达式的步骤包括:将所述特征页面URL划分成多个URL子集;将所述URL子集聚合成多个URL类;抽取所述URL类的正则表达式。3、如权利要求2所述的方法,其特征在于,所述URL包括站点参数和路径参数,所述划分多个URL子集的子步骤包括:将具有相同站点参数的URL划分至同一URL子集;将目录数量相同的路径参数的URL划分至同一URL子集。4、如权利要求3所述的方法,其特征在于,所述URL还包括查询参数,所述划分多个URL子集的子步骤还包括:将具有相同查询参数的URL划分至同一URL子集。5、如权利要求2、3或4所述的方法,其特征在于,所述聚合多个URL类的子步骤包括:预置所述URL类的聚类规则;从所述URL子集中读取URL,并判断所述URL是否符合所述URL类的聚类规则,如果是,则将所述URL分配至所述URL类中;如果否,则依据所述URL新建一个URL类。6、如权利要求5所述的方法,其特征在于,所述聚合多个URL类的子步骤还包括:统计所述URL类的个数和URL的总数;依据所述统计结果调整所述URL类的聚类规则。7、如权利要求1所述的方法,其特征在于,在预先抓取页面步骤前,还包括:过滤种子站点URL,所述种子站点URL包括种子站点的URL及其链接的URL。8、如权利要求7所述的方法,其特征在于,所述过滤种子站点URL的步骤包括:读入所述种子站点URL至数组中,对所述数组进行排序;提取某个URL的站点参数,判断所述数组中是否包含所述站点参数,如果是,则保留所述URL;如果否,则去除所述URL。9、如权利要求1所述的方法,其特征在于,所述数量阈值的取值范围为1000至5000。10、如权利要求1、7或9所述的方法,其特征在于,所述预先抓取页面的步骤包括:将所述种子站点URL写入数据库;从所述数据库中读取URL,并提取所述URL的站点参数;更新所述站点参数对应的URL抓取数量;判断所述URL抓取数量是否超过所述数量阈值,如果否,则将所述URL添加至URL抓取列表中;下载所述URL抓取列表中的URL对应的页面,并生成相应的页面数据段;依据所述页面数据段更新所述数据库。11、如权利要求1所述的方法,其特征在于,所述特征页面包括主题相关页面,所述主题相关页面包括主题相关内容页面和主题相关目录页面。12、如权利要求11所述的方法,其特征在于,所述匹配步骤包括:若所述种子站点URL与所述主题相关页面的正则表达式匹配,则所述种子站点URL满足匹配条件。13、如权利要求11所述的方法,其特征...

【专利技术属性】
技术研发人员:郑小林陈德人周涛叶勤勇
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1