定向抓取页面资源的方法和装置制造方法及图纸

技术编号：2913222 阅读：241 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种定向抓取页面资源的方法，包括：依据种子站点ＵＲＬ预先抓取符合数量阈值的页面；在所述预抓取页面中确定特征页面；生成概括所述特征页面ＵＲＬ的正则表达式；将所述种子站点ＵＲＬ与所述正则表达式进行匹配，并将满足匹配条件的种子站点ＵＲＬ保留为抓取目标ＵＲＬ；依据所述抓取目标ＵＲＬ抓取页面。本发明专利技术可以有效提高页面资源抓取的收获率与招回率，从而更好地帮助人们从互联网上大范围、高效率、高精度地获取所需的信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网资源搜集领域，特别是涉及一种定向抓取页面资源的方法和一种定向抓取页面资源的装置。
技术介绍
随着网络的迅速发展，万维网成为大量信息的载体，为有效地提取并利用这些信息，搜索引擎(Search Engine)作为一个辅助人们检索信息的工具，成为用户访问万维网的入口和指南。搜索引擎从万维网上自动提取网页的功能是通过网络爬虫实现的。目前的网络爬虫可以分为通用爬虫和聚焦爬虫。通用爬虫是基于广度优先搜索的思想，从一个或若干个初始网页的URL(Uniform ResourceLocator，统一资源定位符)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。而聚焦爬虫是一个自动下载网页的程序，用于定向抓取相关页面资源。它根据既定的抓取目标，有选择地访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而是将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源，因而聚焦爬虫是目前网络爬虫技术发展的主流方向。通常，聚焦爬虫的工作流程为，根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列；然后，将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。显然，如何指导聚焦爬虫...

【技术保护点】
一种定向抓取页面资源的方法，其特征在于，包括：　依据种子站点ＵＲＬ预先抓取符合数量阈值的页面；　在所述预抓取页面中确定特征页面；　生成概括所述特征页面ＵＲＬ的正则表达式；　将所述种子站点ＵＲＬ与所述正则表达式进行匹配，并将满足匹配条件的种子站点ＵＲＬ保留为抓取目标ＵＲＬ；　依据所述抓取目标ＵＲＬ抓取页面。

【技术特征摘要】
1、一种定向抓取页面资源的方法，其特征在于，包括：依据种子站点URL预先抓取符合数量阈值的页面；在所述预抓取页面中确定特征页面；生成概括所述特征页面URL的正则表达式；将所述种子站点URL与所述正则表达式进行匹配，并将满足匹配条件的种子站点URL保留为抓取目标URL；依据所述抓取目标URL抓取页面。2、如权利要求1所述的方法，其特征在于，所述生成正则表达式的步骤包括：将所述特征页面URL划分成多个URL子集；将所述URL子集聚合成多个URL类；抽取所述URL类的正则表达式。3、如权利要求2所述的方法，其特征在于，所述URL包括站点参数和路径参数，所述划分多个URL子集的子步骤包括：将具有相同站点参数的URL划分至同一URL子集；将目录数量相同的路径参数的URL划分至同一URL子集。4、如权利要求3所述的方法，其特征在于，所述URL还包括查询参数，所述划分多个URL子集的子步骤还包括：将具有相同查询参数的URL划分至同一URL子集。5、如权利要求2、3或4所述的方法，其特征在于，所述聚合多个URL类的子步骤包括：预置所述URL类的聚类规则；从所述URL子集中读取URL，并判断所述URL是否符合所述URL类的聚类规则，如果是，则将所述URL分配至所述URL类中；如果否，则依据所述URL新建一个URL类。6、如权利要求5所述的方法，其特征在于，所述聚合多个URL类的子步骤还包括：统计所述URL类的个数和URL的总数；依据所述统计结果调整所述URL类的聚类规则。7、如权利要求1所述的方法，其特征在于，在预先抓取页面步骤前，还包括：过滤种子站点URL，所述种子站点URL包括种子站点的URL及其链接的URL。8、如权利要求7所述的方法，其特征在于，所述过滤种子站点URL的步骤包括：读入所述种子站点URL至数组中，对所述数组进行排序；提取某个URL的站点参数，判断所述数组中是否包含所述站点参数，如果是，则保留所述URL；如果否，则去除所述URL。9、如权利要求1所述的方法，其特征在于，所述数量阈值的取值范围为1000至5000。10、如权利要求1、7或9所述的方法，其特征在于，所述预先抓取页面的步骤包括：将所述种子站点URL写入数据库；从所述数据库中读取URL，并提取所述URL的站点参数；更新所述站点参数对应的URL抓取数量；判断所述URL抓取数量是否超过所述数量阈值，如果否，则将所述URL添加至URL抓取列表中；下载所述URL抓取列表中的URL对应的页面，并生成相应的页面数据段；依据所述页面数据段更新所述数据库。11、如权利要求1所述的方法，其特征在于，所述特征页面包括主题相关页面，所述主题相关页面包括主题相关内容页面和主题相关目录页面。12、如权利要求11所述的方法，其特征在于，所述匹配步骤包括：若所述种子站点URL与所述主题相关页面的正则表达式匹配，则所述种子站点URL满足匹配条件。13、如权利要求11所述的方法，其特征...

【专利技术属性】
技术研发人员：郑小林，陈德人，周涛，叶勤勇，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人