基于Berkeley DB数据库的主题爬虫系统技术方案

技术编号：12199261 阅读：81 留言：0更新日期：2015-10-14 11:30

本发明专利技术设计并实现了基于Berkeley DB数据库的主题爬虫系统，设计该系统的目标是为用户提供一个领域信息采集工具，并且只采集与特定主题相关的网页，从而能节省软硬件资源和较快地更新页面。设计思想是：首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足系统终止条件。在网页下载的过程中将其URL和概要信息插入到Berkeley数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了系统性能。在主题爬虫的参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网信息采集技术范畴，具体为基于BerkeleyDB数据库的主题爬虫系统。
技术介绍
随着网络资源的爆炸性增长，网络中网页的规模已经非常庞大。虽然机器性能相对有了不少的提高，但是面对数目如此巨大的URレ抓取整个Web上的网页是不现实的。对于网络爬虫，总是有"过于丰富"的U化资源。对网络爬虫的研究开始转移到使用一种比较好的URL选择或者排序策略，对URL进行排序或者取舍，尽量把质量高的或者接近"固定主题"的网页优先抓取下来，而不再单纯追求网页覆盖度。面向主题的Web信息采集(又叫聚焦网络爬虫)，主要是指那些选择性地捜寻与预先定义好的主题相关页面进行爬取的信息采集，主题一般可W是关键词，也可W是样本文件，其和基于整个网络的信息采集不同，为了节省软硬件资源与较快地更新页面，基于主题的信息采集并不采集那些和特定主题无关的页面。网络爬虫是捜索引擎的组成部分，其主要工作是抓取网页并下载到本地磁盘。传统的网络爬虫主要是根据一个或几个初始的种子站点进行抓取网页，在抓取过程中不断的对已下载到本地磁盘的网页进行分析，之后提取其中的U化超链接，放入到待爬取队列，不断地重复此过程，直到满足终止条件。与通用爬虫相比，主题爬虫的爬取工作就较为复杂，它需要首先对网页进行分析过滤，根据相关度的大小剔除掉一些与主题无关的页面的链接，将主题相关的页面链接放入到待爬取队列，之后主题爬虫会按照一定的爬取策略从U化队列中选择要爬取的U化，不断地重复此过程直到满足用户设定的爬取终止条件。此外由于需要对爬取下来的网页进行分析过滤有时还需要...

【技术保护点】
基于Berkeley DB数据库的主题爬虫系统，其特征在于，该系统包含如下组成部分：主题网页爬取；主题相关度计算；封装Bean；Berkeley DB数据库；主题爬虫用户界面。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨月华，刘红雅，
申请(专利权)人：许昌学院，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人