一种分布式网络爬虫系统技术方案

技术编号:9171092 阅读:299 留言:0更新日期:2013-09-19 19:43
一种分布式网络爬虫系统,适用于网络信息采集领域,包括:管理门户、中心节点服务器、分布式子节点服务器;管理门户是爬虫系统对管理员提供的Web接口,能够查看中心节点服务器和分布式子节点服务器的日志,设置添加主题,更新某个主题的URL种子,配置主题的抓取频率参量,控制爬虫的状态;中心节点服务器和分布式子节点服务器爬虫是系统的主体,完成主题操作、数据抽取器的学习、页面分析以及目标页面的存储。本发明专利技术实现了一个爬虫容纳不同主题的抓取,提高了抓取网页的速度和质量不能满足了用户要求。

【技术实现步骤摘要】

【技术保护点】
一种分布式网络爬虫系统,其特征在于包括:管理门户、中心节点服务器、分布式子节点服务器;管理门户是爬虫系统对管理员提供的Web接口,能够查看中心节点服务器和分布式子节点服务器的日志,设置添加主题,更新某个主题的URL种子,配置主题的抓取频率参量,控制爬虫的状态;中心节点服务器和分布式子节点服务器作为爬虫是系统的主体,完成主题操作、数据抽取器的学习、页面分析以及目标页面的存储;(1)中心节点服务器,包括URL控制器、抽取器模块和主题控制模块;主题控制模块,从管理接口接收管理门户发送来的数据,包括主题的描述数据、添加和删除操作数据、控制主题抓取频率的数据,完成关于主题的操作,包括对主题的描述、添加和...

【技术特征摘要】

【专利技术属性】
技术研发人员:王宝会于雷王丽华王新河尹科
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1