【技术实现步骤摘要】
【技术保护点】
一种分布式网络爬虫系统,其特征在于包括:管理门户、中心节点服务器、分布式子节点服务器;管理门户是爬虫系统对管理员提供的Web接口,能够查看中心节点服务器和分布式子节点服务器的日志,设置添加主题,更新某个主题的URL种子,配置主题的抓取频率参量,控制爬虫的状态;中心节点服务器和分布式子节点服务器作为爬虫是系统的主体,完成主题操作、数据抽取器的学习、页面分析以及目标页面的存储;(1)中心节点服务器,包括URL控制器、抽取器模块和主题控制模块;主题控制模块,从管理接口接收管理门户发送来的数据,包括主题的描述数据、添加和删除操作数据、控制主题抓取频率的数据,完成关于主题的操作,包括 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:王宝会,于雷,王丽华,王新河,尹科,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。