【技术实现步骤摘要】
【技术保护点】
一种分布式网络爬虫系统,其特征在于包括:管理门户、中心节点服务器、分布式子节点服务器;管理门户是爬虫系统对管理员提供的Web接口,能够查看中心节点服务器和分布式子节点服务器的日志,设置添加主题,更新某个主题的URL种子,配置主题的抓取频率参量,控制爬虫的状态;中心节点服务器和分布式子节点服务器作为爬虫是系统的主体,完成主题操作、数据抽取器的学习、页面分析以及目标页面的存储;(1)中心节点服务器,包括URL控制器、抽取器模块和主题控制模块;主题控制模块,从管理接口接收管理门户发送来的数据,包括主题的描述数据、添加和删除操作数据、控制主题抓取频率的数据,完成关于主题的操作,包括对主题的描述、添加和删除;控制主题抓取频率;编辑每个主题种子队列,并将主题种子队列发送至抽取器模块和URL控制器模块;抽取器模块,接收主题种子队列后,首先通过基本分析器来把种子队列的URL地址代表的网页进行分类,分为Deep?Web网页和数据密集型(Data?intensive)网页,然后分别对两种页面进行抽取,找到各个类型对应的数据抽取器,再把URL地址和相应的数据抽取器行进对应记录,并把记录发送给URL控制器;U ...
【技术特征摘要】
【专利技术属性】
技术研发人员:王宝会,于雷,王丽华,王新河,尹科,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。