【技术实现步骤摘要】
一种基于云平台的网站信息采集系统
本专利技术涉及信息采集领域,尤其涉及一种基于云平台的网站信息采集系统。
技术介绍
现有技术中,对网站信息的获取一般通过爬虫技术来实现。然而,为了防止爬虫的访问连接占用正常的访问带宽,很多网站都设置了反爬虫机制,如果采用单一的客户端来爬取网站的信息,容易被反爬虫机制识别,从而导致对网站的信息采集失败。
技术实现思路
鉴于上述问题,本专利技术的目的在于提供一种基于云平台的网站信息采集系统。本专利技术提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。优选地,所述任务管理模块包括 ...
【技术保护点】
1.一种基于云平台的网站信息采集系统,其特征在于,包括任务管理模块、代理服务模块和数据管理模块;/n所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;/n所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;/n所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。/n
【技术特征摘要】
1.一种基于云平台的网站信息采集系统,其特征在于,包括任务管理模块、代理服务模块和数据管理模块;
所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;
所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;
所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。
2.根据权利要求1所述的一种基于云平台的网站信息采集系统,其特征在于,所述任务管理模块包括权限控制单元和任务管理单元;
所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;
所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。
3.根据权利要求2所述的一种基于云平台的网站信息采集系统,其特征在于,所述任务管理单元还用于对已存在的网站信息采集任务进行管理,具体包括:
删除已存在的网站信息采集任务、对已存在的网站信息采集任务进行修改。
4.根据权利要求3所述的一种基于云平台的网站信息采集系统,其特征在于,所述网站信息采集任务包括需要进行信息采集的网站的网址、需要进行信息采集的网站的登录信息和使用所述代理服务器的...
【专利技术属性】
技术研发人员:项超,
申请(专利权)人:上海慧洲信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。