【技术实现步骤摘要】
一种爬虫部署方法、系统、装置、设备及存储介质
本专利技术涉及计算机
,特别涉及一种爬虫部署方法、系统、装置、设备及存储介质。
技术介绍
随着网络的迅速发展,互联网成为大量信息的载体,如何高效地从海量的信息中提取并利用这些信息成为巨大的挑战,网络爬虫技术应运而生并迅速发展,但由于网络中数据量庞大,不可能只靠一台服务器运行所有爬虫项目,在此背景下,分布式爬虫的优势就展现出来了。分布式爬虫部署将同一或多个个爬虫任务分给多个服务器同步运行,然后整合各个服务器爬取到的信息数据,提高了爬取效率,然而在开发过程中,爬虫版本的迭代速度非常快,在部署运行分布式爬虫的过程中,需要对爬虫项目进行实时同步,现有技术中通过人工编写脚本实现同步的效率较低且容易出现脚本漏洞,导致个别目录或文件无法同步。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种爬虫部署方法、系统、装置、设备及存储介质,能够提高服务器集群间的爬虫项目的增量同步的效率和精确度,进一步提高爬取效率。其具体方案如下:本申请的第一方面提供了一种爬虫部署 ...
【技术保护点】
1.一种爬虫部署方法,其特征在于,应用于主服务器,包括:/n利用本地的目录监测工具对本地的爬虫目录进行监测,以确定所述爬虫目录中由开发平台向所述爬虫目录发布爬虫项目引起的增量文件;/n利用本地的增量同步工具将所述增量文件同步至从服务器,以更新所述从服务器的爬虫目录;/n基于预设任务分配规则,将所述爬虫项目对应的爬虫任务分配至所述从服务器,以便所述从服务器基于所述从服务器的爬虫目录执行所述主服务器分配的爬虫任务。/n
【技术特征摘要】
1.一种爬虫部署方法,其特征在于,应用于主服务器,包括:
利用本地的目录监测工具对本地的爬虫目录进行监测,以确定所述爬虫目录中由开发平台向所述爬虫目录发布爬虫项目引起的增量文件;
利用本地的增量同步工具将所述增量文件同步至从服务器,以更新所述从服务器的爬虫目录;
基于预设任务分配规则,将所述爬虫项目对应的爬虫任务分配至所述从服务器,以便所述从服务器基于所述从服务器的爬虫目录执行所述主服务器分配的爬虫任务。
2.根据权利要求1所述的爬虫部署方法,其特征在于,所述利用本地的目录监测工具对本地的爬虫目录进行监测,以确定所述爬虫目录中由开发平台向所述爬虫目录发布爬虫项目引起的增量文件,包括:
利用本地的Sersync组件对本地的爬虫目录进行监测;
当监测到所述爬虫目录发生变化时,记录开发平台向所述爬虫目录发布爬虫项目引起变化的文件,以得到增量文件。
3.根据权利要求2所述的爬虫部署方法,其特征在于,所述利用本地的增量同步工具将所述增量文件同步至从服务器,以更新所述从服务器的爬虫目录,包括:
利用本地的Rsync组件向所述从服务器发送同步命令,以便所述从服务器接收所述同步命令后返回增量文件请求;
接收所述从服务器返回的所述增量文件请求,并基于Rsync协议将所述增量文件发送至所述从服务器,以更新所述从服务器的爬虫目录。
4.根据权利要求3所述的爬虫部署方法,其特征在于,所述基于Rsync协议将所述增量文件发送至所述从服务器,以更新所述从服务器的爬虫目录之前,还包括:
通过所述Sersync组件对所述爬虫项目的临时文件和重复文件进行过滤。
5.根据权利要求3所述的爬虫部署方法,其特征在于,所述接收所述从服务器返回的所述增量文件请求,并基于Rsync协议将所述增量文件发送至所述从服务器,以更新所述从服务器的爬虫目录之后,还包括:
判断所述增量文件是否同步成功,若否,则对所述增量文件进行重新同步,以实现所述本地的爬虫目录与所述从服务器的爬虫目录的增量同步。
6.根据权利要求5所述的爬虫部署方法,其特征在于,所述判断所述增量文件是否同步成功,若...
【专利技术属性】
技术研发人员:刘海飞,刘国宏,姜卓,魏峻,
申请(专利权)人:山东中创软件工程股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。