【技术实现步骤摘要】
一种抓取动态页面的方法、系统、设备及介质
本专利技术涉及爬虫
,尤其涉及一种抓取动态页面的方法、系统、设备及介质。
技术介绍
当前分布式爬虫框架对动态页面抓取的功能,在高并发的场景下,抓取速度慢,失败率高,对服务器资源利用不合理;当前分布式爬虫框架对动态页面的抓取功能与爬虫框架本身高度耦合,动态页面抓取功能无法做到通用;当前分布式爬虫框架利用浏览器做页面渲染时,会存在很多冗余过程,降低了页面渲染抓取效率。
技术实现思路
(一)要解决的技术问题本专利技术提供了一种抓取动态页面的方法、系统、设备及介质,以提供爬虫抓取动态页面时的效率、稳定性和通用性。(二)技术方案本专利技术提供了一种抓取动态页面的方法,用于chromium浏览器,方法包括:接收爬虫抓取页面请求;将抓取页面请求的负载分配于多台服务器的管理程序,以使所述管理程序将抓取页面请求的负载分配于chromium浏览器的多个chromium进程,以通过多个chromium进程抓取网页中的动态页面。可选地,将所述抓取页面请求的负载分配于多个chromium进程具体为管理程序根据最小连接数调度算法将抓取页面请求的负载 ...
【技术保护点】
1.一种抓取动态页面的方法,用于chromium浏览器,其特征在于,方法包括:接收爬虫抓取页面请求;将所述抓取页面请求的负载分配于多台服务器的管理程序,以使所述管理程序将所述抓取页面请求的负载分配于所述chromium浏览器的多个chromium进程,以通过所述多个chromium进程抓取网页中的动态页面。
【技术特征摘要】
1.一种抓取动态页面的方法,用于chromium浏览器,其特征在于,方法包括:接收爬虫抓取页面请求;将所述抓取页面请求的负载分配于多台服务器的管理程序,以使所述管理程序将所述抓取页面请求的负载分配于所述chromium浏览器的多个chromium进程,以通过所述多个chromium进程抓取网页中的动态页面。2.根据权利要求1所述的抓取动态页面的方法,其特征在于,所述将所述抓取页面请求的负载分配于多个chromium进程具体为所述管理程序根据最小连接数调度算法将所述抓取页面请求的负载分配于所述多个chromium进程。3.根据权利要求1所述的抓取动态页面的方法,其特征在于,通过负载均衡设备将所述抓取页面请求的负载分配于多台服务器的管理程序。4.根据权利要求3所述的抓取动态页面的方法,其特征在于,所述负载均衡设备为LVS、Nginx、HAproxy中的一个。5.根据权利要求3所述的抓取动态页面的方法,其特征在于,所述管理程序与所述chromium浏览器和负载均衡设备连接,用于将负载均衡设备分配的抓取页面请求分配于所述chrom...
【专利技术属性】
技术研发人员:沈鹏,顾鹏飞,
申请(专利权)人:北京奇安信科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。