一种数据爬取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32032052 阅读:36 留言:0更新日期:2022-01-27 13:08
本申请实施例提供一种数据爬取方法、装置、电子设备及存储介质,涉及互联网技术领域。该方法包括获取需要渲染的网页的URL;将所述URL封装成工作队列;依次访问所述工作队列进行页面数据爬取并将所述页面中的所有浏览器事件封装成新的工作队列,直至所有的工作队列被访问完毕,可自动化触发浏览器事件,从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。浏览器事件导致部分页面无法获取的问题。浏览器事件导致部分页面无法获取的问题。

【技术实现步骤摘要】
一种数据爬取方法、装置、电子设备及存储介质


[0001]本申请涉及互联网
,具体而言,涉及一种数据爬取方法、装置、电子设备及存储介质。

技术介绍

[0002]现有的爬虫程序需要配置一个起始URL,爬虫程序启动后,会请求起始URL来获取页面,获取到页面后,会从页面中提取出新的URL,然后重复上述过程,直到没有新URL出现为止。但是此方案无法应用于SPA这种类型的站点,因为SPA站点只有一个URL,而且无法触发浏览器事件导致部分页面无法获取。

技术实现思路

[0003]本申请实施例的目的在于提供一种数据爬取方法、装置、电子设备及存储介质,可自动化触发浏览器事件,从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。
[0004]本申请实施例提供了一种数据爬取方法,所述方法包括:
[0005]获取需要渲染的网页的URL;
[0006]将所述URL封装成工作队列;
[0007]依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据爬取方法,其特征在于,所述方法包括:获取需要渲染的网页的URL;将所述URL封装成工作队列;依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列,直至所有的Job被访问完毕。2.根据权利要求1所述的数据爬取方法,其特征在于,所述Job包括URL和事件列表,所述事件列表包括先序事件和当前事件,所述依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列,包括:加载Job中的URL并回放所述事件列表中的所有事件,以生成页面;将所述页面存入页面队列;提取所述页面中的所有事件,并将所述事件封装成新Job的当前事件,所述新Job的先序事件为上一个Job的所有事件。3.根据权利要求2所述的数据爬取方法,其特征在于,所述回放所述事件列表中的所有事件,以生成页面,包括:通过代理服务器重写的addEventListener函数获取当前页面上已注册的所有事件;通过浏览器控制接口触发事件,以生成所述页面。4.根据权利要求1所述的数据爬取方法,其特征在于,在所述将所述页面中的所有浏览器事件封装成新的工作队列的步骤之前,所述方法还包括:对所述浏览器事件进行去重操作。5.一种数据爬取装置,其特征在于,所述装置包括:URL模块,用于获取需要渲染的网页的URL;封装模块,用于将所述URL封装成工作队列;访问模块,用...

【专利技术属性】
技术研发人员:张晓波
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1