一种浏览器页面数据采集方法、终端设备及存储介质技术

技术编号:28472002 阅读:36 留言:0更新日期:2021-05-15 21:39
本发明专利技术涉及一种浏览器页面数据采集方法、终端设备及存储介质,该方法中包括:S1:启动浏览器扩展的后台程序,并轮询任务中心的任务列表以获取任务;S2:浏览器扩展打开任务对应的浏览器页面,判断页面访问是否正常,当页面访问正常时,进入S4;当页面无法访问或访问出错时,给出错误信息,结束;当页面访问受限时,进入S3;S3:根据页面访问受限的类型,采用对应的规则解除页面访问受限状态后,正常访问页面,进入S4;S4:在页面中执行JavaScript脚本,以采集页面中需要采集的数据;S5:将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。本发明专利技术通过浏览器扩展来采集互联网数据,在先天上克服了各类爬虫工具的弊端,百分百模拟浏览器请求。拟浏览器请求。拟浏览器请求。

【技术实现步骤摘要】
一种浏览器页面数据采集方法、终端设备及存储介质


[0001]本专利技术涉及数据采集领域,尤其涉及一种浏览器页面数据采集方法、终端设备及存储介质。

技术介绍

[0002]在现有的网页数据爬虫技术和方案中,主要的技术难点有几类,一类是反爬策略,如频繁抓取IP侦测被禁止访问,一类是模板不定期变动,一类是URL抓取失败。针对上述技术难点有多种应对策略,针对反爬策略可以使用浏览器的形式访问;对于模板定期变动可以设定多套模板规则和策略;对于IP侦测被禁用,可以购买代理IP库,或者部署多个应用分别抓取,降低单个节点访问频率,设定页面访问间隔时间。但上述策略实现的方式复杂,且效果不佳。
[0003]随着浏览器技术和JS(JavaScript,一种应用广泛的即时编译型的高级编程语言)的发展,各种反爬技术层出不穷,其中前端反爬就是第一道门槛。网络爬虫的一般作法:基于Socket通讯编写爬虫;基于HttpURLConnection类编写爬虫;基于apache的HttpClient包编写爬虫;基于phantomjs之类的无头(无界面)浏览器;基于Seleniu本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种浏览器页面数据采集方法,其特征在于,包括以下步骤:S1:启动浏览器扩展的后台程序,并轮询任务中心的任务列表以获取页面数据采集任务;S2:浏览器扩展根据任务中包含的URL链接打开浏览器页面,判断页面访问是否正常,当页面访问正常时,进入S4;当页面无法访问或访问出错时,给出错误信息,结束;当页面访问受限时,进入S3;S3:根据页面访问受限的类型,采用对应的规则解除页面访问受限状态后,正常访问页面,进入S4;S4:在页面中执行JavaScript脚本,以采集页面中需要采集的数据;S5:将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。2.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S1在打开浏览器扩展的后台程序后,还包括对浏览器扩展进行配置,包括:(1)配置每台服务器上同时打开的标签页小于1000个;(2)配置自动识别并去掉页面中的干扰信息;(3)配置利用浏览器API控制浏览器开启和关闭目标网页;(4)配置利用浏览器API和JavaScript脚本,进行页面操作;(5)配置数据采集结果的处理方式。3.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S3中解除页面访问受限状态的规则包括:当页面访问受限类型为IP被限定时,降低网页的访问频率,或构建IP代理池,更换IP进行访问;当页面访问受限类型为需要验证码时,采用绕过验证码、验证码图像自动识别或手动输入的方式;当页面访问受限类型为需要登陆Cookie时,预先注册页面需要的账号,并在浏览器扩展...

【专利技术属性】
技术研发人员:卓世界王仁斌陈镇国
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1