一种浏览器页面数据采集方法、终端设备及存储介质技术

技术编号：28472002 阅读：36 留言：0更新日期：2021-05-15 21:39

本发明专利技术涉及一种浏览器页面数据采集方法、终端设备及存储介质，该方法中包括：S1：启动浏览器扩展的后台程序，并轮询任务中心的任务列表以获取任务；S2：浏览器扩展打开任务对应的浏览器页面，判断页面访问是否正常，当页面访问正常时，进入S4；当页面无法访问或访问出错时，给出错误信息，结束；当页面访问受限时，进入S3；S3：根据页面访问受限的类型，采用对应的规则解除页面访问受限状态后，正常访问页面，进入S4；S4：在页面中执行JavaScript脚本，以采集页面中需要采集的数据；S5：将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。本发明专利技术通过浏览器扩展来采集互联网数据，在先天上克服了各类爬虫工具的弊端，百分百模拟浏览器请求。拟浏览器请求。拟浏览器请求。

全部详细技术资料下载

【技术实现步骤摘要】
一种浏览器页面数据采集方法、终端设备及存储介质

[0001]本专利技术涉及数据采集领域，尤其涉及一种浏览器页面数据采集方法、终端设备及存储介质。

技术介绍

[0002]在现有的网页数据爬虫技术和方案中，主要的技术难点有几类，一类是反爬策略，如频繁抓取IP侦测被禁止访问，一类是模板不定期变动，一类是URL抓取失败。针对上述技术难点有多种应对策略，针对反爬策略可以使用浏览器的形式访问；对于模板定期变动可以设定多套模板规则和策略；对于IP侦测被禁用，可以购买代理IP库，或者部署多个应用分别抓取，降低单个节点访问频率，设定页面访问间隔时间。但上述策略实现的方式复杂，且效果不佳。
[0003]随着浏览器技术和JS(JavaScript，一种应用广泛的即时编译型的高级编程语言)的发展，各种反爬技术层出不穷，其中前端反爬就是第一道门槛。网络爬虫的一般作法：基于Socket通讯编写爬虫；基于HttpURLConnection类编写爬虫；基于apache的HttpClient包编写爬虫；基于phantomjs之类的无头(无界面)浏览器...

【技术保护点】

【技术特征摘要】
1.一种浏览器页面数据采集方法，其特征在于，包括以下步骤：S1：启动浏览器扩展的后台程序，并轮询任务中心的任务列表以获取页面数据采集任务；S2：浏览器扩展根据任务中包含的URL链接打开浏览器页面，判断页面访问是否正常，当页面访问正常时，进入S4；当页面无法访问或访问出错时，给出错误信息，结束；当页面访问受限时，进入S3；S3：根据页面访问受限的类型，采用对应的规则解除页面访问受限状态后，正常访问页面，进入S4；S4：在页面中执行JavaScript脚本，以采集页面中需要采集的数据；S5：将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。2.根据权利要求1所述的浏览器页面数据采集方法，其特征在于：步骤S1在打开浏览器扩展的后台程序后，还包括对浏览器扩展进行配置，包括：(1)配置每台服务器上同时打开的标签页小于1000个；(2)配置自动识别并去掉页面中的干扰信息；(3)配置利用浏览器API控制浏览器开启和关闭目标网页；(4)配置利用浏览器API和JavaScript脚本，进行页面操作；(5)配置数据采集结果的处理方式。3.根据权利要求1所述的浏览器页面数据采集方法，其特征在于：步骤S3中解除页面访问受限状态的规则包括：当页面访问受限类型为IP被限定时，降低网页的访问频率，或构建IP代理池，更换IP进行访问；当页面访问受限类型为需要验证码时，采用绕过验证码、验证码图像自动识别或手动输入的方式；当页面访问受限类型为需要登陆Cookie时，预先注册页面需要的账号，并在浏览器扩展...

【专利技术属性】
技术研发人员：卓世界，王仁斌，陈镇国，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人