基于浏览器的网页数据获取方法及相关设备技术

技术编号：37202167 阅读：17 留言：0更新日期：2023-04-20 22:57

本发明专利技术涉及一种基于浏览器的网页数据获取方法及相关设备，包括步骤：基于预设的浏览器访问目标网页，其中，所述预设的浏览器已注入了预设的页面脚本；基于所述的预设的页面脚本，向浏览器服务器发起针对所述目标网页的数据请求，通过所述浏览器服务器向所述目标站点请求站点数据；获取所述浏览器服务器返回的站点数据。本发明专利技术使数据获取过程无服务器成本，同时可规避爬取过程中IP限制的问题。同时可规避爬取过程中IP限制的问题。同时可规避爬取过程中IP限制的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于浏览器的网页数据获取方法及相关设备

[0001]本专利技术属于互联网
，尤其涉及基于浏览器的网页数据获取方法及相关设备。

技术介绍

[0002]如图1所示，在单向为用户提供爬取服务方面，目前的同类技术主要通过服务端架设HTTP通道模拟用户行为爬取目标网页信息，再将爬取到的信息返回到客户端，通常这样的爬取流程，可能导致该服务端IP被目标网站封禁，导致无法爬取的问题，在解决这块问题的时候，大多数的处理方案是为该服务提供大量的IP来应对，但这种方式相应的增加开发成本，以及服务器成本。同时这种方式还存在耗时长，数据回调不稳定等较多因素。

技术实现思路

[0003]本专利技术实施例提供一种基于浏览器的网页数据获取方法及相关设备，旨在解决现上述技术问题。
[0004]第一方面，本专利技术实施例提供一种基于浏览器的网页数据获取方法，包括步骤：
[0005]基于预设的浏览器访问目标网页，其中，所述预设的浏览器已注入了预设的页面脚本；
[0006]基于所述的预设的页面脚本，向浏览器服务器发起针对所述目标网页的数据请求，通过所述浏览器服务器向所述目标站点请求站点数据；
[0007]获取所述浏览器服务器返回的站点数据。
[0008]优选的，所述向浏览器服务器发起针对所述目标网页的数据请求的步骤前，还包括：
[0009]校验所述目标网页的匹配正则，判断所述目标网页的平台分类；
[0010]根据所述平台分类，对所述目标网页进行数据解析，读取网页数据。
[...

【技术保护点】

【技术特征摘要】
1.一种基于浏览器的网页数据获取方法，其特征在于，包括步骤：基于预设的浏览器访问目标网页，其中，所述预设的浏览器已注入了预设的页面脚本；基于所述的预设的页面脚本，向浏览器服务器发起针对所述目标网页的数据请求，通过所述浏览器服务器向所述目标站点请求站点数据；获取所述浏览器服务器返回的站点数据。2.根据权利要求1所述的方法，其特征在于：所述向浏览器服务器发起针对所述目标网页的数据请求的步骤前，还包括：校验所述目标网页的匹配正则，判断所述目标网页的平台分类；根据所述平台分类，对所述目标网页进行数据解析，读取网页数据。3.根据权利要求2所述的方法，其特征在于：所述校验所述目标网页的匹配正则，判断所述目标网页的平台分类包括：基于所述匹配正则，判断所述目标网页是否为Shopify站点；若所述目标网页为Shopify站点，则基于对应的数据解析方法进行数据解析。4.根据权利要求2所述的方法，其特征在于：所述校验所述目标网页的匹配正则，判断所述目标网页的平台分类包括：基于所述匹配正则，判断所述目标网页是否为ShopLine站点；若所述目标网页为ShopLine站点，则基于对应的数据解析方法进行数据解析。5.根据权利要求2所述的方法，其特征在于：所述校验所述目标网页的匹配正则，判断所述目标网页的平台分类包括...

【专利技术属性】
技术研发人员：曾文清，陈敏群，虞孝伟，
申请(专利权)人：广州至真信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人