基于浏览器的网页数据获取方法及相关设备技术

技术编号:37202167 阅读:17 留言:0更新日期:2023-04-20 22:57
本发明专利技术涉及一种基于浏览器的网页数据获取方法及相关设备,包括步骤:基于预设的浏览器访问目标网页,其中,所述预设的浏览器已注入了预设的页面脚本;基于所述的预设的页面脚本,向浏览器服务器发起针对所述目标网页的数据请求,通过所述浏览器服务器向所述目标站点请求站点数据;获取所述浏览器服务器返回的站点数据。本发明专利技术使数据获取过程无服务器成本,同时可规避爬取过程中IP限制的问题。同时可规避爬取过程中IP限制的问题。同时可规避爬取过程中IP限制的问题。

【技术实现步骤摘要】
基于浏览器的网页数据获取方法及相关设备


[0001]本专利技术属于互联网
,尤其涉及基于浏览器的网页数据获取方法及相关设备。

技术介绍

[0002]如图1所示,在单向为用户提供爬取服务方面,目前的同类技术主要通过服务端架设HTTP通道模拟用户行为爬取目标网页信息,再将爬取到的信息返回到客户端,通常这样的爬取流程,可能导致该服务端IP被目标网站封禁,导致无法爬取的问题,在解决这块问题的时候,大多数的处理方案是为该服务提供大量的IP来应对,但这种方式相应的增加开发成本,以及服务器成本。同时这种方式还存在耗时长,数据回调不稳定等较多因素。

技术实现思路

[0003]本专利技术实施例提供一种基于浏览器的网页数据获取方法及相关设备,旨在解决现上述技术问题。
[0004]第一方面,本专利技术实施例提供一种基于浏览器的网页数据获取方法,包括步骤:
[0005]基于预设的浏览器访问目标网页,其中,所述预设的浏览器已注入了预设的页面脚本;
[0006]基于所述的预设的页面脚本,向浏览器服务器发起针对所述目标网页的数据请求,通过所述浏览器服务器向所述目标站点请求站点数据;
[0007]获取所述浏览器服务器返回的站点数据。
[0008]优选的,所述向浏览器服务器发起针对所述目标网页的数据请求的步骤前,还包括:
[0009]校验所述目标网页的匹配正则,判断所述目标网页的平台分类;
[0010]根据所述平台分类,对所述目标网页进行数据解析,读取网页数据。
[0011]优选的,所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括:
[0012]基于所述匹配正则,判断所述目标网页是否为Shopify站点;
[0013]若所述目标网页为Shopify站点,则基于对应的数据解析方法进行数据解析。
[0014]优选的,所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括:
[0015]基于所述匹配正则,判断所述目标网页是否为ShopLine站点;
[0016]若所述目标网页为ShopLine站点,则基于对应的数据解析方法进行数据解析。
[0017]优选的,所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括:
[0018]基于所述匹配正则,判断所述目标网页是否为ShopLazza站点;
[0019]若所述目标网页为ShopLazza站点,则基于对应的数据解析方法进行数据解析。
[0020]优选的,所述方法还包括步骤:
[0021]对所述浏览器服务器返回的站点数据进行数据处理,提取目标数据。
[0022]优选的,所述方法还包括步骤:
[0023]对所述目标数据进行流量分析。
[0024]第二方面,提供一种基于浏览器的网页数据获取装置,包括:
[0025]页面访问模块,用于基于预设的浏览器访问目标网页,其中,所述预设的浏览器已注入了预设的页面脚本;
[0026]数据请求模块,用于基于所述的预设的页面脚本,向浏览器服务器发起针对所述目标网页的数据请求,通过所述浏览器服务器向所述目标站点请求站点数据;
[0027]数据返回模块,用于获取所述浏览器服务器返回的站点数据。
[0028]第三方面,本专利技术实施例还提供一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的基于浏览器的网页数据获取方法中的步骤。
[0029]第四方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的基于浏览器的网页数据获取方法中的步骤。
[0030]本专利技术实施例中,数据请求和获取是基于浏览器的插件能力(以Chrome浏览器为例),无服务器成本,同时可规避爬取过程中IP限制的问题,用户通过浏览器添加页面程序(插件),既可爬取目标网站信息,由于是浏览器插件,所有的网络请求都通过用户访问的站点本身以及Chrome Server worker(服务器工作程序)发起,即插即用稳定可靠。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1是现有一种数据获取方法的流程图;
[0033]图2是本专利技术实施例一提供的流程图;
[0034]图3是本专利技术实施例一提供的关于脚本注入、数据获取的流程图;
[0035]图4是本专利技术提供的另一实施例二的流程图;
[0036]图5是本专利技术提供的另一实施例三的流程图;
[0037]图6是本专利技术提供的数据获取装置的结构示意图;
[0038]图7是本专利技术提供的一种计算机设备的结构示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意
味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0041]如图2所示,图2为本专利技术实施例提供的一种基于浏览器的网页数据获取方法的流程图,该方法包括步骤:
[0042]S101、基于预设的浏览器访问目标网页,其中,所述预设的浏览器已注入了预设的页面脚本(插件)。
[0043]在本专利技术实施例中,以Chrome浏览器为例进行说明,Chrome浏览器支持多种插件的注入,通过插件的注入实现插件程序的运行,以实现所需要的功能。当然,其它具备插件功能的浏览器也适用于本专利技术实施例的技术方案。本实施例中,页面脚本以插件的方式注入到浏览器中,通过Chrome浏览器实现对目标网站的数据获取、解析、读取、分析等功能。并依据分析结果,为浏览器客户端的用户提供所需要的数据结果。
[0044]如图3所示,Chrome浏览器的注入方式是通过页面脚本的方式进行注入,注入后的页面脚本会建立socket监听访问,并实现dom的注入操作。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于浏览器的网页数据获取方法,其特征在于,包括步骤:基于预设的浏览器访问目标网页,其中,所述预设的浏览器已注入了预设的页面脚本;基于所述的预设的页面脚本,向浏览器服务器发起针对所述目标网页的数据请求,通过所述浏览器服务器向所述目标站点请求站点数据;获取所述浏览器服务器返回的站点数据。2.根据权利要求1所述的方法,其特征在于:所述向浏览器服务器发起针对所述目标网页的数据请求的步骤前,还包括:校验所述目标网页的匹配正则,判断所述目标网页的平台分类;根据所述平台分类,对所述目标网页进行数据解析,读取网页数据。3.根据权利要求2所述的方法,其特征在于:所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括:基于所述匹配正则,判断所述目标网页是否为Shopify站点;若所述目标网页为Shopify站点,则基于对应的数据解析方法进行数据解析。4.根据权利要求2所述的方法,其特征在于:所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括:基于所述匹配正则,判断所述目标网页是否为ShopLine站点;若所述目标网页为ShopLine站点,则基于对应的数据解析方法进行数据解析。5.根据权利要求2所述的方法,其特征在于:所述校验所述目标网页的匹配正则,判断所述目标网页的平台分类包括...

【专利技术属性】
技术研发人员:曾文清陈敏群虞孝伟
申请(专利权)人:广州至真信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1