【技术实现步骤摘要】
网页数据获取方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及互联网
,尤其涉及一种网页数据获取方法、装置、电子设备及存储介质。
技术介绍
[0002]随着网络技术的迅速发展,互联网已经成为大量信息的重要载体,为了有效获取这些信息资源,爬虫技术应运而生。利用网络爬虫虽然可以爬取网站数据,却会消耗目标系统资源,因此,很多网站都设置了反爬机制来阻止爬虫批量获取网站信息。
[0003]现有技术中,爬取网站数据的方式通常包括以下两种。第一种方式为,利用预先编写的脚本爬取网站数据,然而,对于设置了反爬机制的网站来说,用户需要在爬取数据前花费大量精力去了解该网站的cookie和相关校验机制,同时,这种非人类操作的数据读取方式很容易被网站检测出来。第二种方式为,利用无头浏览器模拟用户真实浏览器的操作环境,再运行数据爬取脚本,对于这种方式,网站依然可以通过前端JavaScript校验出无头浏览器,进而检测出爬虫脚本。
[0004]因此,相关技术提供的方案中,用户利用脚本爬取网站数据时需要花费较多的精力,脚 ...
【技术保护点】
【技术特征摘要】
1.一种网页数据获取方法,其特征在于,应用于浏览器中的插件,包括:当接收到服务端发送的数据获取请求时,确定与所述数据获取请求相对应的待编辑配置项;为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合;其中,所述请求参数为所述数据获取请求中所携带的参数;基于所述插件运行所述目标操作指令集合中的各个操作指令,跳转至至少一个目标访问页面;基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,并将所述待反馈数据发送至所述服务端。2.根据权利要求1所述的方法,其特征在于,还包括:向所述服务端发送通信连接请求;当接收到所述服务端反馈的响应信息时,与所述服务端建立基于WebSocket协议的通信通道。3.根据权利要求1所述的方法,其特征在于,所述当接收到服务端发送的数据获取请求时,确定与所述数据获取请求相对应的待编辑配置项,包括:当接收到所述服务端发送的数据获取请求时,提取所述数据获取请求中所携带的数据获取参数,其中,所述数据获取参数包括所述目标访问网页的地址;根据所述数据获取参数与所述浏览器插件中配置项的对应关系,确定与所述数据获取参数相对应的待编辑配置项。4.根据权利要求1所述的方法,其特征在于,所述为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合,包括:基于所述数据获取参数的字段对各待编辑配置项的字段进行赋值,得到目标操作指令集合中与各待编辑配置项相对应的目标操作指令。5.根据权利要求1所述的方法,其特征在于,所述基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,包括:调用预先编写的基于JavaScript的目标脚本,对所述目标访问页面进行解析,得到全体数据;基于所述目标脚本中的数据提取方法,从所述全体数据中提取出所述待反馈数据。6.根据权利要求5...
【专利技术属性】
技术研发人员:翁佳瑞,
申请(专利权)人:挂号网杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。