网页数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31024914 阅读：23 留言：0更新日期：2021-11-30 03:24

本发明专利技术实施例公开了一种网页数据获取方法、装置、电子设备及存储介质，该方法包括：当接收到服务端发送的数据获取请求时，确定与所述数据获取请求相对应的待编辑配置项；为所述待编辑配置项配置请求参数，得到与所述数据获取请求相对应的目标操作指令集合；其中，所述请求参数为所述数据获取请求中所携带的参数；基于所述插件运行所述目标操作指令集合中的各个操作指令，跳转至至少一个目标访问页面；基于目标脚本爬取与所述目标访问页面相对应的待反馈数据，并将所述待反馈数据发送至所述服务端。本发明专利技术实施例的技术方案，使用户可以控制浏览器行为，并为爬虫脚本的运行创造了真实用户的浏览器环境，保证了数据爬取的成功率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
网页数据获取方法、装置、电子设备及存储介质

[0001]本专利技术实施例涉及互联网
，尤其涉及一种网页数据获取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着网络技术的迅速发展，互联网已经成为大量信息的重要载体，为了有效获取这些信息资源，爬虫技术应运而生。利用网络爬虫虽然可以爬取网站数据，却会消耗目标系统资源，因此，很多网站都设置了反爬机制来阻止爬虫批量获取网站信息。
[0003]现有技术中，爬取网站数据的方式通常包括以下两种。第一种方式为，利用预先编写的脚本爬取网站数据，然而，对于设置了反爬机制的网站来说，用户需要在爬取数据前花费大量精力去了解该网站的cookie和相关校验机制，同时，这种非人类操作的数据读取方式很容易被网站检测出来。第二种方式为，利用无头浏览器模拟用户真实浏览器的操作环境，再运行数据爬取脚本，对于这种方式，网站依然可以通过前端JavaScript校验出无头浏览器，进而检测出爬虫脚本。
[0004]因此，相关技术提供的方案中，用户利用脚本爬取网站数据时需要花费较多的精力，脚...

【技术保护点】

【技术特征摘要】
1.一种网页数据获取方法，其特征在于，应用于浏览器中的插件，包括：当接收到服务端发送的数据获取请求时，确定与所述数据获取请求相对应的待编辑配置项；为所述待编辑配置项配置请求参数，得到与所述数据获取请求相对应的目标操作指令集合；其中，所述请求参数为所述数据获取请求中所携带的参数；基于所述插件运行所述目标操作指令集合中的各个操作指令，跳转至至少一个目标访问页面；基于目标脚本爬取与所述目标访问页面相对应的待反馈数据，并将所述待反馈数据发送至所述服务端。2.根据权利要求1所述的方法，其特征在于，还包括：向所述服务端发送通信连接请求；当接收到所述服务端反馈的响应信息时，与所述服务端建立基于WebSocket协议的通信通道。3.根据权利要求1所述的方法，其特征在于，所述当接收到服务端发送的数据获取请求时，确定与所述数据获取请求相对应的待编辑配置项，包括：当接收到所述服务端发送的数据获取请求时，提取所述数据获取请求中所携带的数据获取参数，其中，所述数据获取参数包括所述目标访问网页的地址；根据所述数据获取参数与所述浏览器插件中配置项的对应关系，确定与所述数据获取参数相对应的待编辑配置项。4.根据权利要求1所述的方法，其特征在于，所述为所述待编辑配置项配置请求参数，得到与所述数据获取请求相对应的目标操作指令集合，包括：基于所述数据获取参数的字段对各待编辑配置项的字段进行赋值，得到目标操作指令集合中与各待编辑配置项相对应的目标操作指令。5.根据权利要求1所述的方法，其特征在于，所述基于目标脚本爬取与所述目标访问页面相对应的待反馈数据，包括：调用预先编写的基于JavaScript的目标脚本，对所述目标访问页面进行解析，得到全体数据；基于所述目标脚本中的数据提取方法，从所述全体数据中提取出所述待反馈数据。6.根据权利要求5...

【专利技术属性】
技术研发人员：翁佳瑞，
申请(专利权)人：挂号网杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人