一种数据抓取方法、装置及介质制造方法及图纸

技术编号：33352814 阅读：46 留言：0更新日期：2022-05-08 10:02

本发明专利技术涉及爬虫技术领域，具体提供了一种数据抓取方法，利用Python环境和selenium自动化测试工具，调用浏览器发起网页访问请求，模拟用户操作，打开页面，在页面中提取目标数据，得到网页渲染后的结果，获取返回页面中的数据。与现有技术相比，本发明专利技术的在面对反爬虫机制时，通过一系列操作，能够有效避免反爬虫机制，大大提高了数据采集的门槛。大大提高了数据采集的门槛。大大提高了数据采集的门槛。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据抓取方法、装置及介质

[0001]本专利技术涉及爬虫
，具体提供一种数据抓取方法、装置及介质。

技术介绍

[0002]网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。爬虫的工作流程较为复杂，从一个或若干初始网页的URL开始，根据一定的网页分析算法过滤与主题无关的链接，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。
[0003]现有的网络爬虫在模拟请求的时候需要把所有的通信流程都分析完成后才能通过请求，然后返回响应结果，中间的通信流程比较复杂。有的网络需要发送大量ajax请求，异步获取数据渲染到页面上，网络爬虫无法对异步请求及时的响应和处理。而且有的网站加入了反爬虫机制，普通的网络爬虫不太适用。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足，提供一种实用性强的数据抓取方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理...

【技术保护点】

【技术特征摘要】
1.一种数据抓取方法，其特征在于，利用Python环境和selenium自动化测试工具，调用浏览器发起网页访问请求，模拟用户操作，打开页面，在页面中提取目标数据，得到网页渲染后的结果，获取返回页面中的数据。2.根据权利要求1所述的一种数据抓取方法，其特征在于，selenium自动化测试工具包括SeleniumIDE和Selenium WebDriver；所述Selenium IDE为嵌入到FireFox浏览器的插件，用于在Firefox上录制和回放Selenium脚本，将录制好的脚本转换成各种Selenium WebDriver支持的程序语言。3.根据权利要求2所述的一种数据抓取方法，其特征在于，所述Selenium WebDriver用于操作浏览器的一套API，支持各类型浏览器，跨操作系统，WebDriver为诸多语言提供完备的，用于实现web自动化测试的第三方库。4.根据权利要求3所述的一种数据抓取方法，其特征在于，在Python环境下使用Selenium自动化工具抓取数据的步骤：S1、安装Python开发环境和selenium；S2、在Python环境下，安装WebDriver浏览器驱动；S3、使用代理Ip、端口、隐藏selenium配置项或控制事先打开的浏览器来解决反爬虫机制；S4、模仿真实用户浏览网页；S5、抓取有用数据存储到文档存储工具；S6、重复执行步骤S4和步骤S5，直到目标数据采集完成。5.根据权利要求4所述的一种数据抓取方法，其特征在于，在步骤S4中，根据具体的网页结构，利用WebDriver定位元素特性，模仿真实用户浏览网页，在两次点击按钮之间稍停顿几秒，编写完成数据抓取逻辑代码。6.根据权利要求5所述的一种数据抓取方法，其特征在于，在步骤S4中，进一步的包括：S4
‑
1、从Selenium包导入WebDriver使用Selenium WebDriver的方...

【专利技术属性】
技术研发人员：麻荣雨，李宁，高鹏超，毕云鹏，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人