一种基于异步处理框架的具有自动测试功能的数据爬取方法技术

技术编号：27975797 阅读：40 留言：0更新日期：2021-04-06 14:10

本发明专利技术属于网络爬虫技术领域，涉及一种基于异步处理框架的具有自动测试功能的数据爬取方法。本发明专利技术基于网络爬虫领域较成熟的网络爬虫框架，在面对网站设计之初加入各种反爬虫策略的网站爬取任务，尤其是通过脚本动态生成网站数据的任务，需要在蜘蛛的项目文件发出初始请求链接经过引擎和队列到达下载中间件时，引入自动测试技术，达到获取动态网页源代码的目的。该方法获取的网页响应结果是经过脚本渲染之后的，并且可以通过自动测试技术自定义控制浏览器完成一系列链操作的目的，进而节省了开发人员对目标网站的架构分析过程，降低了项目开发难度，更多时间可以被投入到网页解析上面，也提高了所爬取数据的质量，缩短了项目开发周期。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于异步处理框架的具有自动测试功能的数据爬取方法
本专利技术属于网络爬虫
，涉及到一种基于异步处理框架的数据爬取方法，特别是一种基于异步处理框架的具有自动测试功能的数据爬取方法。
技术介绍
随着大数据时代的来临，网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的，如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这些问题而生的。当下大数据分析、数据挖掘以及人工智能领域的自然语言处理等技术不断发展，这些技术得以飞速发展的前提就是要有数据，而且是高质量的数据。网络爬虫不仅仅解决了数据提取，更从无章可循的网页中提取出结构化数据，这些对上述技术的突破性进展起到了举足轻重的影响。网络爬虫可以分为个人爬虫和企业爬虫，但无论是个体还是企业，网络爬虫是许多项目过程中不可或缺的一部分。随着网络爬虫应用的不断深入，便出现了一大批开源爬虫框架，比如：Pyspider框架、Scrapy框架，Scrapy框架是目前应用比较多且较成熟的框架。随着网络爬虫技术的发展，为了提升...

【技术保护点】
1.一种基于异步处理框架的具有自动测试功能的数据爬取方法，包括以下步骤：/nA、确定请求目标网站所需信息/n包括目标网站请求链接、用户代理、请求方式和请求参数；/nB、确定网页加载特性/n查看网页源代码，确定源代码是否与当前网页所呈现内容一致；/nC、确定爬取数据的代码段区域/n定位网页需要爬取数据的位置以及各字段信息；/nD、部署非结构化数据库信息/n确定非结构化数据库地址、端口以及存放爬取数据的数据库名称；/nE、配置Selenium自动测试工具/nSelenium是一个用于测试网站应用程序的自动化测试工具，Selenium的测试可以直接在浏览器中运行，模仿用户对浏览器进行操作；/n安装S...

【技术特征摘要】
20200730 CN 20201074753501.一种基于异步处理框架的具有自动测试功能的数据爬取方法，包括以下步骤：
A、确定请求目标网站所需信息
包括目标网站请求链接、用户代理、请求方式和请求参数；
B、确定网页加载特性
查看网页源代码，确定源代码是否与当前网页所呈现内容一致；
C、确定爬取数据的代码段区域
定位网页需要爬取数据的位置以及各字段信息；
D、部署非结构化数据库信息
确定非结构化数据库地址、端口以及存放爬取数据的数据库名称；
E、配置Selenium自动测试工具
Selenium是一个用于测试网站应用程序的自动化测试工具，Selenium的测试可以直接在浏览器中运行，模仿用户对浏览器进行操作；
安装Selenium工具包和对应版本的浏览器驱动webdriver；
F、搭建基于Scrapy技术的爬虫框架
Scrapy框架是适用于Python的一个快速、高层次的网页爬取框架，其模块之间耦合程度低，可扩展性极强，用于爬取网站并从网页中提取结构化的数据。

2.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法，其特征在于：
步骤A，所述的确定请求目标网站所需信息包括以下步骤：
A1、打开目标网站的浏览器开发者模式，点击“Network”选项卡，刷新当前页面；
A2、点击与该页面浏览器导航栏路径一致的条目；
A3、记录下开发者模式窗口右侧的网站请求链接、用户代理、请求方式和请求参数的信息。

3.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法，其特征在于：
步骤B，所述的确定网页加载特性包括以下步骤：
B1、打开目标网页源代码；
B2、将目标网页中需要爬取的数据与源代码中对应标签的内容进行比较，看二者否相同；若相同，则属于静态的前端网页；若不同，则是由javascript脚本以及一些加密算法渲染出来的动态网页。

4.根据权利要求3所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法，其特征在于：
步骤B2，当确定目标网页是通过javascript脚本以及一些加密算法渲染出来的动态网页时，在该目标网页以及相关网页的请求链接下载之前，经过下载中间件，需要引入自动测试技术以返回经过脚本或加密算法渲染过的网页的结果。

5.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法，其特征在于：
步骤C，所述的确定爬取数据的代码段区域包括以下步骤：
C1、打开目标网站的浏览器开发者模式，点击“Elements”选项卡，展示已经过脚本渲染之后的网页源代码；
C2、通过浏览器自动定位代码的功能，依次找到各个需要爬...

【专利技术属性】
技术研发人员：康辉，孙鑫，赵旭，李佳辉，卢凌锋，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人