基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质技术

技术编号：21914097 阅读：16 留言：0更新日期：2019-08-21 12:28

本发明专利技术涉及一种数据爬取技术领域，揭露了一种基于Scrapy的数据爬取方法，该方法包括：在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义；对所述JSON文件进行命名，创建爬虫文件，并将所述爬虫文件的名称按照所述JSON文件的名称进行命名；将所述JSON文件的配置参数导入所述爬虫文件；运行导入配置参数后的爬虫文件，爬取网页数据。本发明专利技术还提供一种终端设备及计算机可读存储介质。本发明专利技术提供的基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质，能够通过JSON文件定义Scrapy文件的配置参数，JSON文件集合了一个爬虫文件所需的配置文件，提高代码编写效率，降低漏洞数量，提高爬取网页数据的效果。

Data crawling method, terminal device and computer readable storage medium based on Scrappy

全部详细技术资料下载

【技术实现步骤摘要】
基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质
本专利技术涉及数据爬取
，尤其涉及一种基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质。
技术介绍
随着信息社会的快速发展，互联网上的数据越来越多，为获取有用信息，目前常常通过网络爬虫技术爬取有用数据。现有爬虫技术中，基于Scrapy的爬虫框架的使用过程中，对于多个网站的爬取要重复编写代码；在编写代码过程中，除了需要分析代码的逻辑，还需要解析网页的规则，会影响网页规则的正确率；另外，Scrapy爬虫框架功能开关及注意点过于分散，分布在各个层级下的文件中，在使用Scrapy爬虫框架爬取数据的过程，很有可能会出现漏洞。因此基于Scrapy框架的使用过程中，存在爬取数据的效果比较差的问题。
技术实现思路
有鉴于此，本专利技术提出一种基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质，以解决基于Scrapy框架的使用过程中，存在爬取数据的效果比较差的问题。首先，为实现上述目的，本专利技术提出一种基于Scrapy的数据爬取方法，该方法包括步骤：在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义；对所述JSON文件进行命名，创建爬虫文件，并将所述爬虫文件的名称按照所述JSON文件的名称进行命名；将所述JSON文件的配置参数导入所述爬虫文件；运行导入配置参数后的爬虫文件，爬取网页数据。可选地，所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括：在所述JSON文件中对所述爬虫文件中各个层级的配置参数进行定义，其...

【技术保护点】
1.一种基于Scrapy的数据爬取方法，其特征在于，所述方法包括步骤：在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义；对所述JSON文件进行命名，创建爬虫文件，并将所述爬虫文件的名称按照所述JSON文件的名称进行命名；将所述JSON文件的配置参数导入所述爬虫文件；运行导入配置参数后的爬虫文件，爬取网页数据。

【技术特征摘要】
1.一种基于Scrapy的数据爬取方法，其特征在于，所述方法包括步骤：在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义；对所述JSON文件进行命名，创建爬虫文件，并将所述爬虫文件的名称按照所述JSON文件的名称进行命名；将所述JSON文件的配置参数导入所述爬虫文件；运行导入配置参数后的爬虫文件，爬取网页数据。2.如权利要求1所述的基于Scrapy的数据爬取方法，其特征在于，所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括：在所述JSON文件中对所述爬虫文件中各个层级的配置参数进行定义，其中，所述爬虫文件的层级包括爬取器、引擎、调度器、下载器、实体管道、默认配置Setting层级、下载中间件、及爬取中间件。3.如权利要求2所述的基于Scrapy的数据爬取方法，其特征在于，所述运行导入配置参数后的爬虫文件，爬取网页数据的步骤包括：通过所述爬虫文件的引擎从所述导入配置参数后的爬虫文件中获取起始URL，并且将获取的URL提交到调度器中；在需要从URL中下载数据的情况下，所述调度器将URL通过引擎提交给下载器，所述下载器根据URL下载待爬取数据。4.如权利要求1所述的基于Scrapy的数据爬取方法，其特征在于，所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括：在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的起始网站名、起始网站主页、请求头、基于分布式文件存储的数据库的URI地址、数据库名及集合名进行定义；对跟进网页链接的预处理进行定义；对首页的预处理、起始页的类型、允许域名、跟进的链接函数名、待爬取数据的变量名及匹配方式进行定义，其中，所述匹配方式包括xml路径语言选择器、层叠样式表选择器、及正则表达式。5.如权利要求1或2所述的基于Scrapy的数据爬取方法，...

【专利技术属性】
技术研发人员：董润华，徐国强，邱寒，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人