一种解决Web证书认证的爬虫方法技术

技术编号：17779974 阅读：464 留言：0更新日期：2018-04-22 08:37

本发明专利技术公开了一种解决Web证书认证的爬虫方法，涉及有证书的Web爬虫方法领域；其包括步骤1：获取目标网站的Web证书后根据证书的类型选择不同的方式导入证书获取Scrapy爬虫框架访问URL的权限；步骤2：在Scrapy爬虫框架的下载中间件DownLoad Middleware中集成自动化工具Selenium实现Scrapy爬虫框架访问URL暨模拟为浏览器访问；步骤3：基于步骤2进入浏览器后重写Scrapy爬虫框架中的下载中间件Downloader Middleware，并使用自动化工具Selenium的Webdriver获取Web页内容，将其返回给Scrapy爬虫框架中的爬虫Spider并进行解析获取数据完成爬虫工作。本发明专利技术解决了现有Scrapy爬虫框架无法完成对有证书验证的网站的爬虫工作的问题，达到了高效实现对有证书验证的网站的爬虫工作的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种解决Web证书认证的爬虫方法
本专利技术涉及有证书的Web爬虫方法领域，尤其是一种解决Web证书认证的爬虫方法。
技术介绍
Selenium自动化工具：基于Web的自动化测试工具，它提供了一系列测试函数，用于支持Web自动化测试，这些函数非常灵活，它们能够通过许多方式定位界面元素。Scrapy爬虫框架：是一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。URL：统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址；互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。网站安全证书：通过在客户端浏览器和Web服务器之间建立一条SSL安全通道保证了双方传递信息的安全性，而且用户可以通过服务器证书验证他所访问的网站是否真实可靠。现在很多网站访问的时候都需要提供证书才能够正常访问，浏览器只对安装过证书的用户提供访问，这样可以让网站更具的安全性；对于无证书的网站，Scrapy爬虫框架比较完善，可以实现爬虫工作；当我们通过爬虫去访问一个有证书的网站的时候，Scrapy无法完成对有证书的Web进行数据采集，网站打不开并且采集不到任何信息；现有技术中Selenium自动化工具，对于一些简单的单机爬虫实现比较容易，但是对于大型的、分布式的爬虫系统来说，自动化工具Selenium是无法实现的；如何对有证书验证的网站进行爬虫工作是从事爬虫工作者来说是一个必须解决的问题，所以需要一种Web证书认证的爬虫方法通过结合自动化工具Selenium和Scrap...
一种解决Web证书认证的爬虫方法

【技术保护点】
一种解决Web证书认证的爬虫方法，其特征在于：包括如下步骤：步骤1：获取目标网站的Web证书后根据证书的类型选择不同的方式导入证书获取Scrapy爬虫框架访问URL的权限；步骤2：在Scrapy爬虫框架的下载中间件DownLoad Middleware中集成自动化工具Selenium实现Scrapy爬虫框架访问URL暨模拟为浏览器访问；步骤3：基于步骤2进入浏览器后重写Scrapy爬虫框架中的下载中间件Downloader Middleware，并使用自动化工具Selenium的Webdriver获取Web页内容，将其返回给Scrapy爬虫框架中的爬虫Spider并进行解析获取数据完成爬虫工作。

【技术特征摘要】
1.一种解决Web证书认证的爬虫方法，其特征在于：包括如下步骤：步骤1：获取目标网站的Web证书后根据证书的类型选择不同的方式导入证书获取Scrapy爬虫框架访问URL的权限；步骤2：在Scrapy爬虫框架的下载中间件DownLoadMiddleware中集成自动化工具Selenium实现Scrapy爬虫框架访问URL暨模拟为浏览器访问；步骤3：基于步骤2进入浏览器后重写Scrapy爬虫框架中的下载中间件DownloaderMiddleware，并使用自动化工具Selenium的Webdriver获取Web页内容，将其返回给Scrapy爬虫框架中的爬虫Spider并进行解析获取数据完成爬虫工作。2.根据权利要求1所述的一种解决Web证书认证的爬虫方法，其特征在于：所述步骤3包括如下步骤：步骤3.1：Scra...

【专利技术属性】
技术研发人员：王晓斌，傅玉生，勇萌哲，田坤鹏，
申请(专利权)人：成都优易数据有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人