一种解决JS加密问题的爬虫方法技术

技术编号:26376616 阅读:26 留言:0更新日期:2020-11-19 23:45
本发明专利技术公开了一种解决JS加密问题的爬虫方法,包括以下步骤:S1:创建scrapy项目,并设定允许爬取的域名范围、请求头信息和初始URL;S2:通过调用selenium框架的webdriver工具获取cookie;S3:根据初始URL和cookie,调用内部start_requests()爬取列表页;S4:解析列表页并管理列表页的URL,完成页面爬取。本发明专利技术使用的是聚焦网络爬虫。本发明专利技术中先将要爬取的内容通过搜索引擎筛选出来,然后爬取筛选出来的页面内容,可爬取JS加密的页面,同时可获取网页重定向之后的链接。

【技术实现步骤摘要】
一种解决JS加密问题的爬虫方法
本专利技术属于网络爬虫
,具体涉及一种解决JS加密问题的爬虫方法。
技术介绍
在大数据和互联网+时代,网络上的信息量飞速增长,传统的通过搜索引擎获取信息的方式已经有了局限性,越来越满足不了用户对信息获取的高效、快速和准确的要求。在自动化和智能化得到快速发展的今天,利用自动化方法获取信息将是一个重要的方向。在自动化获取信息的众多方法里,网络爬虫是一大利器,它基于搜索引擎,能够自动地解析出网页结构并快速定位到用户的目标数据进行爬取并储存,高效又准确。网络爬虫是一个在网络上抓取页面、分析页面和抽取链接的程序。它自动遍历Web的超文本结构,从初始的超链接开始,递归地检索可从该文档访问的所有文档。网络爬虫的工作原理较为简单,一般的Web爬虫的内部维护了一个容器用于存储URL链接,从根页面开始,根页面的URL首先被爬虫添加到容器中,进入链接读取根页面的内容,解析出根页面中后续需要访问的链接将其加入到容器中,循环执行上述过程直至URL容器为空则停止运行。除了通用爬虫,有学者还提出了一种聚焦网络爬虫,即在一本文档来自技高网...

【技术保护点】
1.一种解决JS加密问题的爬虫方法,其特征在于,包括以下步骤:/nS1:创建scrapy项目,并设定允许爬取的域名范围、请求头信息和初始URL;/nS2:通过调用selenium框架的webdriver工具获取cookie;/nS3:根据初始URL和cookie,调用内部start_requests()爬取列表页;/nS4:解析列表页并管理列表页的URL,完成页面爬取。/n

【技术特征摘要】
1.一种解决JS加密问题的爬虫方法,其特征在于,包括以下步骤:
S1:创建scrapy项目,并设定允许爬取的域名范围、请求头信息和初始URL;
S2:通过调用selenium框架的webdriver工具获取cookie;
S3:根据初始URL和cookie,调用内部start_requests()爬取列表页;
S4:解析列表页并管理列表页的URL,完成页面爬取。


2.根据权利要求1所述的解决JS加密问题的爬虫方法,其特征在于,所述步骤S1中,scrapy项目包括引擎、调度器、下载器、爬虫、项目管道、下载器中间件和爬虫中间件;
所述引擎用于控制其他组件的动作流程;
所述调度器用于暂存引擎请求,当引擎需要URL时,调度器返回给引擎;
所述下载器用于获取到页面数据后将其递交给引擎;
所述爬虫内定义爬取的逻辑和网页的定义规则,用于解析响应并生成提取结果和新的请求;
所述项目管道用于处理Item;
所述下载器中间件用于处理下载器传递给引擎的Response;
所述爬虫中间件用于处理爬虫的输入和输出;
所述域名范围用于限制爬虫的可爬取范围;
所述请求头信息包括向网络服务器发送请求时传递的一组属性信息和配置信息。


3.根据权利要求1所述的解决JS加密问题的爬虫方法,其特征在于,所述步骤S2包括以下子步骤:
S21:调用selenium框架的webdriver工具声明浏览器对象并添加驱动;
S22:利用驱动运行浏览器,并利用浏览器对象访问初始URL;
S23:从浏览器中获取cookie并存储在字典中。


4.根据权利要求3所述的解决JS加密问题...

【专利技术属性】
技术研发人员:孙健赵书武胡健龙王彩洪
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1