一种基于浏览器插件的网络爬虫系统技术方案

技术编号：21034584 阅读：35 留言：0更新日期：2019-05-04 05:32

本发明专利技术涉及网络爬虫技术领域，提供了一种基于浏览器插件的网络爬虫系统。主旨在于解决传统爬虫方式采用模拟器在模拟执行HTML、JS、CSS代码时不同版本兼容差，工作量大实现难度高的问题。其主要技术方案为：步骤1、打开种子网页，浏览器发起网络请求加载网页，步骤2、浏览器执行网页HTML、JS、CSS代码，浏览器发起Ajax请求获取数据；步骤3、浏览器渲染得到最终网页源代码，并展现给用户；步骤4插件监听浏览器网页加载完成事件；步骤5浏览器完成当前网页加载，插件收到通知；步骤6插件调用浏览器获取网页源代码接口，得到网页源代码；步骤7插件调用浏览器下载接口，将网页源代码保存至本地。

A Web Crawler System Based on Browser Plug-in

全部详细技术资料下载

【技术实现步骤摘要】
一种基于浏览器插件的网络爬虫系统
本专利技术涉及网络爬虫
，提供了一种基于浏览器插件的网络爬虫系统。
技术介绍
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。现有技术：方案一：主流的网络爬虫系统(如开源项目scrapy)，通过在服务器端，模拟浏览器发起网络请求，模拟浏览器网页渲染过程，获取网页最终源代码。方案二：一种基于浏览器内核的网络爬虫系统如专利：201611005039.8现有技术缺点方案一缺点：在服务器端模拟浏览器发起网络请求，模拟...

【技术保护点】
1.一种基于浏览器插件的网络爬虫方法，其特征在于，包括以下步骤：步骤S1、打开种子网页，浏览器发起网络请求加载网页初始源代码；步骤S2、浏览器获取网页初始源代码后，执行网页初始源代码中的HTML、CSS、JS代码，得到网页中间源代码；步骤S3、浏览器执行网页中间源代码中的动态JS代码，发起Ajax请求，获取网页数据；步骤S4、浏览器获取网页数据后，根据网页中间源代码中的JS代码逻辑，将数据插入到网页中间源代码中，渲染得到网页最终源代码；步骤S5、浏览器渲染得到网页最终源代码后，触发网页加载完成事件；步骤S6、插件监听浏览器网页加载完成事件，当浏览器出发网页加载完成事件时，插件收到浏览器通知，调...

【技术特征摘要】
1.一种基于浏览器插件的网络爬虫方法，其特征在于，包括以下步骤：步骤S1、打开种子网页，浏览器发起网络请求加载网页初始源代码；步骤S2、浏览器获取网页初始源代码后，执行网页初始源代码中的HTML、CSS、JS代码，得到网页中间源代码；步骤S3、浏览器执行网页中间源代码中的动态JS代码，发起Ajax请求，获取网页数据；步骤S4、浏览器获取网页数据后，根据网页中间源代码中的JS代码逻辑，将数据插入到网页中间源代码中，渲染得到网页最终源代码；步骤S5、浏览器渲染得到网页最终源代码后，触发网页加载完成事件；步骤S6、插件监听浏览器网页加载完成事件，当浏览器出发网页加载完成事件时，插件收到浏览器通知，调起插件的网页处理程序；步骤S7、插件的网页处理程序，通过调用浏览器获取网页源代码接口，得到网页最终源代码；步骤S8、插件的网页处理程序，通过将网页最终源代码作为接口参数，调用浏览器下载接口，将网页最终源代码下载至本地，完成当前网页的爬取；步骤S9、插件的网页处理程序，解析网页最终源代码的所有网页URL，去重后保存至待抓取队列中，得到下一步待抓取的网页；步骤10、插件的抓取调度程序，轮询检查待抓取队列，如果待抓取队列不为空，则根据先进先出的原则，从队列中取出最先进入队列的网页URL，调用浏览器打开新标签接口，打开该网页URL，并跳转至步骤S6完成下一个网页抓取：步骤S11、插件的抓取调度程序，轮询检查待抓取队列，如果抓取队列为空，则所有网页抓取结束，结束本次抓取任务。2.一种基于浏览...

【专利技术属性】
技术研发人员：张友书，陈思成，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人