【技术实现步骤摘要】
一种基于浏览器插件的网络爬虫系统
本专利技术涉及网络爬虫
,提供了一种基于浏览器插件的网络爬虫系统。
技术介绍
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。现有技术:方案一:主流的网络爬虫系统(如开源项目scrapy),通过在服务器端,模拟浏览器发起网络请求,模拟浏览器网页渲染过程,获取网页最终源代码。方案二:一种基于浏览器内核的网络爬虫系统如专利:201611005039.8现有技术缺点方案一缺点:在服务器端模拟浏览器发起网络请求,模拟 ...
【技术保护点】
1.一种基于浏览器插件的网络爬虫方法,其特征在于,包括以下步骤:步骤S1、打开种子网页,浏览器发起网络请求加载网页初始源代码;步骤S2、浏览器获取网页初始源代码后,执行网页初始源代码中的HTML、CSS、JS代码,得到网页中间源代码;步骤S3、浏览器执行网页中间源代码中的动态JS代码,发起Ajax请求,获取网页数据;步骤S4、浏览器获取网页数据后,根据网页中间源代码中的JS代码逻辑,将数据插入到网页中间源代码中,渲染得到网页最终源代码;步骤S5、浏览器渲染得到网页最终源代码后,触发网页加载完成事件;步骤S6、插件监听浏览器网页加载完成事件,当浏览器出发网页加载完成事件时,插 ...
【技术特征摘要】
1.一种基于浏览器插件的网络爬虫方法,其特征在于,包括以下步骤:步骤S1、打开种子网页,浏览器发起网络请求加载网页初始源代码;步骤S2、浏览器获取网页初始源代码后,执行网页初始源代码中的HTML、CSS、JS代码,得到网页中间源代码;步骤S3、浏览器执行网页中间源代码中的动态JS代码,发起Ajax请求,获取网页数据;步骤S4、浏览器获取网页数据后,根据网页中间源代码中的JS代码逻辑,将数据插入到网页中间源代码中,渲染得到网页最终源代码;步骤S5、浏览器渲染得到网页最终源代码后,触发网页加载完成事件;步骤S6、插件监听浏览器网页加载完成事件,当浏览器出发网页加载完成事件时,插件收到浏览器通知,调起插件的网页处理程序;步骤S7、插件的网页处理程序,通过调用浏览器获取网页源代码接口,得到网页最终源代码;步骤S8、插件的网页处理程序,通过将网页最终源代码作为接口参数,调用浏览器下载接口,将网页最终源代码下载至本地,完成当前网页的爬取;步骤S9、插件的网页处理程序,解析网页最终源代码的所有网页URL,去重后保存至待抓取队列中,得到下一步待抓取的网页;步骤10、插件的抓取调度程序,轮询检查待抓取队列,如果待抓取队列不为空,则根据先进先出的原则,从队列中取出最先进入队列的网页URL,调用浏览器打开新标签接口,打开该网页URL,并跳转至步骤S6完成下一个网页抓取:步骤S11、插件的抓取调度程序,轮询检查待抓取队列,如果抓取队列为空,则所有网页抓取结束,结束本次抓取任务。2.一种基于浏览...
【专利技术属性】
技术研发人员:张友书,陈思成,
申请(专利权)人:四川新网银行股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。