一种基于内嵌浏览器的可视化网络爬虫系统及分析方法技术方案

技术编号：16080057 阅读：31 留言：0更新日期：2017-08-25 15:31

本发明专利技术涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法，包括可视化操作界面、元素选择模式和爬虫结构树。该系统以浏览器为载体，在载体上通过多种元素选择模式获取对应元素的路径，按照多个页面层次对待爬站点进行配置。手动配置爬虫结构树的一个分支，系统即可自动完成整个结构树的配置。按照配置好的结构树，将所有元素的文本下载到数据库中。另外，该系统可以爬取任何主题。因此，本发明专利技术具有可视化程度高、自动化程度高、适用性广和配置简单的优势。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内嵌浏览器的可视化网络爬虫系统及分析方法
本专利技术属于计算机网络
，特别是涉及一种基于内嵌浏览器的可视化网络爬虫系统及分析方法。
技术介绍
网络爬虫是一种高效的信息抓取工具，它集成了搜索引擎技术，并通过技术手段进行优化，用以从互联网搜索、抓取并保存任何通过HTML超文本标记语言进行标准化的网页信息。网络爬虫分为通用网络爬虫如谷歌、百度浏览器和主题网络爬虫等。由于通用网络爬虫的检索效果不理想，准确率和召回率都很低，所以主题网络爬虫逐渐成为专业用户及研究人员的首选。主题网络爬虫主要采用最佳优先抓取策略，即按照一定的网页评价算法，计算网页与主题的相关性，选取“价值”最高的网页中的链接进行抓取。但是主题网络爬虫存在一定的问题和缺陷，如当前的网页评价算法不完善，配置复杂，爬取效率低等。另外，网页元素Xpath获取需要一些组件或浏览器的辅助，以Google浏览器为例，具体方法为：打开Chrome→输入网址→右击感兴趣的元素→点击“检查”→右击开发者页面对应元素→点击“Copy”→点击“CopyXpath”，完成网页元素Xpath获取任务。很明显这一过程过于繁琐，若元素数量多，则会耗费大量精力。目前，国内外与可视化爬虫配置相关的文献少之又少，而已有的成熟的可视化网络爬虫不多且各有各的缺陷。比如八爪鱼采集器，其配置步骤虽然少，但是配置过程复杂，层次不清晰。它以分页页面为起点，直接对详细页面进行配置，各种界面操作没有进行分类，而是一次性让用户选择，这对于普通用户而言难度过大。综上，当前市场上的爬虫存在的缺陷有：1、配置复杂；2、爬取效率低；3、Xpath获取...
一种基于内嵌浏览器的可视化网络爬虫系统及分析方法

【技术保护点】
一种基于内嵌浏览器的可视化网络爬虫系统，其特征在于，包括：页面查看模式(1)：包括浏览器模式(4)、HTML元素树形结构模式(5)、脚本页面模式(6)和HTML源代码模式(7)；页面元素选择(2)：包括单选页面元素(8)、多选页面元素(9)和网页元素相似选择(10)爬虫结构树(3)：包括分支页面(11)、分页页面(12)和详细页面(13)；配置分支页面(11)是利用所述的页面元素选择(2)，将某类元素提取到分支列表，加入所述的爬虫结构树(3)。

【技术特征摘要】
1.一种基于内嵌浏览器的可视化网络爬虫系统，其特征在于，包括：页面查看模式(1)：包括浏览器模式(4)、HTML元素树形结构模式(5)、脚本页面模式(6)和HTML源代码模式(7)；页面元素选择(2)：包括单选页面元素(8)、多选页面元素(9)和网页元素相似选择(10)爬虫结构树(3)：包括分支页面(11)、分页页面(12)和详细页面(13)；配置分支页面(11)是利用所述的页面元素选择(2)，将某类元素提取到分支列表，加入所述的爬虫结构树(3)。2.根据权利要求1所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的单选页面元素(8)是通过单击页面元素获取其Xpath；所述的多选页面元素(9)是通过按住Ctrl键同时多次单击页面元素获取多个元素的Xpath；所述的网页元素相似选择(10)是通过按住Shift键同时多次单击页面元素获取相似元素的Xpath。3.根据权利要求2所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的分页页面(11)包括：列表同类链接信息(14)和分页信息(15)。4.根据权利要求3所述的基于内嵌浏览器的可视化网络爬虫系统，其特征在于：所述的列表同类链接信息(14)是利用所述的网页元素相似选择(10)，点击两个链接，自动进行相似提取和智能计算，提取包括列表父节点Xpath、单项Item节点Xpath列表、超链接节点Xpath和链接相对Ite...

【专利技术属性】
技术研发人员：李煜，王小龙，李鹏，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人