一种支持在线编程的爬虫抓取数据方法、装置及系统制造方法及图纸

技术编号：13835192 阅读：122 留言：0更新日期：2016-10-15 15:08

本发明专利技术实施例公开了一种支持在线编程的爬虫抓取数据方法、装置及系统，解决了目前将页面结构模板化的方案，虽然管理上更方便，但是模板功能太弱，不能够应对复杂的网络请求和页面结构，而且写模板的时候通常需要在本地不断调试正确后再发布到线上，再者对付带纯文本等无HTML结构的页面，导致的模板方式准确定位目标数据困难的技术问题。本发明专利技术实施例支持在线编程的爬虫抓取数据方法包括：将封装好的爬虫接口注入到预置的宿主环境中进行解析；将爬虫脚本的编写部分封装为基于宿主环境的可编辑模块；通过可编辑模块获取到在线编程后的脚本，并对脚本进行解析与执行；根据执行的脚本，通过爬虫接口抓取对应的网页数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种支持在线编程的爬虫抓取数据方法、装置及系统。
技术介绍
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，因此，网络爬虫应运而生，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在爬虫抓取大量网站数据中，通常每个网站的页面结构和技术方案都有所不同(比如有的网站利用Ajax+JSON技术渲染页面，有的是静态HTML)，并且每个网站的文章随时可能会被编辑者更改页面结构(如添加广告，二维码等多余数据在文章)而导致写好的爬虫无法抓取正确的内容。通常WEB类的爬虫又都用程序语言写死，一经部署就不能随意变更，随时更改代码；目前业内的一些解决方案有：将页面结构模板化。虽然管理上更方便，但是模板功能太弱，不能够应对复杂的网络请求和页面结构，而且写模板的时候通常需要在本地不断调试正确...

【技术保护点】
一种支持在线编程的爬虫抓取数据方法，其特征在于，包括：将封装好的爬虫接口注入到预置的宿主环境中进行解析；将爬虫脚本的编写部分封装为基于所述宿主环境的可编辑模块；通过所述可编辑模块获取到在线编程后的脚本，并对所述脚本进行解析与执行；根据执行的所述脚本，通过所述爬虫接口抓取对应的网页数据。

【技术特征摘要】
1.一种支持在线编程的爬虫抓取数据方法，其特征在于，包括：将封装好的爬虫接口注入到预置的宿主环境中进行解析；将爬虫脚本的编写部分封装为基于所述宿主环境的可编辑模块；通过所述可编辑模块获取到在线编程后的脚本，并对所述脚本进行解析与执行；根据执行的所述脚本，通过所述爬虫接口抓取对应的网页数据。2.根据权利要求1所述的支持在线编程的爬虫抓取数据方法，其特征在于，将封装好的爬虫接口注入到预置的宿主环境中进行解析之前还包括：向所述宿主环境对应的宿主语言进行所述爬虫接口的封装处理。3.根据权利要求2所述的支持在线编程的爬虫抓取数据方法，其特征在于，将封装好的爬虫接口注入到预置的宿主环境中进行解析具体包括：将封装好的爬虫接口注入到所述宿主环境中的与所述宿主语言的脚本引擎进行解析。4.根据权利要求3所述的支持在线编程的爬虫抓取数据方法，其特征在于，通过所述可编辑模块获取到在线编程后的脚本，并对所述脚本进行解析与执行之前还包括：将在线编程后的所述脚本通过所述可编辑模块加载并进行初次编译；对所述脚本的内容进行哈希运算，将脚本初次编译后的编译结果进行缓存。5.根据权利要求4所述的支持在线编程的爬虫抓取数据方法，其特征在于，通过所述可编辑模块获取到在线编程后的脚本，并对所述脚本进行解析与执行具体包括：根据获取到的启动指令或预置启动时间启动在所述脚本引擎中的爬虫进程，并从缓存中调用所述编译结果；执行所述编译结果。6.一种支持在线编程的爬虫抓取数据装置，其特征在于，包括：第一解析模块，用于将封装好的爬虫接口注入到预置的宿主环境中进行解析；第一封装模块，用于封装将爬虫...

【专利技术属性】
技术研发人员：覃炜，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人