基于科技服务信息智能抓取系统数据收集方法技术方案

技术编号：15956345 阅读：47 留言：0更新日期：2017-08-08 09:55

本发明专利技术涉及一种基于科技服务信息智能抓取系统数据收集方法，包括以下步骤：①数据抓取：爬虫的配置，用户通过客户端的配置模块、启动模块发布抓取任务，并设置要抓取的网站及设定相应的规则；②定时抓取任务：根据用户发布的任务动态加载到定时抓取任务列表中；③下载页面；④页面解析：解析队列中的页面；⑤待抓取URL；⑥数据处理和存储：对页面数据进行解析提取处理，对提取出的二维结构数据进行存储；本发明专利技术能够满足爬虫通用性要求，适合科技服务系统抓取需求，扩展方便，插件式开发；在具体业务逻辑上增加解析规则配置，抓取网页宽度、深度，抓取线程，数据库配置或索引配置，就可以开启智能化抓取采集信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于科技服务信息智能抓取系统数据收集方法
本专利技术涉及一种智能抓取方法，尤其涉及一种基于科技服务信息智能抓取系统数据收集方法。
技术介绍
爬虫，又称为蜘蛛，它不是昆虫的名称，而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接，并根据这些链接再度抓取提取更深的其它未知的链接，以此下去，将这样的程序抓取行为形容成类似爬虫似的动作，称之为爬虫，爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。采用人工生成抓取包装器技术的抓取系统科技信息抽取结果精准，但是要对互联网上千个网站进行抓取包装器的生成和更新维护工作，普通垂直爬虫无法很好担负这一工作，只能依赖大量的人力参与。安全、高效的实时抓取技术；在要求高实时性抓取的时候，需要对抓取网站服务器频繁的发起链接和下载请求，这将会给对方服务器造成很大的压力，进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作，这将导致抓取失败；同时高实时的抓取需求，非常耗费网络、服务器等硬件资源，导致成本上升。随着AJAX技术不断的普及，以及现在AngularJS这种Single-pageapplication框架的出现，现在js渲染出的页面越来越多；对于爬虫来说，这种页面是比较讨厌的：仅仅提取HTML内容，往往无法拿到有效的信息。
技术实现思路
为解决上述技术问题，本专利技术提供了一种基于科技服务信息智能抓取系统数据收集方法，本专利技术通过以下技术方案来实现：基于科技服务信息智能抓取系统数据收集方法，包括以下步骤：①数据抓取：爬虫的配置，用户通过客户端的配置模块、启动模块发布抓取任务，并设置要抓取的网...

【技术保护点】
基于科技服务信息智能抓取系统数据收集方法，其特征在于，其包括以下步骤：①数据抓取：爬虫的配置，用户通过客户端的配置模块、启动模块发布抓取任务，并设置要抓取的网站及设定相应的规则，包括编码、抓取间隔、超时时间、重试次数等；②定时抓取任务：根据用户发布的任务动态加载到定时抓取任务列表中；③下载页面：根据客户设置的抓取规则和抓取流程，进行宽度优先抓取算法开始遍历抓取网页，并将抓取的页面下载下来，并放置到将要进行页面解析队列中等待页面解析；④页面解析：解析队列中的页面，利用

【技术特征摘要】
1.基于科技服务信息智能抓取系统数据收集方法，其特征在于，其包括以下步骤：①数据抓取：爬虫的配置，用户通过客户端的配置模块、启动模块发布抓取任务，并设置要抓取的网站及设定相应的规则，包括编码、抓取间隔、超时时间、重试次数等；②定时抓取任务：根据用户发布的任务动态加载到定时抓取任务列表中；③下载页面：根据客户设置的抓取规则和抓取流程，进行宽度优先抓取算法开始遍历抓取网页，并将抓取的页面下载下来，并放置到将要进行页面解析队列中等待页面解析；④页面解析：解析队列中的页面，利用Jsoup技术根据要抓取的信息和设置的抓取规则进行页面的解析，提取用户需要的数据信息；⑤待抓取URL：采用链接权重算法将解析过程中发现的新链接放置待抓取URL队列中等待线程的处理；⑥数据处理和存储：对页面数据进行解析提取处理，对提取出的二维结构数据进行存储。2.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法，其特征在于，所述步骤①的配置模块、启动模块位于后台管理系统中，爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入，或者通过将爬虫入口网址放到数据库中进行指定。3.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法，其特征在于，所述步骤③的抓取规则是对爬虫入口地址是将每一条合法的Http网址根据链接权重算法一行一条的放入到入口列表文件中，或是一条网址在数据库中存放一行，所述抓取流程如下：根据配置文件中的提供爬虫入口网址列表进行抓取，按照配置的抓取深度进行遍历，首先取一条网址进行抓取，然后读取第一层解析规则，将第一层的解析规划解析后得到的数据...

【专利技术属性】
技术研发人员：陈文海，霍英霞，丁平，黄美珍，陈劲峰，姚蕴，佘文文，马晓，贾旭，闫斌斌，柏道菲，张军，成华娟，
申请(专利权)人：山东辰华科技信息有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人