一种通用的网络爬虫模型实现方法及系统技术方案

技术编号：16644927 阅读：82 留言：0更新日期：2017-11-26 17:26

本申请公开了一种通用的网络爬虫模型实现方法及系统；其中的方法主要包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

A general implementation method and system of web crawler model

The invention discloses a method and system for implementing generic web crawler model; the method includes: obtaining the spider crawling task; the uniform resource locator URL crawling task execution granularity the crawler crawling task into multiple crawler crawling tasks by the object; the plurality of crawler crawling task object dynamically created at least one web crawler for example the plurality of crawler crawling task object to perform network data crawling operation; for each instance of the web crawler crawling to a crawl network data from the task after finishing, stored in the data set.

全部详细技术资料下载

【技术实现步骤摘要】
一种通用的网络爬虫模型实现方法及系统
本专利技术涉及网络通讯技术，尤其是涉及一种通用的网络爬虫模型实现方法、通用的网络爬虫模型实现系统、存储设备、计算设备以及机器可读存储介质。
技术介绍
网络爬虫也可以称为网络蜘蛛或者网络机器人或者网页追逐者等，网络爬虫可以实现自动地从网络中爬取数据的目的。网络爬虫实质上是能够实现按照预定规则自动抓取网络数据的程序或者脚本。专利技术人在实现本公开过程中发现，如何利用网络爬虫方便快捷的获得规范完整且干净的网络数据，是实现网络数据爬取过程中一个值得关注的技术问题。
技术实现思路
鉴于上述技术问题，本公开内容提出了一种通用的网络爬虫模型实现方法、通用的网络爬虫模型实现系统、存储设备、计算设备以及机器可读存储介质。在本公开内容的一个方面，提供了一种通用的网络爬虫模型实现方法，该方法包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬...
一种通用的网络爬虫模型实现方法及系统

【技术保护点】
一种通用的网络爬虫模型实现方法，其特征在于，包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

【技术特征摘要】
2017.08.28 CN 20171075243931.一种通用的网络爬虫模型实现方法，其特征在于，包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。2.根据权利要求1所述的方法，其特征在于，所述爬虫爬取任务的创建过程包括：获取待访问页面，并通过浏览器显示所述待访问页面；确定用户基于浏览器显示的所述待访问页面而选取的页面元素；获取所述页面元素的定位信息，并根据所述页面元素的定位信息创建爬虫爬取任务。3.根据权利要求1所述的方法，其特征在于，所述爬虫爬取任务包括：爬虫爬取任务标识、初始URL、待爬取的页面元素、待爬取的页面元素的定位信息、分页规则、加载规则、用于表征单页面爬取/深度页面爬取的页面类型信息以及爬虫爬取任务的执行状态信息中的至少一个。4.根据权利要求3所述的方法，其特征在于，所述待爬取的页面元素的定位信息包括：页面元素的重叠样式表CSS选择器的选择值，和/或者，页面元素的可扩展标记语言路径Xpath选择器的选择值。5.根据权利要求3所述的方法，其特征在于，所述获取待处理的爬虫爬取任务包括：根据来自用户的爬取请求向触发器传输爬虫爬取任务标识；经由所述触发器从爬取任务集合中获取与所述爬虫爬取任务标识相匹配的爬虫爬取任务。6.根据权利要求5所述的方法，其特征在于，所述获取待处理的爬虫爬取任务还包括：经由所述触发器对所述相匹配的爬虫爬取任务进行合法性检测；在合法性检测通过的情况下，所述触发器将所述相匹配的爬虫爬取任务作为待处理的爬虫爬取任务；其中，所述合法性检测包括：经由所述触发器检测所述相匹配的爬虫爬取任务的执行状态信息，以确定该爬虫爬取任务是否处于已成功执行状态或者当前正在执行状态；和/或经由所述触发器检测所述用户是否具有启动所述爬虫爬取任务执行的权限。7.根据权利要求3至6中任一所述的方法，其特征在于，所述以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象包括：根据爬虫爬取任务所包含的分页规则以及加载规则将所述初始URL分解为多个新的URL；针对每一个新的URL，在所述待处理的爬虫爬取任务中添加一个新的URL，形成一个爬虫爬取任务对象。8.根据权利要求1所述的方法，其特征在于，所述以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象还包括：采用先进先出FIFO规则将各爬虫爬取任务对象设置于消息中间件中。9.根据权利要求8所述的方法，其特征在于，所述由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作包括：针对消息中间件中的N个爬虫爬取任务对象创建M个网络爬虫实例；各网络爬虫实例分别通过其与消息中间件之间的长连接从消息中间件中读取至少一个爬虫爬取任务对象；由所述M个网络爬虫实例分别针对其读取的爬...

【专利技术属性】
技术研发人员：韩吉威，
申请(专利权)人：湖北省楚天云有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人