The invention discloses a data acquisition method based on distributed crawler, which comprises the following steps: dividing the web pages according to the attributes of different web pages; determining at least one crawler crawling parameter for the division of the web pages; crawling the current web page information according to the determined crawler crawling parameters, and solving the crawled web page information. Analyze, get parsed data; compile the parsed data obtained; summarize the compiled web page data information, and feedback to the data storage module; store the data information with the collected web page data. Based on the distributed crawler's data acquisition method and system, the crawler's crawling parameters are determined by dividing the web pages, and the crawler's crawling parameters can crawl the web pages'information, and the jumping connection can connect with other web pages to realize the fast crawling of the web pages' information and ensure the shorter time. Data collection is completed in time, which improves the efficiency of acquisition and meets the requirement of time.
【技术实现步骤摘要】
一种基于分布式爬虫的数据获取方法及其系统
本专利技术属于网络数据采集
,涉及到一种基于分布式爬虫的数据获取方法及其系统。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通用搜索引擎AltaVista,Yahoo和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,因此,网络爬虫应运而生,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在爬虫抓取大量网站数据中,通常每个网页的类型不同,造成网页抓取困难,且对于不同的网页需要设置不同爬虫抓取参数,造成抓取的速度慢,甚至陷入循环抓取的死循环,造成计算机的运行负荷,为了方便对网页进行快速抓取,提高爬虫抓取的效率,现设计一种基于分布式爬虫的数据获取方法及其系统。
技术实现思路
本专利技术的目的在于提供一种基于分布式爬虫的数据获取方法及其系统,通过对网页进行划分,并按照网页的划分确定爬虫抓取参数,通过爬虫抓取参数可抓取网页信息,且跳转连接可与其他网页进 ...
【技术保护点】
1.一种基于分布式爬虫的数据获取方法,其特征在于,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。
【技术特征摘要】
1.一种基于分布式爬虫的数据获取方法,其特征在于,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。2.一种基于分布式爬虫的数据获取系统,其特征在于:包括网页分类模块、策略抓取模块、解析模块、编译模块、数据反馈模块和数据保存模块;所述网页分类模块用于对不同网页的属性进行划分,将相同属性的网页划分为同一类;所述策略抓取模块根据网页的不同划分,确定至少一个爬虫抓取参数;所述解析模块按照爬虫抓取参数从当前的网页上抓...
【专利技术属性】
技术研发人员:王华伟,
申请(专利权)人:合肥俊刚机械科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。