并行化分布式互联网数据抓取方法及其系统技术方案

技术编号:8347938 阅读:253 留言:0更新日期:2013-02-21 01:26
本发明专利技术提出一种并行化分布式互联网数据抓取方法及系统,其中该方法包括步骤:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入所述正文的链接爬取正文分页信息和正文内容;以及判断所述正文是否包含评论数据,如果包含,则进一步深入所述评论页的链接爬取评论分页信息和评论内容。本发明专利技术的并行化分布式互联网数据抓取方法及系统具有高质量高效率的优点。

【技术实现步骤摘要】

本专利技术涉及计算机应用
和信息
,具体涉及一种并行化分布式互联网数据抓取方法及其系统
技术介绍
现今,互联网的发展日新月异,中国的网民数量也在呈爆发式增长。互联网已逐步取代传统的媒体(包括报纸、书籍、广播、电视等等),变成人们获取和发布信息的主要来源。同时,由于互联网自由开放、使用简单、传播速度快、使用者众多的特点,使得互联网信息能够迅速的传播并造成影响。正是由于互联网扮演的角色越来越重要,所以各种针对互联网信息的研究也蓬勃发展起来。为了进行互联网信息的研究,首先需要将海量的格式各异的互联网网页信息抓取处理,并进行统一的格式转换,以方便后期分析处理;其次,需要应用高质量和高效率抓取技术。正是基于这一迫切需求,我们开发了并行化分布式互联网数据抓取系统。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本专利技术的一个目的在于提出一种具有高质高效的并行化分布式互联网数据抓取方法及其系统。本专利技术的一方面提出一种并行化分布式互联网数据抓取方法,包括设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入所述正文的链接爬取正文分页信息和正文内容;以及判断所述正文是否包含评论数据,如果包含,则进一步深入所述评论页的链接爬取评论分页信息和评论内容。在本专利技术的方法的一个实施例中,还包括当抓取过程出现异常时,记录日志信息,进行重试抓取,直至抓取成功。在本专利技术的方法的一个实施例中,所述数据抓取是以并行化分布式的模式进行。本专利技术的另一方面还提出一种并行化分布式互联网数据抓取系统,包括配置模块,所述配置模块用于用户设置目标网站的抓取配置信息;正文抓取模块,根据所述抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入所述正文的链接爬取正文分页信息和正文内容;判断模块,所述判断模块用于判断所述正文是否包含评论数据;以及评论抓取模块,所述评论抓取模块用于当所述正文包含评论数据时,进一步深入所述评论页的链接爬取评论分页信息和评论内容。在本专利技术的系统的一个实施例中,还包括日志记录模块,所述日志记录模块用于当抓取过程出现异常时,记录日志信息,此时所述并行化分布式互联网数据抓取系统进行重试抓取,直至抓取成功。在本专利技术的系统的一个实施例中,所述数据抓取模块为并行化分布式结构。综上所述,首先,本专利技术提出了一个并行化分布式互联网数据抓取方法和系统,它能够通过配置的方式自由的扩展需要抓取的目标站点,并采用了并行化和分布式设计,使得数据抓取效率和实时性得到了很好的保证。其次,本专利技术采用了灵活判重和增量抓取机制,在无需二次查询数据库的前提下,只是针对本地网页保存路径的文件进行监测,就可以实现抓取网页的判重和增量抓取,保证了所抓取数据的唯一性,节约了大量的软硬件资源。再者,本专利技术还可以支持针对动态和静态两类网页的统一抓取。因此,本专利技术的方法和系统具有高质量和高效率的优点。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中流程图流程图及图I是本专利技术实施例的并行化分布式互联网数据抓取方法的流程图2是本专利技术实施例的并行化分布式互联网数据抓取系统的结构框图3是本专利技术实施例的并行化分布式互联网数据抓取方法的正常情况下的详细图4是本专利技术实施例的并行化分布式互联网数据抓取方法的异常情况下的详细图5是本专利技术实施例的并行化分布式特征的数据抓取模块的布局结构示意图;以图6是本专利技术实施例的动静态网页统一抓取示意图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。在本专利技术中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。本专利技术属于计算机应用
和信息
,主要涉及基于深度优先爬取的定向网络爬虫的实现。网络爬虫是基于互联网信息分析的基础和前提,所有的分析操作都是在网络爬虫抓取海量互联网数据的基础上进行的。本专利技术专利的主要目的是为了解决海量互联网数据的高效准确抓取,抓取数据灵活判重和增量抓取,动、静态网页的统一抓取等三方面的问题。由于基于互联网数据分析的一个突出的要求是数据的时效性要高,而且互联网数据量都是十分惊人的,所以为了保证互联网数据的全面性,需要有一种可以高效准确的抓取海量互联网数据的技术。为此我们开发了并行化分布式互联网数据抓取系统。为了实现其并行化分布式的特点,实现了一种灵活高效率的抓取数据判重和增量抓取机制,保证抓取数据的唯一性和软硬件资源的高利用率。由于现在存在于互联网上的网页的存在动态和静态两类网页。因此,我们的抓取系统必须能够同时支持对动态和静态网页的抓取,针对动态和静态网页,我们采取的是完全一致的抓取方法和流程,降低了程序的复杂性和后期维护的难度。本专利技术的一方面提出一种并行化分布式互联网数据抓取方法,如图I所示,包括SI.设置目标网站的抓取配置信息;S2.根据所述抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入所述正文的链接爬取正文分页信息和正文内容;S3.以及判断所述正文是否包含评论数据,如果包含,则进一步深入所述评论页的链接爬取评论分页信本文档来自技高网
...

【技术保护点】
一种并行化分布式互联网数据抓取方法,其特征在于,包括步骤:设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入所述正文的链接爬取正文分页信息和正文内容;以及判断所述正文是否包含评论数据,如果包含,则进一步深入所述评论页的链接爬取评论分页信息和评论内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨睿尘
申请(专利权)人:北京腾逸科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1