并行化分布式互联网数据抓取方法及其系统技术方案

技术编号：8347938 阅读：257 留言：0更新日期：2013-02-21 01:26

本发明专利技术提出一种并行化分布式互联网数据抓取方法及系统，其中该方法包括步骤：设置目标网站的抓取配置信息；根据所述抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入所述正文的链接爬取正文分页信息和正文内容；以及判断所述正文是否包含评论数据，如果包含，则进一步深入所述评论页的链接爬取评论分页信息和评论内容。本发明专利技术的并行化分布式互联网数据抓取方法及系统具有高质量高效率的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用
和信息
，具体涉及一种并行化分布式互联网数据抓取方法及其系统。
技术介绍
现今，互联网的发展日新月异，中国的网民数量也在呈爆发式增长。互联网已逐步取代传统的媒体(包括报纸、书籍、广播、电视等等)，变成人们获取和发布信息的主要来源。同时，由于互联网自由开放、使用简单、传播速度快、使用者众多的特点，使得互联网信息能够迅速的传播并造成影响。正是由于互联网扮演的角色越来越重要，所以各种针对互联网信息的研究也蓬勃发展起来。为了进行互联网信息的研究，首先需要将海量的格式各异的互联网网页信息抓取处理，并进行统一的格式转换，以方便后期分析处理；其次，需要应用高质量和高效率抓取技术。正是基于这一迫切需求，我们开发了并行化分布式互联网数据抓取系统。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本专利技术的一个目的在于提出一种具有高质高效的并行化分布式互联网数据抓取方法及其系统。本专利技术的一方面提出一种并行化分布式互联网数据抓取方法，包括设置目标网站的抓取配置信息；根据所述抓取配置信息，从目标...

【技术保护点】
一种并行化分布式互联网数据抓取方法，其特征在于，包括步骤：设置目标网站的抓取配置信息；根据所述抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入所述正文的链接爬取正文分页信息和正文内容；以及判断所述正文是否包含评论数据，如果包含，则进一步深入所述评论页的链接爬取评论分页信息和评论内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨睿尘，
申请(专利权)人：北京腾逸科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人