并行化分布式互联网数据抽取方法及其系统技术方案

技术编号：8347937 阅读：195 留言：0更新日期：2013-02-21 01:26

本发明专利技术的提出一种并行化分布式互联网数据抽取方法及系统，其中该方法包括步骤：获取爬取得到的网页序列，依次获取网页配置信息并对网页进行数据抽取；对数据抽取得到的内容进行编码转换；对编码转换后的内容进行数据清洗；以及判断数据清洗后的内容是否信息重复，如不重复，存入数据库。本发明专利技术的并行化分布式互联网数据抽取方法及系统具有高质量高效率的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用
和信息
，具体涉及一种并行化分布式互联网数据抽取方法及其系统。
技术介绍
现今，互联网的发展日新月异，中国的网民数量也在呈爆发式增长。互联网已逐步取代传统的媒体(包括报纸、书籍、广播、电视等等)，变成人们获取和发布信息的主要来源。同时，由于互联网自由开放、使用简单、传播速度快、使用者众多的特点，使得互联网信息能够迅速的传播并造成影响。正是由于互联网扮演的角色越来越重要，所以各种针对互联网信息的研究也蓬勃发展起来。为了进行互联网信息的研究，首先需要将海量的格式各异的互联网网页信息抽取处理，并进行统一的格式转换，以方便后期分析处理；其次，需要应用高质量和高效率抽取技术。正是基于这一迫切需求，我们开发了并行化分布式互联网数据抽取系统。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本专利技术的一个目的在于提出一种具有高质高效的并行化分布式互联网数据抽取方法及其系统。本专利技术的一方面提出一种并行化分布式互联网数据抽取方法，包括步骤获取爬取得到的网页序列，依次获取网页配置信息并对网...

【技术保护点】
一种并行化分布式互联网数据抽取方法，其特征在于，包括步骤：获取爬取得到的网页序列，依次获取网页配置信息并对网页进行数据抽取；对数据抽取得到的内容进行编码转换；对编码转换后的内容进行数据清洗；以及判断数据清洗后的内容是否信息重复，如不重复，存入数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨睿尘，
申请(专利权)人：北京腾逸科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人