并行化分布式互联网数据抽取方法及其系统技术方案

技术编号:8347937 阅读:192 留言:0更新日期:2013-02-21 01:26
本发明专利技术的提出一种并行化分布式互联网数据抽取方法及系统,其中该方法包括步骤:获取爬取得到的网页序列,依次获取网页配置信息并对网页进行数据抽取;对数据抽取得到的内容进行编码转换;对编码转换后的内容进行数据清洗;以及判断数据清洗后的内容是否信息重复,如不重复,存入数据库。本发明专利技术的并行化分布式互联网数据抽取方法及系统具有高质量高效率的优点。

【技术实现步骤摘要】

本专利技术涉及计算机应用
和信息
,具体涉及一种并行化分布式互联网数据抽取方法及其系统
技术介绍
现今,互联网的发展日新月异,中国的网民数量也在呈爆发式增长。互联网已逐步取代传统的媒体(包括报纸、书籍、广播、电视等等),变成人们获取和发布信息的主要来源。同时,由于互联网自由开放、使用简单、传播速度快、使用者众多的特点,使得互联网信息能够迅速的传播并造成影响。正是由于互联网扮演的角色越来越重要,所以各种针对互联网信息的研究也蓬勃发展起来。为了进行互联网信息的研究,首先需要将海量的格式各异的互联网网页信息抽取处理,并进行统一的格式转换,以方便后期分析处理;其次,需要应用高质量和高效率抽取技术。正是基于这一迫切需求,我们开发了并行化分布式互联网数据 抽取系统。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本专利技术的一个目的在于提出一种具有高质高效的并行化分布式互联网数据抽取方法及其系统。本专利技术的一方面提出一种并行化分布式互联网数据抽取方法,包括步骤获取爬取得到的网页序列,依次获取网页配置信息并对网页进行数据抽取;对数据抽取得到的内容进行编码转换;对编码转换后的内容进行数据清洗;以及判断数据清洗后的内容是否信息重复,如不重复,存入数据库。在本专利技术的方法的一个实施例中,所述数据抽取是以并行化分布式的模式进行。在本专利技术的方法的一个实施例中,所述编码转换包括将数值型信息转换为统一长度的整数或者浮点数;将所有的时间信息转化为统一格式的绝对时间;以及将单位信息转化为统一的数据单位和度量衡。在本专利技术的方法的一个实施例中,所述数据清洗包括针对正文的数据清洗和针对评论的数据清洗。本专利技术的另一方面提出一种并行化分布式互联网数据抽取系统,包括数据抽取模块,所述数据抽取模块用于获取爬取得到的网页序列,依次获取网页配置信息并对网页进行数据抽取;编码转换模块,所述编码转换模块用于对数据抽取得到的内容进行编码转换;数据清洗模块,所述数据清洗模块用于对编码转换后的内容进行数据清洗;判断重复模块,所述判断重复模块用于判断数据清洗后的内容是否信息重复;以及存储模块,如果所述判断重复模块的结果为不重复,将数据清洗后的内容存入数据库。在本专利技术的系统的一个实施例中,所述数据抽取模块为并行化分布式结构。在本专利技术的系统的一个实施例中,所述编码转换模块包括数值转换子模块,所述数值转换子模块用于将数值型信息转换为统一长度的整数或者浮点数;时间转换子模块,所述时间转换子模块用于将所有的时间信息转化为统一格式的绝对时间;以及单位转换子模块,所述单位转换子模块用于将单位信息转化为统一的数据单位和度量衡。在本专利技术的系统的一个实施例中,所述数据清洗模块包括正文数据清洗子模块和评论数据清洗子模块。首先,本专利技术的的方法和系统能够通过配置的方式自由的扩展需要抽取的目标站点,由于采用了并行化和分布式的设计,使得数据抽取的效率和实时性得到了很好的保证。其次,本专利技术中采用了抽取数据清洗机制,针对抽取数据进行过滤净化,去除其中可能包含的各种非法无意义的内容,大大提高了抽取数据的有效程度,保证了之后针对抽取数据的分析处理的准确性和真实性。再者,本专利技术针对抽取到的数据做了统一的数据格式转换和字符编码转换,为最终的程序处理和数据存储提供了很大的便利。因此,本专利技术的方法和系统具有高质量和高效率的优点。 本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中图I是本专利技术实施例的并行化分布式互联网数据抽取方法的流程图;图2是本专利技术实施例的并行化分布式互联网数据抽取系统的结构框图;图3是本专利技术实施例的并行化分布式互联网数据抽取方法的详细流程图;和图4是本专利技术实施例的并行化分布式特征的数据抽取模块的结构示意图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。在本专利技术中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。本专利技术属于计算机应用
和信息
,主要涉及针对抓取得到的网页进行数据抽取,数据清洗过滤,数据格式统一和编码转换的实现。数据抽取是基于互联网信息分析的基础和前提,所有的分析操作都是在数据抽取所获得干净的和统一编码和数据格式的数据的基础上进行的。 本专利技术专利的主要目的是为了解决海量异构的互联网数据的高效准确抽取,抽取数据的清洗过滤,数据格式统一和编码转换三方面的问题。因为基于互联网数据的分析的突出的要求是分析数据的时效性要高。由于互联网数据量都是十分惊人的,网页结构千差万别,所以为了保证互联网数据分析的时效性、全面性和分析处理的便利性,需要有一种可以高效准确的抽取海量异构互联网数据技术。我们所开发的并行化分布式互联网数据抽取系统解决了这一迫切需求。不过,抽取出来的数据中可能包含了许多无意义的非法的字符或内容,需要进行清洗过滤,否则会影响之后的数据分析的效果。最后,由于现在存在于互联网上的网页千差万别,不同网页上采用的数据结构也大不相同,比如时间格式,就有多种格式。而且,不同网页采用的字符编码格式往往也大不相同。所以,为了方便之后对抽取数据的分析处理,在保存抽取数据之前还需要对抽取的数据做统一的数据格式转换和字符编码格式本文档来自技高网
...

【技术保护点】
一种并行化分布式互联网数据抽取方法,其特征在于,包括步骤:获取爬取得到的网页序列,依次获取网页配置信息并对网页进行数据抽取;对数据抽取得到的内容进行编码转换;对编码转换后的内容进行数据清洗;以及判断数据清洗后的内容是否信息重复,如不重复,存入数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨睿尘
申请(专利权)人:北京腾逸科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1