一种去重方法及系统技术方案

技术编号:9596838 阅读:167 留言:0更新日期:2014-01-23 02:19
本发明专利技术公开了一种去重方法,包括:获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照Hadoop集群系统中的归约框架中所指定的类格式,对映射处理的结果进行归约处理,归约处理的结果为对URL去重的结果;其中映射处理在Hadoop集群系统的一个或多个节点中执行,归约处理在Hadoop集群系统的一个或多个节点中执行,映射处理和归约处理分别在Hadoop集群系统的一个或多个节点中并发、或顺序执行。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种去重方法,包括:获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照Hadoop集群系统中的归约框架中所指定的类格式,对映射处理的结果进行归约处理,归约处理的结果为对URL去重的结果;其中映射处理在Hadoop集群系统的一个或多个节点中执行,归约处理在Hadoop集群系统的一个或多个节点中执行,映射处理和归约处理分别在Hadoop集群系统的一个或多个节点中并发、或顺序执行。【专利说明】一种去重方法及系统
本专利技术涉及分布式网络技术,尤其涉及一种去重方法及系统。
技术介绍
随着互联网技术的不断发展与网络信息量的不断剧增,用户能够从海量的信息中快速高效的搜索有价值的信息对于互联网的发展至关重要。因此对于同一资源定位符(URL, Uniform Resource Locator)数据的去重尤为重要。例如,对于搜索信息来说,网络信息采集是其重要组成部分,URL去重直接影响网络信息采集的效率。因此,URL的去重方案设计与实现是非常重要的。目前,对于去重设计方案主要有基于哈希计算算法的去重方案和基于BloomFilter算法的去重方案等。其中,哈希计算算法去重方案的主要思路大致包括:对每个URL进行哈希计算,得到唯一的校验和来标识URL ;通过查找该校验和是否出现在已采集的URL库中,如果出现,则丢弃;如果未出现,查找是否出现在待采集的URL库中,出现则丢弃,否则将该URL保存在待采集的URL库中。但是哈希算法的计算复杂度高,效率差。BloomFilter算法的去重方案的主要思路大致包括:将同一个URL通过多个不同的哈希计算函数映射到同一个位数组中的不同位上,根据其位数组中多个不同位的状态识别该URL的采集状态(该URL是否已采集)。BloomFilter算法的优点是,只需要在内存中保存位数组这样一个数据结构,就能够判别URL的采集状态,不需要保存具体的URL,占用的存储空间小,同时查找计算的速度快。但是,BloomFilter算法在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合。因此BloomFilter算法的缺点是不能做到精确无误,存在一定的误差。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种去重方法及系统,能够在Hadoop集群中并发的访问、处理数据,保证去重的高效性和准确性。为了达到本专利技术的目的,本专利技术提供了一种去重方法,包括:获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照所述Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照所述Hadoop集群系统的归约框架中指定的类格式,对所述映射处理的结果进行归约处理;其中,所述映射处理在所述Hadoop集群系统的一个或多个节点中执行,所述归约处理在所述Hadoop集群系统的一个或多个节点中执行,所述映射处理和所述归约处理分别在所述Hadoop集群系统的一个或多个节点中并发、或顺序执行。进一步地,所述映射处理所在节点与所述归约处理所在节点相同;或者,所述映射处理所在节点与所述归约处理所在节点不同。进一步地,所述映射处理包括:判断所述获得的URL数据是否已被采集,如果已被采集,则写入中间数据文件中;否则,根据所述获得的URL数据所对应的原始网页中的链接,计算采集权值,并将所述获得的URL数据标记为已采集状态。进一步地,所述归约处理包括:将所述映射处理的结果放在同一个归约任务中批量执行。进一步地,所述执行映射处理的节点的数量为预先设置。进一步地,所述执行归约处理的节点的数量为预先设置。本专利技术提供了一种去重系统,包括:数据获取设备,用于获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;映射处理设备,用于按照所述Hadoop集群系统的映射框架中指定的输入类格式,对获得的URL数据进行映射处理;归约处理设备,用于按照所述Hadoop集群系统的归约框架中指定的类格式,对所述映射处理的结果进行归约处理,归约处理的结果为对URL去重的结果;其中,所述映射处理在所述Hadoop集群系统的一个或多个节点中执行,所述归约处理在所述Hadoop集群系统的一个或多个节点中执行,所述映射处理和所述归约处理分别在所述Hadoop集群系统的一个或多个节点中并发、或顺序执行。进一步地,所述映射处理和所述归约处理在所述Hadoop集群系统的相同的节点中执行或、所述映射处理和所述归约处理在所述Hadoop集群系统的不同的节点中执行。进一步地,所述映射处理设备具体用于:判断获得的URL数据是否已被采集,如果已被采集,则写入中间数据文件中;否则根据所述URL数据所对应的原始网页中的链接,计算采集权值,并将所述URL数据标记为已采集状态。进一步地,通过参数设置执行所述映射处理的节点的数量。进一步地,通过参数设置执行所述归约处理的节点的数量。本专利技术方案通过获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照所述Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照所述Hadoop集群系统的归约框架中指定的类格式,对所述映射处理的结果进行归约处理,从而解决了在Hadoop集群系统中并发地访问、处理数据,并保证了去重的高效性和准确性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。【专利附图】【附图说明】附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术去重方法的流程图;图2为本专利技术去重系统的示意图;图3为本专利技术URL去重模块的类结构的示意图;图4为本专利技术URL去重模块的时序图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术去重方法的流程图,如图1所示,包括以下步骤:步骤100:获取存储于Hadoop集群中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;本步骤中,URL数据可以是因特网、局域网中的网络资源。URL数据可以下载到本地、或可以下载到Hadoop集群的任意一个或多个节点中。这些数据文件可以在线获取,并在线处理。进一步地,URL数据也可以是存储在本地的文件。优选地,将URL数据存储在Hadoop 分布式文件系统(HDFS,Hadoop Distributed File System)上,以提本文档来自技高网
...

【技术保护点】
一种去重方法,其特征在于,包括:获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照所述Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照所述Hadoop集群系统的归约框架中指定的类格式,对所述映射处理的结果进行归约处理;其中,所述映射处理在所述Hadoop集群系统的一个或多个节点中执行,所述归约处理在所述Hadoop集群系统的一个或多个节点中执行,所述映射处理和所述归约处理分别在所述Hadoop集群系统的一个或多个节点中并发、或顺序执行。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭美思何志平吴楠
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1