一种基于MapReduce框架的网页排序方法和系统技术方案

技术编号:10651865 阅读:147 留言:0更新日期:2014-11-19 14:39
本发明专利技术公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。【专利说明】-种基于MapReduce框架的网页排序方法和系统
本专利技术涉及计算机
,具体涉及一种基于MapReduce框架的网页排序方法 和系统。
技术介绍
随着网络技术的日益普及,人们对于网络搜索的需求量也急剧增加,而用户能否 快速地搜索到自己所需的网页,取决于网络中的网页排序。因此,网络中的网页排序是至关 重要的。 现有技术中,通常使用基于网页拓扑结果的网页排序算法对网络中的网页进行排 序。即,计算每个网页的重要性,基于每个网页的重要性对各个网页进行评分,并根据评分 对网页进行排序。 然而,由于网络中的网页处于海量增长状态,使用单机硬件配置进行网页排序,会 导致排序效率低下,降低了网络搜索的处理速度。
技术实现思路
本专利技术提供了一种基于MapReduce框架的网页排序方法和系统,以解决现有技术 中排序效率低下的缺陷。 本专利技术提供了一种基于MapReduce框架的网页排序方法,应用于Hadoop集群中的 MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步 骤: S1、所述Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的 数据记录,生成并保存与各个网页对应的链接信息,并对与各个网页对应的积分信息进行 初始化和保存; S2、所述Map模块根据与各个网页对应的积分信息,生成并保存与各个网页对应 的出度信息; S3、所述Reduce模块获取与各个网页对应的链接信息和出度信息,根据与各个网 页对应的链接信息和出度信息,更新各个网页的贡献积分; S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S6 ;否 贝1J,返回步骤S5 ; S5、所述Reduce模块根据更新后的各个网页的贡献积分,对与各个网页对应的积 分信息进行更新和保存,并返回步骤S2 ; S6、所述Reduce模块将与更新后的各个网页的贡献积分对应的网页排序结果输 出。 可选地,所述步骤S1,具体为: 所述Map模块将各个网页的URL作为键,将各个网页包含的正向链接的URL作为 值,生成与各个网页对应的第一键值对,将所述第一键值对作为链接信息存储到本地文件 系统中;对各个网页的贡献积分进行初始化,并将各个网页的URL作为键,将各个网页的贡 献积分以及各个网页包含的正向链接的URL作为值,生成与各个网页对应的第二键值对, 并将所述第二键值对作为积分信息存储到本地文件系统中。 可选地,所述步骤S2,具体为: 所述Map模块根据与各个网页对应的积分信息,获取各个网页的URL以及各个网 页包含的正向链接的URL,获取各个网页的网页ID以及各个网页的出度数量,将各个网页 的网页ID作为键,将各个网页的贡献积分与出度数量的比值作为值,生成与各个网页对应 的第三键值对,并将所述第三键值对作为出度信息存储到本地文件系统中。 可选地,所述步骤S3,具体为: 所述Reduce模块根据与各个网页对应的链接信息,确定各个网页的反向链接所 在的网页,并根据确定出的网页对应的出度信息中包含的该网页的贡献积分与出度数量的 比值,计算各个网页的贡献积分,并将计算结果作为更新后的各个网页的贡献积分。 可选地,所述Reduce模块判断是否满足预设的收敛条件,具体为: 所述Reduce模块根据更新前后的各个网页的贡献积分,判断各个网页的贡献积 分是否发生变化,如果发生变化,则确定不满足预设的收敛条件;否则,确定满足预设的收 敛条件; 或者, 所述Reduce模块获取与更新前后的各个网页的贡献积分对应的网页排序结果, 判断所述网页排序结果是否发生变化,如果发生变化,则确定不满足预设的收敛条件;否 贝1J,确定满足预设的收敛条件; 或者, 所述Reduce模块判断各个网页的贡献积分的更新次数是否达到预设次数,如果 是,则确定满足预设的收敛条件;否则,确定不满足预设的收敛条件。 本专利技术还提供了一种基于MapReduce框架的网页排序系统,包括Map模块和 Reduce 模块; 所述Map模块包括: 第一生成子模块,用于从文本文件中读取与各个网页对应的数据记录,根据读取 到的数据记录,生成并保存与各个网页对应的链接信息,并对与各个网页对应的积分信息 进行初始化和保存; 第二生成子模块,用于根据与各个网页对应的积分信息,生成并保存与各个网页 对应的出度?η息; 所述Reduce模块包括: 第一更新子模块,用于获取与各个网页对应的链接信息和出度信息,根据与各个 网页对应的链接信息和出度信息,更新各个网页的贡献积分; 判断子模块,用于判断是否满足预设的收敛条件; 第二更新子模块,用于在所述判断子模块判断出不满足预设的收敛条件时,根据 所述第一更新子模块更新后的各个网页的贡献积分,对与各个网页对应的积分信息进行更 新和保存,并触发所述第二生成子模块; 输出子模块,用于在所述判断子模块判断出满足预设的收敛条件时,将与更新后 的各个网页的贡献积分对应的网页排序结果输出。 可选地,所述第一生成子模块,具体用于将各个网页的URL作为键,将各个网页 包含的正向链接的URL作为值,生成与各个网页对应的第一键值对,将所述第一键值对作 为链接信息存储到本地文件系统中;对各个网页的贡献积分进行初始化,并将各个网页的 URL作为键,将各个网页的贡献积分以及各个网页包含的正向链接的URL作为值,生成与各 个网页对应的第二键值对,并将所述第二键值对作为积分信息存储到本地文件系统中。 可选地,所述第二生成子模块,具体用于根据与各个网页对应的积分信息,获取各 个网页的URL以及各个网页包含的正向链接的URL,获取各个网页的网页ID以及各个网页 的出度数量,将各个网页的网页ID作为键,将各个网页的贡献积分与出度数量的比值作为 值,生成与各个网页对应的第三键值对,并将所述第三键值对作为出度信息存储到本地文 件系统中。 可选地,所述第一更新子模块,具体用于根据与各个网页对应的链接信息,确定各 个网页的反向链接所在的网页,并根据确定出的网页对应的出度信息中包含的该网页的贡 献积分与出度数量的比值,计算各个网页的贡献积分,并将计算结果作为更新后的各个网 页的贡献积分。 可选地,所述判断子模块,具体用于根据更新前后的各个网页的贡献积分,判断各 个网页的贡献积分是否发生变化,如果发生变化,则确定不满足预设的收敛条件;否则,确 定满足预设的收敛条件; 或者, 获取与更新前后的各个本文档来自技高网...
一种基于MapReduce框架的网页排序方法和系统

【技术保护点】
一种基于MapReduce框架的网页排序方法,其特征在于,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步骤:S1、所述Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息,并对与各个网页对应的积分信息进行初始化和保存;S2、所述Map模块根据与各个网页对应的积分信息,生成并保存与各个网页对应的出度信息;S3、所述Reduce模块获取与各个网页对应的链接信息和出度信息,根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分;S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S6;否则,返回步骤S5;S5、所述Reduce模块根据更新后的各个网页的贡献积分,对与各个网页对应的积分信息进行更新和保存,并返回步骤S2;S6、所述Reduce模块将与更新后的各个网页的贡献积分对应的网页排序结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:宗栋瑞郭美思吴楠
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1