一种利用分布式技术实现的数据采集与处理方法技术

技术编号:6069248 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种利用分布式技术实现的数据采集与排序处理方法,利用分布式技术从网络上的数据库中搜集与待排名对象有关的数据,并对相关数据进行运算,进而对对象进行排名的方法,并用此方法实现了一个大学学术排名系统。本方法可分为两个部分,第一部分为数据采集,第二部分为数据分析,第三部分为数据计算。数据采集部分通过分布式工具从网络数据库中采集相关数据,数据分析部分对数据采集部分得到的数据进行分析,并将分析结果保存在文本文件中。数据计算部分利用数据分析的结果计算对象的得分并对其进行排名。

A data acquisition and processing method using distributed technology

The invention provides a realization of the use of distributed technology, data collection and sorting processing method, collected from the network database and the ranking of object related data using distributed technology, and operation of the relevant data, and then the ranking method of the object, and use this method to implement a University Academic Ranking system. This method can be divided into two parts. The first part is data collection, the second part is data analysis, the third part is data calculation. The data acquisition section collects the relevant data from the network database through the distributed tools, and the data analysis part analyzes the data collected by the data acquisition part, and saves the analysis results in the text file. The data calculation part uses the result of data analysis to calculate the object score and rank it.

【技术实现步骤摘要】

本专利技术涉及利用分布式技术实现信息搜集及信息处理的方法,属于计算机网络和 和分布式计算的交叉技术应用领域。
技术介绍
分布式技术是一种基于网络的计算机处理技术,由于个人计算机的性能得到极大 的提高及其使用的普及,使处理能力分布到网络上的所有计算机成为可能。Hadoop ( 一种并行运算编程工具)是一个开源的可运行于大规模集群上的分布式 并行编程框架,基于Hadoop,可以轻松地编写可处理海量数据的分布式并行程序,并将其 运行于由成百上千个结点组成的大规模计算机集群上。Hadoop框架中最核心的设计就是 MapReduce (映射与化简)和HDFS (分布式文件系统)。MapReduce的思想是由Google (谷 歌)的一篇论文所提及而被广为流传的,简单的说MapReduce就是“任务的分解与结果的 汇总”。"Map (映射),,就是将一个任务分解成为多个任务,"Reduce (化简),,就是将分解 后多任务处理的结果汇总起来,得出最后的分析结果。在Map前还可能会对输入的数据有 Split (分割)的过程,保证任务并行效率,在Map之后还会有amff Ie (混合)的过程,对于 提高Reduce的效率以及减小数据传输的压力有很大的帮助。HDFS则为分布式计算存储提 供了底层支持。使用Hadoop进行分布式计算的优势有1.可扩展不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。2.经济框架可以运行在任何普通的个人电脑上。3.可靠分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布 式处理的可靠性。4.高效分布式文件系统的高效数据交互实现以及MapReduce结合本地数据处理 的模式,为高效处理海量的信息作了基础准备。
技术实现思路
技术问题本专利技术的目的是提供一种利用分布式技术实现的数据采集与排序处理 方法,利用Hadoop技术从网络上的数据库中搜集与对象有关的数据,并对相关数据进行运 算,进而对对象进行排名的方法。技术方案本专利技术利用分布式技术实现的数据采集与排序处理方法的具体步骤如 下步骤1).通过分布式计算工具,向各大网络论文搜索引擎发送用户请求,从某一 类列表中依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目 录名称相关的数据情况;步骤幻.抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件;步骤;3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将 其转换成爪哇对象,并通过遍历对象,获取需要的关键信息;步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种 信息的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文 件;步骤5).遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将 重复数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据,步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为权利要求1. 一种利用分布式技术实现的数据采集与排序处理方法,其特征在于此方法所包含的 步骤为步骤1).通过分布式计算工具,同时向各大搜索引擎发送用户请求,从某一类列表中 依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目录名称相 关的数据情况;步骤幻.抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件; 步骤;3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将其转 换成爪哇对象,并通过遍历对象,获取需要的关键信息;步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种信息 的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文件;步骤幻.遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将重复 数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据, 步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为全文摘要本专利技术提出了一种利用分布式技术实现的数据采集与排序处理方法,利用分布式技术从网络上的数据库中搜集与待排名对象有关的数据,并对相关数据进行运算,进而对对象进行排名的方法,并用此方法实现了一个大学学术排名系统。本方法可分为两个部分,第一部分为数据采集,第二部分为数据分析,第三部分为数据计算。数据采集部分通过分布式工具从网络数据库中采集相关数据,数据分析部分对数据采集部分得到的数据进行分析,并将分析结果保存在文本文件中。数据计算部分利用数据分析的结果计算对象的得分并对其进行排名。文档编号G06F17/30GK102110164SQ201110047210公开日2011年6月29日 申请日期2011年2月28日 优先权日2011年2月28日专利技术者刘波, 李致远, 林巧民, 王汝传, 邵星, 韩志杰, 顾翔 申请人:南京邮电大学本文档来自技高网
...

【技术保护点】
1.一种利用分布式技术实现的数据采集与排序处理方法,其特征在于此方法所包含的步骤为:步骤1).通过分布式计算工具,同时向各大搜索引擎发送用户请求,从某一类列表中依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目录名称相关的数据情况;步骤2).抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件;步骤3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将其转换成爪哇对象,并通过遍历对象,获取需要的关键信息;步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种信息的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文件;步骤5).遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将重复数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据,步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为:其中p、q、s、t为各个子目录名称下的4项统计数据,x、y、z、w为各个子目录名称中分别对应4种统计数据中最大的一个统计数,p、q、s、t在总得分中的权重分别为20%,20%,30%,30%。步骤8).根据每个子目录名称下的总得分,对所有子目录名称进行排序,得到排序结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王汝传刘波韩志杰李致远邵星林巧民顾翔
申请(专利权)人:南京邮电大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1