The invention provides a realization of the use of distributed technology, data collection and sorting processing method, collected from the network database and the ranking of object related data using distributed technology, and operation of the relevant data, and then the ranking method of the object, and use this method to implement a University Academic Ranking system. This method can be divided into two parts. The first part is data collection, the second part is data analysis, the third part is data calculation. The data acquisition section collects the relevant data from the network database through the distributed tools, and the data analysis part analyzes the data collected by the data acquisition part, and saves the analysis results in the text file. The data calculation part uses the result of data analysis to calculate the object score and rank it.
【技术实现步骤摘要】
本专利技术涉及利用分布式技术实现信息搜集及信息处理的方法,属于计算机网络和 和分布式计算的交叉技术应用领域。
技术介绍
分布式技术是一种基于网络的计算机处理技术,由于个人计算机的性能得到极大 的提高及其使用的普及,使处理能力分布到网络上的所有计算机成为可能。Hadoop ( 一种并行运算编程工具)是一个开源的可运行于大规模集群上的分布式 并行编程框架,基于Hadoop,可以轻松地编写可处理海量数据的分布式并行程序,并将其 运行于由成百上千个结点组成的大规模计算机集群上。Hadoop框架中最核心的设计就是 MapReduce (映射与化简)和HDFS (分布式文件系统)。MapReduce的思想是由Google (谷 歌)的一篇论文所提及而被广为流传的,简单的说MapReduce就是“任务的分解与结果的 汇总”。"Map (映射),,就是将一个任务分解成为多个任务,"Reduce (化简),,就是将分解 后多任务处理的结果汇总起来,得出最后的分析结果。在Map前还可能会对输入的数据有 Split (分割)的过程,保证任务并行效率,在Map之后还会有amff Ie (混合)的过程,对于 提高Reduce的效率以及减小数据传输的压力有很大的帮助。HDFS则为分布式计算存储提 供了底层支持。使用Hadoop进行分布式计算的优势有1.可扩展不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。2.经济框架可以运行在任何普通的个人电脑上。3.可靠分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布 式处理的可靠性。4.高效分布式文件系统的高 ...
【技术保护点】
1.一种利用分布式技术实现的数据采集与排序处理方法,其特征在于此方法所包含的步骤为:步骤1).通过分布式计算工具,同时向各大搜索引擎发送用户请求,从某一类列表中依次读取该类列表中各子目录名称,并以此为关键字利用搜索引擎搜索与该子目录名称相关的数据情况;步骤2).抓取各搜索引擎返回的查询结果,并将其保存为超文本传输协议文件;步骤3).利用分布式计算工具的超文本传输协议文件分析器分析得到的文件,将其转换成爪哇对象,并通过遍历对象,获取需要的关键信息;步骤4).通过数据清洗,去除与排序无关的信息,只保留所需排序的有关若干种信息的收录情况,并按照此格式将处理过的数据保存入文档,每个子目录名称对应一个文件;步骤5).遍历每个子目录名称对应的文件,查询其中是否有重复数据,若有则将重复数据删除;步骤6).遍历每个子目录名称对应的文件,统计每个子目录名称中各种数据,步骤7)以每个子目录名称中各种数据计算每个子目录名称下的总得分,公式为:其中p、q、s、t为各个子目录名称下的4项统计数据,x、y、z、w为各个子目录名称中分别对应4种统计数据中最大的一个统计数,p、q、s、t在总得分中的权重分别为20%, ...
【技术特征摘要】
【专利技术属性】
技术研发人员:王汝传,刘波,韩志杰,李致远,邵星,林巧民,顾翔,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:84
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。