【技术实现步骤摘要】
本专利技术涉及到基于Map-Reduce分布式框架下的高效数据去重方法,该方法基于 Map-Reduce分布式框架,以分词排序编辑距离的相似度匹配方法作为字段相似度方法、以邻接排序方法(SNM)为记录的去重方法,能够有效地提高计算机去重的运行效率。
技术介绍
随着互联网的快速发展,互联网已经成为最为流行的信息发布媒体,已经发展成为一个全球的、巨大的、分布和共享的信息空间。网络也迅速崛起成为一种重要的交换和信息传播的手段,WEB上也出现了丰富的数据资源。网络也成为人们获取信息的重要途径, 但是随着互联网的爆破式增长,人们为了得到自己所需的信息,不得不花费大量的时间和精力来浏览、搜索自己需要的信息,从而诞生了很多搜索引擎来帮助人们索引查找相关的网页。它事先将搜索到的页面进行检索,通过用户给定关键词来查找相关的网页,返回给用户,但是搜索引擎只能查找到与用户关键词相关的信息,却不能代替用户提取出用户最需要的信息。搜索引擎返回的页面包含了大量与关键字无关的其他内容,返回结果的准确性也存在问题;用户需要从页面中通过人工的方式提取信息,对不用来源的信息进行比对时需要浏览大量的 ...
【技术保护点】
1.基于Map-Reduce和分词及邻接排序去重方法,其特征在于,包括以下步骤:1)用户在客户端输入查询信息的关键字;2)服务器端获取步骤1)中所述的关键字;3)所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串,最后计算出所述关键字中每两个字段间字符串间的编辑距离;4)将步骤3)中所述排序后的字符串作为关键字进行排序,将此结果应用于记录去重方法的排序;5)设计所述服务器端,使所述服务器端能在分布式框架下能正常运行,并设置所述分布式框架使之能正常运行步骤1)~步骤4);所述分布式框架采用Map-Reduce框架。
【技术特征摘要】
【专利技术属性】
技术研发人员:尹建伟,苏伟兵,吴朝晖,邓水光,李莹,吴健,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。