基于映射-化简和分词及邻接排序去重方法技术

技术编号：6135077 阅读：442 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于Map-Reduce和分词及邻接排序去重方法，通过基于Hadoop的Map-Reduce分布式框架下采用SNM方法的基础上的一种分词排序的邻接排序去重方法，解决了在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题，并且设计对数据进行分布式处理，根据字段匹配方法计算记录间的相似度判断记录是否重复，提高整体的去重运行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及到基于Map-Reduce分布式框架下的高效数据去重方法，该方法基于 Map-Reduce分布式框架，以分词排序编辑距离的相似度匹配方法作为字段相似度方法、以邻接排序方法(SNM)为记录的去重方法，能够有效地提高计算机去重的运行效率。
技术介绍
随着互联网的快速发展，互联网已经成为最为流行的信息发布媒体，已经发展成为一个全球的、巨大的、分布和共享的信息空间。网络也迅速崛起成为一种重要的交换和信息传播的手段，WEB上也出现了丰富的数据资源。网络也成为人们获取信息的重要途径，但是随着互联网的爆破式增长，人们为了得到自己所需的信息，不得不花费大量的时间和精力来浏览、搜索自己需要的信息，从而诞生了很多搜索引擎来帮助人们索引查找相关的网页。它事先将搜索到的页面进行检索，通过用户给定关键词来查找相关的网页，返回给用户，但是搜索引擎只能查找到与用户关键词相关的信息，却不能代替用户提取出用户最需要的信息。搜索引擎返回的页面包含了大量与关键字无关的其他内容，返回结果的准确性也存在问题；用户需要从页面中通过人工的方式提取信息，对不用来源的信息进行比对时需要浏览大量的...

【技术保护点】
１．基于Ｍａｐ－Ｒｅｄｕｃｅ和分词及邻接排序去重方法，其特征在于，包括以下步骤：１）用户在客户端输入查询信息的关键字；２）服务器端获取步骤１）中所述的关键字；３）所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串，最后计算出所述关键字中每两个字段间字符串间的编辑距离；４）将步骤３）中所述排序后的字符串作为关键字进行排序，将此结果应用于记录去重方法的排序；５）设计所述服务器端，使所述服务器端能在分布式框架下能正常运行，并设置所述分布式框架使之能正常运行步骤１）～步骤４）；所述分布式框架采用Ｍａｐ－Ｒｅｄｕｃｅ框架。

【技术特征摘要】

【专利技术属性】
技术研发人员：尹建伟，苏伟兵，吴朝晖，邓水光，李莹，吴健，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86

全部详细技术资料下载我是这个专利的主人