当前位置: 首页 > 专利查询>浙江大学专利>正文

基于映射-化简和分词及邻接排序去重方法技术

技术编号:6135077 阅读:424 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于Map-Reduce和分词及邻接排序去重方法,通过基于Hadoop的Map-Reduce分布式框架下采用SNM方法的基础上的一种分词排序的邻接排序去重方法,解决了在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题,并且设计对数据进行分布式处理,根据字段匹配方法计算记录间的相似度判断记录是否重复,提高整体的去重运行效率。

【技术实现步骤摘要】

本专利技术涉及到基于Map-Reduce分布式框架下的高效数据去重方法,该方法基于 Map-Reduce分布式框架,以分词排序编辑距离的相似度匹配方法作为字段相似度方法、以邻接排序方法(SNM)为记录的去重方法,能够有效地提高计算机去重的运行效率。
技术介绍
随着互联网的快速发展,互联网已经成为最为流行的信息发布媒体,已经发展成为一个全球的、巨大的、分布和共享的信息空间。网络也迅速崛起成为一种重要的交换和信息传播的手段,WEB上也出现了丰富的数据资源。网络也成为人们获取信息的重要途径, 但是随着互联网的爆破式增长,人们为了得到自己所需的信息,不得不花费大量的时间和精力来浏览、搜索自己需要的信息,从而诞生了很多搜索引擎来帮助人们索引查找相关的网页。它事先将搜索到的页面进行检索,通过用户给定关键词来查找相关的网页,返回给用户,但是搜索引擎只能查找到与用户关键词相关的信息,却不能代替用户提取出用户最需要的信息。搜索引擎返回的页面包含了大量与关键字无关的其他内容,返回结果的准确性也存在问题;用户需要从页面中通过人工的方式提取信息,对不用来源的信息进行比对时需要浏览大量的网页,极大地增加了用户的工作量和负担。为了解决上述问题,需要一种能够快速、准确地从海量数据里面提取有效信息的技术手段来帮助用户完成这项工作。信息融合系统可以代替人们完成上述工作,信息融合系统从不同的数据来源来抽取出人们关心的信息反馈给用户。信息融合系统运用WEB信息抽取技术代替用户从网页中抽取出用户感兴趣的信息。WEB信息抽取技术获取网页数据并以结构化的形式组织数据,从而可以给第三方应用程序或者用户提供一种结构化数据表现形式,也使得利用WEB中相关数据变为可能。但是在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题,在实践中对淘宝网进行信息抽取时共有样本798个,但是通过网络爬虫抓取页面和对抓取的页面进行信息抽取时获得到5689个抽取结果,其中存在着大量的数据重复,具体分析这些信息重复的主要原因为1.完全相同的数据出现在不同的网页中由于网页中对于物品分类的标准不同,导致相同的信息分类出现在不同的页面中,在对不同的网页进行信息抽取时就得到完全相同的数据信息。例如在淘宝网上有“三星手机”与“1000元以上”这两个分类标准就导致两个集合之间存在着交集。2.表述不同,但是信息内涵相同的数据不同的信息表述不同的数据的方式是不相同的,因此在信息系统中就需要识别出同一内容的不同表现形式。并且由于信息来源很大程度上来源于互联网,而互联网上的信息非常的浩繁和巨大,采用现有的单机运行框架已经无法高效地处理海量信息。
技术实现思路
本专利技术针对现有技术的不足,提出一种基于Map-Reduce分布式框架下的高效数据去重方法,该方法基于Hadoop (“海盗框架”)的Map-Reduce分布式框架下采用S匪(邻接排序方法)方法的基础上的一种分词排序的邻接排序去重方法(SSNM方法)。为了解决上述技术问题,本专利技术的技术方案包括以下步骤 基于Map-Reduce和分词及邻接排序去重方法,包括以下步骤1)用户在客户端输入自己需要查询信息的关键字;2)服务器端获取步骤1)中用户输入的的关键字;3)所述服务器端通过应用编辑距离方法对关键字进行分词,对分词结果进行排序后得到字符串,最后计算出所述关键字中每两个字段间字符串间的编辑距离;4)将步骤3)中所述排序后的字符串作为关键字进行排序,将此结果应用于记录去重方法的排序;5)设计所述服务器端,使所述服务器端能在分布式框架下能正常运行,并设置所述分布式框架使之能正常运行步骤1) 步骤4);所述分布式框架采用Map-Reduce框架。作为可选方案,所述步骤3)中编辑距离的计算采用动态规划法进行计算,其计算公式如下权利要求1.基于Map-Reduce和分词及邻接排序去重方法,其特征在于,包括以下步骤1)用户在客户端输入查询信息的关键字;2)服务器端获取步骤1)中所述的关键字;3)所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串,最后计算出所述关键字中每两个字段间字符串间的编辑距离;4)将步骤3)中所述排序后的字符串作为关键字进行排序,将此结果应用于记录去重方法的排序;5)设计所述服务器端,使所述服务器端能在分布式框架下能正常运行,并设置所述分布式框架使之能正常运行步骤1) 步骤4);所述分布式框架采用Map-Reduce框架。2.根据权利要求1所述的一种基于Map-Reduce和分词排序的邻接排序去重的方法,其特征在于,所述步骤3)中编辑距离的计算采用动态规划法进行计算,其计算公式如下3.根据权利要求1所述的一种基于Map-Reduce和分词排序的邻接排序去重的方法,其特征在于,所述记录去重方法采用SNM方法。4.根据权利要求1所述的一种基于Map-Reduce和分词排序的邻接排序去重的方法,其特征在于,所述设置Map-Reduce框架包括以下步骤DMRSS匪将排序后的字符串集合S分割成N组小集合Si (i的范围为1到N),使之能在单台计算机上处理;2)根据不同的键,利用分布式环境分布到不同的Reduce函数过程上逐一处理,一次的计算保证在这小块集合中是没有重复的3)在Reduce函数过程处理后的输出结果后,将不同集合的数据合并起来处理重新做一次MRSSNM操作;4)将完成整个操作后将结果重新作为去重的输入数据,重复多次执行来保证符合预先设定的去重操作准确性和召回率。全文摘要本专利技术公开了一种基于Map-Reduce和分词及邻接排序去重方法,通过基于Hadoop的Map-Reduce分布式框架下采用SNM方法的基础上的一种分词排序的邻接排序去重方法,解决了在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题,并且设计对数据进行分布式处理,根据字段匹配方法计算记录间的相似度判断记录是否重复,提高整体的去重运行效率。文档编号G06F17/30GK102163226SQ20111009076公开日2011年8月24日 申请日期2011年4月12日 优先权日2011年4月12日专利技术者吴健, 吴朝晖, 尹建伟, 李莹, 苏伟兵, 邓水光 申请人:浙江大学本文档来自技高网
...

【技术保护点】
1.基于Map-Reduce和分词及邻接排序去重方法,其特征在于,包括以下步骤:1)用户在客户端输入查询信息的关键字;2)服务器端获取步骤1)中所述的关键字;3)所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串,最后计算出所述关键字中每两个字段间字符串间的编辑距离;4)将步骤3)中所述排序后的字符串作为关键字进行排序,将此结果应用于记录去重方法的排序;5)设计所述服务器端,使所述服务器端能在分布式框架下能正常运行,并设置所述分布式框架使之能正常运行步骤1)~步骤4);所述分布式框架采用Map-Reduce框架。

【技术特征摘要】

【专利技术属性】
技术研发人员:尹建伟苏伟兵吴朝晖邓水光李莹吴健
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1