当前位置: 首页 > 专利查询>浙江大学专利>正文

一种自学习的中文地址判重方法技术

技术编号:3858665 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自学习的中文地址判重方法。本发明专利技术在对中文地址进行判重时,采用自学习的方法。首先处理所有待判重的地址数据,使用规范度计算公式计算出各个地址的规范度,并对符合规范条件的地址提取冗余信息,并计算冗余信息可信度,将可信的冗余信息用于后续的地址数据替换,判重上。本发明专利技术方法不依赖领域知识,能够在保证解析精度的前提下,显著降低地址判重中误判和漏判的比例。

【技术实现步骤摘要】

本专利技术涉及对海量数据清洗判重处理相关的技术,特别是涉及一种对中文 地址数据进行不依赖于领域知识的判重方法。
技术介绍
随着中文搜索引擎和海量数据挖掘技术的飞速发展,高效中文地址判重技 术作为其中的关键技术受到了工业界和学术界的广泛关注,已成为研究的焦点。 中文地址具有写法灵活,语义多变等特点,因此相较英文地址去重,中文地址 判重面临新的要求和挑战。现有的各种数据去重方法主要集中在处理文本数据相似度的判断,数据间 依赖关系判断,数据縮写的判断,以及处理海量数据时方法复杂度降低等问题 上。这些方法及各种分支演化能够有效处理规整的英文数据,但对中文数据的 处理,特别是中文地址的判重,只能按照文本的字面相似性来机械地判定重复, 因而存在较大的局限性。比如"杭州市浙大路38号"与"杭州市浙江大学玉 泉校区"两个地址信息,其实指向了同一个地址,但是由于写法的不同,现有 程序均无法自动判定为相同,而只有借助外部预先定义的领域知识将"浙江大学玉泉校区"转换为"浙大路38号"才能做出正确判断。但是,这些领域知 识规模庞大,外部预先定义在实际工作中可行性不高。且对一些较小型的判重 应用,使用规模非常庞大的领域知识,显然也非常不合适。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种自学习的中文地址判重 方法。本专利技术的目的是通过以下技术方案来实现的 一种自学习的中文地址判重 方法,包括以下步骤(1)对所有地址数据进行预处理提取冗余信息的操作;具体步骤如下(A) 地址切分操作对一个完整的地址数据切分成各级的子地址信息。(B) 地址规范度计算对每一个地址数据计算其规范度信息,具体计算方法为分别计算每级子地址信息的规范度,并权重相加得到整条地址数据的规范度值。对子地址的规范度计算步骤如下第一步,从已经列入规范的地址数据的对应子域中搜索该值出现的次数;同时分析该子地址结构,若其由更细子域组成,则做二次分级,分别计算每个子域的规范度。规则为出现次数越多,该值越规范。第二步,对子地址信息进行分词,用分词后每个词的平均字数作为标准,平均字数越小意味该子地址词数越少,规范的可能性就越小;第三步,分析子地址字面基本信息,计算该域合法的可能信息。综合以上三步所得规范度信息,若第一步中出现次数大于一阈值,则只使用第一步结果当作该子地址规范度,若小于一阈值,则根据实际情况使用一、二或者一、二、三步结果权重相加来获得该子地址的规范度。(C) 对规范度超过一定阈值的地址数据提取冗余信息,保存为{规范数据,冗余数据,出现次数}格式的数据对,方便后期检索。(D) 筛选所有冗余格式对,对出现次数超过一定阈值的冗余格式,标为可信冗余对。(2) 遍历所有待判重的地址,如果出现步骤(1)中取出的冗余数据信息,且该冗余信息为可信冗余对,则将该冗余信息替换为对应的规范数据;对所有替换后的地址进行判重操作。(3) 对后续动态增长的待判重地址,遵循对每个地址计算规范度,提取冗余信息并更新冗余信息对,替换冗余信息,判重这个顺序操作。本专利技术与现有技术相比,具有的有益的效果是(1) 本专利技术是一种能够精确地,不依赖于领域知识的判重方法,使用了自学习的各种信息,地址判重准确度上比传统的不进行自学习的判重方法提高很多。(2) 本专利技术不需要特定的地址知识库的支持,维护代价小,操作简单,有别于传统的一些依赖于地址知识库的方法,应用范围广,如可应用于各类垂直搜索引擎,数据仓库,邮政系统等等。所以,本专利技术是一种适用于互联网环境下的,用于精确、高效地对海量中文地址进行判重的方法。附图说明4图1自学习中文地址判重方法流程图。 具体实施例方式在垂直搜索引擎,数据整合系统等需要进行地址判重的应用中,使用本方法 来进行实际的判重工作,可以获得比传统的不利用领域知识的判重方法更佳精 确的判重效果。本方法具体实施步骤如下1.对所有待处理的地址进行一遍预处理。主要进行以下几项工作1) 对地址切分子域-可以使用关键词匹配等方法,由于中文语义的多样性,应该尽量保证切分的 效果。比如将"浙江省杭州市西湖区浙大路38号"这个地址切分成"浙江省, 杭州市,西湖区,浙大路,38号"这几个域;2) 计算切分后地址的地址规范度-地址的规范度由各个切分后子域的规范度的权重和来计算。而各个子域的规范度可以使用以下三个思路a) 从已经列入规范的地址集的对应子域中搜索该值出现的次数,此值记为frei(freiEN),出现次数越多,该域越规范可信;b) 分析值的内容结构比如若路名域出现"文三路求智巷"等类似的子路名,则做二次分级,分为 "文三路"和"求智巷",分别用第一步来计算规范情况。同时加入中文分词技 术做出判断,用分词后每个词的平均字数作为标准,平均字数越小意味着词数越少,规范的可能性就越小。此值记为segi(0<Segi<l),具体计算方法可根据应 用领域而定;C)分析该域的字数等信息,计算该域合法的可能性,将此值记为WCi:一个比较简单的处理方法为wd-该域字数-l, wci越大,则不规范的可能性越大。依次按上述三步操作计算ri,若frei大于等于3次,直接将ri置为1。若 0<frei<3,则结合frei和segi的值巧=会/% x70% + ; x30%(0 <加;< 3)这里frei取3为分界的主要依赖于实验经验。由于很多中文路名等信息比较 冷僻,无法成词,因此若frei-0,可通过权重综合segi和wci的值巧=^x70% +——x30%(>e, =0)3) 遍历所有计算好的地址,对那些规范度超过一定阈值的地址计算其中的冗余信息,并保存比如"浙江省杭州市浙大路38号浙江大学玉泉校区"这一地址提取后的冗余信息对格式对{浙大路38号,浙江大学玉泉校区,N},其中N表示改对信息的出现次数,同时也可以用于判断这对冗余信息的合法性,N越大,则越合法。4) 筛选冗余信息如步骤3)中所述方法,以N为判断依据,筛选掉所有出现次数不符合一定阈值的地址;2. 在预处理之后,对所有地址做冗余信息的替换工作对每个地址进行判断,如果出现了预处理中筛选出来的冗余信息,则将其替换为真实的地址信息。比如冗余信息中有{浙大路38号,浙江大学玉泉校区,IO)这一对数据,而实际地址中出现了 "杭州市浙江大学玉泉校区"这一关键词,则地址最后被替换为"杭州市浙大路38号"。检査完所有地址后,对所有地址进行一遍地址判重。可以使用聚类判重等方法;3. 对于后续到来的新地址,使用如上步骤1和步骤2两步相近的方法,具体如下1) 对地址切分子域;2) 依据切分后的子域计算地址的规范度;3) 如果有的话提取地址中的冗余信息。如果地址中包含已知的冗余信息,则用实际地址替换冗余信息;4) 将地址和所有己有的地址进行判重计算。权利要求1、,其特征在于,包括以下步骤(1)对所有地址数据进行预处理提取冗余信息的操作。(2)遍历所有待判重的地址,如果出现步骤(1)中取出的冗余数据信息,且该冗余信息为可信冗余对,则将该冗余信息替换为对应的规范数据;对所有替换后的地址进行判重操作。(3)对后续动态增长的待判重地址,遵循对每个地址计算规范度,提取冗余信息并更新冗余信息对,替换冗余信息,判重这个顺序操作。2、根据权利要求1本文档来自技高网...

【技术保护点】
一种自学习的中文地址判重方法,其特征在于,包括以下步骤: (1)对所有地址数据进行预处理提取冗余信息的操作。 (2)遍历所有待判重的地址,如果出现步骤(1)中取出的冗余数据信息,且该冗余信息为可信冗余对,则将该冗余信息替换为对应 的规范数据;对所有替换后的地址进行判重操作。 (3)对后续动态增长的待判重地址,遵循对每个地址计算规范度,提取冗余信息并更新冗余信息对,替换冗余信息,判重这个顺序操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈刚陈珂胡天磊寿黎但周佳庆
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1