一种自学习的中文地址判重方法技术

技术编号：3858665 阅读：213 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种自学习的中文地址判重方法。本发明专利技术在对中文地址进行判重时，采用自学习的方法。首先处理所有待判重的地址数据，使用规范度计算公式计算出各个地址的规范度，并对符合规范条件的地址提取冗余信息，并计算冗余信息可信度，将可信的冗余信息用于后续的地址数据替换，判重上。本发明专利技术方法不依赖领域知识，能够在保证解析精度的前提下，显著降低地址判重中误判和漏判的比例。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及对海量数据清洗判重处理相关的技术，特别是涉及一种对中文地址数据进行不依赖于领域知识的判重方法。
技术介绍
随着中文搜索引擎和海量数据挖掘技术的飞速发展，高效中文地址判重技术作为其中的关键技术受到了工业界和学术界的广泛关注，已成为研究的焦点。中文地址具有写法灵活，语义多变等特点，因此相较英文地址去重，中文地址判重面临新的要求和挑战。现有的各种数据去重方法主要集中在处理文本数据相似度的判断，数据间依赖关系判断，数据縮写的判断，以及处理海量数据时方法复杂度降低等问题上。这些方法及各种分支演化能够有效处理规整的英文数据，但对中文数据的处理，特别是中文地址的判重，只能按照文本的字面相似性来机械地判定重复，因而存在较大的局限性。比如"杭州市浙大路38号"与"杭州市浙江大学玉泉校区"两个地址信息，其实指向了同一个地址，但是由于写法的不同，现有程序均无法自动判定为相同，而只有借助外部预先定义的领域知识将"浙江大学玉泉校区"转换为"浙大路38号"才能做出正确判断。但是，这些领域知识规模庞大，外部预先定义在实际工作中可行性不高。且对一些较小型的判重应用，使用规模非常庞大的领域知识，显然也非常不合适。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种自学习的中文地址判重方法。本专利技术的目的是通过以下技术方案来实现的一种自学习的中文地址判重方法，包括以下步骤(1)对所有地址数据进行预处理提取冗余信息的操作；具体步骤如下(A) 地址切分操作对一个完整的地址数据切分成各级的子地址信息。(B) 地址规范度计算对每一个地址数据计算...

【技术保护点】
一种自学习的中文地址判重方法，其特征在于，包括以下步骤：　（１）对所有地址数据进行预处理提取冗余信息的操作。　（２）遍历所有待判重的地址，如果出现步骤（１）中取出的冗余数据信息，且该冗余信息为可信冗余对，则将该冗余信息替换为对应的规范数据；对所有替换后的地址进行判重操作。　（３）对后续动态增长的待判重地址，遵循对每个地址计算规范度，提取冗余信息并更新冗余信息对，替换冗余信息，判重这个顺序操作。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈刚，陈珂，胡天磊，寿黎但，周佳庆，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86[中国|杭州]

全部详细技术资料下载我是这个专利的主人