一种基于地址要素索引的中文地址匹配方法组成比例

技术编号:32642144 阅读:12 留言:0更新日期:2022-03-12 18:18
本发明专利技术公开了一种基于地址要素索引的中文地址匹配方法,该方法结合现有地址分类标准及中文地址数据的组织结构特征,构建中文地址要素组成结构,为确保地址数据的质量,在对低质量的地址数据进行清洗与筛选等预处理工作后,结合组成结构中的地址组合模式利用分词方法对标准地址数据进行要素解析,参考中文地址要素组成结构,基于解析结果构建标准地址要素索引文件,形成标准地址索引库,将待匹配地址进行初步要素解析,依据索引库中的各级地址要素索引和匹配策略进行地址要素检索与匹配,获得地址匹配结果的较优地址集合,利用设定的地址要素权重和地址相似度计算方法对结果集合进行筛选和排序,从而获得最优的匹配结果和对应的地址空间位置坐标。应的地址空间位置坐标。应的地址空间位置坐标。

【技术实现步骤摘要】
一种基于地址要素索引的中文地址匹配方法


[0001]本专利技术属于地理信息
,特别涉及一种基于地址要素索引的中文地址匹配方法。

技术介绍

[0002]地址作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。中文地址是由连续的字符串组成,能够帮助人们描述具体的地理位置。完整地址描述应该包括国家、省、市、区县、街道、乡村、道路、门牌号码、局部区域、楼址、楼栋号、楼层号和房间号等。一个有效的中文地址应该是唯一的,能够快速标识并定位某一地理实体位置。地址作为现代社会发展过程中所必需的地理空间数据资源和战略性基础信息资源,已经成为智慧城市中时空基础框架的重要组成部分,也是社会大数据组织、关联与共享应用的桥梁。
[0003]地址匹配是将自然语言描述的地址数据,在地址模型或编码规范的基础上进行智能化的地址解析,从而建立地址描述信息与空间坐标转换的过程。通过地址匹配可以建立标准地址与非标准地址之间的有机联系,满足空间信息与非空间信息的有效融合,实现不同地址数据类型之间的共享与集成。地址模型是地址匹配的基础,地址解析是地址匹配过程中对地址结构化的关键步骤。随着人们空间认知和信息化技术的不断提升,先进的人工智能、大数据和自然语言处理等技术快速发展,为中文地址的解析和智能匹配提供了强有力的技术支撑。
[0004]将带有中文地址要素模型的地址层级分类体系以及索引技术相融合,形成一种基于地址要素索引的中文地址匹配方法,可解决地址匹配中建立标准地址与非标准地址有机联系的问题,满足空间信息有效表达的需求,同时有效应对中文地址存在分隔符缺失、描述名称省略或者冗余以及形式复杂多样等问题导致的匹配效率低下、准确度亟待提高的窘境。

技术实现思路

[0005]为了解决中文地址数据存在的数据不规范、存在冗余和复杂多样的问题,以及传统中文地址匹配中字符匹配效率和准确率不能完美适用大量非标准地址数据的情况,本专利技术目的在于提供一种基于地址要素索引的中文地址匹配方法,该方法在地址解析的基础上,首先对解析后的地址要素,按照其要素的类型进行归类,并对每一类型的地址要素集分别建立相应的倒排索引。同时对符合要求的多个结果进行归并,从而获得候选地址集合。基于地址要素的索引可以在最大程度上避免不同类型的地址要素结果的混淆。这样的中文地址要素索引可解决不同类型地址要素对匹配结果混淆的问题,提升了中文地址的数据组织效率和匹配性能。
[0006]本专利技术解决其技术问题所采取的技术方案是:一种基于地址要素索引的中文地址匹配方法,该方法包括以下步骤:
[0007]步骤1:基于地址要素分类体系及地址数据特点构建中文地址要素组成结构,分析中文地址要素组合模式,在地址要素分类与地址空间关系描述的基础上,对中文地址采用分段组合的方式进行描述。
[0008]步骤2:在对地址数据进行清洗、筛选和行政区划补全等预处理工作后,基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析;
[0009]步骤3:根据中文地址要素组成结构,构建包含其各级地址要素的地址要素数据库,将用于构建索引的解析结果进行结构化后存入地址要素数据库;
[0010]步骤4:根据地址要素数据库中结构化的地址数据,利用Elasticsearch引擎并结合地址要素库的分级数据,构建地址要素索引文件后将索引存入索引数据库中;
[0011]步骤5:将待匹配地址数据经过地址解析后,引入地址要素索引文件,通过构建的地址索引文件将待匹配地址进行检索匹配,匹配中将参考索引数据的地址要素层级关系,将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合;
[0012]步骤6:结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值,根据权重值的高低进行排序,得到匹配的优选结果。
[0013]进一步地,本专利技术步骤1中所述中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示。
[0014]进一步地,本专利技术步骤1中所述中文地址要素组合模式,通过对详细地址中的要素规律统计,可以得出以下四种组合模式。分别为:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式。
[0015]进一步地,本专利技术步骤1中所述的中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分。
[0016]进一步地,本专利技术中文地址要素组成结构的行政区划大类,其层级结构可通过扩展巴斯克范式表示为:行政区划名::=<一级行政区划><二级行政区划><三级行政区划>[四级行政区划][五级行政区划]。
[0017]进一步地,本专利技术中文地址分段描述中的详细地址部分存在四种地址要素组合模式:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式。
[0018]进一步地,本专利技术步骤5中所述的引入地址要素索引文件通过Elasticsearch引擎构建和存储的地址索引文件对待匹配地址进行检索,并基于该引擎进行地址要素等级的检索以便地址要素的匹配。
[0019]进一步地,本专利技术地址匹配时所参考的中文地址匹配策略结合精准匹配、模糊匹配和回溯匹配的策略。
[0020]进一步地,本专利技术地址精确匹配是指地址要素与地址数据库中目标地址要素完全相同的检索方式;地址模糊匹配采用获得包含相同地址要素最多的地址集合的方式进行匹配;地址回溯匹配采用对匹配失败的地址进行二次匹配,返回最接近的地址结果的方式进行匹配。
[0021]进一步地,本专利技术步骤6中所述的地址要素权重将中文地址要素组成结构的行政区划、道路、局部区域、楼址、楼室号、附属信息六个大类地址列为一级类型权重,大类下的地址二级分类列为二级类型权重。
[0022]进一步地,本专利技术当二级行政区划匹配的相似度超过0.95,则一级的行政区划部分的权重设置为0。多个局部区域名称嵌套时,权重从后向前进行递减,当局部区域要素的个数超过3个及以上时,设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化,避免计算单位的不统一。
[0023]进一步地,本专利技术步骤6中所述的地址相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。
[0024]有益效果:
[0025]1、本专利技术基于现有地址要素分类体系和大规模地址数据的数据结构作为分析标准,构建了有利于完善中文地址要素和表达中文地址的分类体系。分析了地址中存在的空间关系及其表达方式后,生成了中文地址要素的组合模式,能够为地址模型的建立提供参考与借鉴,为地址解析和地址匹配的过程提供数据结构的基础,为实验提供理论支撑。
[0026]2、本专利技术构建的中文地址要素模型,在地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于地址要素索引的中文地址匹配方法,其特征在于,包括以下步骤:步骤1:基于地址要素分类体系及地址数据特点构建中文地址要素组成结构,分析中文地址要素组合模式,在地址要素分类与地址空间关系描述的基础上,对中文地址采用分段组合的方式进行描述;步骤2:在对地址数据进行清洗、筛选和行政区划补全预处理工作后,基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析;步骤3:根据中文地址要素组成结构,构建包含其各级地址要素的地址要素数据库,将用于构建索引的解析结果进行结构化后存入地址要素数据库;步骤4:根据地址要素数据库中结构化的地址数据,利用Elasticsearch引擎并结合地址要素库的分级数据,构建地址要素索引文件后将索引存入索引数据库中;步骤5:将待匹配地址数据经过地址解析后,引入地址要素索引文件,通过构建的地址索引文件将待匹配地址进行检索匹配,匹配中将参考索引数据的地址要素层级关系,将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合;步骤6:结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值,根据权重值的高低进行排序,得到匹配的优选结果。2.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示。3.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述中文地址要素组合模式,通过对详细地址中的要素规律统计,可以得出以下四种组合模式,分别为:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式。4.根据权利要求1所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,步骤1中所述的中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分。5.根据权利要求2所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,所述中文地址要素组成结构的行政区划大类,其层级结构可通过扩展巴斯克范式表示为:行政区划名::=<一级行政区划><二级行政区划><三级行政区划>[四级行政区划][五级行政区划]。6.根据权利要求4所述的一种基于地址要素索引的中文地址匹配方法,其特征在于,中文地址分段描述中的详细地址部分存在四种地址要素组合模式:道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式。7.根据权利要求1所述的基于地址要素索引的中文地址匹配方法,其特征在于,步骤5中所述的引入地址要素索引文件...

【专利技术属性】
技术研发人员:赵文强王铁张雪英孙汉吴晨
申请(专利权)人:南京大峡谷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1