一种基于中文分词器的地址匹配方法及系统技术方案

技术编号：27975600 阅读：54 留言：0更新日期：2021-04-06 14:09

本发明专利技术提供一种基于中文分词器的地址匹配方法及系统，进行地址数据集准备，包括多源地址数据的清洗和去重；地址匹配索引库创建，包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件；地址匹配引擎构建，包括对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；在地址匹配引擎的基础上实现正向或逆向的地址匹配。本发明专利技术对多源地址进行了集成，提供了一套地址数据库的构建和编码方案，面向非标准地址的查询，能够对含有拼音和同义词的地址进行解析且提供匹配地址集。本发明专利技术提供的地址匹配接口能有效的服务于市政、物流、导航等应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文分词器的地址匹配方法及系统
本专利技术涉及地理信息系统领域，特别是涉及一种基于中文分词器的地址匹配方法及系统。
技术介绍
地址是地理数据的文本形态之一，承载着丰富语义和空间信息，是构建智慧城市中地理本体与语义框架的基石。地址匹配涉及地址分词、解析、标准化等流程，利用地址的空间语义、语言结构等特点，在文本信息到地理坐标的转换间建立了关联，为工商、民政、税务、导航等领域提供新的数据查询方式和调度策略，已逐渐展现出其极高的应用价值。地址匹配技术也因此被认为是智慧城市建设过程中，各行业专题数据实现空间化的核心技术手段。针对地址匹配的研究已经成为当前地理信息科学领域的热点，尤其是在提高地址匹配精度问题方面具有重要的研究意义。地址匹配系统在构建和使用过程中涉及到两种地址数据：原始型地址数据和输入型地址数据。原始型数据，通常来自民政或公安部门采集，用于构建分词词典或生成地理编码模型。一方面，多源地址数据的集成过程面临着大量地址非标准、重复地址较多的问题，另一方面复杂的地址描述和无序的元素组合增加了地址分词与建库难度；输...

【技术保护点】
1.一种基于中文分词器的地址匹配方法，其特征在于：包括以下步骤：/n步骤1，地址数据集准备，包括多源地址数据的清洗和去重；/n步骤2，地址匹配索引库创建，包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件；/n步骤3，地址匹配引擎构建，包括对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；/n步骤4，在地址匹配引擎的基础上实现正向或逆向的地址匹配。/n

【技术特征摘要】
1.一种基于中文分词器的地址匹配方法，其特征在于：包括以下步骤：
步骤1，地址数据集准备，包括多源地址数据的清洗和去重；
步骤2，地址匹配索引库创建，包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件；
步骤3，地址匹配引擎构建，包括对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；
步骤4，在地址匹配引擎的基础上实现正向或逆向的地址匹配。

2.根据权利要求1所述的基于中文分词器的地址匹配方法，其特征在于：所述步骤1中，所述多源地址数据包括公安地址数据、工商法人地址数据、导航地图地址数据、建筑物信息中的地址数据，应用邻近排序，根据自定义窗口大小对窗口内数据进行比较，选取多源数据中表征同一地理标志的较标准地址。

3.根据权利要求1所述的基于中文分词器的地址匹配方法，其特征在于：所述步骤2中，将地址结构特点定义为由行政区划名称、基本区域限定、定位点描述组成。

4.根据权利要求3所述的基于中文分词器的地址匹配方法，其特征在于：地址分级包括行政区划名称划分为5级，按照等级由高到低其元素通名分别为省、市、县或区、乡镇或街道、行政村或社区；基本区域限定划分为2个，按照类型分别是道路与片区，道路通名包括道、路、街、巷、弄，片区通名包括小区、苑、园、阁、工业区、开发区；定位点描述划分为3个，按照类型分别是门牌号、楼栋号和标志物或POI，门牌号通名为号，楼栋号通名包括栋、楼、幢。

5.根据权利要求4所述的基于中文分词器的地址匹配方法，其特征在于：所述步骤3中，对地址分级数据库中的地址元素进行编码实现如下，
采用21字符位地理编码方案对每条地址创建唯一识别码，其中，行政区划编码共12位，依次为2位省级行政区划顺序码、2位市级行政区划顺序码、3位乡镇或街道级行政区划顺序码、3位行政村或社区级行政区划顺序码；地...

【专利技术属性】
技术研发人员：任福，张琛，杜清运，张红伟，龚丽芳，陈张建，陈凯，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人