一种面向大数据环境的通用中文地址匹配方法组成比例

技术编号：20045097 阅读：38 留言：0更新日期：2019-01-09 04:13

本发明专利技术公开了一种面向大数据环境的通用中文地址匹配方法，包括S1、数据预处理；S2、中文地址要素解析，将中文、字母和数字信息分解提炼出相应的要素信息；S3、定义多种距离计算公式，实现基于key‑value计算各地址信息之间匹配关系的多种距离；S4、基于对要素信息完成原始地址字符串的key‑value形式转换，建立基于key‑value的多种距离匹配模型并由此计算综合匹配度，据此对目标地址进行排序；S5、综合匹配度最大值是否大于给定阈值参数，并由此给出匹配结果。本发明专利技术将单条地址的匹配效率从1min左右降低到约2.2s；匹配结果在匹配度与精确度指标上更均衡，对推动智慧城市的构建具有较高的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向大数据环境的通用中文地址匹配方法
本专利技术涉及大数据和智慧城市领域，具体涉及一种面向大数据环境的通用中文地址匹配方法。
技术介绍
社区网格化的提出是建立智慧社区的重要基石，地址匹配技术在建立统一、便捷的社区一体化服务过程中起着至关重要的作用。地址匹配技术是将一条文字描述的地址信息与目标数据库中的地理坐标或地址信息进行映射的过程，对用户输入的地址信息，按照一定的切词、匹配算法，在地理编码数据库中进行查找匹配，根据匹配结果标记相应的空间坐标。由于中文地址富含了大量语义信息，在处理过程中更为复杂。从中文地址要素分词解析来看，基于机械分词、统计分词和自然语言分词的地址匹配算法是当前主要的中文地址匹配方案。机械分词主要基于数据库中的字典对中文地址进行分词匹配。在匹配顺序上分为正向和逆向匹配，基于分词顺序依次找出匹配度最大的词；而逆向匹配是中文地址处理中的较为常用的匹配方法；统计分词主要研究上下文信息，如两个中文字符同时出现频率较高，则可以推断其构成一个词的概率高；而基于自然语言分词的地址匹配算法，由于中文地址包含了丰富的语义信息，同一地址可能存在多种表述形式，因此...

【技术保护点】
1.一种面向大数据环境的通用中文地址匹配方法，其特征在于：包括如下步骤：S1、数据预处理；S2、中文地址要素解析，将中文、字母和数字信息分解提炼出相应的要素信息；S3、定义多种距离计算公式，实现基于key‑value计算各地址信息之间匹配关系的多种距离；S4、基于对要素信息完成原始地址字符串的key‑value形式转换，建立基于key‑value的多种距离匹配模型，基于key值进行过滤搜索，然后循环计算待匹配地址与目标地址之间的多种距离，并由此计算综合匹配度，依据综合匹配度对目标地址进行排序；S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数，并由此给出匹配结果。

【技术特征摘要】
1.一种面向大数据环境的通用中文地址匹配方法，其特征在于：包括如下步骤：S1、数据预处理；S2、中文地址要素解析，将中文、字母和数字信息分解提炼出相应的要素信息；S3、定义多种距离计算公式，实现基于key-value计算各地址信息之间匹配关系的多种距离；S4、基于对要素信息完成原始地址字符串的key-value形式转换，建立基于key-value的多种距离匹配模型，基于key值进行过滤搜索，然后循环计算待匹配地址与目标地址之间的多种距离，并由此计算综合匹配度，依据综合匹配度对目标地址进行排序；S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数，并由此给出匹配结果。2.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S4中，对原始地址字符串中分类出的字母和数字信息按照倒序组合，构成具有标识特性的key，同时将解析后的中文地址要素信息组合形成value值，完成原始地址字符串的key-value形式转换。3.根据权利要求1或2所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S1具体包括下列步骤：步骤一、脏数据处理，基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗，修正乱码或重复字符；步骤二、数字或字母信息预处理，地址信息中门牌信息中的中文数字信息转换为阿拉伯数字，字母信息统一转换为大写；步骤三、正则提取出中文、字母和数字信息，添加分隔符完成提取分离。4.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S2具体包括下列步骤：步骤一、行政要素解析，行政要素包括国家、城市和行政区县；步骤二、基本约束信息解析，基本约束信息包括街道、集镇、工业区和自然村；步骤三、位置信息解析，位置信息包括建筑物信息和门牌号。5.根据权利要求1所述的一种面向大数...

【专利技术属性】
技术研发人员：水新莹，张宇光，黄亚坤，
申请(专利权)人：安徽讯飞智能科技有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人