一种面向大数据环境的通用中文地址匹配方法组成比例

技术编号:20045097 阅读:23 留言:0更新日期:2019-01-09 04:13
本发明专利技术公开了一种面向大数据环境的通用中文地址匹配方法,包括S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key‑value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key‑value形式转换,建立基于key‑value的多种距离匹配模型并由此计算综合匹配度,据此对目标地址进行排序;S5、综合匹配度最大值是否大于给定阈值参数,并由此给出匹配结果。本发明专利技术将单条地址的匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。

【技术实现步骤摘要】
一种面向大数据环境的通用中文地址匹配方法
本专利技术涉及大数据和智慧城市领域,具体涉及一种面向大数据环境的通用中文地址匹配方法。
技术介绍
社区网格化的提出是建立智慧社区的重要基石,地址匹配技术在建立统一、便捷的社区一体化服务过程中起着至关重要的作用。地址匹配技术是将一条文字描述的地址信息与目标数据库中的地理坐标或地址信息进行映射的过程,对用户输入的地址信息,按照一定的切词、匹配算法,在地理编码数据库中进行查找匹配,根据匹配结果标记相应的空间坐标。由于中文地址富含了大量语义信息,在处理过程中更为复杂。从中文地址要素分词解析来看,基于机械分词、统计分词和自然语言分词的地址匹配算法是当前主要的中文地址匹配方案。机械分词主要基于数据库中的字典对中文地址进行分词匹配。在匹配顺序上分为正向和逆向匹配,基于分词顺序依次找出匹配度最大的词;而逆向匹配是中文地址处理中的较为常用的匹配方法;统计分词主要研究上下文信息,如两个中文字符同时出现频率较高,则可以推断其构成一个词的概率高;而基于自然语言分词的地址匹配算法,由于中文地址包含了丰富的语义信息,同一地址可能存在多种表述形式,因此,结合语义信息进行地址要素解析能够有效提高匹配精确。上述匹配算法在大数据规模中文地址匹配场景下,算法的执行效率和地址的匹配精确度普遍较差,大多数算法对匹配精确度更为关注,忽略了当前地址大数据环境下,地址信息中富含的海量、多样以及异构等特性,匹配效率较低,单条地址信息匹配需要1min左右。
技术实现思路
本专利技术的目的在于提供一种面向大数据环境的通用中文地址匹配方法,解决现有技术对中文地址处理效率、匹配率以及匹配度上的性能普遍较差的缺陷。所述的面向大数据环境的通用中文地址匹配方法,包括以下步骤:S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。优选的,所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。优选的,所述步骤S1具体包括下列步骤:步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。优选的,所述步骤S2具体包括下列步骤:步骤一、行政要素解析,行政要素包括国家、城市和行政区县;步骤二、基本约束信息解析,基本约束信息包括街道、集镇、工业区和自然村;步骤三、位置信息解析,位置信息包括建筑物信息和门牌号。优选的,所述步骤S3中距离包括:覆盖距离,即有限元素组成的有序集合之间,相同元素与长度较短集合的集合长度比值;匹配距离,即有限元素组成的有序集合,从第一个元素进行对应匹配,直至匹配到元素不相等时的距离长度与较短集合的长度比值。优选的,所述步骤S3中距离计算公式如下:覆盖距离计算公式,若采用A,B分别表示有限元素集合,|A|,|B|分别表示A和B的集合长度,A∩B表示进行集合交集操作,则覆盖距离可采用下式表示:匹配距离计算公式,对于上述集合A,B,A∧B表示从一个元素起进行连续匹配操作,则该距离可表示为:优选的,所述步骤S4的具体步骤如下:步骤一、将分离出的字母和数字信息进行倒排,即按照门牌号-单元号-楼栋号-小区号进行倒排,然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值,Value值即为解析的中文地址要素;步骤二、根据上述设计的key-value数据库,对于目标地址,在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选;步骤三、根据定义的距离计算公式循环计算待匹配地址与筛选出的目标地址之间的多种距离,若给定的覆盖距离和匹配距离的权重为α和β,则最终计算的综合匹配度如下所示:inte_md=α*cd+β*md步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序。优选的,获取综合匹配度排序最高的目标地址作为最终的待选匹配地址,同时给定参数p,若综合匹配度小于p则说明该地址匹配度较低,结果为目标地址库无匹配项,否则接受排序最高的目标地址作为最终的待选匹配地址,完成地址匹配过程。本专利技术的优点在于:将中文字符串、数字与字母分别进行地址要素解析,将地址信息重新组织构成适应于大数据环境下的key-value形式的地址记录,将转换后的地址记录存储于Hbase数据库中,设计了多种距离信息构成的地址匹配算法,该算法效率比传统算法将单条地址匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。附图说明图1为本专利技术一种面向大数据环境的通用中文地址匹配方法的整体流程图;图2为本专利技术实施例中文地址结构解析的示意图;图3为本专利技术中基于key-value的多种距离匹配模型进行匹配计算的流程图。具体实施方式下面对照附图,通过对实施例的描述,对本专利技术具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本专利技术的专利技术构思、技术方案有更完整、准确和深入的理解。通常,地址要素解析难以同时满足语义解析、解析效率、解析准确性等要求。考虑到中文地址复杂的语义特性,录入方式的多样化使得同一地址的表现形式复杂多样。下文结合中文地址的语义特性进行解析,并提出了中文字符、数字及字母分离的解析方法,降低了智能推理匹配的计算规模。首先基于已有的成熟的语义分词框架进行地址要素解析,解析对应结果入字典库。由于数字信息在地址中所占的信息量比重较大,通过初步模糊匹配得出预处理结果集,从而降低了数据处理规模。如图1-3所示,本专利技术提供了一种面向大数据环境的通用中文地址匹配方法,包括以下步骤:(1)数据预处理。数据预处理过程主要包括三方面:一、完成基本的脏数据处理,如解决修正地址字符串中的乱码或重复字符;二、将地址信息中门牌信息中的中文数字信息统一转换为阿拉伯数字,字母信息统一转换为大写,为匹配算法提供规范文本;三、通过正则表达式等方式完成对地址信息的中文、数字和字母的提取分离。(2)中文地址要素解析,标准地址一般由行政区划要素、基本约束信息和位置信息组成,行政要素的组成部分主要是国家、城市和行政区县,而基本约束信息是从街道、集镇、工业区或自然村进行表述,最后,位置信息主要是包含数字或字母信息的建筑物编号、门牌号或标志物。该步骤进行解析主要是行政要素和基本约束信息,位置信息的解析则通过前一步中数字与字母信息分离完成提取。(3)定义多种与中文地址匹配相关的距离及其计算公本文档来自技高网...

【技术保护点】
1.一种面向大数据环境的通用中文地址匹配方法,其特征在于:包括如下步骤:S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key‑value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key‑value形式转换,建立基于key‑value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。

【技术特征摘要】
1.一种面向大数据环境的通用中文地址匹配方法,其特征在于:包括如下步骤:S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果。2.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。3.根据权利要求1或2所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S1具体包括下列步骤:步骤一、脏数据处理,基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗,修正乱码或重复字符;步骤二、数字或字母信息预处理,地址信息中门牌信息中的中文数字信息转换为阿拉伯数字,字母信息统一转换为大写;步骤三、正则提取出中文、字母和数字信息,添加分隔符完成提取分离。4.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法,其特征在于:所述步骤S2具体包括下列步骤:步骤一、行政要素解析,行政要素包括国家、城市和行政区县;步骤二、基本约束信息解析,基本约束信息包括街道、集镇、工业区和自然村;步骤三、位置信息解析,位置信息包括建筑物信息和门牌号。5.根据权利要求1所述的一种面向大数...

【专利技术属性】
技术研发人员:水新莹张宇光黄亚坤
申请(专利权)人:安徽讯飞智能科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1