基于语义分词技术的地名地址可视化分析方法技术

技术编号:24354707 阅读:24 留言:0更新日期:2020-06-03 02:18
本发明专利技术公开了一种基于语义分词技术的地名地址可视化分析方法。包括步骤:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;获取并分析所述现有地址数据,生成地址模型;根据存储和收集的所述地址模型,生成标准地址库;根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。本发明专利技术能够解决现有技术的不足。

Visual analysis of place names and addresses based on semantic word segmentation

【技术实现步骤摘要】
基于语义分词技术的地名地址可视化分析方法
本专利技术涉及地名地址可视化分析
,具体涉及一种基于语义分词技术的地名地址可视化分析方法。
技术介绍
根据地址词典,为数据库中每条记录的匹配结果添加地理坐标,由此可以快速准确的把包含地址信息的普通数据变成地理对象显示在地图上。除此之外还有批量处理模式,可以对数百万数据表记录进行匹配,甚至可以利用ODBC实现远程匹配等。具备实时更新的地址数据词典可以用于提高地址匹配的准确性和容错率。各行各业都在自己的应用系统基础上建立了一套编码系统,有自己独特的地理单元划分标准,虽然国家标准给出了词和分词单位的非形式定义,但这些编码体系在空间单元上并没有统一的、标准的地理参考系统,它们在数字城市的管理中,最小单元的边界都不相同,使得相互之间很难共享信息资源。同时,城市地理信息资源的分类没有标准,也没有统一的地理代码,限制了现代化手段的使用。
技术实现思路
针对现有技术的不足,本专利技术公开一种基于语义分词技术的地名地址可视化分析方法,能够解决现有技术的不足。为实现以上目的,本专利技术通过以下技术方案予以实现:基于语义分词技术的地名地址可视化分析方法,包括以下步骤:S1:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;S2:对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;S3:获取并分析所述现有地址数据,生成地址模型;S4:根据存储和收集的所述地址模型,生成标准地址库;S5:根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。优选的技术方案,还包括步骤S21对所述清洗后的地址数据进行数据排错,生成错误数据结果。进一步优选的技术方案,还包括步骤S22根据所述错误数据结果对初始地址数据进行批量预处理。优选的技术方案,还包括步骤S6评价匹配结果的精度,生成精度结果。本专利技术公开一种基于语义分词技术的地名地址可视化分析方法,具有以下优点:中文语义地址模型:以普查数据为基础,分析现有地址数据结构,总结地址数据特点及现有模型的劣势,并提出基于语义的地址模型构建方法。中文语义标准地址库建设:标准地址库作为地址匹配的本底数据在基于语义的地质模型构建基础之上,进行地址库结构设计,并利用建筑物普查数据构建标准地址库。基于语义分析的地址匹配方法:在已有地址模型的基础上,利用自然语言处理的方法完成地址拆分、地址解析和地址库匹配,以及不确定性有限状态机进行地址解析,纠正常见的错误地址,通过隐含马尔可夫模型与信息论原理实现地址库匹配。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例所述地址匹配流程主要包括地址清洗、地址拆分、地址库匹配这几个过程。但是由于中文地址来源的不确定性,错误地址类型多种多样,地址清洗只能解决一些简单的错误地址,而一些复杂的歧义问题则无法解决;常用的基于字符串匹配的分词方法在地址库建设中应用的效果很好,这是因为作为地址库的地址数据来源比较统一,数据较为规范,而在对待匹配地址进行拆分时,单纯的字符串匹配己经不能满足其需求;传统的地址库匹配只是利用最大正向和逆向算法对地址要素进行查询,查询失败则认为匹配失败,而没有分析查询失败的原因,更没有针对其原因找出解决机制。由于中文地址是采用非结构化的中文自然语言来描述的,具备一切自然语言的特点,所以研究自然语言处理的方式,并将其应用到地址匹配中是可行的。在自然语言处理的方式中,基于统计的方法通过得到能够反映语言特征的统计数据,并依此为评价参数,输出保持原有次序的语句,而在基于规则的处理方法中,输出的则是二维的句法分析树,相对而言其复杂度要高很多。可以理解的,在本实施例中主要包括以下工作过程:地名地址清洗通过地址修改或去除地址、完善模糊地址等方法对地址数据进行处理,使其满足标准地址的要求,因此,无论是在标准地址库构建中还是地址匹配过程中,地址清洗都是必须完成的第一步。由于不同行业部门的需求不同,对地址采集传播的形式不同,以及在采集、整理、录入过程中难免发生疏漏与错误,采集的地址数据的格式和质量有很大区别,因此在对采集来的数据进行使用前,应对其进行一次统一的清洗,使其具有统一的格式。常见的地址错误类型主要有拼写错误、地址冗余或模糊、地址歧义、全半角混乱、格式不一致、表述不一致等。地名地址拆分地址清洗后,在与标准数据库进行匹配之前,需要对地址数据进行拆分处理。地址拆分是指通过一定的算法对标准化处理的地址进行拆分,使其生成多个地址要素的过程。支持向量机是在结构风险最小化理论下产生的,它是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问题的新工具,其实现原理是:通过某种事先选择的非线性映射将输入向量映射到一个高维特征空间,在这个空间中构造最优分类超平面,其中这种非线性映射就是核函数。将支持向量机运用于地址拆分时,地址数据中的每个字符都对应一个样本,而每个训练样本应该是由一系列特征构成的,包括三个部分:特征模板、句法分析和动态加权。地名地址解析错误地址类型有些可以进行简单的批处理,即进行地址清洗,但一些比较复杂的问题并不能通过简单的过滤规则进行清洗,有的包含了复杂的语义需要通过进一步分析。有限状态机可以很好的解决这个问题,构造一个抽象的信息转换器,它由输入带、输出带、辅助存储和控制信息流动的有限规则的集合。其中,有限控制对应着所有规则的集合,所谓规则指的是系统中的地址串是如何随着当前输入信息和存储中当前存取信息而改变的,根据地址模型建立有限控制,通过有限控制可以识别并规范任何类型的待匹配地址。地址库匹配将所有汉字对应拼音的编码表作为索引存储在数据库中,当输入汉字时,找到对应的编码,再根据拼音编码表转换成相应的拼音。中文地址要素用拼音表示后,通过字符串的比较计算两地址要素的相似度,取相似度最大的地址要素为匹配结果。基于字符串匹配的分词方法这是一种机械分词算法,根据切取字符串的方向不同又分为正向匹配和逆向匹配;根据优先匹配的长度不同,又可分为最大匹配和最小匹配,由于地址数据从左往右存在不可逆的顺序,因此采用最大正向匹配效果最佳。基于规则的分词方法利用自然语言语法、句法的分析来进行分词,从本文档来自技高网...

【技术保护点】
1.基于语义分词技术的地名地址可视化分析方法,其特征在于,包括以下步骤:/nS1:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;/nS2:对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;/nS3:获取并分析所述现有地址数据,生成地址模型;/nS4:根据存储和收集的所述地址模型,生成标准地址库;/nS5:根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。/n

【技术特征摘要】
1.基于语义分词技术的地名地址可视化分析方法,其特征在于,包括以下步骤:
S1:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;
S2:对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;
S3:获取并分析所述现有地址数据,生成地址模型;
S4:根据存储和收集的所述地址模型,生成标准地址库;
S5:根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。


2....

【专利技术属性】
技术研发人员:卢广师
申请(专利权)人:合肥慧图软件有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1