基于多源数据的地名地址数据整合的方法和系统技术方案

技术编号:16919338 阅读:101 留言:0更新日期:2017-12-31 14:53
本发明专利技术涉及一种基于多源数据的地名地址数据整合系统,包括以下步骤:(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询;(4)数据融合:对多源数据进行匹配和整合;(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。

【技术实现步骤摘要】
基于多源数据的地名地址数据整合的方法和系统
本专利技术涉及地理信息服务
,尤其涉及一种基于多源数据的地名地址数据整合系统和方法。
技术介绍
随着公共安全、应急联动、智能交通、城市管理、环境整治、防震减灾等城市管理工作对空间信息基础设施的保障能力不断提出新的要求,建设统一、权威、现势的地名地址数据库,不仅能大幅提升基础空间数据的开发利用水平,而且对政府部门间、不同行业间的其他信息资源共享服务应用具有重要的参考和借鉴价值,有助于开创基础空间数据库共享、服务和应用的新模式。特别是在地理信息公共服务平台建设推动下,通过网络实现地名地址信息的查询、浏览、定购应用需求愈加强烈,丰富、现势的地名地址库将为政府和公众提供满足自身需求的查询、定位、统计以及专题信息空间匹配等应用服务,为各类空间信息共享交换提供基础,发挥地理信息框架数据在数字城市和智慧城市建设中的枢纽作用。地名地址现状分析:1)数据来源广泛:地名地址数据涉及到多个职能部门,如国土、民政、房产、公安、燃气、工商、统计、质检、地税等。因此从数据资源来源的角度来分析,其来源部门众多,如图1所示;2)标准不统一,格式多样;各职能部门由于自身工作重点不同,产生的地名地址数据格式也多样,建设过程中缺乏统一的规范指导,造成目前已有的各类地址数据不具备较高的规范性。具体表现在文件的命名、字段的设置及地址描述的不规范性和多样性。如:国土部门地名地址数据来源于地形图DWG格式,工商部门数据来源于登记数据EXCEL格式;3)空间数据缺乏:收集的各职能部门的地名地址数据中,只有民政局、公安局和测绘局的门牌、地名数据属于GIS空间数据,其它部门的地名地址数据都是非空间数据,只有单纯的地址描述信息,需要对其进行坐标赋予;4)兼容性差,无法实现数据共享;由于没有统一的地名地址库建库技术标准和规范,不同数据库之间的兼容性很差,无法实现数据资源的共享,限制了城市地址地名信息管理系统的应用和共享。因此,有必要开发一种能够整合民政、房产、公安、国土等多部门的地名地址数据,建立统一标准的地名地址数据,实现海量地址数据的高效管理的基于多源数据的地名地址数据整合的方法。
技术实现思路
本专利技术要解决的技术问题是,提供一种能够整合民政、房产、公安、国土等多部门的地名地址数据,建立统一标准的地名地址数据,实现海量地址数据的高效管理的基于多源数据的地名地址数据整合的方法。为了解决上述技术问题,本专利技术采用的技术方案是:一种基于多源数据的地名地址数据整合的方法,包括以下步骤:(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,将查询到的重复点剔除;(4)数据融合:对多源数据进行清洗、匹配和整合;(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。采用上述技术方案,通过用户将多源地名地址数据录入系统软件,由系统软件对多源数据经过数据预处理、重点数据剔除、数据融合、数据审核等流程,形成标准的统一的规范数据,建立标准的地名地址数据。其中,不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考都不一致,要将其整合为一套数据,必须具有合理的数据模型以及相同的组织结构,以实现数据的统一管理。本文参考相关地理实体的模型定义,将数据模型分为基本属性和扩展属性;基本属性是共有字段,而扩展属性按照不同实体类型设置不同的属性内容,以数据表的格式存储,二者通过唯一的图元码进行标识和链接。该数据模型既满足统一管理要求,又能够保留不同数据的特有属性;1)基本属性:根据数据的使用要求,设定其基本属性,包括要素名称、地址、类型码、经度、纬度、分类代码、图元标识码等;2)扩展属性:地名、地址和兴趣点都有各种特征属性,无法用统一的数据结构进行描述,扩展属性项可以按照各种数据类型进行自由扩展,保证数据信息的完整性和可扩展性;地名库数据中按照类别添加各种扩展属性项,在实际作业过程中根据需要再定,如路名点需要扩展的属性可以包括道路编号、道路等级、道路宽度等,水系点扩展属性中可以包括水系等级、所属流域等专业属性。地址库数据相对属性较单一,可以根据实际需要进行适当扩展;兴趣点涉及的数量多,类别复杂,每种类别的特有信息丰富,因此兴趣点的扩展属性可按照不同的三级分类类别特征进行扩展,但一般都要包含联系电话、网址、邮编、数据采集时间、采集单位、采集人等信息;此外,重复点的查询主要有2种方法;方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选。该方法的不足是只能找出名称完全一致的点,很多名称不同的重复点无法查找出来,所以需要对数据进行模糊查询。方法二是利用FME软件,构建数据模糊查询模块,将某一要素与其一定距离范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面。其中,匹配的距离可以根据实际情况进行设置,对于地名、公园、工业园区、住宅小区等指代范围比较大的点,匹配距离可以设置稍微大点,如500m~1000m左右;而对于一般的POI类型,匹配距离可以设置在50m~100m范围之间。结合匹配度和匹配名称,可以快速判读要素之间是否为相同要素,再根据影像等参考资料和数据源本身现势性、精度、属性完整性、正确性等因素,选择属性信息全、位置精度高、现势性相对较好的点,从而剔除重复点。本方法通过模糊匹配进行数据查重,同时能够将名称完全一致的重复点查出来,具有较高的实用性和正确性。本专利技术进一步改进在于,所述步骤(4)中的数据融合的步骤包括:1)数据预处理:将其他格式的数据转换为shape格式数据,待用;2)地理要素特征提取:依照《地籍管理信息系统图形数据标准》按特征进行数据分类,再对无特征编码数据,人工进行判读,进行数据分类;3)数据编码转换:依照《地籍管理信息系统图形数据标准》和《基础地理信息要素分类编码》对应关系进行编码转换;4)数据编辑:分别提取带符号特征数据、线状、面状地物的特征骨架线以及点状地物的特征点;5)拓扑编辑:整合要素之间的拓扑关系,构造面要素和格网;6)属性匹配和赋值:给各个要素匹配和赋予属性信息;7)坐标转换:对于坐标不为WGS84的矢量数据进行坐标转换。本专利技术进一步改进在于,所述步骤(3)中的重复点的查询主要有2种方法:方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参翻考资料进行筛选;方法二是利用FME软件,构建数据模糊查询模块,将要素与其在匹配距离的范围内的所有要素进行一一匹配,取匹配度最高的要素,并将其匹配度值和匹配上要素的名称写在其属性里面;本专利技术进一步改进在于,所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性。本专利技术进一步改进在于,所述基本属性包括要素名称、地址、类型码、经度、纬度、分类代码和图元标本文档来自技高网
...
基于多源数据的地名地址数据整合的方法和系统

【技术保护点】
一种基于多源数据的地名地址数据整合的方法,其特征在于,包括以下步骤:(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,将查询到的重复点剔除;(4)数据融合:对多源数据进行匹配和整合;(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。

【技术特征摘要】
1.一种基于多源数据的地名地址数据整合的方法,其特征在于,包括以下步骤:(1)收集数据,选取数据模型以及组织结构设计:将不同来源的地名、地址以及兴趣点数据结构、属性字段、空间参考整合为一套数据,选取数据模型,设计组织结构;(2)数据预处理:将多源的地名地址数据格式进行标准化处理,统一为可以处理的格式;(3)重复数据查询、剔除:对多源的地名地址数据进行重复点查询,将查询到的重复点剔除;(4)数据融合:对多源数据进行匹配和整合;(5)数据审核:利用GIS软件对已经融合的数据进行批量审核,采用自动审核和人工审核结合的方式;若审核合格存储至数据库,构建数据成果,若审核不合格,则返回数据融合步骤重新进行数据融合,直至审核合格。2.根据权利要求1所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(4)中的数据融合的步骤包括:1)数据预处理:将其他格式的数据转换为shape格式数据,待用;2)地理要素特征提取:依照《地籍管理信息系统图形数据标准》按特征进行数据分类,再对无特征编码数据,人工进行判读,进行数据分类;3)数据编码转换:依照《地籍管理信息系统图形数据标准》和《基础地理信息要素分类编码》对应关系进行编码转换;4)数据编辑:分别提取带符号特征数据、线状、面状地物的特征骨架线以及点状地物的特征点;5)拓扑编辑:整合要素之间的拓扑关系,构造面要素和格网;6)属性匹配和赋值:给各个要素匹配和赋予属性信息;7)坐标转换:对于坐标不为WGS84的矢量数据进行坐标转换。3.根据权利要求2所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(1)中的数据模型根据地理实体的模型定义,分为基本属性和扩展属性。4.根据权利要求3所述的基于多源数据的地名地址数据整合的方法,其特征在于,所述步骤(3)重复点的查询有2种方法:方法一是结合空间位置,将不同来源数据根据名称字段进行连接,找出名称相同的点,将其导出后参考资料进行筛选;方法二是利用FME软件,构建数据模糊查询模块,将要素与其在匹配距离的范围内的所有要...

【专利技术属性】
技术研发人员:孙海峰徐忠建朱必亮李俊陈朴
申请(专利权)人:江苏速度信息科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1