开源地图与专业数据源路网自适应匹配法制造技术

技术编号:30546713 阅读:20 留言:0更新日期:2021-10-30 13:25
本发明专利技术提出一种新的开源地图与专业数据源路网自适应匹配法,针对开源地图路网更新专业数据源路网应用中的路网实体匹配问题,提出一种基于概率网络改进识别的开源地图路网与专业数据源路网实体自动匹配方法,以精细识别匹配关系类型、提高匹配准确率、匹配召回率及匹配效率为目的,分析众源地理数据存在的问题对传统匹配算法提出的挑战,分析基于匹配关系分类的路网匹配方法,研究样本制作与选取规则及特征差异度计算方法,设计并实现面向匹配关联分类识别的概率网络改进识别,最终建立起路网实体间映射关系,实现众源数据源与专业数据源之间的路网实体自动匹配。源之间的路网实体自动匹配。源之间的路网实体自动匹配。

【技术实现步骤摘要】
开源地图与专业数据源路网自适应匹配法


[0001]本专利技术涉及一种跨数据库地图路网匹配方法,特别涉及一种开源地图与专业数据源路网自适应匹配法,属于跨数据库路网匹配


技术介绍

[0002]数据共享是现代信息社会发展最重要的主题之一,而随着地理信息技术的在信息社会中的应用普及和深入,产生了GB甚至TB数量级由不同工具、不同时间、不同部门采集的地理数据,集成这些多源地理数据是数据共享时代的必然趋势,有效集成现势性好和数据质量更优的多个数据源是实现空间数据更新的有效途径,有利于提高数据质量,保证数据的时效性与地理信息应用系统高效运行。
[0003]路网不仅是普通地图数据中的基本要素,还是基于位置服务、导航与智能交通等热门应用中必不可少的空间数据,且这些应用对路网数据的准确性和现势性都有较高要求。而大多数专业部门的空间路网数据库主要还是通过外业修补测或矢量化航空影像并结合人工更新入库的手段更新数据,这样的方式存在成本高、自动化程度低、进度缓慢等缺陷。
[0004]近年来,在各类应用和新挑战的驱动下,开展了大量相关研究与实践,为专业数据源路网的自动化更新提供了有力条件。一方面,众源地理数据源的出现为专业数据源路网的自动化更新提供了有前景的解决方案,开源地图OSM即开放街道地图,是众源地理数据源典型代表,是一个建构自由内容的网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图,开源地图允许人人作为传感器采集共享数据,为专业数据源路网更新提供完全免费,即时更新的数据源;另一方面,空间数据匹配是实现数据融合和更新的前提条件,异构空间数据无缝集成的主要内容之一就是多尺度多源多时相空间数据匹配及一致性处理,空间数据实体匹配受到GIS研究和应用部门的广泛关注。近年来,空间数据匹配在自动化程度、匹配精度、匹配类型识别粒度等方面有所突破,实现更精细准确的实体匹配,匹配特征对象也不断丰富,从简单的点

点实体匹配扩展到复杂的面

面、线

线、点

线实体匹配等,而且它们之间可以互相转化。
[0005]但目前的匹配方法还存在匹配结果受匹配临界值影响、计算简易性与匹配精度无法兼得、匹配精度不高、匹配类型识别不完整、算法鲁棒性不足等问题。现有技术实体匹配算法基本都能实现匹配,但是都具有较大的局限性,无法适应不同数据源不规范情况下的数据匹配,不具备基于数据源以及从过去匹配错误中自学习能力与自动优化匹配模型的能力,未达到智能化匹配水平。
[0006]在数据共享的大时代背景下,完全免费、现势性好、数据精细的众源地理数据源开源地图OSM(开放街道地图)的出现为原本耗时耗力,成本高昂的专业数据源路网的数据集成与快速更新提供了新的解决方案。空间实体匹配是实现空间数据集成与更新的不可缺少的一步,更是关键一环。现有技术的实体匹配算法只针对数据规范标准的空间实体匹配,而众源地理数据开源地图采集过程中由业余人士采集引起的数据不规范性等问题,对传统实
体匹配算法提出了新的挑战,因此研发面向众源地理数据开源地图与专业数据源路网之间的实体匹配研究非常必要,一方面能使匹配算法适应新的数据源,提高算法鲁棒性,另一方面能提高实体匹配的可靠性和精度,在促进数据共享,保证空间数据可靠性和现势性等方面具有重要的价值。
[0007]广义上实体匹配方法均是基于临界值的匹配方法,或多或少存在临界值问题,无法完全避免,目前无论是基于临界值还是非基于临界值的,自动化水平还需要向智能化发展,尤其是在数据变得复杂情况下,需要进行实体匹配智能化自适应的探索。
[0008]现有技术的跨数据库地图路网匹配存在缺陷和不足,本专利技术的难点和待解决的问题主要集中在以下方面:
[0009]第一,路网不仅是普通地图数据中的基本要素,还是基于位置服务、导航与智能交通等热门应用中必不可少的空间数据,且这些应用对路网数据的准确性和现势性都有较高要求。而现有技术专业部门的空间路网数据库主要还是通过外业修补测或矢量化航空影像并结合人工更新入库的手段更新数据,这样的方式存在成本高、自动化程度低、进度缓慢等缺陷;
[0010]第二,目前的匹配方法还存在匹配结果受匹配临界值影响、计算简易性与匹配精度无法兼得、匹配精度不高、匹配类型识别不完整、算法鲁棒性不足等问题。现有技术实体匹配算法基本都能实现匹配,但是都具有较大的局限性,无法适应不同数据源不规范情况下的数据匹配,不具备基于数据源以及从过去匹配错误中自学习能力与自动优化匹配模型的能力,未达到智能化匹配水平;
[0011]第三,路网匹配的两个数据源分别是开源地图和专业数据源路网,开源地图作为路网数据源具有数据量大、完全免费、信息丰富和现势性好等优点,开源地图允许任何用户包括业余用户采集和编辑数据,这种开放地图模式引起了路网数据的一些问题:一是数据表达不规范,主要是拓扑错误;二是表达不同,与专业数据源相比,有不同的道路交叉路口表达,不同的多匝道的高速表达不同的同名道路分段表达;三是不同区域数据覆盖度不同,城市区域覆盖度大,数据较密集,而在农村或者山区数据覆盖小,数据稀疏;四是不同地区数据详细程度不同;五是道路名属性缺失及不规范,如中英文混合,这些问题对传统的匹配算法的鲁棒性、匹配准确率、召回率以及效率提出了挑战,基于开源地图数据情况的缺陷和复杂的情况,根据传统数据源的经验临界值设定单个差异度、相似度临界值、综合差异度、相似度临界值是不可行的,另外对于使用综合差异度或者相似度的匹配算法,人为给定各特征差异度或者相似度权值也是不客观的,在设计匹配模型时需要考虑权值和临界值的自适应性,即能随数据的实际情况自动调整;
[0012]第四,开源地图(众源地理数据源)的出现为原本耗时耗人力,成本高昂的专业数据源路网的数据集成与快速更新提供了前景巨大的数据源,要实现开源地图路网更新专业数据源路网必须要先实现两个数据源路网之间的空间实体匹配,但是现有技术的实体匹配算法只针对规范标准的数据,而开源地图的开源模式允许业余人士采集数据,数据存在的表达不规范、区域详细程度不一致等诸多问题,现有技术的实体匹配算法的自适应性、鲁棒性和匹配精度无法满足要求,开源地图路网与专业数据源路网的匹配问题得不到解决;
[0013]第五,路网匹配关系的模式识别与分类一方面是由于分类问题的复杂性,匹配特征对象之一是众源路网数据,众源数据开源地图的路网由业余志愿者采集制作,在数据表
达上与专业数据源差异极大,甚至不规范,使分类问题变得复杂;另一方面现有技术处理该非线性分类问题,精度较差、识别率低、训练速度慢、容易陷入局部极值、新的样本不易加入训练好的网络,现有技术不适合应对开源地图与专业数据源路网的匹配关联分类识别,无法避开人为给定经验权值和临界值的问题,增加或者减少类别模式时需要重新进行长时间的训练,运行效率很低。

技术实现思路

[0014]针对现有技术的不足,本专利技术针对开源地图路网更新专业数据源路网应用中的路网实体匹配问题,分析了开源地图与专业数据源的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.开源地图与专业数据源路网自适应匹配法,其特征在于,首先将匹配问题转化为匹配关联分类问题,并提出新的匹配关联分类,构建新的匹配关系类别与传统匹配关系类别的联系,设计基于概率网络改进识别的路网匹配方法架构,包括三个关键步骤:样本制作、概率网络改进识别训练和辨别匹配关系、确定匹配特征对;设计样本制作方法和流程,关键步骤包括:数据预处理、寻找待识别匹配特征对、提取特征和划分样本;设计样本选取规则;设计路网匹配特征对表达模型以及基于该表达模型的几何差异度计算方法,其中几何相差异度包括两个方向的长度比、基于改进后的中值Hausdorff间隔度量的空间位置差异度和方向差异度;设计面向路网匹配关联分类问题的概率网络改进识别结构,主要包括层数、各层的神经元数量、各层输入与输出、层间连接的设计以及激励函数的选择与平滑因子的设定;设计该神经网络的实现流程;第一,基于匹配关联分类的路网匹配方法,采用概率网络改进识别进行匹配关系辨别,进而确定匹配特征对,本发明提出新的匹配关联分类,包括全部匹配、部分匹配、不匹配,并建立其与传统匹配关系类别的具体关系,两种分类的关系是前者可组合推理出后者,后者可分解为前者,两种分类无缝转化;第二,样本制作方法和流程以及选取规则,将矢量路网转化为向量形式的输入样本,包括以下关键步骤:通过投影转换,将路网转化到统一的平面坐标系统,为准确的特征提取提供统一的空间参考,通过50m缓冲区查询获取备选匹配集,通过开源地图数据的情况分析,选取的特征仅包含几何差异度,并设计特征的计算方法,多个特征构成的向量将作为概率网络改进识别进行匹配关联分类识别的依据,经过以上关键的三个步骤,完成样本制作,制定训练样本和检测样本的选取规则;第三,几何差异度计算方法,改进路网匹配特征对表达模型,并设计基于此模型进行几何差异度计算方法,仅在两要素的重叠部分增加虚拟节点来保证重叠部分节点和折线段一一对应,基于重叠部分的匹配特征对表达模型,设计两个方向的长度比、基于改进的中值Hausdorff间隔度量的空间位置差异度和方向差异度的计算方法;第四,面向新匹配关联分类识别的概率网络改进识别设计与实现,在概率网络改进识别分类器的基本结构基础上,设计具体的网络结构、各层的输入和输出以及选择激励函数,基于matlab的Neural Network Toolbox实现本发明设计的概率网络改进识别。2.根据权利要求1所述的开源地图与专业数据源路网自适应匹配法,其特征在于,基于匹配关联分类的路网匹配:路网匹配寻找两路网中道路实体的一一对应关系,即匹配关系,在不同的匹配关系类型情况下,匹配特征对具有其对应类别特有的特征模式,识别出匹配关系类型即确定待匹配特征对是否匹配与具体的匹配关系,识别出匹配关系即确定匹配特征对,本发明根据匹配特征对的特征,先识别待匹配特征对匹配关系类型,再确定是否匹配以及确定最终的匹配特征对,路网匹配问题转化为模式识别分类问题;本发明提出新的匹配关系的分类以方便被识别,新匹配关系类型分为全部匹配、部分匹配和不匹配三类,新匹配关系类型与传统的匹配关系类型之间的关系是前者可以组合推理出后者,后者可以分解为前者,具体关系为:全部匹配是道路要素长度接近情况下的1:1的匹配,部分匹配是两个道路要素各自只有部分相互匹配,不匹配是两个道路要素任何部分都不匹配,全部匹配的匹配特征对必须是1:1的匹配特征对,当这两个道路要素只与对方存在部分匹配关系,而与其它任何道路要素都为不匹配,则组合推理得这两个道路要素仍
然是1:1匹配关系,当这两个道路要素中至少一个要素还与其它道路要素存在部分匹配关系,则组合推理得这几个道路要素存在n:m(1:n)匹配关系,当一个道路要素与其它任何道路要素的匹配关系都为不匹配时,则其单独构成1:0匹配特征对,即1:1的匹配关系包含全部匹配关系,可分解为一个全部匹配关系或一个部分匹配关系,n:m(1:n)匹配关系可分解为多个部分匹配关系,1:0可分解为多个不匹配关系,本发明通过新的匹配关联分类解决传统匹配关系下的路网匹配问题。3.根据权利要求1所述的开源地图与专业数据源路网自适应匹配法,其特征在于,基于概率网络改进识别的路网匹配框架:提出基于概率网络改进识别的开源地图路网与专业数据源路网匹配方法,采用概率网络改进识别来对匹配特征对的匹配关系进行分类,基于匹配关联分类识别的结果进一步解决路网匹配问题;基于概率网络改进识别的路网匹配算法包括三个关键步骤:输入样本的选取与制作、概率网络改进识别训练和检测、辨别匹配关系和确定匹配特征对;输入样本的选取与制作:目的是将几何路网匹配特征对转化成概率网络改进识别能处理的信息形式——特征向量,首先进行数据预处理,主要是进行投影转换,然后按一定缓冲区范围选择道路备选集,待识别匹配特征对的几何差异度计算过程即为匹配特征对特征提取过程,由该匹配特征对的多个特征差异度值构成输入样本,即为一个多维的特征向量,完成样本制作,为训练和检测概率神经网,随机选择一定量的样本并进行人工标记,划分为训练样本和检测样本;概率网络改进识别训练和检测:目的是完成概率网络改进识别的设计,使一定结构的分类器自动识别未知类别的匹配特征对的匹配关系,采用标记后的训练样本输入概率神经网后由其自动训练学习知识,采用标记后的检测数据检验训练后的概率网络改进识别性能,如果经验证性能符合要求,则完成概率网络改进识别;辨别匹配关系和确定匹配特征对:目的是根据匹配关系辨别结果构成的矩阵,确定1:1、1:0、1:n和n:m的匹配特征对,采用训练后的概率网络改进识别对待识别匹配特征对的匹配关系进行识别与分类,处理由识别结果错误带来的矛盾,最后由本发明匹配关联分类与传统匹配关联分类间关系,确定1:1、1:0、1:n和n:m匹配特征对。4.根据权利要求1所述的开源地图与专业数据源路网自适应匹配法,其特征在于,样本制作的关键步骤包括:数据预处理、生成备选匹配集、提取特征和划分样本;数据预处理:只进行投影转换,转化到统一的平面坐标系,为准确的特征提取提供统一的空间参考;生成备选匹配集:目的是缩小寻找匹配特征对象的范围,为一种粗匹配策略,对于开源地图路网与专业数据源路网之间的匹配,采用缓冲区查询,以待匹配特征对象为中心,查询其一定缓冲区范围覆盖的另一个数据库中的对象,这些对象就是该待匹配特征对象的备选匹配集,备选匹配集中的每个对象与待匹配特征对象构成一个待识别匹配特征对;特征提取:包括特征的选择和特征的计算,衡量空间实体匹配特征对是否匹配的标准包括几何差异度、语义差异度和拓扑差异度,差异度的选择受实体的特征影响,鉴于开源地图路网情况复杂和部分数据缺陷,采用几何差异度包括基于间隔度量的空间位置差异度和方向差异度作为概率网络改进识别判断匹配情况的依据,在线要素实体的长度特征基础上提出新的几何差异度——长度比,本发明提取的匹配特征对特征包括长度比HT、空间位置
差异度距离A和方向差异度Y,作为概率网络改进识别匹配关系的依据,根据这些特征的计算方法,对一个待识别匹配特征对进行特征提取后即获得一个样本C=[HT,A,Y],实质是一个特征向量;输入样本划分:根据用途和匹配类型的不同进行输入样本的划分,样本根据用途被划分为训练样本、检测样本和待识别样本,训练样本、检测样本分别用于训练阶段和检测阶段,训练样本和检测样本根据其对应的匹配特征对实际匹配关系的不同划分为全部匹配类、部分匹配类、不匹配类,分别用1、2、3进行人工标记。5.根据权利要求1所述的开源地图与专业数据源路网自适应匹配法,其特征在于,样本选取规则:第一,训练样本随机选取,尽量保证空间上分布均匀;第二,训练样本和检测样本选取时尽量保证匹配关系属于各个类别的样本数量尽量相同;第三,训练样本与检测样本的比例保持6:4;保证训练样本和检测样本在空间上分布均匀,用规则网格划分子区域,按...

【专利技术属性】
技术研发人员:刘秀萍李强
申请(专利权)人:荆门汇易佳信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1