一种地址信息数据的处理方法技术

技术编号:27534633 阅读:17 留言:0更新日期:2021-03-03 11:18
本发明专利技术涉及一种地址信息数据的处理方法,将自动或半自动融合后的标准地址数据库作为初始地址数据库,对初始地址数据库的所有地址文本信息做简化去冗余处理,得到简化地址信息数据库,对简化地址信息数据库内所有地址文本信息聚类处理,得到多个地址组团,根据地址组团内各空间化地址位置点所对应的最短空间直线距离与预设空间直线距离阈值比较判断出存疑地址点,求得与存疑地址点最临近的K个空间化地址位置点,进行二次判断,降低存疑地址点的误判率。此外,获取各地址组团外接矩形,根据组团外地址点判断出存疑地址点,实现在海量地址信息数据中筛选出部分存疑数据,提高针对存疑地址点的查找标记效率,进一步提高处理后地址信息数据的准确性。址信息数据的准确性。址信息数据的准确性。

【技术实现步骤摘要】
一种地址信息数据的处理方法


[0001]本专利技术涉及地理信息处理领域,尤其涉及一种地址信息数据的处理方法。

技术介绍

[0002]地址信息在邮政通信、城市规划建设和对外交流方面具有重要的作用。
[0003]但在地址信息数据的实际应用场景中,诸如民政、住建和公安等不同部门数据标准不一,且各部门之间未形成地址数据联动更新机制,导致地址信息数据来源多样化、地址信息数据编码标准不统一以及地址信息数据重复等现象普遍存在,这给人们的工作生活以及经济社会的正常有序发展带来不便。面对地址信息数据编码标准不统一以及地址信息数据重复等现象,各地现已开展地址信息数据融合和数据清洗工作,目前多采用自动融合或者半自动融合的方式进行,得到标准化的地址信息数据,并进行地址解析,将地址空间化,匹配到相对应的空间位置。
[0004]在实际的处理工作中,面对庞大的地址信息数据,在半自动融合处理和地址解析过程中通常会存在误差或者错误,目前多采用在使用过程中随机发现错误并改正方式,或以人工遍历的方式在庞大的地址信息数据库中查找出现误差或者错误的地址信息数据,并且标记出存疑地址信息数据以及改正这些存疑地址信息数据。
[0005]然而,采用人工遍历地址信息数据库及标记存疑地址信息数据的方法不仅效率低,而且无法满足在海量地址信息数据库中快速查找存疑地址点的实际需求,也无法确保地址信息数据库中的地址信息数据准确性。

技术实现思路

[0006]本专利技术所要解决的技术问题是针对上述现有技术提供一种地址信息数据的处理方法。r/>[0007]本专利技术解决上述技术问题所采用的技术方案为:一种地址信息数据的处理方法,其特征在于,包括如下步骤:
[0008]步骤1,将自动或半自动融合后的标准地址数据库作为初始地址数据库;其中,初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库,初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点;
[0009]步骤2,将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字,以得到多个简化地址文本信息,并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库;其中,简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点;
[0010]步骤3,对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理,得到多个地址组团;
[0011]步骤4,对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度,并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点;其中,针对任一个地址组团,初始置信度的数值为该地址组团内所有地址信息的总数量;
[0012]步骤5,计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离,并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离;
[0013]步骤6,根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记:
[0014]当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时,将该空间化地址位置点标记为存疑地址点,转入步骤7;否则,不予处理该空间化地址位置点;
[0015]步骤7,求解与该存疑地址点最临近的K个空间化地址位置点,并根据求解结果做出判断处理:
[0016]当所得K个空间化地址位置点中存在有该存疑地址点所处地址组团内的空间化地址位置点时,将该存疑地址点标记为正常地址点,转入步骤8;否则,将该存疑地址点所对应地址信息的置信度值设置为-1;
[0017]步骤8,获取各地址组团的质心点,并将各质心点分别沿横坐标和纵坐标移动预设距离,且以移动预设距离后的质心点作为对应组团的辅助点;
[0018]步骤9,将各组团内所有空间化地址位置点、组团质心点和组团辅助点作为各组团点集合,获取各组团点集合的外接矩形,将各外接矩形作为对应地址组团的组团外接矩形;其中,位于组团外接矩形范围内的非该组团的空间化地址位置点为对应地址组团的组团外地址点;
[0019]步骤10,对各地址组团外接矩形范围内的组团外地址点做出判断处理:
[0020]当任一地址组团的组团外地址点所对应地址信息的置信度数值小于预设置信度阈值时,标记该组团外地址点为存疑地址点,并将该存疑地址点所对应地址信息的置信度设置为-1;否则,不予处理该组团外地址点。
[0021]改进地,为了进一步降低错误空间化地址位置点的漏查率,在该专利技术的所述地址信息数据的处理方法中,在步骤10之后还包括:设置针对所有空间化地址位置点所对应地址信息置信度数值的核验阈值;以及将置信度数值小于所述核验阈值的地址信息对应的空间化地址位置点标记为奇异点,并进行奇异点人工核验操作。其中,在针对奇异点人工核验操作过程中,优先遍历存疑地址点的人工检核,而后再进行奇异点的人工核验操作。
[0022]进一步地,在所述地址信息数据的处理方法中,所述K的数值可以根据需要进行调整设置。例如,可以将K的数值设置为2或3。
[0023]进一步地,在所述地址信息数据的处理方法中,所述预设置信度阈值可以根据需要进行调整设置。例如,可以将预设置信度阈值的数值设置为10。
[0024]再进一步地,在所述地址信息数据的处理方法中,所述核验阈值可以根据需要进行调整设置。例如,可以将上述核验阈值的数值设置为4或5。
[0025]为了避免经聚类处理后得到的地址组团点集无法直接生成外接矩形(例如组团内
只有2个空间化地址位置点,或者因地址组团内的空间化地址位置点呈直线分布),改进地,在所述地址信息数据的处理方法中,步骤8中的所述预设距离可以根据需要进行调整设置。例如,可以将该预设距离的数值设置在区间(0.1m,1m)以内。
[0026]作为改进地,为了在形成的初始地址数据库内筛选出具有较大概率发生地址错误或地理编码过程中出错的空间化地址位置点,在该专利技术中,步骤6中的所述预设空间直线距离阈值也可以根据需要进行调整设置。例如,该专利技术中的预设空间直线距离阈值设置为150m。
[0027]在实际的地址信息数据处理操作中,所述预设空间直线距离阈值的设置规则可改进为:当地址信息文本分词中含有道路名称时,预设空间直线距离阈值设置为100m;含有小区名称时,预设空间直线距离阈值设置为80m;其余不含上述字样(地址文本分词既不含道路名称,又不含小区名称的情况)时,预设空间直线距离阈值设置为150m。
[0028]与现有技术相比,本专利技术的优点在于:该专利技术通过将自动或半自动融合后的标准地址数据库作为初始地址数据库,且对该初始地址数据库的所有地址文本信息做冗余简化处理,得到简化地址信息数据库,然后对简化地址信息数据库内所有地址文本做聚类处理,得到多个地址组团,而后根据地址组团内各空间化地址位置点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址信息数据的处理方法,其特征在于,包括如下步骤:步骤1,将自动或半自动融合后的标准地址数据库作为初始地址数据库;其中,初始地址数据库为地址信息按照预设地址层级标准化及空间化处理后的地址数据库,初始地址数据库内的每条地址信息均含有一个地址文本信息以及一个与该地址文本信息相对应的空间化地址位置点;步骤2,将初始地址数据库中的所有地址文本信息均按照预设地址层级模型剔除冗余的行政区域地址文字,以得到多个简化地址文本信息,并由所有简化地址文本信息以及对应的空间化地址位置点一起形成简化地址信息数据库;其中,简化地址信息数据库内的任一条地址信息均含有一个简化地址文本信息以及与该简化地址文本信息相对应的空间化地址位置点;步骤3,对简化地址信息数据库内的所有简化地址文本信息做文本聚类处理,得到多个地址组团;步骤4,对各地址组团内每一个简化地址文本信息所对应的地址信息分别赋予初始置信度,并将赋予了初始置信度的地址信息含有的空间化地址位置点标记为初始正常地址点;其中,针对任一个地址组团,初始置信度的数值为该地址组团内所有地址信息的总数量;步骤5,计算每一个地址组团内所有的任意两个简化地址文本信息所对应的空间化地址位置点之间的空间直线距离,并得到各地址组团内每一个空间化地址位置点所对应的最短空间直线距离;步骤6,根据每一个空间化地址位置点所对应的最短空间直线距离做出存疑地址点判断标记:当任一个空间化地址位置点所对应的最短空间直线距离大于预设空间直线距离阈值时,将该空间化地址位置点标记为存疑地址点,转入步骤7;否则,不予处理该空间化地址位置点;步骤7,求解与该存疑地址点最临近的K个空间化地址位置点,并根据求解结果做出判断处理:当所得K个空间化地址位置点...

【专利技术属性】
技术研发人员:陈恒陈海珍陈小松包颖吴亚文邵月中王智慧
申请(专利权)人:宁波市测绘和遥感技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1