The invention proposes a distributed address alignment method and device, the method: treat alignment address address standardization, address access standard of word segmentation more standard level annotation; according to the preset address segmentation algorithm of multiple standard level tagging operations according to the preset slice key value, according to the calculation results to determine address database, which contains the standard address node of multiple standard slice address database; standard address node will be more than standard level of annotation standardized address segmentation distribution level target standard up to a standard level access node in the address alignment, and get results. Therefore, it effectively solves the performance problem of massive address data comparison under the condition of irregular address expression, and does not bring loss of conversion effect, and improves the efficiency of address comparison.
【技术实现步骤摘要】
分布式地址比对方法和装置
本专利技术涉及计算机数据处理
,尤其涉及一种分布式地址比对方法和装置。
技术介绍
目前,在对文本地址到gis转换的应用中,每天会有亿级的数据转换需求,需要将用户输入地址转映射到地图中的一个坐标点,以方便用户在地图上进行可视化分析。相关技术中,地址比较方案都是单机解决方案,在海量地址比对的问题上,题主要有以下几点缺点:1)地址库存储问题,在进行比对计算前需要建立带有gis信息的地址库数据,数量级往往在几亿到几十亿的级别,单机存储在空间上难以满足大数据量的需求。2)在用户输入数据和候选地址库数据比较时,全量的比对计算量消耗时间过长,每一条地址比对都需要和上亿级别数据进行比较计算,即在面对海量地址实时计算需求时,实时性和大批需求都量难以得到满足。
技术实现思路
本专利技术旨在至少在一定程度上解决上述的技术问题之一。为此,本专利技术的第一个目的在于提出一种分布式地址比对方法,该方法有效解决了在地址表达不规范的情况下海量地址数据比对的性能问题,同时不会带来转换效果损失,提高了地址比对效率。本专利技术的第二个目的在于提出一种分布式地址比对装置。本专 ...
【技术保护点】
一种分布式地址比对方法,其特征在于,包括以下步骤:对待比对地址进行地址规范化处理,获取多个标准级别标注的规范化地址分词;根据预设的算法将所述多个标准级别标注的规范化地址分词按照预设分片关键值进行运算,根据运算结果确定分片地址数据库,其中,所述分片地址数据库中包含多个标准级别的标准地址节点;将所述多个标准级别标注的规范化地址分词分发至所述多个标准级别的标准地址节点中的目标标准级别的标准地址节点进行地址比对,并获取比对结果。
【技术特征摘要】
1.一种分布式地址比对方法,其特征在于,包括以下步骤:对待比对地址进行地址规范化处理,获取多个标准级别标注的规范化地址分词;根据预设的算法将所述多个标准级别标注的规范化地址分词按照预设分片关键值进行运算,根据运算结果确定分片地址数据库,其中,所述分片地址数据库中包含多个标准级别的标准地址节点;将所述多个标准级别标注的规范化地址分词分发至所述多个标准级别的标准地址节点中的目标标准级别的标准地址节点进行地址比对,并获取比对结果。2.如权利要求1所述的方法,其特征在于,在所述对待比对地址进行地址规范化处理,获取多个标准级别标注的规范化地址分词之前,还包括:对所述待比对地址进行预处理操作,其中,所述预处理操作包括大小写转换、半全角转换、预设字符清理中的一种或多种。3.如权利要求1所述的方法,其特征在于,所述对待比对地址进行地址规范化处理,获取多个标准级别标注的规范化地址分词包括:对所述待比对地址进行切词处理,获取地址分词;根据预设的地址级别对所述地址分词进行标注;根据预设的地址规范策略,将所述标注后的地址分词进行地址规范化,并以标准级别标注所述地址规范化后的地址分词,以获取多个标准级别标注的规范化地址分词。4.如权利要求3所述的方法,其特征在于,所述根据预设的地址规范策略,将所述标注后的地址分词进行地址规范化,并以标准级别标注所述地址规范化后的地址分词,还包括:根据所述地址分词的前后文,补充标准级别标注的地址级别。5.如权利要求1所述的方法,其特征在于,在将所述多个标准级别标注的规范化地址分词分发至所述多个标准级别的标准地址节点中的目标标准级别的标准地址节点进行地址比对时,如果没有与所述目标标准级别的标准地址节点匹配的地址分词,则将所述地址规范化后的地址分词分发到...
【专利技术属性】
技术研发人员:王思睿,秦锋剑,
申请(专利权)人:小草数语北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。