【技术实现步骤摘要】
地址标准化方法、地址标准化装置和电子设备
本申请涉及数据处理
,且更为具体地,涉及一种地址标准化方法、地址标准化装置和电子设备。
技术介绍
随着社会信息化速度的加快,地址信息作为用户的重要信息之一,在多的领域中得到广泛的应用。具体地,地址匹配技术不仅在数字城市建设、快递行业有日益增长的需求,同时在信贷申请反欺诈领域中也有越来越重要的应用。由于我国地址填写和/或书写的不规范性(例如,各种简写、缩写情况)及多样性(例如,城市化快速发展导致地址名称的变化),在进行地址匹配之前,需要对地址进行标准化。但是,目前的地址标准化方法由于受到上述地址的不规范性和多样性的影响,常常无法很好地应用。因此,期望提供改进的地址标准化方法。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种地址标准化方法、地址标准化装置和电子设备,其能够基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词并基于地址查询树从该多个地址词确定标准地址,实现了地址标准化的健壮性和容错性。 ...
【技术保护点】
1.一种地址标准化方法,包括:/n获取基于标准行政区域地址的地址查询树;/n基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词;/n基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列;以及/n基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。/n
【技术特征摘要】 【专利技术属性】
1.一种地址标准化方法,包括:
获取基于标准行政区域地址的地址查询树;
基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词;
基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列;以及
基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。
2.根据权利要求1所述的地址标准化方法,其中,基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词包括:
针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串,通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵;
确定所述地址熵是否满足预定条件;
响应于所述地址熵满足预定条件,基于所述第一字符串确定第一地址词;以及
针对所述地址字符串中除所述第一字符串外的其它字符,重复以上步骤以获得多个地址词。
3.根据权利要求2所述的地址标准化方法,其中,所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。
4.根据权利要求3所述的地址标准化方法,其中,响应于所述地址熵满足预定条件,基于所述第一字符串确定第一地址词包括:
响应于所述地址熵满足预定条件,所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列;以及
将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。
5.根据权利要求2所述的地址标准化方法,其中,所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。
6.根据权利要求1所述的地址标准化方法,其中,基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列包括:
针对所述多个地址词的每个地址词,确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配;
响应于所述当前地址词与所述下一地址词的上级地址词匹配,确定所述地址序列为所述当前地址词和下一地址词;
响应于所述当前地址词与所述下一地址词的上上级地址词匹配,确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词;
响应于所述当前地址词与所述下一地址词的地址词本身匹配,确定所述地址序列为所述下一地址词;以及
在其它情况下,确定所述当前地址词和下一地址词为不同地址序列。
7.根据权利要求1所述的地址标准化方法,其中,基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址包括:
将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址;以及
技术研发人员:刘志玲,党亚瑞,李莉,
申请(专利权)人:中科聚信信息技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。