地址标准化方法、装置、服务器及存储介质制造方法及图纸

技术编号:37087704 阅读:9 留言:0更新日期:2023-03-29 20:02
本发明专利技术提供了一种地址标准化方法、装置、服务器及存储介质,包括:获取待标准化处理的原始地址;根据地址词典对原始地址进行分词处理,得到原始地址对应的地址元素列表;如果场所知识库中不存在与地址元素列表匹配的备选场所,则基于地址元素列表对地址伴随关系树结构进行双向遍历,得到原始地址对应的目标标准化地址;其中,场所知识库中存储有备选场所与备选标准化地址库之间的映射关系,地址伴随关系树结构用于表征地址元素之间的依赖关系。本发明专利技术具有较高的标准化效率和标准化精度,因此可以高效、高精度地对原始地址进行标准化,从而有效缓解原始地址存在地址冗余、地址残缺、拼写错误等问题的情况。拼写错误等问题的情况。拼写错误等问题的情况。

【技术实现步骤摘要】
地址标准化方法、装置、服务器及存储介质


[0001]本专利技术涉及数据处理
,尤其是涉及一种地址标准化方法、装置、服务器及存储介质。

技术介绍

[0002]随着信息技术的发展,各行各业都形成了统一的规范标准。在电子商务寄递行业、外卖行业、智慧城市建设等各方面都对地址的规范化提出了很高的需求,希望能获取一套统一格式的标准化地址。虽然目前很多网站和应用已经通过设置省、市、区、街道等方式要求用户按照规定填写地址,从而获取完善的标准化地址,但仍然会存在的许多问题,诸如地址冗余、地址残缺、拼写错误等,而且部分历史数据中也涉及诸多的地址问题,因此急需进行标准化转换。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种地址标准化方法、装置、服务器及存储介质,具有较高的标准化效率和标准化精度,因此可以高效、高精度地对原始地址进行标准化,从而有效缓解原始地址存在地址冗余、地址残缺、拼写错误等问题的情况。
[0004]第一方面,本专利技术实施例提供了一种地址标准化方法,包括:获取待标准化处理的原始地址;根据地址词典对所述原始地址进行分词处理,得到所述原始地址对应的地址元素列表;如果场所知识库中不存在与所述地址元素列表匹配的备选场所,则基于所述地址元素列表对地址伴随关系树结构进行双向遍历,得到所述原始地址对应的目标标准化地址;其中,所述场所知识库中存储有备选场所与备选标准化地址库之间的映射关系,所述地址伴随关系树结构用于表征地址元素之间的依赖关系。
[0005]在一种实施方式中,所述根据地址词典对所述原始地址进行分词处理,得到所述原始地址对应的地址元素列表的步骤,包括:从所述原始地址中按照正向取第一指定长度的第一初始字串;从地址词典中确定与所述第一初始字串匹配的地址分词,并继续从所述原始地址中按照正向取所述第一指定长度的下一第一初始字串,直至确定每个所述第一初始字串匹配的地址分词,得到正向分词结果;从所述原始地址中按照逆向取第二指定长度的第二初始字串;从所述地址词典中确定与所述第二初始字串匹配的地址分词,并继续从所述原始地址中按照逆向取所述第二指定长度的下一第二初始字串,直至确定每个所述第二初始字串匹配的地址分词,得到逆向分词结果;基于所述正向分词结果和所述逆向分词结果,确定所述原始地址对应的地址元素列表。
[0006]在一种实施方式中,所述基于所述地址元素列表对地址伴随关系树结构进行双向遍历,得到所述原始地址对应的目标标准化地址的步骤,包括:对于所述地址元素列表中的每个所述地址元素,将地址伴随关系树结构中与该地址元素对应的节点作为起始节点;按照由子节点往父节点的顺序,从所述起始节点开始遍历所述地址伴随关系树结构,确定所述起始节点对应的至少一个父节点;以及,按照由父节点往子节点的顺序,从所述起始节点
开始遍历所述地址伴随关系树结构,确定所述起始节点对应的至少一个子节点;基于所述父节点对应的地址元素和所述子节点对应的地址元素,确定所述原始地址对应的目标标准化地址。
[0007]在一种实施方式中,所述基于所述父节点对应的地址元素和所述子节点对应的地址元素,确定所述原始地址对应的目标标准化地址的步骤,包括:判断每个所述父节点和每个所述子节点是否属于同一节点路径;如果是,基于每个所述父节点对应的地址元素和每个所述子节点对应的地址元素,对所述地址元素列表进行补全,得到所述原始地址对应的目标标准化地址;如果否,根据预设节点权重从所述节点路径中确定目标节点路径,并基于所述目标节点路径包含的所述父节点对应的地址元素和所述子节点对应的地址元素,对所述地址元素列表进行补全,得到所述原始地址对应的目标标准化地址。
[0008]在一种实施方式中,预设节点权重包括每个所述父节点对应的权重和每个所述子节点对应的权重,所述父节点对应的权重小于所述子节点对应的权重;所述根据预设节点权重从所述节点路径中确定目标节点路径的步骤,包括:对于每个所述节点路径,基于该节点路径包含的所述父节点对应的权重和所述子节点对应的权重,确定该节点路对应的打分结果;按照所述打分结果从高到低的顺序,从所述节点路径中确定目标节点路径。
[0009]在一种实施方式中,所述方法还包括:如果所述场所知识库中存在与所述地址元素列表匹配的备选场所,将与所述备选场所存在映射关系的备选标准化地址,确定为所述原始地址对应的目标标准化地址。
[0010]在一种实施方式中,所述方法还包括:获取预先配置的标准地址库;其中,所述标准地址库包括多个备选标准化地址;对每个所述备选标准化地址进行分词处理,得到每个所述备选标准化地址包含的地址元素;对每个所述备选标准化地址包含的地址元素进行去重处理,得到地址词典;以及,根据每个所述备选标准化地址包含的地址元素之间的依赖关系构建地址伴随关系树结构。
[0011]第二方面,本专利技术实施例还提供一种地址标准化装置,包括:地址获取模块,用于获取待标准化处理的原始地址;元素确定模块,用于根据地址词典对所述原始地址进行分词处理,得到所述原始地址对应的地址元素列表;址标准化模块,用于如果场所知识库中不存在与所述地址元素列表匹配的备选场所,则基于所述地址元素列表对地址伴随关系树结构进行双向遍历,得到所述原始地址对应的目标标准化地址;其中,所述场所知识库中存储有备选场所与备选标准化地址库之间的映射关系,所述地址伴随关系树结构用于表征地址元素之间的依赖关系。
[0012]第三方面,本专利技术实施例还提供一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的地址标准化方法。
[0013]第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项所述的地址标准化方法。
[0014]本专利技术实施例提供的一种地址标准化方法、装置、服务器及存储介质,首先获取待标准化处理的原始地址,并根据地址词典对原始地址进行分词处理,得到原始地址对应的地址元素列表,如果场所知识库中不存在与地址元素列表匹配的备选场所,则基于地址元
素列表对地址伴随关系树结构进行双向遍历,得到原始地址对应的目标标准化地址。其中,场所知识库中存储有备选场所与备选标准化地址库之间的映射关系,地址伴随关系树结构用于表征地址元素之间的依赖关系。上述方法利用地址词典、场所知识库、地址伴随关系树结构等知识库对原始地址进行标准化转换处理,具有较高的标准化效率和标准化精度,因此可以高效、高精度地对原始地址进行标准化,从而有效缓解原始地址存在地址冗余、地址残缺、拼写错误等问题的情况。
[0015]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0016]为使本专利技术的上述目的、特征和优点能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址标准化方法,其特征在于,包括:获取待标准化处理的原始地址;根据地址词典对所述原始地址进行分词处理,得到所述原始地址对应的地址元素列表;如果场所知识库中不存在与所述地址元素列表匹配的备选场所,则基于所述地址元素列表对地址伴随关系树结构进行双向遍历,得到所述原始地址对应的目标标准化地址;其中,所述场所知识库中存储有备选场所与备选标准化地址库之间的映射关系,所述地址伴随关系树结构用于表征地址元素之间的依赖关系。2.根据权利要求1所述的地址标准化方法,其特征在于,所述根据地址词典对所述原始地址进行分词处理,得到所述原始地址对应的地址元素列表的步骤,包括:从所述原始地址中按照正向取第一指定长度的第一初始字串;从地址词典中确定与所述第一初始字串匹配的地址分词,并继续从所述原始地址中按照正向取所述第一指定长度的下一第一初始字串,直至确定每个所述第一初始字串匹配的地址分词,得到正向分词结果;从所述原始地址中按照逆向取第二指定长度的第二初始字串;从所述地址词典中确定与所述第二初始字串匹配的地址分词,并继续从所述原始地址中按照逆向取所述第二指定长度的下一第二初始字串,直至确定每个所述第二初始字串匹配的地址分词,得到逆向分词结果;基于所述正向分词结果和所述逆向分词结果,确定所述原始地址对应的地址元素列表。3.根据权利要求1所述的地址标准化方法,其特征在于,所述基于所述地址元素列表对地址伴随关系树结构进行双向遍历,得到所述原始地址对应的目标标准化地址的步骤,包括:对于所述地址元素列表中的每个所述地址元素,将地址伴随关系树结构中与该地址元素对应的节点作为起始节点;按照由子节点往父节点的顺序,从所述起始节点开始遍历所述地址伴随关系树结构,确定所述起始节点对应的至少一个父节点;以及,按照由父节点往子节点的顺序,从所述起始节点开始遍历所述地址伴随关系树结构,确定所述起始节点对应的至少一个子节点;基于所述父节点对应的地址元素和所述子节点对应的地址元素,确定所述原始地址对应的目标标准化地址。4.根据权利要求3所述的地址标准化方法,其特征在于,所述基于所述父节点对应的地址元素和所述子节点对应的地址元素,确定所述原始地址对应的目标标准化地址的步骤,包括:判断每个所述父节点和每个所述子节点是否属于同一节点路径;如果是,基于每个所述父节点对应的地址元素和每个所述子节点对应的地址元素,对所述地址元素列表进行补全,得到所述原始地址对应的目标标准化地址;如果否,根据预设节...

【专利技术属性】
技术研发人员:陈世鹏万月亮火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1