中文地址补全的方法、装置、设备及存储介质制造方法及图纸

技术编号:27107728 阅读:20 留言:0更新日期:2021-01-25 18:59
本申请实施例本申请实施例提供了一种中文地址补全的方法、装置、设备及存储介质,旨在实现快速查找并补全中文地址,并且在数据库增大时不影响系统的性能。所述方法包括:将地址库中的完整地址按照Trie树的结构进行存储;在所述Trie树中的每条路径的最后一个节点上标注该路径的地址级别;对输入的地址关键词在所述Trie树中进行查找,得到标注有所述地址级别的所述地址关键词;对所述地址关键词中的标注信息进行解析,得到所述地址关键词对应的所述完整地址。完整地址。完整地址。

【技术实现步骤摘要】
中文地址补全的方法、装置、设备及存储介质


[0001]本申请实施例涉及信息处理
,具体而言,涉及一种中文地址补全的方法、装置、设备及存储介质。

技术介绍

[0002]中文地址补全是一项与人们日常生活息息相关的技术,目的是将人们输入的不完整地址补全为完整的地址,在各种场景和应用之中都有重要用途,例如网购,办理证件时填写地址。现有的地址补全的方法一种是在数据库中存入大量地址信息,然后按照特定字段进行查询,另一种方案是采用倒排索引的方式对查询进行优化。
[0003]现有技术存在的缺点是数据库过大时,地址查询时的效率会降低,查询时间会接近线性增长,倒排索引需要预先进行大量数据库设计,耗费时间。

技术实现思路

[0004]本申请实施例提供一种中文地址补全的方法、装置、设备及存储介质,旨在实现快速查找并补全中文地址。
[0005]本申请实施例第一方面提供一种中文地址补全的方法,所述方法包括:
[0006]将地址库中的完整地址按照Trie树的结构进行存储;
[0007]在所述Trie树中的每条路径的最后一个节点上标注该路径的地址级别;
[0008]对输入的地址关键词在所述Trie树中进行查找,得到标注有所述地址级别的所述地址关键词;
[0009]对所述地址关键词中的标注信息进行解析,得到所述地址关键词对应的所述完整地址。
[0010]可选地,将地址库中的完整地址按照Trie树的结构进行存储之前,所述方法还包括:
[0011]对所述地址库中的每个所述完整地址建立索引;
[0012]将所述地址库中的每个所述完整地址中的地名信息进行分级别存储;
[0013]生成每个级别的所述地名信息与其所属的所述完整地址的索引的映射。
[0014]可选地,将地址库中的完整地址按照Trie树的结构进行存储,包括:
[0015]将所述完整地址从第一个字符开始以字符为单位依次插入所述Trie树的一条路径之中;
[0016]当所述完整地址中的第一个地名信息插入完毕后,将所述完整地址中的第二个地名信息从第一个字符开始以字符为单位依次插入所述Trie树中的另一条路径中;
[0017]当所述第二个地名信息插入完毕之后,按照上述规则依次将所有所述地名信息插入Trie树中进行存储。
[0018]可选地,所述方法还包括:
[0019]在当前地名信息的首字符与之前路径中的首字符相同时,以之前路径中的首字符
对应的节点为所述当前地名信息对应路径的根节点,将所述当前地名信息插入Trie树中。
[0020]可选地,对输入的地名信息在所述Trie树中进行查找,得到标注有所述地址级别的所述地名信息,包括:
[0021]从所述Trie树的根节点开始对所述地址关键词的每个字符进行查找,得到所述地址关键词对应的多条路径;
[0022]根据所述多条路径中每条路径上最后一个节点上标注的所述地址级别,确定所述地址关键词中每个所述地名信息的地址级别。
[0023]可选地,所述方法还包括:
[0024]当无法在所述Trie树中找到所述地名信息匹配的最短路径时,以所述地址级别以外的标志对所述地名信息进行标注。
[0025]可选地,对所述地址关键词的标注信息进行解析,得到所述地址关键词对应的所述完整地址,包括:
[0026]确定所述地址关键词中的所述每个所述地名信息的地址级别;
[0027]根据每个所述地名信息与其所属完整地址的索引的映射确定所述地名信息所在的所述完整地址,得到多个包含所述地名信息的所述完整地址;
[0028]当所述地址关键词包含至少两个所述地名信息时,计算多个所述完整地址之间的交集,得到所述地址关键词所对应的所述完整地址;
[0029]当所述地址关键词仅包含一个所述地名信息时,选择使用频率最高的完整地址作为所述地址关键词的完整地址。
[0030]本申请实施例第二方面提供一种中文地址补全的装置,所述装置包括:
[0031]第一地址存储模块,用于将地址库中的完整地址按照Trie树的结构进行存储;
[0032]地址级别标注模块,用于在所述Trie树中的每条路径的最后一个节点上标注该路径的地址级别;
[0033]地址级别查找模块:对输入的地址关键词在所述Trie树中进行查找,得到标注有所述地址级别的所述地址关键词;
[0034]完整地址获得模块:对所述地址关键词中的标注信息进行解析,得到所述地址关键词对应的所述完整地址。
[0035]可选地,所述装置还包括:
[0036]索引建立模块,用于对所述地址库中的每个所述完整地址建立索引;
[0037]第二存储模块,用于将所述地址库中的每个所述完整地址中的地名信息进行分级别存储;
[0038]映射生成模块,用于生成每个级别的所述地名信息与其所属的所述完整地址的索引的映射。
[0039]可选地,所述第一地址存储模块包括:
[0040]第一字符插入子模块,用于将所述完整地址从第一个字符开始以字符为单位依次插入所述Trie树的一条路径之中;
[0041]第二字符插入子模块,用于当所述完整地址中的第一个地名信息插入完毕后,将所述完整地址中的第二个地名信息从第一个字符开始以字符为单位依次插入所述Trie树中的另一条路径中;
[0042]第三字符插入子模块,用于当所述第二个地名信息插入完毕之后,按照上述规则依次将所有所述地名信息插入Trie树中进行存储。
[0043]可选地,所述第一地址存储模块还包括:
[0044]第四字符插入子模块,用于在当前地名信息的首字符与之前路径中的首字符相同时,以之前路径中的首字符对应的节点为所述当前地名信息对应路径的根节点,将所述当前地名信息插入Trie树中。
[0045]可选地,所述地址级别查找模块包括:
[0046]路径查找子模块,用于从所述Trie树的根节点开始对所述地址关键词的每个字符进行查找,得到所述地址关键词对应的多条路径;
[0047]第一地址级别获得子模块,用于根据所述多条路径中每条路径上最后一个节点上标注的所述地址级别,确定所述地址关键词中每个所述地名信息的地址级别。
[0048]可选地,所述地址级别查找模块还包括:
[0049]第二地址级别获得子模块,用于当无法在所述Trie树中找到所述地名信息匹配的最短路径时,以所述地址级别以外的标志对所述地名信息进行标注。
[0050]可选地,所述完整地址获得模块包括:
[0051]地址级别确定子模块,用于确定所述地址关键词中的所述每个所述地名信息的地址级别;
[0052]完整地址获得子模块,用于根据每个所述地名信息与其所属完整地址的索引的映射确定所述地名信息所在的所述完整地址,得到多个包含所述地名信息的所述完整地址;
[0053]第一完整地址确定子模块,用于当所述地址关键词包含至少两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文地址补全的方法,所述方法包括:将地址库中的完整地址按照Trie树的结构进行存储;在所述Trie树中的每条路径的最后一个节点上标注该路径的地址级别;对输入的地址关键词在所述Trie树中进行查找,得到标注有所述地址级别的所述地址关键词;对所述地址关键词中的标注信息进行解析,得到所述地址关键词对应的所述完整地址。2.根据权利要求1所述的方法,其特征在于,将地址库中的完整地址按照Trie树的结构进行存储之前,所述方法还包括:对所述地址库中的每个所述完整地址建立索引;将所述地址库中的每个所述完整地址中的地名信息进行分级别存储;生成每个级别的所述地名信息与其所属的所述完整地址的索引的映射。3.根据权利要求1所述的方法,其特征在于,将地址库中的完整地址按照Trie树的结构进行存储,包括:将所述完整地址从第一个字符开始以字符为单位依次插入所述Trie树的一条路径之中;当所述完整地址中的第一个地名信息插入完毕后,将所述完整地址中的第二个地名信息从第一个字符开始以字符为单位依次插入所述Trie树中的另一条路径中;当所述第二个地名信息插入完毕之后,按照上述规则依次将所有所述地名信息插入Trie树中进行存储。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在当前地名信息的首字符与之前路径中的首字符相同时,以之前路径中的首字符对应的节点为所述当前地名信息对应路径的根节点,将所述当前地名信息插入Trie树中。5.根据权利要求1所述的方法,其特征在于,对输入的地名信息在所述Trie树中进行查找,得到标注有所述地址级别的所述地名信息,包括:从所述Trie树的根节点开始对所述地址关键词的每个字符进行查找,得到所述地址关键词对应的多条路径;根据所述多条路径中每条路径上最后一个节点上...

【专利技术属性】
技术研发人员:杨春阳李健武卫东陈明
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1