地址解析方法、地址解析设备以及计算机可读存储介质技术

技术编号:37471335 阅读:15 留言:0更新日期:2023-05-06 09:52
本申请实施例公开了一种地址解析方法、地址解析设备以及计算机可读存储介质,用于在提高地址解析的准确性的情况下,进行地址解析。本申请实施例方法包括:获得待解析地址,基于预设行政区划词库,对待解析地址进行N个行政区划级别的行政区划分词处理,得到待解析地址的各个行政区划级别的目标行政区划词,基于预设索引数据库确定目标行政区划词对应的行政区划文档,若行政区划文档的个数大于1,则对每个行政区划文档进行权重计算,得到每个行政区划文档对应的目标权重值,基于每个行政区划文档对应的目标权重值确定目标行政区划文档,并将目标行政区划文档确定为待解析地址对应的地址解析结果。地址解析结果。地址解析结果。

【技术实现步骤摘要】
地址解析方法、地址解析设备以及计算机可读存储介质


[0001]本申请实施例涉及地址解析领域,更具体的,是地址解析方法、地址解析设备以及计算机可读存储介质。

技术介绍

[0002]随着科技的不断发展,地理信息位置服务中需要确定输入地址对应的行政区划地址,因此,需要进行地址解析。
[0003]现有的地址解析方法是,先获得待解析地址,然后确定待解析地址的关键词,接着基于关键词的精确或模糊匹配方法,在预设数据库中匹配出关键词对应的地址解析结果。
[0004]但是,当待解析地址的详细地址中的描述中包括行政区划信息时,地址解析往往会出现错误,比如,当用户在互联网上查找“深圳南山哈尔滨工业大学”时,期望的结果应该是返回“广东省深圳市南山区”,但是这种地址解析方法可能会返回“广东省深圳市南山区”或“黑龙江省哈尔滨市”,因此,地址解析的准确性较低。

技术实现思路

[0005]本申请实施例提供了一种地址解析方法、地址解析设备以及计算机可读存储介质,用于在提高地址解析的准确性的情况下,进行地址解析。
[0006]第一方面,本申请实施例提供了一种地址解析方法,包括:
[0007]获得待解析地址;
[0008]基于预设行政区划词库,对所述待解析地址进行N个行政区划级别的行政区划分词处理,得到所述待解析地址的各个行政区划级别的目标行政区划词;所述N为大于或等于1的整数;
[0009]基于预设索引数据库确定所述目标行政区划词对应的行政区划文档;其中,所述预设索引数据库包括各个目标行政区划词与各个行政区划文档的映射关系;
[0010]若所述行政区划文档的个数大于1,则对每个所述行政区划文档进行权重计算,得到每个所述行政区划文档对应的目标权重值;
[0011]基于每个所述行政区划文档对应的目标权重值确定目标行政区划文档,并将所述目标行政区划文档确定为所述待解析地址对应的地址解析结果。
[0012]可选的,所述对每个所述行政区划文档进行权重计算,得到每个所述行政区划文档对应的目标权重值,包括:
[0013]针对每个所述行政区划文档,按照预设权重计算规则,分别计算所述行政区划文档中每个行政区划级别对应的行政区划词在各个预设维度的权重值;
[0014]将每个所述行政区划级别对应的权重值的和作为所述行政区划文档对应的目标权重值。
[0015]可选的,所述目标权重值为目标积分;所述预设维度包括关键词维度、粘词维度和全文匹配维度;所述预设权重计算规则为:
[0016]关键词积分+粘词积分(粘词次数*当前积分)+全文匹配积分=第n行政区划级别的总积分;其中,1≤n≤N;
[0017]其中,所述关键词积分代表所述第n行政区划级别的行政区划词达到与所述待解析地址的关键词匹配标准所得的积分,所述粘词积分代表第n行政区划级别的行政区划词与第n

1行政区划级别的行政区划词紧挨出现所得的积分,所述粘词积分的计算方式为粘词次数*当前积分,所述全文匹配积分代表所述第n行政区划级别的行政区划词与所述待解析地址的命名一致时所得的积分。
[0018]可选的,所述基于每个所述行政区划文档对应的目标权重值确定目标行政区划文档,包括:
[0019]将目标权重值最大的行政区划文档作为第一行政区划文档;
[0020]若所述第一行政区划文档的个数大于1,则对所述待解析地址进行去干扰处理,并基于预设行政区划词库对去干扰处理后的待解析地址进行N个行政区划级别的行政区划分词处理,得到所述去干扰处理后的待解析地址的各个行政区划级别的目标行政区划词;及基于预设索引数据库确定所述去干扰处理后的目标行政区划词对应的行政区划文档;并将所述去干扰处理后的目标行政区划词对应的行政区划文档作为所述目标行政区划文档;
[0021]若所述第一行政区划文档的个数等于1,则将所述第一行政区划文档作为所述目标行政区划文档。
[0022]可选的,所述对所述待解析地址进行去干扰处理,包括:
[0023]基于预设地标库,调用最大匹配算法对所述待解析地址进行地标分词处理,得到目标地标词;其中,所述预设地标库包括各种地标类型的地标词;
[0024]将所述目标地标词从所述待解析地址中去除,得到去除干扰后的待解析地址。
[0025]可选的,所述基于预设行政区划词库,对所述待解析地址进行N个行政区划级别的行政区划分词处理,得到所述待解析地址的各个行政区划级别的目标行政区划词,包括:
[0026]基于预设行政区划词库,调用最大匹配算法对所述待解析地址进行N个行政区划级别的行政区划分词处理,得到所述待解析地址的各个行政区划级别的目标行政区划词。
[0027]可选的,所述基于预设索引数据库确定所述目标行政区划词对应的行政区划文档之后,所述方法还包括:
[0028]若所述行政区划文档的个数等于1,则将所述行政区划文档确定为目标行政区划文档,并将所述目标行政区划文档确定为所述待解析地址对应的地址解析结果。
[0029]可选的,所述基于预设行政区划词库,对所述待解析地址进行N个行政区划级别的行政区划分词处理之前,所述方法还包括:
[0030]获得行政区划文档集合;其中,所述行政区划文档集合包括至少一个行政区划文档;所述行政区划文档包括至少一个行政区划级别的行政区划词;
[0031]基于所述行政区划文档集合获得行政区划词库;其中,所述行政区划词库包括至少一个行政区划词;
[0032]基于所述行政区划文档集合和所述行政区划词库获得索引数据库;所述索引数据库包括各个行政区划词与各个行政区划文档之间的映射关系。
[0033]第二方面,本申请实施例提供了一种地址解析设备,包括:
[0034]获得单元,用于获得待解析地址;
[0035]分词处理单元,用于基于预设行政区划词库,对所述待解析地址进行N个行政区划级别的行政区划分词处理,得到所述待解析地址的各个行政区划级别的目标行政区划词;所述N为大于或等于1的整数;
[0036]确定单元,用于基于预设索引数据库确定所述目标行政区划词对应的行政区划文档;其中,所述预设索引数据库包括各个目标行政区划词与各个行政区划文档的映射关系;
[0037]计算单元,用于若所述行政区划文档的个数大于1,则对每个所述行政区划文档进行权重计算,得到每个所述行政区划文档对应的目标权重值;
[0038]所述确定单元,还用于基于每个所述行政区划文档对应的目标权重值确定目标行政区划文档,并将所述目标行政区划文档确定为所述待解析地址对应的地址解析结果。
[0039]第三方面,本申请实施例提供了一种地址解析设备,包括:
[0040]中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;
[0041]所述存储器为短暂存储存储器或持久存储存储器;
[0042]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述地址解析本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址解析方法,其特征在于,包括:获得待解析地址;基于预设行政区划词库,对所述待解析地址进行N个行政区划级别的行政区划分词处理,得到所述待解析地址的各个行政区划级别的目标行政区划词;所述N为大于或等于1的整数;基于预设索引数据库确定所述目标行政区划词对应的行政区划文档;其中,所述预设索引数据库包括各个目标行政区划词与各个行政区划文档的映射关系;若所述行政区划文档的个数大于1,则对每个所述行政区划文档进行权重计算,得到每个所述行政区划文档对应的目标权重值;基于每个所述行政区划文档对应的目标权重值确定目标行政区划文档,并将所述目标行政区划文档确定为所述待解析地址对应的地址解析结果。2.根据权利要求1所述的方法,其特征在于,所述对每个所述行政区划文档进行权重计算,得到每个所述行政区划文档对应的目标权重值,包括:针对每个所述行政区划文档,按照预设权重计算规则,分别计算所述行政区划文档中每个行政区划级别对应的行政区划词在各个预设维度的权重值;将每个所述行政区划级别对应的权重值的和作为所述行政区划文档对应的目标权重值。3.根据权利要求2所述的方法,其特征在于,所述目标权重值为目标积分;所述预设维度包括关键词维度、粘词维度和全文匹配维度;所述预设权重计算规则为:关键词积分+粘词积分(粘词次数*当前积分)+全文匹配积分=第n行政区划级别的总积分;其中,1≤n≤N;其中,所述关键词积分代表所述第n行政区划级别的行政区划词达到与所述待解析地址的关键词匹配标准所得的积分,所述粘词积分代表第n行政区划级别的行政区划词与第n

1行政区划级别的行政区划词紧挨出现所得的积分,所述粘词积分的计算方式为粘词次数*当前积分,所述全文匹配积分代表所述第n行政区划级别的行政区划词与所述待解析地址的命名一致时所得的积分。4.根据权利要求1所述的方法,其特征在于,所述基于每个所述行政区划文档对应的目标权重值确定目标行政区划文档,包括:将目标权重值最大的行政区划文档作为第一行政区划文档;若所述第一行政区划文档的个数大于1,则对所述待解析地址进行去干扰处理,并基于预设行政区划词库对去干扰处理后的待解析地址进行N个行政区划级别的行政区划分词处理,得到所述去干扰处理后的待解析地址的各个行政区划级别的目标行政区划词;及基于预设索引数据库确定所述去干扰...

【专利技术属性】
技术研发人员:范垂杰
申请(专利权)人:深圳前海百递网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1