地址匹配方法、终端设备以及计算机存储介质组成比例

技术编号:38053463 阅读:9 留言:0更新日期:2023-06-30 11:19
本申请公开了一种地址匹配方法、终端设备以及计算机存储介质,该地址匹配方法包括:获取待匹配的地址;将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量;利用待匹配句向量与多个基准地址对应的句向量得到语义相似度;以及利用待匹配的地址与多个基准地址得到字面相似度;基于语义相似度和字面相似度,从多个基准地址中确定出与待匹配的地址匹配的目标地址。本申请的地址匹配方法通过结合待匹配地址与基准地址的语义相似度和字面相似度确定出了目标地址,提升地址匹配的准确性。配的准确性。配的准确性。

【技术实现步骤摘要】
地址匹配方法、终端设备以及计算机存储介质


[0001]本申请涉及自然语言处理
,特别是涉及一种地址匹配方法、终端设备以及计算机存储介质。

技术介绍

[0002]地址是社会发展中必不可少的地理信息资源,与人们的日常活动密切相关。而随着信息技术的发展,数据的存储、分析、共享相关的技术都不断开拓提升,使得地址在医疗、公安等许多行业中的重要应用价值进一步彰显。地址匹配是地理信息数据处理领域中受到广泛关注的一个问题。地址匹配是指将待检索的非结构化的地址通过一定的技术与地址底库中存有的数据进行匹配,进而将其转化为空间地理坐标信息,便于在地图上进行定位。
[0003]相关技术中地址匹配的方式准确性较低。

技术实现思路

[0004]本申请提供一种地址匹配方法、终端设备以及计算机存储介质。
[0005]本申请采用的一个技术方案是提供一种地址匹配方法,地址匹配方法包括:
[0006]获取待匹配的地址;
[0007]将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量;
[0008]利用待匹配句向量与多个基准地址对应的句向量得到语义相似度;以及利用待匹配的地址与多个基准地址得到字面相似度;
[0009]基于语义相似度和字面相似度,从多个基准地址中确定出与待匹配的地址匹配的目标地址。
[0010]其中,利用待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
[0011]利用待匹配句向量分别与多个基准地址对应的句向量进行余弦相似度计算,得到多个余弦相似度,并将余弦相似度作为语义相似度。
[0012]其中,利用待匹配的地址与多个基准地址得到字面相似度,包括:
[0013]利用待匹配的地址分别与多个基准地址进行编辑距离相似度计算,得到多个编辑距离相似度,并将编辑距离相似度作为字面相似度。
[0014]其中,基于语义相似度和字面相似度,从多个基准地址中确定出与待匹配的地址匹配的目标地址,包括:
[0015]确定每一基准地址对应的和值,和值为基准地址对应的余弦相似度与编辑距离相似度之和;
[0016]将最大和值对应的基准地址作为与待匹配的地址匹配的目标地址。
[0017]其中,将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量之前,包括:
[0018]对待匹配的地址按照行政区划分,至少得到目标行政区和详细地址;
[0019]将待匹配的地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量,包括:
[0020]将详细地址输入至地址匹配模型中,得到待匹配的地址对应的待匹配句向量。
[0021]其中,利用待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:
[0022]利用目标行政区对多个基准地址进行筛选,得到筛选后的基准地址;
[0023]利用待匹配句向量与筛选后的基准地址对应的句向量得到语义相似度;
[0024]利用待匹配的地址与多个基准地址得到字面相似度,包括:
[0025]利用详细地址与筛选后的基准地址中的详细地址得到字面相似度。
[0026]其中,获取待匹配的地址之前,包括:
[0027]获取地址匹配训练样本;训练样本包括第一样本、第二样本和第三样本;其中,第一样本和第二样本匹配,第一样本和第三样本不匹配;
[0028]基于地址匹配训练样本对地址匹配模型进行训练,得到训练后的地址匹配模型。
[0029]其中,获取地址匹配训练样本,包括:
[0030]获取多个原始待处理地址;
[0031]对每一原始待处理地址按照行政区划分,至少得到目标行政区和详细地址;
[0032]按照目标行政区进行合并,得到对应的详细地址集合;
[0033]在详细地址集合中确定出目标详细地址与其余详细地址的编辑距离相似度;将编辑距离相似度大于预设值的其余详细地址作为待处理详细地址;和/或在详细地址集合中确定出目标详细地址具有相同关键词的其余详细地址;将其余详细地址作为待处理详细地址;
[0034]响应于待处理详细地址和目标详细地址存在同一地点时,将目标详细地址作为第一样本,待处理详细地址作为第二样本,将任一不同地点的其余详细地址作为第三样本。
[0035]本申请采用的另一个技术方案是提供一种终端设备,终端设备包括存储器以及与存储器连接的处理器;
[0036]其中,存储器用于存储程序数据,处理器用于执行程序数据以实现如上述的地址匹配方法。
[0037]本申请采用的另一个技术方案是提供一种计算机存储介质,计算机存储介质用于存储程序数据,程序数据在被计算机执行时,用以实现如上述的地址匹配方法。
[0038]本申请的有益效果是:在地址匹配的过程中考虑了待匹配地址和多个目标地址在语义和字面上的相似性,结合语义相似度和字面相似度得到了地址匹配结果,提升地址匹配的准确性。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本申请提供的地址匹配方法一实施例的流程示意图;
[0041]图2是本申请提供的地址匹配方法另一实施例的流程示意图;
[0042]图3是本申请提出的地址匹配模型一实施例的结构示意图;
[0043]图4是本申请提供的地址匹配方法又一实施例的流程示意图;
[0044]图5是本申请提供的终端设备一实施例的结构示意图;
[0045]图6是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
[0046]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0047]在申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0048]本申请实施例中的步骤并不一定是按照所描述的步骤顺序进行处理,可以按照需求有选择的将步骤打乱重排,或者删除实施例中的步骤,或者增加实施例中的步骤,本申请实施例中的步骤描述只是可选的顺序组合,并不代表本申请实施例的所有步骤顺序组合,实施例中的步骤顺序不能认为是对本申请的限制。
[0049]本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址匹配方法,其特征在于,所述方法包括:获取待匹配的地址;将所述待匹配的地址输入至地址匹配模型中,得到所述待匹配的地址对应的待匹配句向量;利用所述待匹配句向量与多个基准地址对应的句向量得到语义相似度;以及利用所述待匹配的地址与多个基准地址得到字面相似度;基于所述语义相似度和所述字面相似度,从所述多个基准地址中确定出与所述待匹配的地址匹配的目标地址。2.根据权利要求1所述的方法,其特征在于,所述利用所述待匹配句向量与多个基准地址对应的句向量得到语义相似度,包括:利用所述待匹配句向量分别与多个基准地址对应的句向量进行余弦相似度计算,得到多个余弦相似度,并将所述余弦相似度作为所述语义相似度。3.根据权利要求2所述的方法,其特征在于,所述利用所述待匹配的地址与多个基准地址得到字面相似度,包括:利用所述待匹配的地址分别与多个基准地址进行编辑距离相似度计算,得到多个编辑距离相似度,并将所述编辑距离相似度作为所述字面相似度。4.根据权利要求3所述的方法,其特征在于,所述基于所述语义相似度和所述字面相似度,从所述多个基准地址中确定出与所述待匹配的地址匹配的目标地址,包括:确定每一基准地址对应的和值,所述和值为所述基准地址对应的所述余弦相似度与所述编辑距离相似度之和;将最大和值对应的基准地址作为与待匹配的地址匹配的目标地址。5.根据权利要求1所述的方法,其特征在于,所述将所述待匹配的地址输入至地址匹配模型中,得到所述待匹配的地址对应的待匹配句向量之前,包括:对所述待匹配的地址按照行政区划分,至少得到目标行政区和详细地址;所述将所述待匹配的地址输入至地址匹配模型中,得到所述待匹配的地址对应的待匹配句向量,包括:将所述详细地址输入至地址匹配模型中,得到所述待匹配的地址对应的待匹配句向量。6.根据权利要求5所述的方法,其特征在于,所述利用所述待匹配句向量与...

【专利技术属性】
技术研发人员:陈丽红刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1