门址去重方法、装置、设备和存储介质制造方法及图纸

技术编号:34274069 阅读:13 留言:0更新日期:2022-07-24 16:43
本申请涉及一种门址去重方法、装置、计算机设备和存储介质。所述方法包括:获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;在所述获取的门址中选出全部门址重复对,为所述全部门址重复对打标,获得多个用于训练的样本门址重复对;使用所述门址图数据结构和所述多个样本门址重复对训练门址去重模型;使用训练好的门址去重模型处理所述门址图数据结构,得到处理结果;根据所述处理结果确定所述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。本申请实施例能够提升门址去重的效率。率。率。

Door address de duplication method, device, equipment and storage medium

【技术实现步骤摘要】
门址去重方法、装置、设备和存储介质


[0001]本申请涉及电子地图领域,特别是涉及一种门址去重方法、装置、计算机设备和存储介质。

技术介绍

[0002]门址是地图数据中的一种,通常包括街道名称、门牌号码以及经纬度等信息。用户通过输入门址,地图搜索引擎根据用户输入的门址即可查询到对应的经纬度坐标,并在电子地图中标示出。
[0003]由于互联网上的门址中存在大量重复冗余数据,用户使用地图服务的时候,会严重影响其体验效果。因此,如何在保证数据全面丰富的基础上,去除重复的数据成为亟需解决的问题。
[0004]门址去重是找出重复冗余的数据,虽然两个门址在文本描述上可能不同,但可能对应现实世界中同一门址数据。以往进行门址去重时,常是基于相似性函数的特征判重方法,如利用文本相似性,通过计算门址对名称的编辑距离来判断是否为同一门址。然而,这种去重方式效率不高,比如,假如两个门址是重复数据,但是两个门址的文本描述差异较大,这种情况下,上述方式的去重效果不佳。

技术实现思路

[0005]本申请针对上述不足或缺点,提供了一种门址去重方法、装置、计算机设备和存储介质,本申请实施例能够提升门址去重的效率。
[0006]本申请根据第一方面提供了一种门址去重方法,在一个实施例中,该方法包括:
[0007]获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;
[0008]在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对;r/>[0009]使用门址图数据结构和上述多个样本门址重复对训练门址去重模型;
[0010]使用训练好的门址去重模型处理门址图数据结构,得到处理结果;
[0011]根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
[0012]在一个实施例中,使用门址图数据结构和上述多个样本门址重复对训练门址去重模型,包括:
[0013]构建门址去重模型,门址去重模型是图神经网络模型;
[0014]使用门址图数据结构和上述多个样本门址重复对迭代训练门址去重模型,在满足预设结束训练条件时,获得训练好的门址去重模型;
[0015]其中,对门址去重模型的每次训练过程包括:
[0016]获取门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入门址去重模型,获
取门址去重模型的输出数据,输出数据包括上述获取的门址中的每个门址的嵌入;
[0017]从上述多个样本门址重复对中获取用于本次训练的目标样本门址重复对,将目标样本门址重复对作为正重复对,并根据目标样本门址重复对构造对应的负重复对;
[0018]从输出数据中获取正重复对的嵌入和负重复对的嵌入,根据正重复对的嵌入和负重复对的嵌入计算本次训练的损失;
[0019]根据损失判断是否满足停止预设结束训练条件;
[0020]在判定满足时,结束训练,将本次训练好的门址去重模型作为训练好的门址去重模型;
[0021]在判定不满足时,根据损失更新门址去重模型的网络参数,并对更新过网络参数的门址去重模型进行下一次训练。
[0022]在一个实施例中,使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:
[0023]使用训练好的门址去重模型处理门址图数据结构,得到上述获取的门址中的每个门址的嵌入;
[0024]将上述获取的门址进行两两配对得到多个门址对;
[0025]确定每个门址对的嵌入距离,并将嵌入距离小于预设阈值的门址对确定为门址重复对,其中,每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离。
[0026]在一个实施例中,根据获取的门址构造基于地理位置的门址图数据结构,包括:
[0027]将上述获取的门址进行两两配对得到多个门址对;
[0028]根据每个门址对的地理位置信息计算每个门址对的距离,门址对的距离是指门址对中包括的两个门址之间的距离;
[0029]根据每个门址对的距离确定每个门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的门址图数据结构。
[0030]在一个实施例中,根据任一个门址对的距离确定该门址对中包括的两个门址之间的边的权重,包括:
[0031]当任一个门址对中包括的两个门址之间的距离小于预设阈值时,确定两个门址之间形成边关系,将两个门址之间的边的权重设置为1;
[0032]当任一个门址对中包括的两个门址之间的距离大于等于预设阈值时,确定两个门址之间不形成边关系,将两个门址之间的边的权重设置为0。
[0033]在一个实施例中,门址图数据结构的数量为多个;根据获取的门址构造基于地理位置的门址图数据结构,包括:
[0034]将目标地域范围划分为多个空间网格;
[0035]遍历上述获取的门址中的每个门址的经纬度属性,确定每个空间网格的门址集合;
[0036]根据每个空间网格的门址集合为每个空间网格构造基于地理位置的门址图数据结构。
[0037]在一个实施例中,使用训练好的门址去重模型处理门址图数据结构,得到处理结果,根据处理结果确定上述获取的门址中的每个门址重复对,包括:
[0038]分别将每个空间网格的门址图数据结构输入训练好的门址去重模型,得到每个空
间网格的门址集合中每个门址的嵌入;
[0039]将每个空间网格的门址集合中的门址进行两两配对,得到每个空间网格的门址对集合;
[0040]计算每个空间网格的门址对集合中的每个门址对的嵌入距离;每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离;
[0041]将每个空间网格的门址对集合中的,每个嵌入距离小于预设阈值的门址对确定为门址重复对。
[0042]本申请根据第二方面提供了一种门址去重装置,在一个实施例中,该装置包括:
[0043]构建模块,用于获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;
[0044]样本构造模块,用于在上述获取的门址中选出全部门址重复对,为全部门址重复对打标,获得多个用于训练的样本门址重复对;
[0045]训练模块,用于使用门址图数据结构和上述多个样本门址重复对训练门址去重模型;
[0046]处理模块,用于使用训练好的门址去重模型处理门址图数据结构,得到处理结果;
[0047]删除模块,用于根据处理结果确定上述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。
[0048]本申请根据第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。
[0049]本申请根据第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种门址去重方法,其特征在于,所述方法包括:获取目标地域范围内的每个门址,根据获取的门址构造基于地理位置的门址图数据结构;在所述获取的门址中选出全部门址重复对,为所述全部门址重复对打标,获得多个用于训练的样本门址重复对;使用所述门址图数据结构和所述多个样本门址重复对训练门址去重模型;使用训练好的门址去重模型处理所述门址图数据结构,得到处理结果;根据所述处理结果确定所述获取的门址中的每个门址重复对,并删除每个门址重复对中的任意一个门址。2.如权利要求1所述的方法,其特征在于,所述使用所述门址图数据结构和所述多个样本门址重复对训练门址去重模型,包括:构建门址去重模型,所述门址去重模型是图神经网络模型;使用所述门址图数据结构和所述多个样本门址重复对迭代训练所述门址去重模型,在满足预设结束训练条件时,获得训练好的门址去重模型;其中,对所述门址去重模型的每次训练过程包括:获取所述门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入所述门址去重模型,获取所述门址去重模型的输出数据,所述输出数据包括所述获取的门址中的每个门址的嵌入;从所述多个样本门址重复对中获取用于本次训练的目标样本门址重复对,将所述目标样本门址重复对作为正重复对,并根据所述目标样本门址重复对构造对应的负重复对;从所述输出数据中获取所述正重复对的嵌入和所述负重复对的嵌入,根据所述正重复对的嵌入和所述负重复对的嵌入计算本次训练的损失;根据所述损失判断是否满足停止预设结束训练条件;在判定满足时,结束训练,将本次训练好的所述门址去重模型作为训练好的门址去重模型;在判定不满足时,根据所述损失更新所述门址去重模型的网络参数,并对更新过网络参数的门址去重模型进行下一次训练。3.如权利要求1所述的方法,其特征在于,所述使用训练好的门址去重模型处理所述门址图数据结构,得到处理结果,根据所述处理结果确定所述获取的门址中的每个门址重复对,包括:使用训练好的门址去重模型处理所述门址图数据结构,得到所述获取的门址中的每个门址的嵌入;将所述获取的门址进行两两配对得到多个门址对;确定每个门址对的嵌入距离,并将嵌入距离小于预设阈值的门址对确定为门址重复对,其中,每个门址对的嵌入距离是指每个门址对包括的两个门址的嵌入之间的距离。4.如权利要求1所述的方法,其特征在于,所述根据获取的门址构造基于地理位置的门址图数据结构,包括:将所述获取的门址进行两两配对得到多个门址对;根据每个门址对的地理位置信息计算每个门址对的距离,所述门址对的距离是指所述
门址对中包括的两个门址之间的距离;根据每个门址对的...

【专利技术属性】
技术研发人员:赵斌伟王乐武东旭强成仓石立臣
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1