异源门址匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34143228 阅读:17 留言:0更新日期:2022-07-14 18:20
本申请涉及一种异源门址匹配方法和装置。该方法包括:获取目标地域范围的第一门址集合,根据第一门址集合构造第一门址图数据结构;获取目标地域范围的第二门址集合,根据第二门址集合构造第二门址图数据结构;从第一门址集合和第二门址集合中筛选出多个门址匹配对,为每个门址匹配对打标,得到对应的样本门址匹配对;使用第一门址图数据结构、第二门址图数据结构和上述多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型;通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构,根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。本申请能更准确更快速地识别出不同源门址。源门址。源门址。

Heterogeneous gate address matching method, device, computer equipment and storage medium

【技术实现步骤摘要】
异源门址匹配方法、装置、计算机设备和存储介质


[0001]本申请涉及电子地图领域,特别是涉及一种异源门址匹配方法、装置、计算机设备和存储介质。

技术介绍

[0002]门址是一种地图数据,通常包括街道名称、门牌号码以及经纬度等信息。用户输入门址,地图搜索引擎可以根据用户输入的门址查询到对应的经纬度坐标,并在电子地图中标示出。门址数据是网络电子地图的重要内容,也是互联网位置服务的核心,然而,互联网上的门址数据来源不一,采集与处理过程也各不相同,导致门址数据在空间位置、属性信息以及丰富程度等方面存在一定差异,因而如何有效地消除门址数据间的不一致性,并把它们组织成一套内容准确,可供用户使用的数据成为了当前研究的热点。目前常用的方法将不同来源的门址数据,通过匹配的方法,将各自的信息进行融合后,可以丰富门址数据的信息以及消除数据间的不一致性。
[0003]目前,异源门址匹配的方案主要有以下几种:
[0004]1、基于无监督计算相似度方案:
[0005]从两个异源门址数据中,分别抽取门址,计算这两个门址的名称文本相似度,地址文本相似度,相似度算法包括编辑距离、TF

IDF(term frequency

inverse document frequency)等,将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度,作为两个门址之间的相似度得分,当得分高于某个阈值的时候,就可认为两个门址具有匹配关系,从而对异源门址数据进行匹配。
[0006]2、基于传统机器学习模型文本匹配方案:
[0007]从两个异源门址数据当中,抽取具有匹配关系的门址对来作为训练数据,通过计算门址对的名称文本相似度,物理距离,类别相似度等来构造特征,使用传统机器学习如梯度提升决策树GBDT、Xgboost等方法训练一个文本匹配模型,来判断两个门址是否具有匹配关系,从而对异源门址数据进行匹配。
[0008]3、基于预训练深度学习模型文本匹配方案:
[0009]将具有匹配关系的门址对作为训练数据,在目前常用的预训练深度模型,如BERT(Bidirectional Encoder Representation from Transformers)、ALBERT(A Lite BERT)等进行微调,训练一个文本匹配模型,来判断两个门址是否具有匹配关系。
[0010]专利技术人发现上述方案在实际应用时均存在一些缺点。
[0011]比如,上述方案1的缺点:
[0012](1)基于无监督相似度得分方法,对于两个门址真实具有匹配关系,但是文本上差异较大的场景,匹配效果较差。
[0013](2)对于两个门址虽然文本上很接近,但是实际上并不具有匹配关系的数据会造成误匹配
[0014](3)相似度得分的阈值不太好设定
[0015]上述方案2的缺点:
[0016](1)需要进行大量的特征工程工作去构造特征,过程比较繁琐。
[0017](2)模型较浅,表达能力有限,文本匹配效果天花板较低。
[0018](3)匹配过程是一对一的门址进行匹配,然后再遍历所有数据从整体上进行匹配,匹配效率较低,不能在整体数据层面直接进行匹配。
[0019](4)这个方法假设门址之间相互独立,然而实际门址之间是有一定空间位置关系的,所以没有使用到门址之间的关系信息做匹配,利用信息较少,效果不好。
[0020]上述方案3的缺点:
[0021](1)预训练深度模型一般都是输入纯文本信息,对非文本特征兼容性较差。
[0022](2)预训练深度模型同传统机器学习模型一样,匹配过程是一对一的门址进行匹配,然后再遍历所有数据从整体上进行匹配,匹配效率较低,不能在整体数据层面直接进行匹配。
[0023](3)这个方法假设门址之间相互独立,然而实际门址之间是有一定空间位置关系的,所以没有使用到门址之间的关系信息做匹配,利用信息较少,效果不好。

技术实现思路

[0024]本申请针对上述不足或缺点,提供了一种异源门址匹配方法、装置、计算机设备和存储介质,本申请实施例能够提高对异源门址的匹配准确性和匹配速度。
[0025]本申请根据第一方面提供了一种异源门址匹配方法,在一个实施例中,该方法包括:
[0026]获取目标地域范围的第一门址集合,根据第一门址集合构造第一门址图数据结构;
[0027]获取目标地域范围的第二门址集合,根据第二门址集合构造第二门址图数据结构;第一门址集合中的任一门址与第二门址集合中的任一门址不同源;
[0028]从第一门址集合和第二门址集合中筛选出多个门址匹配对,为每个门址匹配对打标,得到对应的样本门址匹配对;
[0029]使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型;
[0030]通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构,根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。
[0031]在一个实施例中,根据第一门址集合构造第一门址图数据结构,包括:
[0032]对第一门址集合中的门址进行两两配对,得到多个第一门址对;
[0033]根据每个第一门址对的地理位置信息计算每个第一门址对的距离,第一门址对的距离是指第一门址对中包括的两个门址之间的距离;
[0034]根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第一门址图数据结构;
[0035]根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,包括:
[0036]当第一门址集合中任意两个门址之间的距离小于第一预设阈值时,确定该任意两
个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;
[0037]当第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时,确定该任意两个门址之间不形成边关系,将该任意两个门址之间的边的权重设置为0。
[0038]在一个实施例中,根据第二门址集合构造第二门址图数据结构,包括:
[0039]对第二门址集合中的门址进行两两配对,得到多个第二门址对;
[0040]根据每个第二门址对的地理位置信息计算每个第二门址对的距离,第二门址对的距离是指第二门址对中包括的两个门址之间的距离;
[0041]根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第二门址图数据结构;
[0042]根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,包括:
[0043]当第二门址集合中任意两个门址之间的距离小于第二预设阈值时,确定该任意两个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;
[0044]当第二门址集合中任意两个门址之间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种门址异源门址匹配方法,其特征在于,所述方法包括:获取目标地域范围的第一门址集合,根据所述第一门址集合构造第一门址图数据结构;获取目标地域范围的第二门址集合,根据所述第二门址集合构造第二门址图数据结构;所述第一门址集合中的任一门址与所述第二门址集合中的任一门址不同源;从所述第一门址集合和第二门址集合中筛选出多个门址匹配对,为每个门址匹配对打标,得到对应的样本门址匹配对;使用所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型;通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构,根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对。2.如权利要求1所述的方法,其特征在于,所述根据所述第一门址集合构造第一门址图数据结构,包括:对所述第一门址集合中的门址进行两两配对,得到多个第一门址对;根据每个第一门址对的地理位置信息计算每个第一门址对的距离,所述第一门址对的距离是指所述第一门址对中包括的两个门址之间的距离;根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第一门址图数据结构;所述根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,包括:当所述第一门址集合中任意两个门址之间的距离小于第一预设阈值时,确定该任意两个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;当所述第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时,确定该任意两个门址之间不形成边关系,将该任意两个门址之间的边的权重设置为0。3.如权利要求1所述的方法,其特征在于,所述根据所述第二门址集合构造第二门址图数据结构,包括:对所述第二门址集合中的门址进行两两配对,得到多个第二门址对;根据每个第二门址对的地理位置信息计算每个第二门址对的距离,所述第二门址对的距离是指所述第二门址对中包括的两个门址之间的距离;根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第二门址图数据结构;所述根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,包括:当所述第二门址集合中任意两个门址之间的距离小于第二预设阈值时,确定该任意两个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;当所述第二门址集合中任意两个门址之间的距离大于等于第二预设阈值时,确定该任意两个门址之间不形成边关系,将该任意两个门址之间的边的权重设置为0。4.如权利要求1所述的方法,其特征在于,所述使用所述第一门址图数据结构、所述第
二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型,包括:构建门址匹配模型,所述门址匹配模型是图神经网络模型;所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练所述门址匹配模型,在满足预设结束训练条件时,获得训练好的门址匹配模型;其中,对所述门址匹配模型的每次训练过程包括:获取所述第一门址图数据结构和所述第二门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入所述门址匹配模型,得到所述门址匹配模型的输出数据,所述输出数据包括所述第一门址图数据结构和所述第二门址图数据结构中每个门址的嵌入;从所述多个样本门址匹配对中确定用于本次训练的目标样本门址匹配对,将所述目标样本门址匹配对作为正匹配对,并根据所述目标样本门址匹配对构造对应的负匹配对;从所述输出数据中获取所述正匹配对的嵌入和所述负匹配对的嵌入,根据所述正匹配对的嵌入和所述负匹配对的嵌入计算本次训练的损失;根据所述损失判断是否满足停止训练条件;在判定满足时,结束训练,将本次训练好的所述门址匹配模型作为训练好的门址匹配模型;在判定不满足...

【专利技术属性】
技术研发人员:赵斌伟王乐武东旭强成仓石立臣
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1