【技术实现步骤摘要】
异源门址匹配方法、装置、计算机设备和存储介质
[0001]本申请涉及电子地图领域,特别是涉及一种异源门址匹配方法、装置、计算机设备和存储介质。
技术介绍
[0002]门址是一种地图数据,通常包括街道名称、门牌号码以及经纬度等信息。用户输入门址,地图搜索引擎可以根据用户输入的门址查询到对应的经纬度坐标,并在电子地图中标示出。门址数据是网络电子地图的重要内容,也是互联网位置服务的核心,然而,互联网上的门址数据来源不一,采集与处理过程也各不相同,导致门址数据在空间位置、属性信息以及丰富程度等方面存在一定差异,因而如何有效地消除门址数据间的不一致性,并把它们组织成一套内容准确,可供用户使用的数据成为了当前研究的热点。目前常用的方法将不同来源的门址数据,通过匹配的方法,将各自的信息进行融合后,可以丰富门址数据的信息以及消除数据间的不一致性。
[0003]目前,异源门址匹配的方案主要有以下几种:
[0004]1、基于无监督计算相似度方案:
[0005]从两个异源门址数据中,分别抽取门址,计算这两个门址的名称文本相似度,地址文本相似度,相似度算法包括编辑距离、TF
‑
IDF(term frequency
–
inverse document frequency)等,将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度,作为两个门址之间的相似度得分,当得分高于某个阈值的时候,就可认为两个门址具有匹配关系,从而对异源门址数据进行匹配。
[0006 ...
【技术保护点】
【技术特征摘要】
1.一种门址异源门址匹配方法,其特征在于,所述方法包括:获取目标地域范围的第一门址集合,根据所述第一门址集合构造第一门址图数据结构;获取目标地域范围的第二门址集合,根据所述第二门址集合构造第二门址图数据结构;所述第一门址集合中的任一门址与所述第二门址集合中的任一门址不同源;从所述第一门址集合和第二门址集合中筛选出多个门址匹配对,为每个门址匹配对打标,得到对应的样本门址匹配对;使用所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型;通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构,根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对。2.如权利要求1所述的方法,其特征在于,所述根据所述第一门址集合构造第一门址图数据结构,包括:对所述第一门址集合中的门址进行两两配对,得到多个第一门址对;根据每个第一门址对的地理位置信息计算每个第一门址对的距离,所述第一门址对的距离是指所述第一门址对中包括的两个门址之间的距离;根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第一门址图数据结构;所述根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重,包括:当所述第一门址集合中任意两个门址之间的距离小于第一预设阈值时,确定该任意两个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;当所述第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时,确定该任意两个门址之间不形成边关系,将该任意两个门址之间的边的权重设置为0。3.如权利要求1所述的方法,其特征在于,所述根据所述第二门址集合构造第二门址图数据结构,包括:对所述第二门址集合中的门址进行两两配对,得到多个第二门址对;根据每个第二门址对的地理位置信息计算每个第二门址对的距离,所述第二门址对的距离是指所述第二门址对中包括的两个门址之间的距离;根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,得到基于地理位置信息的第二门址图数据结构;所述根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重,包括:当所述第二门址集合中任意两个门址之间的距离小于第二预设阈值时,确定该任意两个门址之间形成边关系,将该任意两个门址之间的边的权重设置为1;当所述第二门址集合中任意两个门址之间的距离大于等于第二预设阈值时,确定该任意两个门址之间不形成边关系,将该任意两个门址之间的边的权重设置为0。4.如权利要求1所述的方法,其特征在于,所述使用所述第一门址图数据结构、所述第
二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型,得到训练好的门址匹配模型,包括:构建门址匹配模型,所述门址匹配模型是图神经网络模型;所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练所述门址匹配模型,在满足预设结束训练条件时,获得训练好的门址匹配模型;其中,对所述门址匹配模型的每次训练过程包括:获取所述第一门址图数据结构和所述第二门址图数据结构的邻接矩阵和节点属性特征矩阵,并输入所述门址匹配模型,得到所述门址匹配模型的输出数据,所述输出数据包括所述第一门址图数据结构和所述第二门址图数据结构中每个门址的嵌入;从所述多个样本门址匹配对中确定用于本次训练的目标样本门址匹配对,将所述目标样本门址匹配对作为正匹配对,并根据所述目标样本门址匹配对构造对应的负匹配对;从所述输出数据中获取所述正匹配对的嵌入和所述负匹配对的嵌入,根据所述正匹配对的嵌入和所述负匹配对的嵌入计算本次训练的损失;根据所述损失判断是否满足停止训练条件;在判定满足时,结束训练,将本次训练好的所述门址匹配模型作为训练好的门址匹配模型;在判定不满足...
【专利技术属性】
技术研发人员:赵斌伟,王乐,武东旭,强成仓,石立臣,
申请(专利权)人:深圳依时货拉拉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。