基于图神经网络的异源兴趣点匹配方法和装置制造方法及图纸

技术编号:33434769 阅读:13 留言:0更新日期:2022-05-19 00:24
本申请涉及一种基于图神经网络的异源兴趣点匹配方法和装置。该方法包括:获取目标地域范围的第一兴趣点集合和第二兴趣点集合,根据第一兴趣点集合构造第一兴趣点图谱,根据第二兴趣点集合构造第二兴趣点图谱;从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对,对该多对初步兴趣点匹配对进行标注,得到多对种子兴趣点匹配对;根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;通过训练好的模型处理第一兴趣点图谱和第二兴趣点图谱,根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。本申请能提高对异源兴趣点的匹配准确性和匹配速度。匹配准确性和匹配速度。匹配准确性和匹配速度。

【技术实现步骤摘要】
基于图神经网络的异源兴趣点匹配方法和装置


[0001]本申请涉及电子地图领域,特别是涉及一种基于图神经网络的异源兴趣点匹配方法、装置、计算机设备和存储介质。

技术介绍

[0002]兴趣点(Point of Interest,简称POI),一般包含名称、地址、经纬度、类别等信息,是网络电子地图的最重要内容,也是互联网位置服务的立足之本。由于互联网上的兴趣点数据来源不一,采集与处理过程各不相同,从而导致了这些数据在空间位置,属性信息以及丰富程度上存在着一定的差异,因此如何有效地消除数据间的不一致性,并把它们组织成一套内容准确,可供用户使用的数据成为了当前研究的热点。
[0003]兴趣点匹配是找出异源数据中表述不同,但对应现实世界中同一兴趣点关系的过程。将不同来源的兴趣点数据,通过匹配的方法,将各自的信息进行融合后,可以丰富兴趣点数据的信息以及消除数据间的不一致性。
[0004]目前,异源兴趣点匹配的方案主要有以下几种:
[0005]1、基于无监督计算相似度方案:
[0006]从两个异源兴趣点数据中,分别抽取兴趣点,计算这两个兴趣点的名称文本相似度,地址文本相似度,相似度算法包括编辑距离、TF

IDF(term frequency

inverse document frequency)等,将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度,作为两个兴趣点之间的相似度得分,当得分高于某个阈值的时候,就可认为两个兴趣点具有匹配关系,从而对异源兴趣点数据进行匹配。
[0007]2、基于传统机器学习模型文本匹配方案:
[0008]从两个异源兴趣点数据当中,抽取具有匹配关系的兴趣点对来作为训练数据,通过计算兴趣点对的名称文本相似度,物理距离,类别相似度等来构造特征,使用传统机器学习如梯度提升决策树GBDT、Xgboost等方法训练一个文本匹配模型,来判断两个兴趣点是否具有匹配关系,从而对异源兴趣点数据进行匹配。
[0009]3、基于预训练深度学习模型文本匹配方案:
[0010]将具有匹配关系的兴趣点对作为训练数据,在目前常用的预训练深度模型,如BERT(Bidirectional Encoder Representation from Transformers)、A LBERT(A Lite BERT)等进行微调,训练一个文本匹配模型,来判断两个兴趣点是否具有匹配关系。
[0011]专利技术人发现上述方案在实际应用时均存在一些缺点。
[0012]比如,上述方案1的缺点:
[0013](1)基于无监督相似度得分方法,对于两个兴趣点真实具有匹配关系,但是文本上差异较大的场景,匹配效果较差。
[0014](2)对于两个兴趣点虽然文本上很接近,但是实际上并不具有匹配关系的数据会造成误匹配
[0015](3)相似度得分的阈值不太好设定
[0016]上述方案2的缺点:
[0017](1)需要进行大量的特征工程工作去构造特征,过程比较繁琐。
[0018](2)模型较浅,表达能力有限,文本匹配效果天花板较低。
[0019](3)匹配过程是一对一的兴趣点进行匹配,然后再遍历所有数据从整体上进行匹配,匹配效率较低,不能在整体数据层面直接进行匹配。
[0020](4)这个方法假设兴趣点之间相互独立,然而实际兴趣点之间是有一定空间位置关系的,所以没有使用到兴趣点之间的关系信息做匹配,利用信息较少,效果不好。
[0021]上述方案3的缺点:
[0022](1)预训练深度模型一般都是输入纯文本信息,对非文本特征兼容性较差。
[0023](2)预训练深度模型同传统机器学习模型一样,匹配过程是一对一的兴趣点进行匹配,然后再遍历所有数据从整体上进行匹配,匹配效率较低,不能在整体数据层面直接进行匹配。
[0024](3)这个方法假设兴趣点之间相互独立,然而实际兴趣点之间是有一定空间位置关系的,所以没有使用到兴趣点之间的关系信息做匹配,利用信息较少,效果不好。

技术实现思路

[0025]本申请针对上述不足或缺点,提供了一种基于图神经网络的异源兴趣点匹配方法、装置、计算机设备和存储介质,本申请实施例能够提高对异源兴趣点的匹配准确性和匹配速度。
[0026]本申请根据第一方面提供了一种基于图神经网络的异源兴趣点匹配方法,在一个实施例中,该方法包括:
[0027]获取目标地域范围的第一兴趣点集合和第二兴趣点集合,根据第一兴趣点集合构造第一兴趣点图谱,根据第二兴趣点集合构造第二兴趣点图谱;第一兴趣点集合和第二兴趣点集合为异源数据;
[0028]从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对,对该多对初步兴趣点匹配对进行标注,得到多对种子兴趣点匹配对;
[0029]根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;
[0030]通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱,根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。
[0031]在一个实施例中,根据第一兴趣点集合构造第一兴趣点图谱,包括:
[0032]获取第一兴趣点集合中每个兴趣点的地理位置信息;
[0033]根据第一兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;
[0034]根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到第一兴趣点图谱;
[0035]根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,包括:
[0036]当第一兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时,确定该任意两
个兴趣点之间形成边关系,将该任意两个兴趣点之间的边的权重设置为1;
[0037]当第一兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时,确定该任意两个兴趣点之间不形成边关系,将该任意两个兴趣点之间的边的权重设置为0。
[0038]在一个实施例中,根据第二兴趣点集合构造第二兴趣点图谱,包括:
[0039]获取第二兴趣点集合中每个兴趣点的地理位置信息;
[0040]根据第二兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;
[0041]根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到第二兴趣点图谱;
[0042]根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,包括:
[0043]当第二兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时,确定该任意两个兴趣点之间形成边关系,将该任意两个兴趣点之间的边的权重设置为1;
[0044]当第二兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时,确定该任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的异源兴趣点匹配方法,其特征在于,所述方法包括:获取目标地域范围的第一兴趣点集合和第二兴趣点集合,根据所述第一兴趣点集合构造第一兴趣点图谱,根据所述第二兴趣点集合构造第二兴趣点图谱;所述第一兴趣点集合和所述第二兴趣点集合为异源数据;从所述第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对,对所述多对初步兴趣点匹配对进行标注,得到多对种子兴趣点匹配对;根据所述第一兴趣点图谱、所述第二兴趣点图谱和所述多对种子兴趣点匹配对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;通过所述训练好的图神经网络模型处理所述第一兴趣点图谱和所述第二兴趣点图谱,根据处理结果确定所述第一兴趣点集合和所述第二兴趣点集合中的所有兴趣点匹配对。2.如权利要求1所述的方法,其特征在于,所述根据所述第一兴趣点集合构造第一兴趣点图谱,包括:获取所述第一兴趣点集合中每个兴趣点的地理位置信息;根据所述第一兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;根据所述第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到第一兴趣点图谱;所述根据所述第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,包括:当所述第一兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时,确定该任意两个兴趣点之间形成边关系,将该任意两个兴趣点之间的边的权重设置为1;当所述第一兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时,确定该任意两个兴趣点之间不形成边关系,将该任意两个兴趣点之间的边的权重设置为0。3.如权利要求1所述的方法,其特征在于,所述根据所述第二兴趣点集合构造第二兴趣点图谱,包括:获取所述第二兴趣点集合中每个兴趣点的地理位置信息;根据所述第二兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;根据所述第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到第二兴趣点图谱;所述根据所述第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,包括:当所述第二兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时,确定该任意两个兴趣点之间形成边关系,将该任意两个兴趣点之间的边的权重设置为1;当所述第二兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时,确定该任意两个兴趣点之间不形成边关系,将该任意两个兴趣点之间的边的权重设置为0。4.如权利要求1所述的方法,其特征在于,所述图神经网络模型的任意一次训练过程包括:将所述第一兴趣点图谱和所述第二兴趣点图谱的邻接矩阵和节点属性特征矩阵分别
输入图神经网络模型,得到所述图神经网络模型的输出数据,所述输出数据包括所述第一兴趣点图谱和所述第二兴趣点图谱中每个兴趣点的嵌入;从所述多对种子兴趣点匹配对中确定用于本次训练的目标种子兴趣点匹配对,将所述目标种子兴趣点匹配对作为本次训练的正匹配对,并根据所述目标种子兴趣点匹配对构造本次训练的负匹配对;从所述输出数据中获取所述正匹配对的嵌入和所述负匹配对的嵌入,根据所述正匹配对的嵌入和所述负匹配对的嵌入计算本次训练的损失;根据所述损失判断是否满足停止训练条件;若满足,停止训练,将所述图神经网络模型作为训练好的图神经网络模型;若不满足,根据所述损失更新所述图神经网络模型的网络参数,并对更新后的图神经网络模型进行下一次训练。5.如权利要求1所述的方法,其特征在于,所述通过所述训练好的图神经网络模型处理所述...

【专利技术属性】
技术研发人员:赵斌伟王乐武东旭强成仓石立臣
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1