基于图神经网络的兴趣点去重方法、装置、设备和存储介质制造方法及图纸

技术编号:33434839 阅读:13 留言:0更新日期:2022-05-19 00:24
本申请涉及一种基于图神经网络的兴趣点去重方法、装置、计算机设备和存储介质。所述方法包括:获取待去重的目标地域范围内的全部兴趣点,根据全部兴趣点构造基于地理位置的兴趣点图;从全部兴趣点中筛选出多对兴趣点重复对,对该多对兴趣点重复对进行标注,得到多对种子兴趣点重复对;根据兴趣点图和该多对种子兴趣点重复对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;通过训练好的图神经网络模型处理兴趣点图,根据处理结果确定全部兴趣点中的所有兴趣点重复对;将每个兴趣点重复对中的任意一个兴趣点删除。本申请实施例能够提升兴趣点去重的效果,使其高效、合理、适用面广。适用面广。适用面广。

【技术实现步骤摘要】
基于图神经网络的兴趣点去重方法、装置、设备和存储介质


[0001]本申请涉及电子地图领域,特别是涉及一种基于图神经网络的兴趣点去重方法、装置、计算机设备和存储介质。

技术介绍

[0002]兴趣点(Point of Interest,简称POI),一般包含名称、地址、经纬度、类别等信息,是网络电子地图的最重要内容,也是互联网位置服务的立足之本。由于互联网上的兴趣点中存在大量重复冗余数据,即两个兴趣点在文本描述上可能不同,但可能对应现实世界中同一兴趣点,用户使用地图服务的时候,会严重影响其体验效果。因此,如何在保证数据丰富性的基础上,去除重复的数据,向用户展示更加简洁、纯净的地图兴趣点数据,成为了当前研究的热点。目前常用的方法是通过算法识别出重复的兴趣点,然后将重复的兴趣点从数据库中删除,在提升用户体验的同时还可以节约存储空间及数据维护成本。
[0003]目前,兴趣点数据去重方案主要有以下几种:
[0004]1、基于无监督计算相似度方案
[0005]从目标的兴趣点数据中,依次计算两两兴趣点的名称文本相似度,地址文本相似度,相似度算法包括编辑距离、TF

IDF(term frequency

inversedocument frequency)等,将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度,作为两个兴趣点之间的相似度得分,当得分高于某个阈值的时候,就可认为两个兴趣点是重复的。
[0006]2、基于传统机器学习判重模型方案
[0007]从目标兴趣点数据当中,抽取具有重复关系的兴趣点对来作为训练数据,通过计算兴趣点对的名称文本相似度,类别相似度等来构造特征,使用传统机器学习(GBDT、Xgboost等)方法训练一个判重模型,来判断两个兴趣点是否是重复关系。
[0008]3、基于预训练深度学习判重模型方案
[0009]从目标兴趣点数据当中,抽取具有重复关系的兴趣点对来作为训练数据,在目前常用的预训练深度模型(bert、albert、roberta等)上进行微调,训练一个判重模型,来判断两个兴趣点是否具有重复关系。
[0010]专利技术人发现上述方案在实际应用时均存在一些缺点。
[0011]比如,上述方案1的缺点:
[0012](1)基于无监督相似度得分方法,对于两个兴趣点真实是重复数据,但是文本上差异较大的场景,匹配效果较差。
[0013](2)对于两个兴趣点虽然文本上很接近,但是实际上并不是重复数据会造成误匹配。
[0014](3)相似度得分的阈值不太好设定。
[0015]上述方案2的缺点:
[0016](1)需要进行大量的特征工程工作去构造特征,过程比较繁琐。
[0017](2)模型较浅,表达能力有限,判重效果一般。
[0018](3)这个方法假设兴趣点之间相互独立,然而实际兴趣点之间是有一定空间位置关系的,所以没有使用到兴趣点之间的关系信息去做判重,利用信息较少,效果不好。
[0019]上述方案3的缺点:
[0020](1)预训练深度模型一般都是输入纯文本信息,对非文本特征兼容性较差。
[0021](2)这个方法假设兴趣点之间相互独立,然而实际兴趣点之间是有一定空间位置关系的,所以没有使用到兴趣点之间的关系信息去做判重,利用信息较少,效果不好。

技术实现思路

[0022]本申请针对上述不足或缺点,提供了一种基于图神经网络的兴趣点去重方法、装置、计算机设备和存储介质,本申请实施例能够提升兴趣点去重的效果,使其高效、合理、适用面广。
[0023]本申请根据第一方面提供了一种基于图神经网络的兴趣点去重方法,在一个实施例中,该方法包括:
[0024]获取待去重的目标地域范围内的全部兴趣点,根据全部兴趣点构造基于地理位置的兴趣点图;
[0025]从全部兴趣点中筛选出多对兴趣点重复对,对该多对兴趣点重复对进行标注,得到多对种子兴趣点重复对;
[0026]根据兴趣点图和该多对种子兴趣点重复对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;
[0027]通过训练好的图神经网络模型处理兴趣点图,根据处理结果确定全部兴趣点中的所有兴趣点重复对;
[0028]将每个兴趣点重复对中的任意一个兴趣点删除。
[0029]在一个实施例中,图神经网络模型的任意一次训练过程包括:
[0030]将兴趣点图的邻接矩阵和节点属性特征矩阵输入图神经网络模型,得到图神经网络模型的输出数据,输出数据包括全部兴趣点中每个兴趣点的嵌入;
[0031]从该多对种子兴趣点重复对中确定用于本次训练的目标种子兴趣点重复对,将目标种子兴趣点重复对作为本次训练的正重复对,并根据目标种子兴趣点重复对构造本次训练的负重复对;
[0032]从输出数据中获取正重复对的嵌入和负重复对的嵌入,根据正重复对的嵌入和负重复对的嵌入计算本次训练的损失;
[0033]根据损失判断是否满足停止训练条件;
[0034]若满足,停止训练,将图神经网络模型作为训练好的图神经网络模型;
[0035]若不满足,根据损失更新图神经网络模型的网络参数,并对更新后的图神经网络模型进行下一次训练。
[0036]在一个实施例中,通过训练好的图神经网络模型处理兴趣点图,根据处理结果确定全部兴趣点中的所有兴趣点重复对,包括:
[0037]通过训练好的图神经网络模型处理兴趣点图,得到训练好的图神经网络模型输出的全部兴趣点中的每个兴趣点的嵌入;
[0038]将全部兴趣点进行两两配对得到多个兴趣点对,计算每个兴趣点对的嵌入距离;每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离;
[0039]将每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点重复对。
[0040]在一个实施例中,根据全部兴趣点构造基于地理位置的兴趣点图,包括:
[0041]获取全部兴趣点中每个兴趣点的地理位置信息;
[0042]根据每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;
[0043]根据每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到基于地理位置信息的兴趣点图。
[0044]在一个实施例中,根据每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,包括:
[0045]当任意两个兴趣点之间的距离小于预设阈值时,确定该任意两个兴趣点之间形成边关系,将该任意两个兴趣点之间的边的权重设置为1;
[0046]当任意两个兴趣点之间的距离大于等于预设阈值时,确定该任意两个兴趣点之间不形成边关系,将该任意两个兴趣点之间的边的权重设置为0;
[0047]在一个实施例中,兴趣点图的数量为多个;根据全部兴趣点构造基于地理位置的兴趣点图,包括:
[0048]将目标地域范围划分为多个空间网格;
[0049]遍历全部兴趣点中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的兴趣点去重方法,其特征在于,所述方法包括:获取待去重的目标地域范围内的全部兴趣点,根据所述全部兴趣点构造基于地理位置的兴趣点图;从所述全部兴趣点中筛选出多对兴趣点重复对,对所述多对兴趣点重复对进行标注,得到多对种子兴趣点重复对;根据所述兴趣点图和所述多对种子兴趣点重复对对图神经网络模型进行迭代训练,得到训练好的图神经网络模型;通过所述训练好的图神经网络模型处理所述兴趣点图,根据处理结果确定所述全部兴趣点中的所有兴趣点重复对;将每个兴趣点重复对中的任意一个兴趣点删除。2.如权利要求1所述的方法,其特征在于,所述图神经网络模型的任意一次训练过程包括:将所述兴趣点图的邻接矩阵和节点属性特征矩阵输入图神经网络模型,得到所述图神经网络模型的输出数据,所述输出数据包括所述全部兴趣点中每个兴趣点的嵌入;从所述多对种子兴趣点重复对中确定用于本次训练的目标种子兴趣点重复对,将所述目标种子兴趣点重复对作为本次训练的正重复对,并根据所述目标种子兴趣点重复对构造本次训练的负重复对;从所述输出数据中获取所述正重复对的嵌入和所述负重复对的嵌入,根据所述正重复对的嵌入和所述负重复对的嵌入计算本次训练的损失;根据所述损失判断是否满足停止训练条件;若满足,停止训练,将所述图神经网络模型作为训练好的图神经网络模型;若不满足,根据所述损失更新所述图神经网络模型的网络参数,并对更新后的图神经网络模型进行下一次训练。3.如权利要求1所述的方法,其特征在于,所述通过所述训练好的图神经网络模型处理所述兴趣点图,根据处理结果确定所述全部兴趣点中的所有兴趣点重复对,包括:通过所述训练好的图神经网络模型处理所述兴趣点图,得到所述训练好的图神经网络模型输出的所述全部兴趣点中的每个兴趣点的嵌入;将所述全部兴趣点进行两两配对得到多个兴趣点对,计算每个兴趣点对的嵌入距离;每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离;将每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点重复对。4.如权利要求1所述的方法,其特征在于,所述根据所述全部兴趣点构造基于地理位置的兴趣点图,包括:获取所述全部兴趣点中每个兴趣点的地理位置信息;根据每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离;根据每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重,得到所述基于地理位置信息的兴趣点图。5.如权利要求4的方法,其特征在于,根据每两个兴趣点之间的距离确定每...

【专利技术属性】
技术研发人员:赵斌伟王乐武东旭强成仓石立臣
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1