多源兴趣点匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38349575 阅读:11 留言:0更新日期:2023-08-02 09:29
本申请涉及一种多源兴趣点匹配方法、装置、计算机设备和存储介质。所述方法包括:获取目标兴趣点的属性信息;属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息;根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,并获取各候选兴趣点的属性信息;使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息,以及各候选兴趣点的名称成分实体信息;计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值,根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。本申请能够精细化地对多源兴趣点进行匹配,提升匹配准确性。提升匹配准确性。提升匹配准确性。

【技术实现步骤摘要】
多源兴趣点匹配方法、装置、计算机设备和存储介质


[0001]本申请涉及电子地图领域,特别是涉及一种多源兴趣点匹配方法、装置、计算机设备和存储介质。

技术介绍

[0002]兴趣点(Point of Interest,简称POI),一般包含名称、地址、经纬度、类别等信息,其是网络电子地图的最重要内容,也是互联网位置服务的立足之本。由于互联网上的POI数据来源不一,采集与处理过程各不相同,从而导致了这些数据在空间位置,属性信息以及丰富程度上存在着一定的差异,因此如何有效地消除数据间的不一致性,并把它们组织成一套内容准确,可供用户使用的数据成为了当前研究的热点。目前常用的方法是将不同来源的POI数据,通过匹配的方法将各自的信息进行融合,从而丰富POI数据的信息以及消除数据间的不一致性。
[0003]目前常用的匹配方案是从两个异源的POI数据中分别抽取POI,然后计算这两个POI的名称文本相似度和地址文本相似度,将计算出来的名称文本相似度和地址文本相似度通过设置一个权值(其中,名称文本和地址文本对应的权值相同)来计算整体的相似度,作为这两个POI之间的相似度得分,当得分高于某个阈值的时候,就认为这两个POI具有匹配关系,从而对多源POI数据进行匹配。
[0004]然而,通过计算POI间的名称文本相似度、地址文本相似度来判断是否为同一POI,这种匹配方法较粗糙,准确度不高。

技术实现思路

[0005]本申请针对上述不足或缺点,提供了一种多源兴趣点匹配方法、装置、计算机设备和存储介质,本申请实施例能够精细化地对多源兴趣点进行匹配,提升匹配准确性。
[0006]本申请根据第一方面提供了一种多源兴趣点匹配方法,在一个实施例中,该方法包括:
[0007]获取目标兴趣点的属性信息;属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息;
[0008]根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,并获取各候选兴趣点的属性信息;
[0009]使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息,以及各候选兴趣点的名称成分实体信息;
[0010]计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值,根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。
[0011]在一个实施例中,根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,包括:
[0012]根据目标兴趣点的经纬度信息确定与目标兴趣点关联的目标H3网格;
[0013]根据目标H3网格召回与目标兴趣点相邻且异源的每个兴趣点作为候选兴趣点。
[0014]在一个实施例中,该方法还包括:
[0015]构建兴趣点库;兴趣点库包括不同来源的多个兴趣点;
[0016]构建多个互不重叠的H3网格,每个H3网格对应一个地理区域;
[0017]根据兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格,并为每个兴趣点及其关联的H3网格建立关联关系。
[0018]在一个实施例中,使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息,以及各候选兴趣点的名称成分实体信息之前,还包括:
[0019]对目标兴趣点和各候选兴趣点的名称信息进行预处理操作;预处理操作用于对名称信息执行以下的一项或多项处理:将全角字符转为半角字符;将特殊符号去除;将英文大写字母转为小写字母;将中文繁体字转为简体字的操作;和/或,
[0020]将目标兴趣点的名称信息和类别信息与各候选兴趣点的名称信息和类别信息进行对比,针对任一候选兴趣点,若该候选兴趣点的类别信息与目标兴趣点的类别信息不一致,或,该候选兴趣点的类别信息与目标兴趣点的类别信息完全不一致,则将该候选兴趣点剔除。
[0021]在一个实施例中,名称成分实体信息包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息;计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值,包括:
[0022]计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度;
[0023]获取预设的核心词与类别词的匹配权重信息;
[0024]根据核心词与类别词的匹配权重信息计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度的加权平均值,作为目标兴趣点与各候选兴趣点的相似度值。
[0025]在一个实施例中,计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值之前,该方法还包括:
[0026]删除目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息中包含的行政区划成分信息;
[0027]剔除分支成分信息与目标兴趣点的分支成分信息不同的候选兴趣点。
[0028]在一个实施例中,名称成分识别模型的训练过程包括:
[0029]构建标注数据集和合成数据集;
[0030]为标注数据集和合成数据集中的每条样本数据标注对应的成分实体类别数据;样本数据的成分实体类别数据包括用于表征样本数据中每个分词对应的成分实体类别;成分实体类别包括行政区划、核心词、类别词和分支;
[0031]为标注数据集和合成数据集中的每条样本数据构建特征数据,样本数据的特征数据包括分词边界特征信息、行政区划特征信息、类别词特征信息、表征样本数据中的每个字符是否为数字的特征信息以及表征样本数据中的每个字符是否为英文的特征信息;
[0032]根据标注数据集和合成数据集中的每条样本数据对应的成分实体类别数据和特征数据训练得到名称成分识别模型。
[0033]本申请根据第二方面提供了一种多源兴趣点匹配装置,在一个实施例中,该装置包括:
[0034]第一属性信息获取模块,用于获取目标兴趣点的属性信息;属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息;
[0035]第二属性信息获取模块,用于根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,并获取各候选兴趣点的属性信息;
[0036]名称成分识别模块,用于使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息,以及各候选兴趣点的名称成分实体信息;
[0037]兴趣点匹配模块,用于计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值,根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。
[0038]本申请根据第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。
[0039]本申请根据第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法的实施例的步骤。
[0040]本申请实施例能带来以下技术效果:
[0041]第一,将兴趣点的名称划分为多种类别的名本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源兴趣点匹配方法,其特征在于,所述方法包括:获取目标兴趣点的属性信息;所述属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息;根据所述目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,并获取各所述候选兴趣点的属性信息;使用训练好的名称成分识别模型识别出所述目标兴趣点的名称成分实体信息,以及各所述候选兴趣点的名称成分实体信息;计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值,根据计算得到的相似度值确定所述目标兴趣点与各所述候选兴趣点之间的匹配关系。2.如权利要求1所述的方法,其特征在于,根据所述目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点,包括:根据所述目标兴趣点的经纬度信息确定与所述目标兴趣点关联的目标H3网格;根据所述目标H3网格召回与所述目标兴趣点相邻且异源的每个兴趣点作为所述候选兴趣点。3.如权利要求2所述的方法,其特征在于,所述方法还包括:构建所述兴趣点库;所述兴趣点库包括不同来源的多个兴趣点;构建多个互不重叠的H3网格,每个所述H3网格对应一个地理区域;根据所述兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格,并为每个兴趣点及其关联的H3网格建立关联关系。4.如权利要求1所述的方法,其特征在于,使用训练好的名称成分识别模型识别出所述目标兴趣点的名称成分实体信息,以及各所述候选兴趣点的名称成分实体信息之前,还包括:对所述目标兴趣点和各所述候选兴趣点的名称信息进行预处理操作;所述预处理操作用于对名称信息执行以下的一项或多项处理:将全角字符转为半角字符;将特殊符号去除;将英文大写字母转为小写字母;将中文繁体字转为简体字的操作;和/或,将所述目标兴趣点的名称信息和类别信息与各所述候选兴趣点的名称信息和类别信息进行对比,针对任一所述候选兴趣点,若该候选兴趣点的类别信息与所述目标兴趣点的类别信息不一致,或,该候选兴趣点的类别信息与所述目标兴趣点的类别信息完全不一致,则将该候选兴趣点剔除。5.如权利要求1所述的方法,其特征在于,所述名称成分实体信息包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息;计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值,包括:计算所述目标兴趣点与各所述候选兴趣点的核心词相似度和类别词相似度;获取预设的核心词与类别词的匹配权重信息;根据所述核心词与类别词的匹...

【专利技术属性】
技术研发人员:赵斌伟武东旭强成仓石立臣李宏宽
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1