一种用于匹配POI实体的装置和方法制造方法及图纸

技术编号:38971188 阅读:37 留言:0更新日期:2023-09-28 09:35
一种用于将2D区域中的包括一个或多个第一兴趣点(POI)实体(101)的第一POI数据集与包括多个第二POI实体(103)的第二POI数据集进行匹配的装置,第一POI实体中的每一者和第二POI实体中的每一者包括坐标数据和指示POI实体的标签的一个或多个标签令牌。所述装置包括处理电路,该处理电路用于:根据一个或多个第一POI实体(101)的坐标数据,为该一个或多个第一POI实体(101)中的每一者确定多个第二POI实体(103)的子集。所述处理电路还用于:为该一个或多个第一POI实体(101)中的每一者确定其与该多个第二POI实体(103)的子集的一个或多个第二POI实体的综合匹配评分,综合匹配评分基于坐标匹配评分和标签匹配评分,坐标匹配评分取决于相应的第一POI实体(101)和相应的第二POI实体(103)之间的地理距离,标签匹配评分取决于相应的第一POI实体(101)的一个或多个第一标签令牌的局部上下文相关性。此外,所述处理电路用于:根据综合匹配评分,将该一个或多个第一POI实体(101)中的每一者与该多个第二POI实体(103)的子集的第二POI实体进行匹配。实体(103)的子集的第二POI实体进行匹配。实体(103)的子集的第二POI实体进行匹配。

【技术实现步骤摘要】
【国外来华专利技术】一种用于匹配POI实体的装置和方法


[0001]本公开涉及信息处理技术。更具体地,本公开涉及一种用于匹配POI实体的装置和方法,即对来自异构源的地理实体进行对齐的装置和方法。

技术介绍

[0002]随着无处不在的网络空间和互联网信息收集技术的迅速发展,大量兴趣点(point of interest,POI)实体过去和现在都被例如地图服务提供商和社交网络聚合到地理空间数据库中。集成或融合此类多源空间数据是当前基于网络的信息检索、空间分析和空间决策的应用面临的主要挑战。这是因为,从不同数据源收集的地理信息往往存在不一致、冗余、歧义和冲突。此外,不同的平台通常对同一POI实体有不同的描述属性。此外,同一平台为同一地理空间对象配置的描述属性在时间精度、位置准确度和语义精度方面可能有所不同。因此,需要用于匹配或对齐POI实体的不同属性的改进装置和方法,以获得关于这些对象的更完整信息。

技术实现思路

[0003]目的在于提供一种用于匹配POI实体的改进装置和方法。
[0004]上述和其它目的通过独立权利要求请求保护的主题来实现。在从属权利要求、说明书和附图中清楚地表明了其它实现方式。
[0005]根据第一方面,提供一种用于将2D区域中的包括一个或多个第一兴趣点(POI)实体的第一POI数据集与包括多个第二POI实体的第二POI数据集进行匹配(即对齐)的装置。第一POI实体中的每个第一POI实体包括诸如第一经纬度数据的第一坐标数据,以及指示诸如第一POI实体的名称的第一POI实体的标签的一个或多个第一标签令牌。同样,第二POI实体中的每个第二POI实体包括诸如第二经纬度数据的第二坐标数据,以及指示诸如第二POI实体的名称的第二POI实体的标签的一个或多个第二标签令牌。
[0006]所述POI匹配装置包括处理电路,所述处理电路用于:根据所述一个或多个第一POI实体的第一坐标数据,为所述一个或多个第一POI实体中的每个第一POI实体确定(即选择)所述多个第二POI实体的候选POI实体的相应子集。在只有一个第一POI实体要与多个第二POI实体进行匹配的情况下,处理电路将选择多个第二POI实体的一个子集作为可能与该一个第一POI实体进行匹配的候选POI实体。在有多于一个第一POI实体要与多个第二POI实体进行匹配的情况下,处理电路将选择多个第二POI实体的对应数量的子集作为可能与相应的第一POI实体进行匹配的相应候选POI实体。
[0007]所述POI匹配装置的处理电路还用于:为所述一个或多个第一POI实体中的每个第一POI实体确定其与所述多个第二POI实体的相应子集的一个或多个第二候选POI实体的相应综合匹配评分(也称为相似性评分)。相应的综合匹配评分基于坐标匹配评分和标签匹配评分,其中坐标匹配评分取决于由第一坐标数据和第二坐标数据定义的相应的第一POI实体和相应的第二POI实体之间的地理距离,标签匹配评分取决于相应的第一POI实体的一个
或多个第一标签令牌的局部上下文相关性。如本文中所使用和下文中进一步详细描述,相应的第一POI实体的一个或多个第一标签令牌的局部上下文相关性是对相应的第一POI实体的一个或多个第一标签令牌与由多个第二POI实体的相应子集的第二候选POI实体的多个标签令牌所定义的该等标签令牌的局部上下文内的匹配决策之相关性的度量。
[0008]所述POI匹配装置的处理电路还用于:根据综合匹配评分,将一个或多个第一POI实体中的每个第一POI实体与多个第二POI实体的相应子集的第二POI实体进行匹配(即对齐)。例如,所述POI匹配装置的处理电路可将相应的第一POI实体与这样的第二POI实体进行匹配:该第二POI实体和该相应的第一POI实体一同提供最高综合匹配评分。
[0009]在第一方面的又一种可能的实现方式中,第一POI实体中的每个第一POI实体还包括指示诸如街道名称或城市名称的第一POI实体的地址的一个或多个第一地址令牌,第二POI实体中的每个第二POI实体还包括指示第二POI实体的地址的一个或多个第二地址令牌。在这种情况下,处理电路用于:根据坐标匹配评分、标签匹配评分和地址匹配评分确定综合匹配评分,其中地址匹配评分取决于相应的第一POI实体的一个或多个第一地址令牌的局部上下文相关性。
[0010]在第一方面的又一种可能的实现方式中,所述处理电路用于:根据属于所述多个第二POI实体的相应子集的第二POI实体的一个或多个第二标签令牌和/或一个或多个第二地址令牌,为所述多个第二POI实体的候选POI实体的每个子集生成相应的文档,并将所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性确定为相应文档中所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的逆文档频率(inverse document frequency,IDF)。
[0011]在第一方面的又一种可能的实现方式中,所述POI匹配装置的处理电路用于:根据局部IDF加权Jaccard相似性,确定相应第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性(并因此确定标签匹配评分和/或地址匹配评分)。
[0012]在第一方面的又一种可能的实现方式中,所述POI匹配装置的处理电路用于:将所述综合匹配评分确定为所述坐标匹配评分与所述标签匹配评分和/或所述地址匹配评分的加权和。
[0013]在第一方面的又一种可能的实现方式中,所述一个或多个第一POI实体包括第一POI实体,其中,所述处理电路用于:根据所述第一POI实体的第一坐标数据,通过确定位于所述第一POI实体附近的、多个第二POI实体的第二POI实体来确定(即选择)所述多个第二POI实体的子集,即所述候选第二POI实体。例如,处理电路可用于:确定位于以所述第一POI实体的位置为中心的圆圈内的所有第二POI实体。处理电路还可用于:根据第一POI实体的类型确定或调整该圆圈的半径。例如,对于机场类型的第一POI实体,相比餐厅类型的第一POI实体,处理电路可选择更大的该圆圈半径。
[0014]在第一方面的又一种可能的实现方式中,所述处理电路用于:根据所述一个或多个第一POI实体的第一坐标数据,通过在空间上将所述2D区域划分为多个分区单元,为所述第一POI数据集的一个或多个第一POI实体中的每个第一POI实体确定(即选择)所述第二POI数据集的多个第二POI实体的相应子集。
[0015]在第一方面的又一种可能的实现方式中,对于每个分区单元,位于相应的分区单
元中的第一POI实体和第二POI实体的数量的乘积小于或等于预定义阈值N。
[0016]在第一方面的又一种可能的实现方式中,所述空间分区是对所述2D区域进行四叉树分区,其中不同的分区单元可以具有不同的大小。
[0017]在第一方面的又一种可能的实现方式中,每个分区单元具有基本上呈矩形的,特别是基本上呈方形的形状,并且包括围绕所述分区单元的框形边界区域,其中,所述边界区域的面积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于将2D区域中的包括一个或多个第一兴趣点POI实体(101)的第一POI数据集与包括多个第二POI实体(103)的第二POI数据集进行匹配的装置,其中,所述第一POI实体(101)中的每个第一POI实体(101)包括第一坐标数据和指示所述第一POI实体的标签的一个或多个第一标签令牌,所述第二POI实体(103)中的每个第二POI实体(103)包括第二坐标数据和指示所述第二POI实体的标签的一个或多个第二标签令牌,其中所述装置包括处理电路,所述处理电路用于:根据所述一个或多个第一POI实体(101)的第一坐标数据,为所述一个或多个第一POI实体(101)中的每个第一POI实体(101)确定所述多个第二POI实体(103)的子集;为所述一个或多个第一POI实体(101)中的每个第一POI实体(101)确定其与所述多个第二POI实体(103)的子集的一个或多个第二POI实体的综合匹配评分,其中所述综合匹配评分基于坐标匹配评分和标签匹配评分,所述坐标匹配评分取决于所述相应的第一POI实体和所述相应的第二POI实体之间的地理距离,所述标签匹配评分取决于所述相应的第一POI实体的一个或多个第一标签令牌的局部上下文相关性;根据所述综合匹配评分,将所述一个或多个第一POI实体(101)中的每个第一POI实体(101)与所述多个第二POI实体(103)的子集的第二POI实体进行匹配。2.根据权利要求1所述的装置,其中,所述一个或多个第一POI实体(101)中的每个第一POI实体(101)还包括一个或多个第一地址令牌,所述多个第二POI实体(103)中的每个第二POI实体(103)还包括一个或多个第二地址令牌,其中所述综合匹配评分基于所述坐标匹配评分、所述标签匹配评分和地址匹配评分,所述地址匹配评分取决于所述相应的第一POI实体的一个或多个第一地址令牌的局部上下文相关性。3.根据权利要求1或2所述的装置,其中,所述处理电路用于:根据属于所述多个第二POI实体(103)的子集的第二POI实体的一个或多个第二标签令牌和/或一个或多个第二地址令牌,为所述多个第二POI实体(103)的每个子集生成文档,并将所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性确定为所述相应文档中所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的逆文档频率IDF。4.根据权利要求3所述的装置,其中,所述处理电路用于:根据局部IDF加权Jaccard相似性确定所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性。5.根据前述权利要求中任一项所述的装置,其中,所述处理电路用于:将所述综合匹配评分确定为所述坐标匹配评分与所述标签匹配评分和/或所述地址匹配评分的加权和。6.根据前述权利要求中任一项所述的装置,其中,所述一个或多个第一POI实体(101)包括第一POI实体(101),所述处理电路用于:根据所述第一POI实体(101)的第一坐标数据,通过确定位于所述第一POI实体(101)附近的、所述多个第二POI实体(103)的第二POI实体来确定所述多个第二POI实体(103)的子集。7.根据权利要求1至5中任一项所述的装置,其中,所述处理电路用于:根据所述一个或多个第一POI实体(101)的第一坐标数据,通过在空间上将所述区域划分为多个分区单元(301),为所述第一POI数据集的一个或多个第一POI实体(101)中的每个第一POI实体(101)确定所述第二POI数据集的多个第二POI实体(103)的子集。
8.根据权利要求7所述的装置,其中,对于每个分区单元(301),位于所述分区单元(301)中的第一POI实体(101)和第二POI实体(103)的数量的乘积小于或等于预定义阈值。9.根据权利要求7或8所述的装置,其中,所述空间分区是对所述区域进行四叉树分区。10.根据权利要求9所述的装置,其中,每个分区单元(310)具有矩形形状,且包括围绕所述分区单元(301)的框形边界区域(303),其中所述边界区域(303)的面积与所述分区单元(301)的面积的比值取决于所述多个第一POI实体(101)和/或所述多个第二POI实体(103)的局部密度。11.根据前述权利要求中任一项所述的装置,其中,所述标签匹配评分还基于第一标签嵌入...

【专利技术属性】
技术研发人员:安德烈
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1