【技术实现步骤摘要】
【国外来华专利技术】一种用于匹配POI实体的装置和方法
[0001]本公开涉及信息处理技术。更具体地,本公开涉及一种用于匹配POI实体的装置和方法,即对来自异构源的地理实体进行对齐的装置和方法。
技术介绍
[0002]随着无处不在的网络空间和互联网信息收集技术的迅速发展,大量兴趣点(point of interest,POI)实体过去和现在都被例如地图服务提供商和社交网络聚合到地理空间数据库中。集成或融合此类多源空间数据是当前基于网络的信息检索、空间分析和空间决策的应用面临的主要挑战。这是因为,从不同数据源收集的地理信息往往存在不一致、冗余、歧义和冲突。此外,不同的平台通常对同一POI实体有不同的描述属性。此外,同一平台为同一地理空间对象配置的描述属性在时间精度、位置准确度和语义精度方面可能有所不同。因此,需要用于匹配或对齐POI实体的不同属性的改进装置和方法,以获得关于这些对象的更完整信息。
技术实现思路
[0003]目的在于提供一种用于匹配POI实体的改进装置和方法。
[0004]上述和其它目的通过独立权利要求请求保护的主题来实现。在从属权利要求、说明书和附图中清楚地表明了其它实现方式。
[0005]根据第一方面,提供一种用于将2D区域中的包括一个或多个第一兴趣点(POI)实体的第一POI数据集与包括多个第二POI实体的第二POI数据集进行匹配(即对齐)的装置。第一POI实体中的每个第一POI实体包括诸如第一经纬度数据的第一坐标数据,以及指示诸如第一POI实体的名称的第一POI实体的标签的一个或多个第 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于将2D区域中的包括一个或多个第一兴趣点POI实体(101)的第一POI数据集与包括多个第二POI实体(103)的第二POI数据集进行匹配的装置,其中,所述第一POI实体(101)中的每个第一POI实体(101)包括第一坐标数据和指示所述第一POI实体的标签的一个或多个第一标签令牌,所述第二POI实体(103)中的每个第二POI实体(103)包括第二坐标数据和指示所述第二POI实体的标签的一个或多个第二标签令牌,其中所述装置包括处理电路,所述处理电路用于:根据所述一个或多个第一POI实体(101)的第一坐标数据,为所述一个或多个第一POI实体(101)中的每个第一POI实体(101)确定所述多个第二POI实体(103)的子集;为所述一个或多个第一POI实体(101)中的每个第一POI实体(101)确定其与所述多个第二POI实体(103)的子集的一个或多个第二POI实体的综合匹配评分,其中所述综合匹配评分基于坐标匹配评分和标签匹配评分,所述坐标匹配评分取决于所述相应的第一POI实体和所述相应的第二POI实体之间的地理距离,所述标签匹配评分取决于所述相应的第一POI实体的一个或多个第一标签令牌的局部上下文相关性;根据所述综合匹配评分,将所述一个或多个第一POI实体(101)中的每个第一POI实体(101)与所述多个第二POI实体(103)的子集的第二POI实体进行匹配。2.根据权利要求1所述的装置,其中,所述一个或多个第一POI实体(101)中的每个第一POI实体(101)还包括一个或多个第一地址令牌,所述多个第二POI实体(103)中的每个第二POI实体(103)还包括一个或多个第二地址令牌,其中所述综合匹配评分基于所述坐标匹配评分、所述标签匹配评分和地址匹配评分,所述地址匹配评分取决于所述相应的第一POI实体的一个或多个第一地址令牌的局部上下文相关性。3.根据权利要求1或2所述的装置,其中,所述处理电路用于:根据属于所述多个第二POI实体(103)的子集的第二POI实体的一个或多个第二标签令牌和/或一个或多个第二地址令牌,为所述多个第二POI实体(103)的每个子集生成文档,并将所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性确定为所述相应文档中所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的逆文档频率IDF。4.根据权利要求3所述的装置,其中,所述处理电路用于:根据局部IDF加权Jaccard相似性确定所述相应的第一POI实体的一个或多个第一标签令牌和/或一个或多个第一地址令牌的局部上下文相关性。5.根据前述权利要求中任一项所述的装置,其中,所述处理电路用于:将所述综合匹配评分确定为所述坐标匹配评分与所述标签匹配评分和/或所述地址匹配评分的加权和。6.根据前述权利要求中任一项所述的装置,其中,所述一个或多个第一POI实体(101)包括第一POI实体(101),所述处理电路用于:根据所述第一POI实体(101)的第一坐标数据,通过确定位于所述第一POI实体(101)附近的、所述多个第二POI实体(103)的第二POI实体来确定所述多个第二POI实体(103)的子集。7.根据权利要求1至5中任一项所述的装置,其中,所述处理电路用于:根据所述一个或多个第一POI实体(101)的第一坐标数据,通过在空间上将所述区域划分为多个分区单元(301),为所述第一POI数据集的一个或多个第一POI实体(101)中的每个第一POI实体(101)确定所述第二POI数据集的多个第二POI实体(103)的子集。
8.根据权利要求7所述的装置,其中,对于每个分区单元(301),位于所述分区单元(301)中的第一POI实体(101)和第二POI实体(103)的数量的乘积小于或等于预定义阈值。9.根据权利要求7或8所述的装置,其中,所述空间分区是对所述区域进行四叉树分区。10.根据权利要求9所述的装置,其中,每个分区单元(310)具有矩形形状,且包括围绕所述分区单元(301)的框形边界区域(303),其中所述边界区域(303)的面积与所述分区单元(301)的面积的比值取决于所述多个第一POI实体(101)和/或所述多个第二POI实体(103)的局部密度。11.根据前述权利要求中任一项所述的装置,其中,所述标签匹配评分还基于第一标签嵌入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。