一种多源异构POI数据快速去重方法技术

技术编号:38711302 阅读:10 留言:0更新日期:2023-09-08 14:54
本发明专利技术公开了一种多源异构POI数据快速去重方法,涉及LBS位置服务技术领域,包括数据预处理、栅格索引以及九宫格三大模块:其中数据预处理包括以下步骤:针对POI名称,对其进行分词、去除停用词,统计词频,得到词频向量,进而计算整个数据库中的词频;本发明专利技术采用了编辑距离和“低频词”统计两种方法处理非同名POI。在以往的专利、文献中,关于POI去重的方法几乎不涉及“低频词”统计的方法。两个不同POI同时拥有相同“低频词”的概率很低,当它们拥有的“低频词”个数不止一个,并且直线距离很近时,能够在较大的程度上认为这两个POI是同一个。并且“低频词”统计的方法原理简单,便于操作。便于操作。便于操作。

【技术实现步骤摘要】
一种多源异构POI数据快速去重方法


[0001]本专利技术涉及LBS位置服务
,具体涉及一种多源异构POI数据快速去重方法。

技术介绍

[0002]随着信息技术的不断发展,位置信息的来源更加广泛,数据更新更加频繁,合理使用位置信息对相关分析和决策具有重要意义,POI数据作为位置信息的重要载体,直接关系着位置信息的质量,是进行位置信息研究的重要参考依据,针对多源异构的POI数据,如何对其进行高效融合已然业界亟须解决的问题之一:
[0003]目前,POI数据融合的方法,主要包括基于空间位置、非空间属性、本体以及空间位置和非空间属性相结合的方法,其中,比较经典的POI融合算法主要有四种:基于片面最近邻连接算法的POI融合技术、基于加权的多属性相似度的POI融合方法、基于距离类别的POI融合技术和基于聚类和索引的POI融合技术;
[0004]基于片面最近邻连接算法的POI融合技术通过对象的空间位置来寻找正确的融合集,这种算法虽然操作简单,但由于只考虑了空间位置而没有考虑非空间属性,导致出现不准确的融合结果;
[0005]基于加权的多属性相似度的POI融合方法,该方法将名称相似度、距离相似度和地址相似度分别赋予不同的权重,通过计算总体相似度,并判断总体相似度是否大于某个阈值来判别两个POI是否为同一个,此方法理论简单,便于操作,但它面临着一个重要难题:如何确定不同属性的权重?人为确定权重,主观因素较强,会导致融合之后的数据结果准确性不高;
[0006]基于距离类别的POI融合方法,此方法主要分成三个阶段:初步筛选阶段、排除阶段和补充阶段,初步筛选阶段使用相互最邻近算法,排除阶段和补充阶段使用Jaro

Winkler算法,这些算法操作困难,时间复杂度比较大,适用性低,
[0007]基于聚类和索引的POI融合技术,通过聚类的方式进行POI聚合,此类方法适合做离线计算,很难对原有的POI簇进行实时修改,实时维护库的成本很高,此外,更新新的数据,必须灌入所有的数据、全部计算完成后,才能返回新的聚类结果,新POI的实体链接关系不能实时计算,通过建立索引的方式缩小比较候选集,但这种方式存在“索引粒度”的问题,即如果设定的搜索粒度太小,本应该实体链接的两个POI不能链接到一起,这会降低召回率,反之,返回的疑似候选集太大,每个POI计算与之实体链接的POI的时间会变得很长,工程实现的压力会增大,通过字符索引很难控制索引的粒度;
[0008]因此本专利技术提供一种多源异构POI数据快速去重方法。

技术实现思路

[0009]鉴于上述现有存在的问题,提出了本专利技术。
[0010]因此,本专利技术目的是提供一种多源异构POI数据快速去重方法,解决了LBS位置服
务的问题。
[0011]为了实现上述目的,本专利技术提供如下技术方案:
[0012]一种多源异构POI数据快速去重方法,包括数据预处理、栅格索引以及九宫格三大模块:其中数据预处理包括以下步骤:
[0013]针对POI名称,对其进行分词、去除停用词,统计词频,得到词频向量,进而计算整个数据库中的词频;
[0014]针对POI坐标,常用来源的POI坐标系有:GCJ02、WGS84、BD09,将其统一转换至GCJ02坐标系。
[0015]进一步的,所述栅格索引主要包括以下内容:
[0016]栅格索引,为降低计算量,将地理坐标系分割为矩形栅格,建立栅格与POI坐标之间的反向索引,
[0017]栅格索引为计算公式为
[0018][0019][0020]其中,lg
i
为POI中i的经度,lt
i
为POI中i的维度,px,py分别为东西方向和南北方向上的栅格线密度,最终,xn
i
,yn
i
为POI中i的栅格索引坐标,以及为向下取整函数。
[0021]进一步的,所述九宫格模块包括有两个小模块,分别为九宫格内“同名”POI数据的去重、九宫格内“不同名”POI数据的去重以及POI数据合并三大操作步骤,其中的九宫格模块,包括以下内容:
[0022]九宫格,也即选定中心栅格i(xn
i
,yn
i
),对于任意其他栅格j(xn
j
,yn
j
),若栅格i,j间的绝对值距离小于等于2,由中心栅格i和所有满足条件的所有栅格j,被称为一个“九宫格”,
[0023]{i,j||xn
i

xn
j
|+|yn
i

yn
j
|≤2}
[0024]一个“九宫格”包含以任意一格为中心,与其相邻的上、下、左、右、左上、左下、右上、右下的3
×
3九个栅格,
[0025]若POI存在至少一个镜像POI,则该镜像POI的地理坐标与原始POI坐标距离一定小于栅格线密度,也即一定落在以原始POI为中心的“九宫格”内,故而一个九宫格是一个基本去重单元。
[0026]进一步的,所述的九宫格内“同名”POI数据的去重主要包括以下内容:
[0027]对于九宫格内“同名”且直线距离小于300m的POI,判定为同一个POI,并进行合并,即当两个POI数据的名称完全相同且距离足够近的时候,就能够认为这两个POI为同一个,名称完全相同的情况主要分为三种:
[0028]第一种:两个POI名称均为中英文组合时,中文部分和英文部分分别对应相同;
[0029]第二种:两个POI名称一个只有中文名,一个是中英文组合时,中文部分对应相同;
[0030]第三种:两个POI名称中一个只有英文名,一个是中英文组合时,英文部分对应相同。
[0031]进一步的,所述九宫格内“不同名”POI数据的去重则是对于不同名数据,主要采用编辑距离和分词后的低频词词频统计两种方法,主要包括以下内容:
[0032]S1、编辑距离
[0033]编辑距离是针对两个字符串之间差异程度的量化测量,测量方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串,记两个字符串分别为i和j他们的字符串长度分别为n
i
和n
j
,它们之间的编辑距离为e
i,j
,相似度为sim
i,j
根据编辑距离的含义,可以定义文本相似度公式如下:
[0034][0035]其中,n=max{n
i
,n
j
},在此基础上,再将名称分为有包含关系和其他情况两类;
[0036]S2、当名称有包含关系时,名称有包含关系又可分为“顺序包含”与“乱序包含”,记两个POI之间的名称相似度为sim
i,j
,直线距离为d
i,j
,相同汉字个数为n
i,j
,判定规则如下:
[0037]当两个POI的名称为“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构POI数据快速去重方法,其特征在于,包括数据预处理、栅格索引以及九宫格三大模块:其中数据预处理包括以下步骤:针对POI名称,对其进行分词、去除停用词,统计词频,得到词频向量,进而计算整个数据库中的词频,针对POI坐标,常用来源的POI坐标系有:GCJ02、WGS84、BD09,将其统一转换至GCJ02坐标系;所述栅格索引主要包括以下内容:栅格索引,为降低计算量,将地理坐标系分割为矩形栅格,建立栅格与POI坐标之间的反向索引,栅格索引为计算公式为栅格索引为计算公式为其中,lg
i
为POI中i的经度,lt
i
为POI中i的维度,px,py分别为东西方向和南北方向上的栅格线密度,最终,xn
i
,yn
i
为POI中i的栅格索引坐标,以及为向下取整函数。2.根据权利要求1所述的多源异构POI数据快速去重方法,其特征在于,所述九宫格模块包括有两个小模块,分别为九宫格内“同名”POI数据的去重、九宫格内“不同名”POI数据的去重以及POI数据合并三大操作步骤,其中的九宫格模块,包括以下内容:九宫格,也即选定中心栅格i(xn
i
,yn
i
),对于任意其他栅格j(xn
j
,yn
j
),若栅格i,j间的绝对值距离小于等于2,由中心栅格i和所有满足条件的所有栅格j,被称为一个“九宫格”,{i,j||xn
i

xn
j
|+|yn
i

yn
j
|≤2}一个“九宫格”包含以任意一格为中心,与其相邻的上、下、左、右、左上、左下、右上、右下的3
×
3九个栅格,若POI存在至少一个镜像POI,则该镜像POI的地理坐标与原始POI坐标距离一定小于栅格线密度,也即一定落在以原始POI为中心的“九宫格”内,故而一个九宫格是一个基本去重单元。3.根据权利要求2所述的多源异构POI数据快速去重方法,其特征在于,所述的九宫格内“同名”POI数据的去重主要包括以下内容:对于九宫格内“同名”且直线距离小于300m的POI,判定为同一个POI,并进行合并,即当两个POI数据的名称完全相同且距离足够近的时候,就能够认为这两个POI为同一个,名称完全相同的情况主要分为三种:第一种:两个POI名称均为中英文组合时,中文部分和英文部分分别对应相同;第二种:两个POI名称一个只有中文名,一个是中英文组合时,中文部分对应相同;第三种:两个POI名称中一个只有英文名,一个是中英文组合时,英文部分对应相同。4.根据权利要求2所述的多源异构POI数据快速去重方法,其特征在于,所述九宫格内“不同名”POI数据的去重则是对于不同名数据,主要采用编辑距离和分词后的低频词词频统计两种方...

【专利技术属性】
技术研发人员:林超黄兴丽姜辉
申请(专利权)人:深圳数位大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1