挖掘地址兴趣点关系的方法、装置、设备及存储介质制造方法及图纸

技术编号:20425301 阅读:36 留言:0更新日期:2019-02-23 08:32
本申请公开了挖掘地址兴趣点关系的方法、装置、设备及存储介质。所述方法包括:获取预定区域内地址兴趣点;根据地址兴趣点所对应的地址信息将地址兴趣点进行网格化;基于所述网格化的结果,对任意两个不同的地址兴趣点进行相似度计算;基于所述相似度计算的结果对不同的地址兴趣点进行聚类分析,以获得任意两个地址兴趣点的关系。本申请技术方案实现了通过特定方式挖掘兴趣点数据,确定地址兴趣点关系。

【技术实现步骤摘要】
挖掘地址兴趣点关系的方法、装置、设备及存储介质
本专利技术涉及地址数据的处理方法,尤其涉及挖掘地址兴趣点关系的方法、装置、设备及存储介质。
技术介绍
某一区域内的道路门牌、小区名称、大厦名称等是重点地理对象数据,称之为兴趣点(PointofInterest,POI)。将地址信息分层级划分、按相关性合理存储,是地址大数据库建立的关键环节。在现有基于地址信息的业务中,由于数据来源渠道多样,致使数据库在处理信息过程中未将众多兴趣点进行有效的空间距离分类,离散的兴趣点难以应用于业务场景;兴趣点在数据库中被视作了独立的点,彼此之间的地理层级关系没有被很好的挖掘,造成资源的浪费。当前,对地址兴趣点分类普遍采取获得地址经纬度,直接进行聚类分析。因为存在一定比例的经纬度不准确,导致聚类结果粒度太细、复用性低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供挖掘地址兴趣点关系的方法,用于对地址进行层级划分,提高复用性克服上述问题或者部分解决上述问题的地址兴趣点关系挖掘方法。本专利技术提供的一种挖掘地址兴趣点关系的方法,包括以下步骤:获取预定区域内的地址兴趣点;据地址兴趣点所对应的地址信息将地址兴趣点进行网格化;基于所述网格化的结果,对任意两个不同的地址兴趣点进行相似度计算;基于所述相似度计算的结果对不同的地址兴趣点进行聚类分析,以获得任意两个地址兴趣点的关系。本专利技术的另外一方面,提供了一种被配置以挖掘地址兴趣点关系的装置,其特征在于,包括以下单元:地址兴趣点获取单元,被配置以获取预定区域内的地址兴趣点;网格化单元,被配置以根据地址兴趣点所对应的地址信息将地址兴趣点进行网格化;相似度计算单元,被配置以基于所述网格化的结果对两个不同的地址兴趣点进行相似度计算;聚类分析单元,被配置以基于所述相似度计算的结果对所述两个不同的地址兴趣点进行聚类分析,以获得所述两个地址兴趣点的关系。根据本专利技术的另外一方面,提供了一种挖掘地址兴趣点关系的设备,包括:一个或者多个处理器;存储器,用于存储一个或者多个程序;当所述一个或者多个程序被所述一个或者多个处理器执行时,使得所述一个或者多个处理器执行所述实现如上任一所述的方法。根据本专利技术的另外一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现如上任一项所述的方法。本申请所提供的方案中,对各地址兴趣点相对于其余地址兴趣点的相似度结果进行聚类分析,根据预定范围获得筛选出关联性大的地址,规定其为一个类别。进一步,对该类地址兴趣点的对称相似度进行谱聚类确定关系。与现有技术相比,本申请技术方案可以不依赖于精确的经纬度信息,而是通过预定算法将经纬度值映射到规定的网格内便于数据清洗和处理;个性化的计算网格矩阵的相似度,利用对称相似度的数值对兴趣点地址划分类别,结合非对称相似度的数值挖掘兴趣点间的关系,因此,本申请技术方案可以有效适用于大规模POI数据关系挖掘的场景。附图说明为了更清楚地说明本申请实施例的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,附图仅用于示出优选实施方法的目的,而并不认为是对本专利技术的限制。另外还需要说明的是,为了便于描述,附图中仅示出了本专利技术相关的部分而非全部。图1是本申请实施例地址兴趣点关系挖掘方法的示例性流程图;图2是本申请实施例地址兴趣点关系挖掘装置的示例性结构框图;图3是本申请实施例兴趣点地址经纬度网格化示意图;图4是本申请实施例兴趣点网格矩阵相似度计算的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考如图1,其示出了本申请实施例提供的地址兴趣点关系挖掘方法。如图1所示,在步骤100中,获取预定区域内的地址兴趣点。收派件地址是高度结构化的一种文本,采用正则表达式可以匹配地址文本的规律,挖掘出一个区域内小区、楼栋、公司等地址兴趣点,存储为如下例的兴趣点列表1所示:在步骤110中,据地址兴趣点所对应的地址信息将地址兴趣点进行网格化。进一步地,提取地址信息中的经纬度信息。百度或者高德等商用地图提供开源的地址转换为经纬度的调用接口,通过这种方式可以批量的获得地址对应的经纬度。进一步地,删除经纬度返回值为空的地址。将以上数据整理清洗后建立地址-兴趣点-经纬度的数据表结构如下例兴趣点列表2所示:进一步地,网格化处理所有有效地址所对应的经纬度,将其转换为落在N×N格栅内的点,并记录坐标。现将某一区域内所有有效地址所对应的经纬度进行网格化处理,映射到一个N×N格栅内(N为正整数,默认值为100)。快递行业通常分区域进行作业,可以区域面积视作平面。经纬度到格栅内点的映射函数可以选择线性映射。具体算法如下所示,根据已有的信息将表2的数据结构表进行扩充,得到地址-兴趣点-经纬度-网格坐标的数据表结构如下例列表3所示,附图说明中的图3为实例中的地址经纬度点经过网格化处理后格栅的图像。longitude→(longitude–min(longitudes))÷(max(longitudes)–min(longitudes))×N,latitude→(latitude–min(latitudes))÷(max(latitudes)–min(latitudes))×N其中,longitude为经度值,latitude为纬度值;min表示取最小值,max表示取最大值第一个公式的含义为:(当前点经度-所有点最小经度)÷(所有点最大经度–所有点最小经度);第二个公式的含义为:(当前点纬度-所有点最小纬度)÷(所有点最大纬度–所有点最小纬度)。在步骤120中,基于所述网格化的结果,对两个不同的地址兴趣点进行相似度计算。进一步地,确定选择的相似度计算法则,包括非对称相似度和对称相似度。一个兴趣点可以包含多个不同的地址,每个地址对应一个经纬度,每个经纬度点对应一个网格点。在兴趣点创建的N×N零矩阵中,规定它在X方向第N个格栅Y方向第M个格栅简称为(N,M)内包含的点的个数为p,则将该兴趣点矩阵的第N行,第M列赋值为p。如果两个兴趣点A和B的网格矩阵内的网格点数总合为a、b,即行列和是a和b。若两者的网格矩阵在第N1行、第M1列的共有数值为p1,在第N2行,第M2列的共有数值为p2,在第N3行,第M3列的共有数值为p3……,则兴趣点A和B的网格矩阵的共有数值为P=∑pi。①非对称相似度和对称相似度的计算如下所示:A对B相似度similarity(A→B)=p÷a;B对A相似度similarity(B→A)=p÷b;A、B对称相似度similarity(A→B)+similarity(B→A)=(p÷a)+(p÷b)=similarity(A,B);②非对称相似度和对称相似度含义表述如下:非对称相似度:表示兴趣点的关系,通常有重合、包含、相交、相离情况。当A对B的相似度在(0,1)范围内,B对A相似度为1,兴趣点A包含B;当A对B的相似度和B对A相似度均在(0,1)之间,两本文档来自技高网...

【技术保护点】
1.一种挖掘地址兴趣点关系的方法,其特征在于,包括以下步骤:获取预定区域内的地址兴趣点;根据地址兴趣点所对应的地址信息将地址兴趣点进行网格化;基于所述网格化的结果,对任意两个不同的地址兴趣点进行相似度计算;基于所述相似度计算的结果对不同的地址兴趣点进行聚类分析,以获得任意两个地址兴趣点的关系。

【技术特征摘要】
1.一种挖掘地址兴趣点关系的方法,其特征在于,包括以下步骤:获取预定区域内的地址兴趣点;根据地址兴趣点所对应的地址信息将地址兴趣点进行网格化;基于所述网格化的结果,对任意两个不同的地址兴趣点进行相似度计算;基于所述相似度计算的结果对不同的地址兴趣点进行聚类分析,以获得任意两个地址兴趣点的关系。2.根据权利要求1所述的挖掘地址兴趣点关系的方法,其特征在于,所述地址信息为经纬度值。3.根据权利要求2所述的挖掘地址兴趣点关系的方法,其特征在于,根据地址兴趣点所对应的地址信息将地址兴趣点进行网格化包括:对所述地址兴趣点所对应的地址信息进行清洗,删除经纬度值为零的地址,然后将所述地址兴趣点所对应的经纬度值映射到预定的网格内。4.根据权利要求3所述的挖掘地址兴趣点关系的方法,其特征在于,所述将所述地址兴趣点所对应的经纬度值映射到预定的网格内,包括:根据所述地址兴趣点所对应的经纬度值,将其转换为落在N×N网格内的点,其中N为正整数,并记录所述地址兴趣点在所述网格中的坐标。5.根据权利要求1-4之一所述的挖掘地址兴趣点关系的方法,其特征在于,所述对任意两个不同的地址兴趣点进行相似度计算,包括计算任意两个不同的地址兴趣点之间的非对称相似度和对称相似度。6.根据权利要求5所述的挖掘地址兴趣点关系的方法,其特征在于,所述对不同的地址兴趣点的相似度结果进行聚类分析,包括:筛选出非对称相似度在预定范围的地址兴趣点;对筛选出的地址兴趣点的对称相似度进行谱聚类分析以确定任意两兴趣点间的关系。7.根据权利要求6所述的挖掘地址兴趣点关系的方法,其特征在于,所述对非对称相似度和对称相似度的计算方法,包括:A对B相似度similarity(A→B)=p÷a;B对A相似度...

【专利技术属性】
技术研发人员:柯俞嘉杜堃许颖聪潘舒静张英驰金晶陈秋丽
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1