【技术实现步骤摘要】
一种基于经纬度的闭合园区去重方法
[0001]本专利技术涉及数据去重
,特别是涉及一种基于经纬度的闭合园区去重方法。
技术介绍
[0002]“园区经济”下催生了一批推动我国经济高质量发展的产业园区,但目前还没有官方公布过我国所有园区的完整名单,若从不同的数据公开网站上获取园区名单,由于不同网站的数据来源存在差异,仅仅通过汇总不同数据公开网站的园区,往往会存在以下问题:
[0003]1.由于园区存在俗称或简称,可能出现同一个园区在不同的数据公开网站上存储的是不同的园区名称;
[0004]2.由于园区可由多个独立楼栋组成,可能出现同一个园区下各个独立楼栋分别作为单独的园区存储在数据公开网站中;
[0005]3.由于不同数据公开网站使用的地图坐标系存在差异,利用园区名称在地图上对园区进行定位,可能出现同一个园区在不同的数据公开网站上获取到的定位点经纬度和边界经纬度有偏差;
[0006]4.由于园区命名规范性,可能出现同一区域下的不同园区名称相似性较高,甚至可能会存在名称完全相同的园区; >[0007]针对上本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于经纬度的闭合园区去重方法,其特征在于,包括以下步骤:获取目标园区的名称、定位点经纬度,边界经纬度、地址以及所属省市区县;通过向量积计算所述目标园区面积;基于所述目标园区所属省市区县、园区名称及园区地址将所述目标园区分为三类数据,按照数据类型对所述三类数据进行分组;通过预先建立的重叠面积识别模型计算所述三类数据中各组园区之间的重叠面积;根据园区名称相似度及园区之间重叠面积比值设定重复园区剔除规则,确定所述三类数据中各组需要剔除的重复园区。2.如权利要求1所述的基于经纬度的闭合园区去重方法,其特征在于,所述2的、重叠面积识别模型建立方法包括:首先获取所述目标园区边界经纬度的最大值和最小值,根据所述目标园区边界经度的最大值和最小值计算边界经度最大距离,根据所述目标园区边界纬度的最大值和最小值计算边界纬度最大距离;然后取边界经度最大距离和边界纬度最大距离中的较小值,根据取出的最小值给定geohash位数;再按照给定位数的geohash对所述目标园区边界经纬度围成的闭合区域进行切割,计算在给定geohash位数下,所述三类数据各组园区中任意两个园区重合的切割网格个数,最后根据重叠面积计算公式得到各组园区中任意两个园区之间的重叠面积,重叠面积计算公式为S
overlap
(A1,A2)=N(A1,A2)
×
S
n
其中,A1和A2表示各组园区中任意两个园区,S
overlap
(A1,A2)表示园区A1和园区A2的重叠面积,N(A1,A2)表示园区A1和园区A2重合的切割网格个数,S
n
表示给定的geohash位数下单个切割网格的覆盖面积。3.如权利要求1所述的基于经纬度的闭合园区去重方法,其特征在于,所述基于所述目标园区所属省市区县、园区名称及园区地址将所述目标园区分为三类数据,按照数据类型对所述三类数据进行分组,包括:园区名称相同且所属省市区县相同为第一分类,所述第一分类下园区按照园区名称分组;园区地址相同但园区名称不同为第二分类,所述第二分类下园区按照园区地址分组;园区名称和地址均不相同为第三分类,所述第三分类下园区按照园区名称、园区所属省市区县及园区之间距离小于距离阈值L分组。4.如权利要求1所述的基于经纬度的闭合园区去重方法,其特征在于,所述根据园区名称相似度及园区之间重叠面...
【专利技术属性】
技术研发人员:唐杰,徐敏,徐超,陈雨鑫,
申请(专利权)人:浙江有数数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。