一种地理空间大数据的点密度实现方法及电子设备技术

技术编号：33626604 阅读：18 留言：0更新日期：2022-06-02 01:12

本发明专利技术涉及计算机工程应用技术领域，具体涉及一种地理空间大数据的点密度实现方法及电子设备，本发明专利技术将空间大数据离散化，读取离散后的数据，设置搜索邻域与格网，对数据进行分箱处理、降低维度；将搜索邻域遍历每个格网，计算标志距离，并将该距离设置为遍历的参数，实现搜索领域内的点被单次遍历；计算搜索领域内点密度值，将密度值与离散点坐标分布式存储，直到遍历整个区域；利用降维处理时的key值，对大数据的维度进行恢复，并输出离散点的密度值与对应的经纬度坐标。通过引入大数据快速处理与存储技术、大数据的分箱技术，开发格网快速遍历等技术，在不改变地理空间大数据二维离散特性和相对位置的基础上，快速获取其真实密度。实密度。实密度。

全部详细技术资料下载

【技术实现步骤摘要】
一种地理空间大数据的点密度实现方法及电子设备

[0001]本专利技术涉及数据处理
，具体涉及一种地理空间大数据的点密度实现方法及电子设备。

技术介绍

[0002]大数据时代，获取区域内点、线、面等地理实体的统计值(又称密度)，是空间大数据领域的研究热点之一。
[0003]目前常用的密度获取方法主要有聚类算法(DBSCAN、CBSCAN、 K
‑
Means、HDBSCAN、OPTICS)、核密度算法等，这些算法在描述地理空间大数据的点格局发挥重要的作用，市场上已有较多软件与语言也有其快速实现的平台，如ArcGIS/ArcGIS Pro、Python/R等。
[0004]但对于离散的地理空间大数据而言，存在明显的局限：
[0005](1)两类算法改变离散点的二维形状和相对位置，将原来无数据记录的位置也拟合成有值的区域，存在过度拟合的问题；
[0006](2)获取的密度为加权平均值，而不是真实密度；
[0007](3)输入参数不同时，所获取的结果差异较大，受主观因素较大；
[0008](4)需预先设定计算范围，否则将导致整个范围的形状发生改变。

技术实现思路

[0009]针对现有技术的不足，本专利技术公开了一种地理空间大数据的点密度实现方法及电子设备，通过引入大数据快速处理与存储技术、大数据的分箱技术，开发格网快速遍历等技术，解决了在不改变地理空间大数据二维离散特性和相对位置的基础上，不能快速获取其真实密度的问题。/>[0010]本专利技术通过以下技术方案予以实现：
[0011]第一方面，本专利技术公开了一种地理空间大数据的点密度实现方法，包括以下步骤：
[0012]S1将空间大数据离散化，读取离散后的数据，设置搜索邻域与格网，通过近似的方法，对数据进行分箱处理、降低维度；
[0013]S2将搜索邻域遍历每个格网，计算标志距离，并将该距离设置为遍历的参数，实现搜索领域内的点被单次遍历；
[0014]S3计算搜索领域内点密度值，将密度值与离散点坐标分布式存储，直到遍历整个区域；
[0015]S4利用降维处理时的key值，对大数据的维度进行恢复，并输出离散点的密度值与对应的经纬度坐标。
[0016]更进一步的，所述方法中，以R语言为运行环境，地理空间大数据由N个POI点组成，并且人为设置空白区域。其中N为自然数。
[0017]更进一步的，所述方法中，在R语言环境下引入data.table功能包，进行快速聚合
大数据，快速排序的连接，按组快速添加/修改/删除列，且不使用任何副本，进行友好且快速的字符分隔值读/写，以加快开发速度。
[0018]更进一步的，所述方法中，将空间大数据离散化时，包含坐标的地理空间大数据，若缺少经纬度坐标，需要经过逆地理编码实现坐标的获取，若数据为线状的，需要提取线状地物的坐标，若为面状地物，需要提取中心点坐标。
[0019]更进一步的，所述方法中，进行分箱处理时设置分箱规则，将研究区域划分为等距的格网，其中格网大小为g，搜索半径为r，通过近似的方式获取每个点在其最近格网点的坐标，并返回唯一的key值。
[0020]更进一步的，所述方法中，遍历格网时分三重循环，算法如下：首先遍历m个格网点，获取邻域内格网点F的坐标(lat1,lon1)；
[0021]其次沿着中央经线方向，依次从F点遍历至G点，当遍历至F点时，l等于邻域半径r，容忍距t为0；
[0022]判断density(lat1,lon1)是否存在，若不存在将其值赋予 bin_density(lat1,lon1)+1，若存在则density_hash(lat1,lon1)值为 bin_density(lat1,lon1)的值；
[0023]当遍历至E点时，此时的容忍距t(0<t<r)，然后以格网大小 g为步长遍历经度方向的点E1至E4，将其经纬度坐标存储至density() 表中，并记录次数，以此类推直至遍历至点G完成邻域内所有格网点的循环。
[0024]更进一步的，所述方法中，容忍距t是识别领域内点经度的重要依据，用于保证只有在搜索邻域范围内的点被遍历，当遍历结束后， density(lat
t
,lon
t
)的key值为经过分箱操作后点的经纬度坐标值，地址值为点真实的密度值，此时数据的维度仍为m。
[0025]更进一步的，所述方法中，进行维度的还原时，依次遍历大数据的维度n，从density()中读取第二步获取的点的个数与key值，最终得到大数据n个离散点的初始坐标和对应的密度值
[0026]第二方面，本专利技术公开了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行第一方面所述的地理空间大数据的点密度实现方法。
[0027]本专利技术的有益效果为：
[0028]本专利技术通过编写算法，使用大数据快速处理与存储技术，设定规则，在保持地理空间大数据二维离散特征、投影关系、相对位置的基础上，快速获取区域内大数据点密度的算法，并以可视化方式展示。解决了传统统计方法费时费力的问题、解决了常用的核密度法改变空间大数据离散特征、解决了聚类算法主观归类的计算方法，而难以获取真实密度的局限。并且可应用于自然资源统计与应用管理等领域。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0030]图1是地理空间大数据的点密度实现方法流程图；
[0031]图2是空间大数据分布图；
[0032]图3是本专利技术技术总体技术流程图；
[0033]图4是设定分箱规则示意图；
[0034]图5是本专利技术遍历格网示意图；
[0035]图6是ArcGIS/Pro核密度计算结果图；
[0036]图7是本专利技术不同搜索半径的算法实现效果图；
[0037]图8是随机抽样原图；
[0038]图9是本专利技术随机抽样的点密度结果图。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0040]实施例1
[0041]本实施例公开如图1所示的一种基础地理空间大数据的点密度实现方法，所述从空间本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地理空间大数据的点密度实现方法，其特征在于，所述方法包括以下步骤：S1将空间大数据离散化，读取离散后的数据，设置搜索邻域与格网，通过近似的方法，对数据进行分箱处理、降低维度；S2将搜索邻域遍历每个格网，计算标志距离，并将该距离设置为遍历的参数，实现搜索领域内的点被单次遍历；S3计算搜索领域内点密度值，将密度值与离散点坐标分布式存储，直到遍历整个区域；S4利用降维处理时的key值，对大数据的维度进行恢复，并输出离散点的密度值与对应的经纬度坐标。2.根据权利要求1所述的地理空间大数据的点密度实现方法，其特征在于，所述方法中，以R语言为运行环境，地理空间大数据由N个POI点组成，并且人为设置空白区域，其中N为自然数。3.根据权利要求2所述的地理空间大数据的点密度实现方法，其特征在于，所述方法中，在R语言环境下引入data.table功能包，进行快速聚合大数据，快速排序的连接，按组快速添加/修改/删除列，且不使用任何副本，进行友好且快速的字符分隔值读/写，以加快开发速度。4.根据权利要求1所述的地理空间大数据的点密度实现方法，其特征在于，所述方法中，将空间大数据离散化时，包含坐标的地理空间大数据，若缺少经纬度坐标，需要经过逆地理编码实现坐标的获取，若数据为线状的，需要提取线状地物的坐标，若为面状地物，需要提取中心点坐标。5.根据权利要求1所述的地理空间大数据的点密度实现方法，其特征在于，所述方法中，进行分箱处理时设置分箱规则，将研究区域划分为等距的格网，其中格网大小为g，搜索半径为r，通过近似的方式获取每个点在其最近格网点的坐标，并返回唯一的key值。6.根据权利要求1所述的地理空间大数据的点密度实现方法，其特征在于，所述方法...

【专利技术属性】
技术研发人员：饶加旺，王勇，王朝辉，周松，曹婷丽，袁星，周秀华，
申请(专利权)人：江苏省测绘工程院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人