本申请涉及一种开采区地形数据清洗方法、装置、电子设备及存储介质,其中,方法包括:搜集选定的目标区域的地形高程数据,对该数据进行预处理,得到数据集,并生成训练集和测试集;基于局部点密度与径向基函数的形状参数之间的关系,根据局部点密度自适应确定径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对目标区域的地形数据集的缺损值进行恢复以及空间加密处理;同时,结合机器学习模型,对空间插值和机器学习算法在地形数据清洗应用方面的有效性进行分析。由此,解决了科研和工程应用中高成本精细化地形数据获取困难,及空间插值地形数据清洗中最优形状参数难以选择等技术问题。参数难以选择等技术问题。参数难以选择等技术问题。
【技术实现步骤摘要】
开采区地形数据清洗方法、装置、电子设备及存储介质
[0001]本申请涉及地形数据清洗
,特别涉及一种开采区地形数据清洗方法、装置、电子设备及存储介质。
技术介绍
[0002]在许多实际工程和科学研究中,获取充分可靠的地面地形数据、地质结构数据和地层属性数据以及对此类数据进行处理,是科学研究和数字地形模型构建的重要前提和关键环节,对模型的精确性和合理性有着重要的影响和作用。地形数据来源多样,主要有地面测绘、原有地形图数字化、激光雷达和航空摄影等途径。但由于科学技术和研究成本的制约,尤其是在偏远地区,使用激光雷达和航空摄影获取精确地形数据的成本很高,精细地形数据获取的难度较大。因此,如何利用现有的Google Earth、地理空间数据云和美国地质调查局等开源数据库获取免费的地形数据,并对这些地形数据进行数据清洗,使其满足一定精度的地形模型构建要求,是土木工程和地形重建领域具有很大实用价值的关键问题。
[0003]数据清洗中的一个关键环节是对数据进行缺损值恢复和时空加密。空间插值方法是对稀疏散乱的地形数据进行时空加密和缺损值恢复的有效手段。目前常用于稀疏散乱数据插补的插值方法主要有克里金插值法(Kriging)、自适应反距离加权插值法(Adaptive Inverse Distance Weighted,AIDW)和径向基函数插值法(Radial
‑
Basis Function,RBF)等。在实际应用中,一些径向基函数仍需要人为设定一些参数,而这些参数的取值对计算精度有较大的影响。其中,形状参数是多二次径向基函数的一个超参数,许多学者通过研究,给出了基于经验的径向基函数形状参数选取的经验公式,并提出了通过交叉验证技术来确定最优形状参数,但这种交叉验证技术计算非常耗时。因此,对如何将待插值点处局部空间点密度与待插值点处的形状参数建立联系,实现空间中径向基函数的形状参数自适应确定开展研究是很有必要的。同时,结合近年来高度发展的机器学习方法,构建地形数据清洗的高精度模型是一个很有意义的研究方向。
[0004]为了满足科学研究和实际工程对地形数据质量的要求,需要对稀疏散乱的地形数据进行时空加密和缺失值恢复,目前现有数据插值方法主要存在着以下不足:
[0005](1)反距离加权插值法:该方法以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本赋予的权重越大,在使用时易受到极值的影响;
[0006](2)克里金插值法:计算量大,耗时长,难以处理大型数据集;
[0007](3)径向基函数插值法:近年来,该方法被广泛应用于多维散乱数据处理和偏微分方程数值求解。在该方法中,基函数的选择作为径向基函数研究的一个核心问题,将直接影响到相应数值计算结果。在使用过程中需要人为设定的部分参数对计算精度有着很大影响,确定最优形状参数的计算过程复杂耗时;
[0008](4)kNN(K Nearest Neighbors,K最近邻)插值算法:计算稳定性较差,预测结果易受噪声影响,且计算复杂度较高。
[0009]综上所述,在科研和工程应用中,相关技术对高成本精细化地形数据获取困难,同
时难以选择空间插值地形数据清洗中最优形状参数。
技术实现思路
[0010]本申请提供一种开采区地形数据清洗方法、装置、电子设备及存储介质,以解决科研和工程应用中高成本精细化地形数据的获取困难,及空间插值地形数据清洗中最优形状参数难以选择等技术问题。
[0011]本申请第一方面实施例提供一种开采区地形数据清洗方法,包括以下步骤:搜集选定的目标区域的地形高程数据;对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集和测试集;基于局部点密度与径向基函数的形状参数之间的关系,根据所述局部点密度自适应确定所述径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理;以及根据处理后的地形数据集的地形数据的特征,构建DNN和XGBoost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复;以及基于所述训练集和所述测试集,对比基于自适应径向基函数的地形数据清洗方式与所述机器学习模型在地形数据清洗中的性能及表现,得到地形数据集的缺损值恢复以及空间加密的有效性。
[0012]可选地,在本申请的一个实施例中,所述对所述地形高程数据进行预处理,得到数据集,包括:筛选所述地形高程数据中重复数据;删除所述重复数据,由剩余的地形高程数据组成所述数据集。
[0013]可选地,在本申请的一个实施例中,所述根据所述局部点密度自适应确定所述径向基函数的形状参数,包括:确定插值点处局部点集;根据所述插值点处局部点集计算全局点密度和局部点密度;基于所述全局点密度和所述局部点密度,利用模糊隶属函数归一化所述局部点密度,以利用三角函数确定所述形状参数。
[0014]可选地,在本申请的一个实施例中,所述构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理,包括:对所述目标区域的V型侵蚀沟道和露天采石场地形数据的缺失值进行插补计算,得到归一化均方根误差、归一化最大误差和/或拟合优度,得到每个插值点的的归一化绝对误差。
[0015]可选地,在本申请的一个实施例中,所述构建DNN和XGBoost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复,包括:利用所述机器学习模型对所述目标区域的V型侵蚀沟道和露天采石场地形数据的缺失值进行恢复预测,以得到每个未知点的归一化高程绝对误差。
[0016]本申请第二方面实施例提供一种开采区地形数据清洗装置,包括:搜集模块,用于搜集选定的目标区域的地形高程数据;生成模块,用于对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集和测试集;第一构建模块,用于基于局部点密度与径向基函数的形状参数之间的关系,根据所述局部点密度自适应确定所述径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理;以及第二构建模块,用于根据处理后的地形数据集的地形数据的特征,构建DNN和XGBoost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复;以及对比模块,用于基于所述训练集和所述测试集,对比基于自适应径向基函数的地形数据清洗方式与所述机器学习模型在地形数据清洗中的性能及表现,得到地形
数据集的缺损值恢复以及空间加密的有效性。
[0017]可选地,在本申请的一个实施例中,所述生成模块包括:筛选单元,用于筛选所述地形高程数据中重复数据;删除单元,用于删除所述重复数据,由剩余的地形高程数据组成所述数据集。
[0018]可选地,在本申请的一个实施例中,所述第一构建模块包括:第一确定单元,用于确定插值点处局部点集;计算单元,用于根据所述插值点处局部点集计算全局点密度和局部点密度;第二确定单元,用于基于所述全局点密度和所述局部点密度,利用模本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种开采区地形数据清洗方法,其特征在于,包括以下步骤:搜集选定的目标区域的地形高程数据;对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集和测试集;基于局部点密度与径向基函数的形状参数之间的关系,根据所述局部点密度自适应确定所述径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理;以及根据处理后的地形数据集的地形数据的特征,构建DNN和XGBoost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复;以及基于所述训练集和所述测试集,对比基于自适应径向基函数的地形数据清洗方式与所述机器学习模型在地形数据清洗中的性能及表现,得到地形数据集的缺损值恢复以及空间加密的有效性。2.根据权利要求1所述的方法,其特征在于,所述对所述地形高程数据进行预处理,得到数据集,包括:筛选所述地形高程数据中重复数据;删除所述重复数据,由剩余的地形高程数据组成所述数据集。3.根据权利要求1所述的方法,其特征在于,所述根据所述局部点密度自适应确定所述径向基函数的形状参数,包括:确定插值点处局部点集;根据所述插值点处局部点集计算全局点密度和局部点密度;基于所述全局点密度和所述局部点密度,利用模糊隶属函数归一化所述局部点密度,以利用三角函数确定所述形状参数。4.根据权利要求1所述的方法,其特征在于,所述构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理,包括:对所述目标区域的V型侵蚀沟道和露天采石场地形数据的缺失值进行插补计算,得到归一化均方根误差、归一化最大误差和/或拟合优度,得到每个插值点的的归一化绝对误差。5.根据权利要求4所述的方法,其特征在于,所述构建DNN和XGBoost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复,包括:利用所述机器学习模型对所述目标区域的V型侵蚀沟道和露天采石场地形数据的缺失值进行恢复预测,以得到每个未知点的归一化高程绝对误差。6.一种开采区地形数据清洗装置,其特征在于,包括:搜集模块,用于搜集选定的目标区域的地形高程数据;生成模块,用于对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集...
【专利技术属性】
技术研发人员:邵凯旋,高凯锋,梅钢,徐能雄,
申请(专利权)人:中国地质大学北京,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。