System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于地球科学的时空大数据分析方法技术_技高网

一种基于地球科学的时空大数据分析方法技术

技术编号:40105564 阅读:5 留言:0更新日期:2024-01-23 18:22
本发明专利技术公开了一种基于地球科学的时空大数据分析方法,涉及数据分析技术领域,包括以下步骤:S1、获取地球表面的卫星图像、地形数据;S2、检查不同数据源所得到的数据是否相符、数据是否存在缺失值及不完整的记录,统计每个字段的缺失值比例,并分析缺失值的原因,通过检查数据的唯一性和一致性约束条件来检查数据中是否存在不一致的记录或者重复的数据;对于不确定性和不一致性的问题,通过对数据进行质量评估,提高数据的一致性;通过数据匹配、数据融合技术,将多个数据源整合成一致的数据集,再次对整合后的数据集进行质量评估,当数据质量出现不一致等情况时,重新对数据进行异常值检测、缺失值填充及去重操作,提高了数据的准确性。

【技术实现步骤摘要】

本专利技术涉及数据分析,具体为一种基于地球科学的时空大数据分析方法


技术介绍

1、时空大数据指通过收集、整理和分析大量的时空数据,来揭示地球科学领域中的时空变化规律和趋势。时空大数据包括地球表面的地理信息、气候数据、地震数据、海洋数据等,以及时间和空间上的相关属性。通过对这些数据进行深入分析,帮助研究人员更好地理解地球的演化过程、预测自然灾害、优化资源管理等。时空大数据在地球科学研究中具有重要的应用价值,可以为决策者提供科学依据,为社会发展和环境保护提供支持。

2、所获得的相关数据通常具有多源、多尺度等特点,数据质量存在不确定性和不一致性,这些问题常导致分析结果的不准确性,且数据通常具有大量的维度和复杂的关联关系,使得数据的处理和分析变得困难,同时,由于数据量大,存储和计算资源的需求也很高,所以我们提出了一种基于地球科学的时空大数据分析方法,以便于解决上述中提出的问题。


技术实现思路

1、本专利技术的目的在于提供一种基于地球科学的时空大数据分析方法,以解决上述
技术介绍
提出的目前市场上的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于地球科学的时空大数据分析方法,包括以下步骤:

4、s1、获取地球表面的卫星图像、地形数据;

5、s2、检查不同数据源所得到的数据是否相符、数据是否存在缺失值及不完整的记录,统计每个字段的缺失值比例,并分析缺失值的原因,通过检查数据的唯一性和一致性约束条件来检查数据中是否存在不一致的记录或者重复的数据;

6、s3、使用可视化工具来检测数据中的异常值,即使用箱线图、散点图来发现数据中的离群点,并根据实际图像决定是否删除及修正异常值;

7、s4、对于存在缺失值的字段,进行填充缺失值;

8、s5、将数据转换为统一的格式,即将日期字段转换为统一的日期格式,将文本字段转换为统一的大小写;

9、s6、对于存在重复记录的数据,进行去重操作;

10、s7、对不同来源的数据通过数据匹配、数据融合的方式将多个数据源的数据整合成相同的数据集;

11、s8、通过降维和特征选择进行数据降维操作,并选择重要性的特征进行分析;

12、s9、使用并行计算和分布式存储技术来处理和分析降维后的数据。

13、本专利技术一个或多个实施例中,在所述步骤s1中,利用卫星遥感技术获取地球表面的卫星图像和地形数据,通过激光雷达数据生成高精度的地形模型和三维地图,通过地理信息系统(gis)收集和整理地球表面的地形、地貌、土地利用、水文数据信息。

14、本专利技术一个或多个实施例中,在所述步骤s2中,通过比较数据的字段和属性来对比不同数据源所得到的数据;

15、通过删除缺失值和插值填充的方式进行处理缺失值;

16、通过设置主键字段为唯一的值检查数据的唯一性。

17、本专利技术一个或多个实施例中,在所述步骤s3中,首先对数据进行预处理,即将数据转换为适合可视化的形式,将不同尺度的数据统一到固定范围内;

18、通过箱线图检测数据中的离群点,即通过绘制数据的分位数和四分位距来显示数据的分布情况,箱线图来显示数据的中位数、上下四分位数以及上下边界,当超出此范围时,则认定为异常值;

19、再通过散点图检测数据中的离群点,即通过绘制两个变量之间的关系来显示数据的分布情况,散点图上与其他数据点相比明显偏离的数据点,则为异常值;

20、在发现异常值后,根据实际情况决定删除或修正异常值,其中可通过插值来修正异常值,根据统计法确定异常值的阈值。

21、使用地图来显示卫星图像和地形数据,通过seaborn建立热力图来显示地球表面的温度分布,使用matplotlib来创建等值线图来显示地形高度,使用散点图显示地球表面上的点数据的分布情况,最后对可视化信息通过调整图表的颜色、字体、标签来进行辅助解释。

22、本专利技术一个或多个实施例中,在所述步骤s4中,使用均值填充方法对于数值型字段进行填充,计算字段的均值,并将缺失值替换为均值;

23、使用众数填充方法对于分类型字段进行填充,并将缺失值替换为众数;

24、使用线性插值对于连续型字段进行填充,将缺失值进行插值填充。

25、本专利技术一个或多个实施例中,在所述步骤s5中,首先对格式进行筛查,通过使用日期函数将日期格式进行统一,通过使用字符串函数来将文本字段进行统一。

26、本专利技术一个或多个实施例中,在所述步骤s6中,对数据集进行排序,并对相邻的数据进行比较,通过唯一的标识符来进行判断是否为重复,当出现重复数据时,对其进行删除处理。

27、本专利技术一个或多个实施例中,在所述步骤s7中,唯一标识符确定不同数据源之间的匹配字段,将不同数据源中相同的记录进行匹配,随后将不同数据源中的记录依次添加到新的数据集中。

28、本专利技术一个或多个实施例中,在所述步骤s8中,通过主成分分析(pca)将原始数据转换为更低维度的表示,并且保留数据集中的最大信息量,通过学习算法分析降维后的特征数据。

29、与现有技术相比,本专利技术的有益效果是:

30、对于不确定性和不一致性的问题,通过对数据进行质量评估,提高数据的一致性;通过数据匹配、数据融合技术,将多个数据源的数据整合成一个一致的数据集,再次对整合后的数据集进行质量评估,当数据质量出现不一致等情况时,重新对数据进行异常值检测、缺失值填充及去重等操作,提高了数据的准确性。

31、上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。

本文档来自技高网...

【技术保护点】

1.一种基于地球科学的时空大数据分析方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S1中,利用卫星遥感技术获取地球表面的卫星图像和地形数据,通过激光雷达数据生成高精度的地形模型和三维地图,通过地理信息系统(GIS)收集和整理地球表面的地形、地貌、土地利用、水文数据信息。

3.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S2中,通过比较数据的字段和属性来对比不同数据源所得到的数据;

4.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S3中,箱线图来显示数据的中位数、上下四分位数以及上下边界,当超出此范围时,则认定为异常值;

5.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S4中,使用均值填充方法对于数值型字段进行填充,计算字段的均值,并将缺失值替换为均值;

6.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S5中,首先对格式进行筛查,通过使用日期函数将日期格式进行统一,通过使用字符串函数来将文本字段进行统一。

7.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S6中,对数据集进行排序,并对相邻的数据进行比较,通过唯一的标识符来进行判断是否为重复,当出现重复数据时,对其进行删除处理。

8.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S7中,唯一标识符确定不同数据源之间的匹配字段,将不同数据源中相同的记录进行匹配,随后将不同数据源中的记录依次添加到新的数据集中。

9.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤S8中,通过主成分分析(PCA)将原始数据转换为更低维度的表示,并且保留数据集中的最大信息量,通过学习算法分析降维后的特征数据。

...

【技术特征摘要】

1.一种基于地球科学的时空大数据分析方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于地球科学的时空大数据分析方法,其特征在于:在所述步骤s1中,利用卫星遥感技术获取地球表面的卫星图像和地形数据,通过激光雷达数据生成高精度的地形模型和三维地图,通过地理信息系统(gis)收集和整理地球表面的地形、地貌、土地利用、水文数据信息。

3.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤s2中,通过比较数据的字段和属性来对比不同数据源所得到的数据;

4.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤s3中,箱线图来显示数据的中位数、上下四分位数以及上下边界,当超出此范围时,则认定为异常值;

5.根据权利要求1所述的一种基于地球科学的时空大数据分析方法,其特征在于:在所述步骤s4中,使用均值填充方法对于数值型字段进行填充,计算字段的均值,并将缺失值替换为均值...

【专利技术属性】
技术研发人员:张金典
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1