【技术实现步骤摘要】
一种基于数据湖的空间大数据处理系统及方法
[0001]本申请涉及空间大数据处理
,具体涉及一种基于数据湖的空间大数据处理系统及方法。
技术介绍
[0002]随着科技的发展,世界经济数字化转型正处在高速发展的道路上,空间大数据作为驱动科技创新发展的关键要素,其经济价值与战略价值愈发凸显,但与之对应的挑战也日益严峻。
[0003]现如今,空间大数据治理面临着如空间大数据来源复杂性,空间大数据种类复杂性,空间大数据存储占用大,空间大数据分析计算量大等等诸多难题。传统的空间大数据处理方案需要根据空间大数据的类型分别存储在不同的文件系统和数据库中,其无法实现空间大数据的统一存储。因此,如何解决空间大数据的统一存储成为亟需解决的问题。
[0004]因此,亟需一种基于数据湖的空间大数据处理系统及方法来解决当前技术存在的问题。
技术实现思路
[0005]本申请提供了一种基于数据湖的空间大数据处理系统及方法,可以实现空间大数据的统一存储。
[0006]第一方面,本申请提供了一种基于数据湖的空间大数 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据湖的空间大数据处理系统,其特征在于,所述系统包括:获取模块(1)、数据入湖模块(2)以及数据湖解析模块(3);所述获取模块(1),用于获取不同数据源中多种类型空间大数据;所述数据入湖模块(2),用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块(3),用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块(3),还用于将多种所述结构化数据储存至第一Delta表。2.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;所述数据入湖模块(2)包括:文件数据源入湖子模块(21)、API入湖子模块(22)、数据库入湖子模块(23)以及手动文件上传子模块(24);所述文件数据源入湖子模块(21),用于通过Input抽象接口获取所述文件型服务器数据源中所述多种类型空间大数据的数据流,并通过Output抽象接口将所述文件型服务器数据源中所述多种类型空间大数据的数据流储存至所述数据湖;所述API入湖子模块(22),用于调用所述API服务器数据源的HTTP请求,并将请求得到的所述API服务器数据源中所述多种类型空间大数据储存至所述数据湖;所述数据库入湖子模块(23),用于通过JDBC将所述数据库类型数据源中所述多种类型空间大数据储存至所述数据湖;所述手动文件上传子模块(24),用于提供文件上传入口,并通过所述文件上传入口获取用户储存至所述数据湖中的将文件类型数据源中所述多种类型空间大数据。3.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述多种类型空间大数据包括半结构化的JSON格式数据、结构化的SHP数据、结构化的GDB数据、非结构化的影像数据以及非结构化的图片数据;所述数据湖解析模块(3)包括:JSON数据解析子模块(31)、SHP数据解析子模块(32)、GDB数据解析子模块(33)、影像数据解析子模块(34)以及图片数据解析子模块(35);所述JSON数据解析子模块(31),用于基于JsonPath和JsonJolt将所述半结构化的JSON格式数据转化成结构化数据;所述SHP数据解析子模块(32),用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将所述结构化的SHP数据转换为二维表数据;所述GDB数据解析子模块(33),用于基于GDB规范,对所述结构化的GDB数据解析得到二维表数据;所述影像数据解析子模块(34),用于提取所述非结构化的影像数据的元数据信息,并将所述元数据信息整合为二维表数...
【专利技术属性】
技术研发人员:黄超,赵慧慧,陈梦月,张康,刘欣,
申请(专利权)人:北京捷泰云际信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。