一种面对天基数据基于一体化ETL的大数据融合系统及方法技术方案

技术编号:37873873 阅读:12 留言:0更新日期:2023-06-15 21:02
本申请提供了一种面对天基数据的基于ETL的大数据融合方法,包括:S1:根据数据来源判断采集方式,进行数据采集,并将采集的数据存入数据库;S2:对数据库中的数据进行ETL处理;其中,步骤S1中,将采集的数据划分为结构化数据、半结构化数据、非结构化数据,将采集的数据存入数据库的过程包括:对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据;对预处理后的数据,抽取元数据,形成元数据列表。形成元数据列表。形成元数据列表。

【技术实现步骤摘要】
一种面对天基数据基于一体化ETL的大数据融合系统及方法


[0001]本申请整体上涉及一种面对天基数据基于一体化ETL的大数据融合系统及方法。

技术介绍

[0002]ETL(Extract

Transform

Load,抽取

转换

加载)任务是一种用于实现对数据进行处理的任务,常用在数据库系统和数据仓库中,成为联机分析处理、数据挖掘的基础。
[0003]信息融合最早应用于军事领域,是组合多源信息和数据完成目标检测、关联、状态评估的多层次、多方面的过程。数据融合技术能够辅助人们进行态势和环境的判定、规划、探测、验证、诊断。目前,数据融合技术迫切需要在理论和实现技术上进行开拓性研究。其中,随着我国航天事业的发展,天基数据的类型和质量在极具增加,从多源天基数据中获取信息以及进行融合已经成为重点发展方向,在军事和民用上都已经成为制约其发展的一个因素。天基数据的清洗转换及融合,对下则为整合多源数据的手段,对上则为各卫星情报处理系统的基础。
[0004]大数据普遍存在数据量大、离散性、数据噪声多、类型复杂、数据来源多元化等特点,因此大数据在前期处理方面存在问题,会直接导致数据的利用效率和数据价值等方面的问题。目前的大数据融合数据处理过程较为麻烦,且操作也不方便,数据处理的运维成本较高,不利于推广使用范围;并且,由于卫星情报的特殊性、独立性以及作为军事领域情报来源的时效性,传统ETL流程存在一些问题。
[0005]在专利号为CN201810189318.7的专利技术专利申请文件中有提到:当前对大数据的利用主要是基于其非结构化的属性使用的,因此无法充分发挥大数据的价值和利用效率;在专利CN202110366843.3的专利技术专利申请文件中,说明了一种基于Web

ETL大数据融合方法进行ETL,解决传统ETL 过程中操作麻烦、运维成本大的问题。但该方式对于天基数据的处理和时效性有明显的不足之处,并且此基于ETL的过程没有说明对非结构化数据的处理过程,但由于天基数据包括遥感卫星侦察图像,点位判情信息等,并且非结构化图像数据为天基数据的一个大类,对非结构化数据的简单处理方式,会极大影响非结构化数据在整个ETL流程中的处理效率,并且会极大影响数据应用层的利用数据的效率,势必会影响用户的使用与维护。

技术实现思路

[0006]为了解决现有技术中大数据融合过程较为麻烦,且操作不方便,数据处理运维成本较高的问题,并且解决面对天基数据解决多源天基数据时的时效性、格式、噪声等问题,并且解决传统方式对非结构化数据的处理时效性问题,本申请提供了一种面对天基数据的基于ETL的大数据融合系统及方法。
[0007]本专利技术提供了一种面对天基数据的基于ETL的大数据融合方法,包括:
[0008]S1:根据数据来源判断采集方式,进行数据采集,并将采集的数据存入数据库;
[0009]S2:对数据库中的数据进行ETL处理;
[0010]其中,步骤S1中,将采集的数据划分为结构化数据、半结构化数据、非结构化数据,将采集的数据存入数据库的过程包括:
[0011]对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据;
[0012]对预处理后的数据,抽取元数据,形成元数据列表。
[0013]根据本专利技术提供的方法,其中,对于结构化数据,直接存入数据库。
[0014]根据本专利技术提供的方法,其中,对于半结构化数据,在预处理过程中进行内容字段对应和抽取。
[0015]根据本专利技术提供的方法,其中,对于非结构化数据,基于天基侦察情报数据的类型,采用不同的方式进行预处理。
[0016]根据本专利技术提供的方法,其中,若天基侦察情报数据的类型为图像数据,则预处理过程包括:
[0017]抽取图像数据的元信息;
[0018]使用深度学习的方法进行地物分类或进行目标识别后产生相应的情报数据再次入库。
[0019]根据本专利技术提供的方法,其中,若天基侦察情报数据的类型为文本数据,则预处理过程包括:进行文字语义识别,以将非结构化数据转换为结构化数据。
[0020]根据本专利技术提供的方法,其中预处理过程中,优先提取非结构化的文本数据中的点位情报、地理情报、目标情报。
[0021]本专利技术还提供了一种其上存储有软件指令的计算机可读存储介质,所述软件指令在被执行时实施上述方法。
[0022]本专利技术还提供了一种面对天基数据的基于ETL的大数据融合系统,用于执行上述方法,所述系统包括;
[0023]数据采集模块;
[0024]ETL处理模块。
[0025]根据本专利技术提供的系统,其中,数据采集模块将采集的数据划分为结构化数据、半结构化数据、非结构化数据,并对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据。
[0026]本申请提供的系统和方法中,首先将天基数据按照结构化数据、非结构化数据、半结构化数据这三种类型进行分类,并在预处理阶段对半结构化数据和非结构化数据进行处理,提高了处理效率以及在后续数据应用层对数据的有效利用。
附图说明
[0027]下文将以明确易懂的方式通过对优选实施例的说明并结合附图来对本申请上述特性、技术特征、优点及其实现方式予以进一步说明。以下附图仅旨在于对本申请做示意性说明和解释,并不限定本申请的范围。其中:
[0028]图1示出了面对天基数据的基于ETL的大数据融合方法。
[0029]图2示出了对采集的数据进行预处理的流程。
[0030]图3示出了对图像数据类型的非结构化数据进行预处理的过程。
[0031]图4示出了对文本数据类型的非结构化数据进行预处理的过程。
[0032]图5示出了数据清洗与加工的步骤。
[0033]图6示出了发布目录包括的子步骤。
具体实施方式
[0034]为了对本申请的技术特征、目的和效果有更加清楚的理解,现对照附图说明本申请的具体实施方式。
[0035]由于天基数据的特殊性,其存在三种不同的数据结构,即结构化数据、非结构化数据、半结构化数据。并且由于来源受限,其数据多为半结构化数据和非结构化的图像数据。半结构化数据和非结构化图像数据为天基数据的一个大类,如果对半结构化数据和非结构化数据不加以处理,会极大影响非结构化数据在整个ETL流程中的处理效率,并且会极大影响数据应用层的利用数据的效率,势必会影响用户的使用与维护。
[0036]本申请提供了一种面对天基数据的基于ETL的大数据融合系统及方法。在该方法中,首先将天基数据按照结构化数据、非结构化数据、半结构化数据这三种类型进行分类,并在预处理阶段对半结构化数据和非结构化数据进行处理,提高了处理效率以及在后续数据应用层对数据的有效利用;使用智能化算法对非结构化数据进行处理,在标准化数据的同时进行数据情报提取,能够积累样本库和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面对天基数据的基于ETL的大数据融合方法,包括:S1:根据数据来源判断采集方式,进行数据采集,并将采集的数据存入数据库;S2:对数据库中的数据进行ETL处理;其中,步骤S1中,将采集的数据划分为结构化数据、半结构化数据、非结构化数据,将采集的数据存入数据库的过程包括:对采集的数据进行预处理,该预处理包括将半结构化数据和非结构化数据转换为结构化数据;对预处理后的数据,抽取元数据,形成元数据列表。2.根据权利要求1所述的方法,其中,对于结构化数据,直接存入数据库。3.根据权利要求1所述的方法,其中,对于半结构化数据,在预处理过程中进行内容字段对应和抽取。4.根据权利要求1所述的方法,其中,对于非结构化数据,基于天基侦察情报数据的类型,采用不同的方式进行预处理。5.根据权利要求4所述的方法,其中,若天基侦察情报数据的类型为图像数据,则预处理过程包括:抽取图像数据的元信息;使用深度学习的方法进行地物分...

【专利技术属性】
技术研发人员:孙弋舒魏元骏邢哲董怡泽刘洋
申请(专利权)人:中国空间技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1