System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据存储领域,具体涉及一种多源数据存储方法、系统、设备及计算机可读存储介质。
技术介绍
1、目前的大数据存储面临数据源的种类越来越多,不同数据源产生的数据格式也越来越多,导致数据格式难以统一,无法全部、快速、以及准确存至大数据平台的问题。另外,对于一些数据源产生的数据,在存储时还需要将一些参考数据与其一并存至大数据平台。
2、目前在将多源数据存储至大数据平台前,一般依赖人工,将数据格式转换为指定格式,如果数据量较小,还可以采用手动方式,对各个数据源的数据格式进行调整并提取有用信息存储,一旦数据量较大,就会出现问题。
技术实现思路
1、本申请提供一种多源数据存储方法、系统、设备及计算机可读存储介质,可以解决现有技术中存在的多源数据格式不一带来的存储效率低下的技术问题。
2、第一方面,本申请实施例提供多源数据存储方法,所述方法包括:
3、预先配置多种数据处理策略,所述数据处理策略用于将至少一个具有源格式的源文件分别进行数据提取后,进行数据关联和数据格式转换,以得到具有目标格式的目标文件;
4、所述源文件和所述目标文件均包括多个数据项、以及每个数据项对应的数据内容;所述数据提取包括提取至少一个数据项及其数据内容;所述数据关联包括基于相同的数据项,将与之关联的数据项及数据内容关联在一起;所述数据格式转换包括在进行数据关联时,将数据项的名称进行统一、将数据内容的数据单位进行统一、和/或对数据内容进行自定义填充;
5、从多
6、结合第一方面,在一种实施方式中,所述源格式包括xlsx格式、json格式、csv格式、txt格式、以及xlsx格式。
7、结合第一方面,在一种实施方式中,所述方法包括:
8、通过提供配置模板,以供用户在配置模板中填入内容,以形成所述数据处理策略。
9、结合第一方面,在一种实施方式中,所述方法包括:
10、从多个数据源接收到源文件并分别从每个源文件中剔除干扰数据后,根据预设的所述数据处理策略对每个源文件进行处理,以得到目标文件并进行存储。
11、结合第一方面,在一种实施方式中,所述数据项按照种类分为数据源身份数据项和数据源运行数据项。
12、结合第一方面,在一种实施方式中,所述数据关联包括基于相同的数据源身份数据项,将该数据源身份数据项的数据内容、以及与该数据源身份数据项关联的数据源运行数据项及其数据内容关联在一起;以及
13、所述数据关联包括基于相同的数据源运行数据项,将数据源运行数据项的数据内容、以及与该数据源运行数据项关联的其他数据源运行数据项及其数据内容关联在一起。
14、结合第一方面,在一种实施方式中,所述数据提取包括提取至少一个数据项及其全部数据内容;以及
15、所述数据提取包括提取至少一个数据项及其部分数据内容。
16、第二方面,本申请实施例提供了一种多源数据存储系统,所述系统包括:
17、配置模块,其用于预先配置多种数据处理策略,所述数据处理策略用于将至少一个具有源格式的源文件分别进行数据提取后,进行数据关联和数据格式转换,以得到具有目标格式的目标文件;所述源文件和所述目标文件均包括多个数据项、以及每个数据项对应的数据内容;所述数据提取包括提取至少一个数据项及其数据内容;所述数据关联包括基于相同的数据项,将与之关联的数据项及数据内容关联在一起;所述数据格式转换包括在进行数据关联时,将数据项的名称进行统一、将数据内容的数据单位进行统一、和/或对数据内容进行自定义填充;
18、数据处理模块,其用于从多个数据源接收到源文件后,根据预设的所述数据处理策略对每个源文件进行处理,以得到目标文件并进行存储。
19、第三方面,本申请实施例提供了一种多源数据存储设备,所述多源数据存储设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的多源数据存储程序,其中所述多源数据存储程序被所述处理器执行时,实现所述的多源数据存储方法的步骤。
20、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有多源数据存储程序,其中所述多源数据存储程序被处理器执行时,实现所述的多源数据存储方法的步骤。
21、本申请实施例提供的技术方案带来的有益效果包括:
22、通过预先配置多种数据处理策略,用于将至少一个具有源格式的源文件分别进行数据提取后,进行数据关联和数据格式转换,以得到具有目标格式的目标文件,数据提取包括提取至少一个数据项及其数据内容,数据关联包括基于相同的数据项,将与之关联的数据项及数据内容关联在一起,数据格式转换包括在进行数据关联时,将数据项的名称进行统一、将数据内容的数据单位进行统一、和/或对数据内容进行自定义填充,从而解决了相关技术中存在的多源数据格式不一带来的存储效率低下的技术问题。
本文档来自技高网...【技术保护点】
1.一种多源数据存储方法,其特征在于,所述方法包括:
2.如权利要求1所述的多源数据存储方法,其特征在于,所述源格式包括xlsx格式、json格式、csv格式、txt格式、以及xlsx格式。
3.如权利要求1所述的多源数据存储方法,其特征在于,所述方法包括:
4.如权利要求1所述的多源数据存储方法,其特征在于,所述方法包括:
5.如权利要求1所述的多源数据存储方法,其特征在于,所述数据项按照种类分为数据源身份数据项和数据源运行数据项。
6.如权利要求5所述的多源数据存储方法,其特征在于,所述数据关联包括基于相同的数据源身份数据项,将该数据源身份数据项的数据内容、以及与该数据源身份数据项关联的数据源运行数据项及其数据内容关联在一起;以及
7.如权利要求1所述的多源数据存储方法,其特征在于,所述数据提取包括提取至少一个数据项及其全部数据内容;以及
8.一种多源数据存储系统,其特征在于,所述系统包括:
9.一种多源数据存储设备,其特征在于,所述多源数据存储设备包括处理器、存储器、以及存储在所
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多源数据存储程序,其中所述多源数据存储程序被处理器执行时,实现如权利要求1至7中任一项所述的多源数据存储方法的步骤。
...【技术特征摘要】
1.一种多源数据存储方法,其特征在于,所述方法包括:
2.如权利要求1所述的多源数据存储方法,其特征在于,所述源格式包括xlsx格式、json格式、csv格式、txt格式、以及xlsx格式。
3.如权利要求1所述的多源数据存储方法,其特征在于,所述方法包括:
4.如权利要求1所述的多源数据存储方法,其特征在于,所述方法包括:
5.如权利要求1所述的多源数据存储方法,其特征在于,所述数据项按照种类分为数据源身份数据项和数据源运行数据项。
6.如权利要求5所述的多源数据存储方法,其特征在于,所述数据关联包括基于相同的数据源身份数据项,将该数据源身份数据项的数据内容、以及与该数据源身份数据项关联的数据源运行数据项...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。