数据导入方法及装置制造方法及图纸

技术编号：19934143 阅读：30 留言：0更新日期：2018-12-29 04:31

本发明专利技术公开了一种数据导入方法及装置，在将第二集群的数据导入第一集群之前，第一集群首先将自身当前存储的历史数据中无需逐天累加的第一类数据删除，然后，将从第二集群中获得的待导入数据存储到第一集群中。删除第一集群存储的历史数据中的第一类数据，第一类数据不需要逐天累加，而且，此类数据可能在一段时间内不会发生变化。因此，删掉此类数据不会影响后续的数据处理过程，此外，后续从第二集群导入的数据中可能还包括这个数据。因此，删掉第一集群中的第一类数据后，能够避免从第二集群中导入与所述第一类数据重复的数据，节省了第一集群中的存储空间。

全部详细技术资料下载

【技术实现步骤摘要】
数据导入方法及装置
本专利技术涉及计算机
，尤其涉及一种数据导入方法及装置。
技术介绍
Hadoop是一个分布式系统的基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。HDFS具有高容错性的特点，并且部署在低廉的硬件上。它还提供高吞吐量访问应用程序的数据，适合有超大数据集的应用程序。在实际应用中，大数据Hadoop集群所需要的资源很大，例如，需要几十甚至几百台服务器。但是，在测试环境中往往没有那么多的服务器，可能只有几台服务器而已。为了在测试环境中测试和开发应用程序，需要将实际生产集群中产生的数据导入到测试环境中，如果基于测试环境下的几台服务器去计算和存储生产集群的数据，则会遇到资源不足的问题。
技术实现思路
鉴于上述问题，提出了本专利技术提供了一种数据导入方法及装置，以解决利用测试集群计算存储数据导致的资源不足的技术问题。第一方面，本申请提供一种数据导入方法，应用于第一集群中，所述方法包括：从所述第一集群...

【技术保护点】
1.一种数据导入方法，应用于第一集群中，其特征在于，所述方法包括：从所述第一集群当前存储的历史数据中，查找无需逐天累加的第一类数据；从所述第一集群中删除所述第一类数据；从第二集群中获取待导入数据，所述第一集群的资源少于所述第二集群的资源；将所述待导入数据存储到所述第一集群中。

【技术特征摘要】
1.一种数据导入方法，应用于第一集群中，其特征在于，所述方法包括：从所述第一集群当前存储的历史数据中，查找无需逐天累加的第一类数据；从所述第一集群中删除所述第一类数据；从第二集群中获取待导入数据，所述第一集群的资源少于所述第二集群的资源；将所述待导入数据存储到所述第一集群中。2.根据权利要求1所述的方法，其特征在于，从所述第一集群中删除所述第一类数据，包括：按照第一预设周期，删除所述第一集群中的所述第一类数据。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：删除所述第一集群中存储的与当前时刻的时间差超过第一预设时长的所有数据。4.根据权利要求1-3任一项所述的方法，其特征在于，所述从第二集群中获取待导入数据，包括：按照第二预设周期，获取所述第二集群中的所述待导入数据。5.根据权利要求1-3任一项所述的方法，其特征在于，所述从第二集群中获取待导入数据，包括：接收所述第二集群按照第二预设周期发送的所述待导入数据。6.一种数...

【专利技术属性】
技术研发人员：汤卫群，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人