【技术实现步骤摘要】
数据导入方法及装置
本专利技术涉及计算机
,尤其涉及一种数据导入方法及装置。
技术介绍
Hadoop是一个分布式系统的基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS具有高容错性的特点,并且部署在低廉的硬件上。它还提供高吞吐量访问应用程序的数据,适合有超大数据集的应用程序。在实际应用中,大数据Hadoop集群所需要的资源很大,例如,需要几十甚至几百台服务器。但是,在测试环境中往往没有那么多的服务器,可能只有几台服务器而已。为了在测试环境中测试和开发应用程序,需要将实际生产集群中产生的数据导入到测试环境中,如果基于测试环境下的几台服务器去计算和存储生产集群的数据,则会遇到资源不足的问题。
技术实现思路
鉴于上述问题,提出了本专利技术提供了一种数据导入方法及装置,以解决利用测试集群计算存储数据导致的资源不足的技术问题。第一方面,本申请提供一种数据导入方法,应用于第一集群中,所述方法包括:从所述第一集群 ...
【技术保护点】
1.一种数据导入方法,应用于第一集群中,其特征在于,所述方法包括:从所述第一集群当前存储的历史数据中,查找无需逐天累加的第一类数据;从所述第一集群中删除所述第一类数据;从第二集群中获取待导入数据,所述第一集群的资源少于所述第二集群的资源;将所述待导入数据存储到所述第一集群中。
【技术特征摘要】
1.一种数据导入方法,应用于第一集群中,其特征在于,所述方法包括:从所述第一集群当前存储的历史数据中,查找无需逐天累加的第一类数据;从所述第一集群中删除所述第一类数据;从第二集群中获取待导入数据,所述第一集群的资源少于所述第二集群的资源;将所述待导入数据存储到所述第一集群中。2.根据权利要求1所述的方法,其特征在于,从所述第一集群中删除所述第一类数据,包括:按照第一预设周期,删除所述第一集群中的所述第一类数据。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:删除所述第一集群中存储的与当前时刻的时间差超过第一预设时长的所有数据。4.根据权利要求1-3任一项所述的方法,其特征在于,所述从第二集群中获取待导入数据,包括:按照第二预设周期,获取所述第二集群中的所述待导入数据。5.根据权利要求1-3任一项所述的方法,其特征在于,所述从第二集群中获取待导入数据,包括:接收所述第二集群按照第二预设周期发送的所述待导入数据。6.一种数...
【专利技术属性】
技术研发人员:汤卫群,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。