一种Hadoop平台下的数据处理方法和系统技术方案

技术编号：13075184 阅读：67 留言：0更新日期：2016-03-30 10:48

本申请提供了一种Hadoop平台下的数据处理方法，属于数据处理领域，包括：获取Hadoop平台存量数据的Hive表结构信息，将待存储数据的结构信息与所述Hive表结构信息进行比较，获得数据结构变化信息；根据获得的所述数据结构变化信息和获取的所述存量数据的Hive表结构信息，更新Hive表结构；按照更新后的Hive表结构格式化所述待存储数据，并存储格式化后的所述待存储数据。采用本申请公开的方法，有效地保证了存储数据的数据结构的兼容性，在需要对归档存储的数据进行分析和查询时，不需要对数据格式进行统计和转换，不仅节省了计算资源，还可以快速反馈分析、查询结果，提高数据查询和分析效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理领域，特别是涉及一种Hadoop平台下的数据处理方法和系统。
技术介绍
随着计算机技术的发展，需要存储和处理的数据越来越多，并且，不同时期、不同终端或业务产生的数据的结构也可能不同。例如，在利用Hadoop集群进行数据管理时，业务系统的历史数据需要在归档系统中归档保存，现有技术中，来自业务系统的海量数据需要采用Hive表进行存储，便于数据的管理、查询。然而，由于业务需求的变化等原因，业务系统的某些表难免会发生表结构变化，进而使得各个期间归档源数据的数据格式不匹配。在利用Hive表进行数据存储、管理等数据归档操作的同时，必须要考虑数据结构变化导致归档数据文件与Hive表结构模式之间的匹配问题，既要确保归档数据的高效方便使用，又要确保历史存储的归档数据能以历史任一时点的数据结构进行分析。现有技术中通常的做法是，归档数据按照自身格式进行存储，当需要对归档的数据进行分析时，获取所有归档数据的数据结构，根据获取的所有的数据结构，确定一通用数据结构，并根据通用数据结构，修改历史归档数据，之后，再以确定的通用数据结构对所有数据进行分析。现有技术中的做法存在的缺陷是:在需要进行归档数据查询、分析时，要对已经归档的数据进行格式统计和转换，计算量非常大，结果反馈不及时。
技术实现思路
本申请所要解决的技术问题是提供一种Hadoop平台下的数据处理的方法和系统，解决数据归档数据查询和分析时计算量大、结果反馈不及时。为了解决上述问题，本申请提供了一种Hadoop平台下的数据处理方法，包括:获取Hadoop平台存量数据的Hive表结构信息，将待存储数据的...

【技术保护点】
一种Hadoop平台下的数据处理方法，其特征在于，包括：获取Hadoop平台存量数据的Hive表结构信息，将待存储数据的结构信息与所述Hive表结构信息进行比较，获得数据结构变化信息；根据获得的所述数据结构变化信息和获取的所述存量数据的Hive表结构信息，更新Hive表结构；按照更新后的Hive表结构格式化所述待存储数据，并存储格式化后的所述待存储数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：朱大勇，完献忠，滕一勤，
申请(专利权)人：北京先进数通信息技术股份公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人