Hive文件处理方法及装置、计算机设备与存储介质制造方法及图纸

技术编号：33281465 阅读：11 留言：0更新日期：2022-04-30 23:42

本发明专利技术公开了一种Hive文件处理方法及装置、计算机设备与存储介质，方法包括：获取目标分区，目标分区包括文件数量大于第一设定值且存在文件大小未达到第二设定值的待合并文件的分区；对目标分区的待合并文件进行合并处理，并对进行合并处理中的目标分区添加合并锁以禁止对目标分区进行读取操作。应用本发明专利技术方案，在流式数据接入场景下，通过扫描并合并Hive小文件，减小NameNode内存压力，从而加快Hive查询速度，在Hive进行文件合并的替换文件阶段，给正在合并的数据加锁，不允许此时查询这些数据，避免了此时查询数据不准确的问题，并且，合并锁仅仅限制数据的读取，并不限定数据的写入，能够适应于流式数据接入的场景。能够适应于流式数据接入的场景。能够适应于流式数据接入的场景。

全部详细技术资料下载

【技术实现步骤摘要】
Hive文件处理方法及装置、计算机设备与存储介质

[0001]本专利技术涉及Hadoop数据仓储
，尤其涉及一种Hive文件处理方法及装置、计算机设备与存储介质。

技术介绍

[0002]在当前数据爆炸的时代，数据量的累积与增长超出了一般单机运行的数据库所能承受的极限，在这种情况下基于分布式计算的大数据应运而生。现如今较为流行的大数据解决方案通常基于Hadoop生态圈，分布式文件系统HDFS实现了文件的分布式存储，而数据仓储工具Hive可以将HDFS中存储的结构化数据抽象成一张表，并保存文件路径和表元信息的对应关系，并利用计算框架做到HDFS文件的分布式并行读取计算到达Hive表查询的效果。
[0003]然而，HDFS存在一个比较致命的缺点：无法存储大量的小文件。HDFS将文件按照固定大小(一般为64m或128m)将数据切割成Block块，同一个文件的不同Block块分布在不同的主机上，从而实现分布式存储。并且，HDFS使用一台主机NameNode来保存每个文件和块的对应关系以及块到主机的对应关系，高读写文件的响应速度，这些信息都被保存在NameNode的内存中。可见，NameNode的内存成为限制HDFS存储上限的瓶颈，而解决办法是：要突破瓶颈要么增大NameNode的内存，要么减少Block块的数量。很显然，主机的内存是不能无限提高的，因此，只能减少Block块的数量。举例而言，假设存在总大小为256M的n个文件。假如按照128M切分，那么会有两个Block块产生；但是，如果文件数量为256个，总共产...

【技术保护点】

【技术特征摘要】
1.一种Hive文件处理方法，其特征在于，包括：获取目标分区，所述目标分区包括文件数量大于第一设定值且存在文件大小未达到第二设定值的待合并文件的分区；对所述目标分区的待合并文件进行合并处理，并对进行合并处理中的目标分区添加合并锁以禁止对所述目标分区进行读取操作。2.根据权利要求1所述的Hive文件处理方法，其特征在于，还包括：合并处理完成后，解除对所述目标分区添加的所述合并锁。3.根据权利要求1所述的Hive文件处理方法，其特征在于，所述对进行合并处理中的目标分区添加合并锁以禁止对所述目标分区进行读取操作，包括：响应于所述目标分区处于未被Hive读写的状态，对所述目标分区添加合并锁以禁止对所述目标分区进行读取操作。4.根据权利要求1所述的Hive文件处理方法，其特征在于，所述对进行合并处理中的目标分区添加合并锁以禁止对所述目标分区进行读取操作，包括：响应于所述目标分区处于被Hive读写的状态，则等待读写操作完成后，对所述目标分区添加合并锁以禁止所述目标分区的读取操作。5.根据权利要求1至4任一项所述的Hive文件处理方法，其特征在于，所述对所述目标分区的待合并文件进行合并处理，包括：对进行合并处理中的目标分区添加合并锁之前，按照设定数据大小对目标分区中的待合并文件进行切割；将切割后的文件输出到预设目录下。6.根据权利要求5所述的Hive文件处理方法，其特征在于，所述对所述目标分区的待合并文件进行合并处...

【专利技术属性】
技术研发人员：田地，
申请(专利权)人：珠海联云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人