System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种以Hadoop为核心的大数据服务器制造技术_技高网

一种以Hadoop为核心的大数据服务器制造技术

技术编号:40360017 阅读:5 留言:0更新日期:2024-02-09 14:46
本发明专利技术涉及数据处理技术领域,本发明专利技术公开了一种以Hadoop为核心的大数据服务器;包括计算小文件数据的容量占用值和分布节点的容量剩余值,将容量占用值与容量剩余值对比分析,判定是否选择优化指令,计算选择系数,选择第一优化指令或第二优化指令,从而对小文件数据进行合并和调整数据块大小处理;相对于现有技术,能够对海量的小文件数据进行合并或调整数据块大小的处理,从而将海量的小文件数据优化到满足分布节点高效准确处理计算的数量,降低分布节点处理小文件数据时的空间占用幅度,进而提高服务器中分布节点对海量小文件数据存储和访问效率,增强服务器的运行计算速率,降低发生延迟或故障现象的概率。

【技术实现步骤摘要】

本专利技术涉及数据处理,更具体地说,本专利技术涉及一种以hadoop为核心的大数据服务器。


技术介绍

1、随着大数据时代的到来,对大规模数据的处理需求越来越迫切,hadoop作为一种开源的分布式计算框架,已经成为处理大数据的主流技术之一,并为海量的数据处理提供安全、高效且稳定的计算环境,进而被广泛的应用到各类大小文件数据的处理当中。

2、申请公开号为cn114546962a的中国专利公开了一种基于hadoop的海事局船检大数据分布式存储系统,其通过对小文件元数据的缓存,减少一些不必要的磁盘交互和通信,减少了时间消耗,提高缓存效率;根据数据特点设计一个合适的缓存预取模块,能大大减少热点文件读取的时间消耗,进一步实现对小文件存储系统的优化;

3、现有技术存在以下不足:

4、现有的基于hadoop的大数据系统在处理海量小文件数据时,由于每一个小文件数据之间独立,需要占用一定的系统空间,导致hadoop系统的空间需求会在短时间内暴增,从而在处理海量小文件数据时容易出现延迟、停滞现象,降低了海量小文件数据的处理速率,也会对hadoop系统带来额外的运行负担,增加了hadoop系统出现故障的概率。

5、鉴于此,本专利技术提出一种以hadoop为核心的大数据服务器以解决上述问题。


技术实现思路

1、为了克服现有技术的上述缺陷,为实现上述目的,本专利技术提供如下技术方案:一种以hadoop为核心的大数据服务器,包括:

2、数据采集模块,用于标记分布节点的小文件数据,采集小文件数据的综合容量参数,基于综合容量参数,计算容量占用值;

3、节点容量计算模块,用于采集分布节点的容量总值和总占用值,基于容量总值和总占用值,计算容量剩余值;

4、对比分析模块,用于将容量占用值与容量剩余值对比分析,获得容量差值,基于容量差值,判定是否进行优化处理;

5、系数计算模块,用于采集小文件数据的选择参数,基于选择参数,生成选择系数;

6、指令选择模块,用于将选择系数与预设的选择阈值比较,根据比较结果,选择第一优化指令或第二优化指令;

7、合并执行模块,用于依据第一优化指令,对小文件数据进行合并处理;

8、调整执行模块,用于依据第二优化指令,对小文件数据进行调整数据块大小处理。

9、进一步的,综合容量参数包括数据总量、非结构占比率和可汇总占比率;

10、容量占用值的表达式为:

11、;

12、式中,为容量占用值,为可汇总占比率,可汇总占比率通过分布节点对应的python数据分析库监测获取,为数据总量,数据总量通过分布节点对应的系统管理工具apache spark获取,为非结构占比率,非结构占比率通过分布节点对应的python数据分析库监测获取,、为权重因子。

13、进一步的,容量剩余值的生成方法包括:

14、通过分布节点的配置表获取计算引擎的容量总值;

15、通过分布节点的任务管理器获取当前正在运行的数据所对应的个子占用值;

16、将个子占用值累加后,获得总占用值;

17、总占用值的表达式为:

18、;

19、式中,为总占用值,为第个子占用值;

20、将容量总值与总占用值差值比较,获得容量剩余值;

21、容量剩余值的表达式为:

22、;

23、式中,为容量剩余值,为容量总值。

24、进一步的,容量差值的表达式为:

25、;

26、式中,为容量差值;

27、是否进行优化处理的判定方法包括:

28、当大于0时,判定进行优化处理;

29、当小于等于0时,判定不进行优化处理。

30、进一步的,选择参数包括数据均值、访问频率和处理速率;

31、数据均值的获取方法包括:

32、随机标记个小文件数据,并记录个小文件数据对应的字节值;

33、去掉个字节值中的最大值和最小值后,将剩下的个字节值累加后求平均,获得数据均值;

34、数据均值的表达式为:

35、;

36、式中,为数据均值,为第个字节值。

37、进一步的,访问频率的获取方法包括:

38、通过分布节点的访问日志获取时刻至时刻小文件数据的访问次数,时刻与时刻不相邻;

39、按照预设时长,将时刻至时刻等分为个子时刻,为2的整数倍,并将个子时刻依次编号;

40、统计个编号为奇数的子时刻的访问次数,等于,获得个子频率;

41、子频率的表达式为:

42、;

43、式中,为第个子频率,为第个访问次数,为预设时长;

44、将个子频率累加后求平均,获得访问频率;

45、访问频率的表达式为:

46、;

47、式中,为访问频率,为第个子频率。

48、进一步的,选择系数的表达式为:

49、;

50、式中,为选择系数,为处理速率,处理速率通过分布节点对应的系统监控工具ganglia获取,、、为权重因子。

51、进一步的,第一优化指令或第二优化指令的选择方法包括:

52、将小文件数据对应的选择系数与预设的选择阈值进行差值比较,大于0;

53、当大于等于时,选择第一优化指令;

54、当小于时,选择第二优化指令。

55、进一步的,小文件数据进行合并处理的方法包括:

56、编写一个mapper类,将每个小文件数据的内容读取为键值对,其中键为文件名,值为文件内容;

57、将多个小文件数据作为输入,配置mapreduce任务,将mapper类指定为任务的mapper;

58、在reducer中将相同键的值合并为一个输出文件;

59、运行mapreduce任务,生成合并后的文件。

60、进一步的,小文件数据进行调整数据块大小处理的方法包括:

61、确定需要调整的小文件数据的路径、文件名以及期望的数据块大小;

62、打开hadoop集群的hdfs配置文件,找到配置参数dfs.blocksize,将dfs.blocksize的值修改为期望的数据块大小,并保存;

63、使用hadoop的管理工具或命令行工具来重启hdfs服务,使得配置文件生效;

64、使用hadoop的命令行工具或编程方式来验证数据块大小是否已经调整到期望的数据块大小。

65、本专利技术一种以hadoop为核心的大数据服务器的技术效果和优点:

66、本专利技术通过采集小文件数据的综合容量参数,计算容量占用值,采集分布节点的容量总值和总占用值,生成容量剩余值,将容量占用值与容量剩余值对比分析,获得容本文档来自技高网...

【技术保护点】

1.一种以Hadoop为核心的大数据服务器,其特征在于,包括:

2.根据权利要求1所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述综合容量参数包括数据总量、非结构占比率和可汇总占比率;

3.根据权利要求2所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述容量剩余值的生成方法包括:

4.根据权利要求3所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述容量差值的表达式为:

5.根据权利要求4所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述选择参数包括数据均值、访问频率和处理速率;

6.根据权利要求5所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述访问频率的获取方法包括:

7.根据权利要求6所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述选择系数的表达式为:

8.根据权利要求7所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述第一优化指令或第二优化指令的选择方法包括:

9.根据权利要求8所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述小文件数据进行合并处理的方法包括:

10.根据权利要求9所述的一种以Hadoop为核心的大数据服务器,其特征在于,所述小文件数据进行调整数据块大小处理的方法包括:

...

【技术特征摘要】

1.一种以hadoop为核心的大数据服务器,其特征在于,包括:

2.根据权利要求1所述的一种以hadoop为核心的大数据服务器,其特征在于,所述综合容量参数包括数据总量、非结构占比率和可汇总占比率;

3.根据权利要求2所述的一种以hadoop为核心的大数据服务器,其特征在于,所述容量剩余值的生成方法包括:

4.根据权利要求3所述的一种以hadoop为核心的大数据服务器,其特征在于,所述容量差值的表达式为:

5.根据权利要求4所述的一种以hadoop为核心的大数据服务器,其特征在于,所述选择参数包括数据均值、访问频率和处理速率;

6.根据权利要...

【专利技术属性】
技术研发人员:张志千王春阳孔德政张晨玺
申请(专利权)人:泰安北航科技园信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1