一种大数据文件读取方法、终端及介质技术

技术编号:41421140 阅读:32 留言:0更新日期:2024-05-28 20:21
本申请关于一种大数据文件读取方法、终端及介质,涉及大数据技术领域。该方法包括:收集大数据集群的元数据,所述元数据包括优化日志、磁盘的调度日志以及数据文件数据的分布特点,基于深度学习技术对收集到的元数据进行特征提取和深度学习模型训练,将训练好的深度学习模型与三支决策技术理论相结合,并基于不确定性理论分析数据的不确定性特点,构建基于代价的决策引擎,进行智能决策。在大数据文件读取过程中数据文件查询范围的有效命中,减少数据读取中无效数据的查询操作,增加了数据范围的命中效率,提高大数据分析的时效性。

【技术实现步骤摘要】

本申请涉及大数据,具体涉及一种大数据文件读取方法、终端及介质


技术介绍

1、随着云计算技术的快速发展,大数据处理效率的重要性变得愈发突出。在云计算时代,大数据处理需要依赖于强大的计算和存储资源,而云计算正是提供了这样的资源。通过云计算平台,用户可以根据需求灵活地调配计算资源,实现大规模数据处理和分析,提高处理效率。

2、目前,现有的大数据文件系统读取的主要有parquet、ocr、carbondata等,parquet、ocr都是分区读写数据的,在查询时是整分区读取,在大数据环境下会读取到很多无效数据到内存,消耗很多无用的系统io资源;carbondata运用粗糙集解决了一大部分数据文件的读取命中问题,但还没有把数据文件读取的命中发挥到理论极限边界。

3、在大数据处理中,数据的读取速度直接影响到整个数据处理流程的效率和性能。

4、因此,如何解决大数据文件读取效率低下的问题是非常重要的。


技术实现思路

1、有鉴于此,本申请公开的目的在于提供一种大数据文件读取方法,能够解决上本文档来自技高网...

【技术保护点】

1.一种大数据文件读取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述数据文件数据的分布特点包括存储的文件,文件的分区、分区存储的数据的数据字段以及字段范围。

3.根据权利要求1所述的方法,其特征在于,所述深度学习模型采用基于深度学习的推荐算法构建序列送入深度神经网络进行训练,所述基于深度学习的推荐算法用于输出推荐调度的物理主机列表。

4.根据权利要求3所述的方法,其特征在于,所述推荐调度的物理主机列表包括缓存调度策略和调度周期。

5.根据权利要求3所述的方法,其特征在于,所述深度学习模型的训练元数据包括sq...

【技术特征摘要】

1.一种大数据文件读取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述数据文件数据的分布特点包括存储的文件,文件的分区、分区存储的数据的数据字段以及字段范围。

3.根据权利要求1所述的方法,其特征在于,所述深度学习模型采用基于深度学习的推荐算法构建序列送入深度神经网络进行训练,所述基于深度学习的推荐算法用于输出推荐调度的物理主机列表。

4.根据权利要求3所述的方法,其特征在于,所述推荐调度的物理主机列表包括缓存调度策略和调度周期。

5.根据权利要求3所述的方法,其特征在于,所述深度学习模型的训练元数据包括sql、调度主机列表、数据文件以及数据在主机的分布特征,作为序列的输入。

6.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:肖颖吴伟王得燕缪娟吴晗文
申请(专利权)人:无锡职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1