【技术实现步骤摘要】
本申请涉及大数据,具体涉及一种大数据文件读取方法、终端及介质。
技术介绍
1、随着云计算技术的快速发展,大数据处理效率的重要性变得愈发突出。在云计算时代,大数据处理需要依赖于强大的计算和存储资源,而云计算正是提供了这样的资源。通过云计算平台,用户可以根据需求灵活地调配计算资源,实现大规模数据处理和分析,提高处理效率。
2、目前,现有的大数据文件系统读取的主要有parquet、ocr、carbondata等,parquet、ocr都是分区读写数据的,在查询时是整分区读取,在大数据环境下会读取到很多无效数据到内存,消耗很多无用的系统io资源;carbondata运用粗糙集解决了一大部分数据文件的读取命中问题,但还没有把数据文件读取的命中发挥到理论极限边界。
3、在大数据处理中,数据的读取速度直接影响到整个数据处理流程的效率和性能。
4、因此,如何解决大数据文件读取效率低下的问题是非常重要的。
技术实现思路
1、有鉴于此,本申请公开的目的在于提供一种大数据文件
...【技术保护点】
1.一种大数据文件读取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述数据文件数据的分布特点包括存储的文件,文件的分区、分区存储的数据的数据字段以及字段范围。
3.根据权利要求1所述的方法,其特征在于,所述深度学习模型采用基于深度学习的推荐算法构建序列送入深度神经网络进行训练,所述基于深度学习的推荐算法用于输出推荐调度的物理主机列表。
4.根据权利要求3所述的方法,其特征在于,所述推荐调度的物理主机列表包括缓存调度策略和调度周期。
5.根据权利要求3所述的方法,其特征在于,所述深度学习模型
...【技术特征摘要】
1.一种大数据文件读取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述数据文件数据的分布特点包括存储的文件,文件的分区、分区存储的数据的数据字段以及字段范围。
3.根据权利要求1所述的方法,其特征在于,所述深度学习模型采用基于深度学习的推荐算法构建序列送入深度神经网络进行训练,所述基于深度学习的推荐算法用于输出推荐调度的物理主机列表。
4.根据权利要求3所述的方法,其特征在于,所述推荐调度的物理主机列表包括缓存调度策略和调度周期。
5.根据权利要求3所述的方法,其特征在于,所述深度学习模型的训练元数据包括sql、调度主机列表、数据文件以及数据在主机的分布特征,作为序列的输入。
6.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:肖颖,吴伟,王得燕,缪娟,吴晗文,
申请(专利权)人:无锡职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。