数据处理方法和装置、电子设备和存储介质制造方法及图纸

技术编号:40319111 阅读:24 留言:0更新日期:2024-02-07 21:02
本申请提供了一种数据处理方法和装置、电子设备和存储介质,其中,该方法包括:获取来自于请求方的数据查询请求;按照所述数据查询请求指示的目标数量,在所述目标数量的目标分区中进行查询,返回在所述目标数量的目标分区中查询到的第一数据,其中,所述目标分区为目标文件的分区;在所有第一数据中确定出第二数据;向所述请求方返回所述第二数据。通过本申请,解决了相关技术中存在的采用尽量减少表中小文件的个数,仍然无法做到完全没有小文件的存在;以及增大hdfs集群/spark作业资源会造成运营成本增加的技术问题。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据处理方法和装置、电子设备和存储介质


技术介绍

1、spark的limit的原理就是在先根据查询条件组成一个rdd(抽象弹性分布式数据集,resiliennt distributed datasets),然后每个partition取limit数量,再统一发给一个partition,然后取出limit数量的row。

2、目前,spark limit语法当前在部分场景下性能较差,例如表中文件较多时,job执行时生成的task也多,导致job整体执行时间长。job是提交给spark的任务。task是每一个job处理过程要分几步,即为几次任务。

3、例如:一张表有10个t,共有100万左右文件,读取时会生成100万个task,要读100万个hdfs的block,这时会频繁对datanode(即,hdfs文件系统的工作节点)发起读操作,导致了datanode读数据繁忙,造成了出现慢datanode(即,慢节点)的问题,进而影响sparksql(即,spark用于处理结构化数据的spark模块,spark s本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:

3.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求指示的目标数量,在所述目标数量的目标分区中进行查询,返回在所述目标数量的目标分区中查询到的第一数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求,在所有第一数据中确定出第二数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:

6.根据权利要求5所述的方法,其特征在...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:

3.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求指示的目标数量,在所述目标数量的目标分区中进行查询,返回在所述目标数量的目标分区中查询到的第一数据,包括:

4.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求,在所有第一数据中确定出第二数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:

6.根据权利要求5所述的方法,其特征在于,所述按照所述数据查...

【专利技术属性】
技术研发人员:郝仁慧
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1