【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种数据处理方法和装置、电子设备和存储介质。
技术介绍
1、spark的limit的原理就是在先根据查询条件组成一个rdd(抽象弹性分布式数据集,resiliennt distributed datasets),然后每个partition取limit数量,再统一发给一个partition,然后取出limit数量的row。
2、目前,spark limit语法当前在部分场景下性能较差,例如表中文件较多时,job执行时生成的task也多,导致job整体执行时间长。job是提交给spark的任务。task是每一个job处理过程要分几步,即为几次任务。
3、例如:一张表有10个t,共有100万左右文件,读取时会生成100万个task,要读100万个hdfs的block,这时会频繁对datanode(即,hdfs文件系统的工作节点)发起读操作,导致了datanode读数据繁忙,造成了出现慢datanode(即,慢节点)的问题,进而影响sparksql(即,spark用于处理结构化数据的spark
...【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:
3.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求指示的目标数量,在所述目标数量的目标分区中进行查询,返回在所述目标数量的目标分区中查询到的第一数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求,在所有第一数据中确定出第二数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:
6.根据权利要求5
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:
3.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求指示的目标数量,在所述目标数量的目标分区中进行查询,返回在所述目标数量的目标分区中查询到的第一数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述按照所述数据查询请求,在所有第一数据中确定出第二数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取来自于请求方的数据查询请求,包括:
6.根据权利要求5所述的方法,其特征在于,所述按照所述数据查...
【专利技术属性】
技术研发人员:郝仁慧,
申请(专利权)人:北京金山云网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。