数据处理方法和装置、电子设备和存储介质制造方法及图纸

技术编号：40319111 阅读：24 留言：0更新日期：2024-02-07 21:02

本申请提供了一种数据处理方法和装置、电子设备和存储介质，其中，该方法包括：获取来自于请求方的数据查询请求；按照所述数据查询请求指示的目标数量，在所述目标数量的目标分区中进行查询，返回在所述目标数量的目标分区中查询到的第一数据，其中，所述目标分区为目标文件的分区；在所有第一数据中确定出第二数据；向所述请求方返回所述第二数据。通过本申请，解决了相关技术中存在的采用尽量减少表中小文件的个数，仍然无法做到完全没有小文件的存在；以及增大hdfs集群/spark作业资源会造成运营成本增加的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种数据处理方法和装置、电子设备和存储介质。

技术介绍

1、spark的limit的原理就是在先根据查询条件组成一个rdd(抽象弹性分布式数据集，resiliennt distributed datasets)，然后每个partition取limit数量，再统一发给一个partition，然后取出limit数量的row。

2、目前，spark limit语法当前在部分场景下性能较差，例如表中文件较多时，job执行时生成的task也多，导致job整体执行时间长。job是提交给spark的任务。task是每一个job处理过程要分几步，即为几次任务。

3、例如：一张表有10个t，共有100万左右文件，读取时会生成100万个task，要读100万个hdfs的block，这时会频繁对datanode(即，hdfs文件系统的工作节点)发起读操作，导致了datanode读数据繁忙，造成了出现慢datanode(即，慢节点)的问题，进而影响sparksql(即，spark用于处理结构化数据的spark...

【技术保护点】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取来自于请求方的数据查询请求，包括：

3.根据权利要求2所述的方法，其特征在于，所述按照所述数据查询请求指示的目标数量，在所述目标数量的目标分区中进行查询，返回在所述目标数量的目标分区中查询到的第一数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述按照所述数据查询请求，在所有第一数据中确定出第二数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取来自于请求方的数据查询请求，包括：

6.根据权利要求5所述的方法，其特征在...

【技术特征摘要】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取来自于请求方的数据查询请求，包括：

4.根据权利要求2所述的方法，其特征在于，所述按照所述数据查询请求，在所有第一数据中确定出第二数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取来自于请求方的数据查询请求，包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述数据查...

【专利技术属性】
技术研发人员：郝仁慧，
申请(专利权)人：北京金山云网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人