数据处理方法、设备、存储介质及系统技术方案

技术编号：30271861 阅读：14 留言：0更新日期：2021-10-09 21:28

本申请实施例提供了一种数据处理方法、设备、存储介质及系统。方法包括：获取待存储数据，待存储数据用于持久化存储至数据库；基于待存储数据生成至少一个数据文件，每个数据文件包括至少一个文件块，每个文件块中包括多个行组文件，且数据文件为支持数据追加写和行列混存的存储格式；确定数据文件在不同文件粒度上的统计信息，文件粒度包括：与数据文件相对应的第一粒度、与文件块相对应的第二粒度、与行组文件相对应的第三粒度；将待存储数据和统计信息存储至数据库。本申请提供的技术方案，通过行列混存方式对数据进行存储，有效地避免文件数量爆炸的情况，另外，结合不同粒度的统计信息进行数据存储，有利于提高数据处理性能，降低延迟信息。降低延迟信息。降低延迟信息。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、设备、存储介质及系统

[0001]本申请涉及数据处理
，尤其涉及一种数据处理方法、设备、存储介质及系统。

技术介绍

[0002]PAX（Partition Attributes Across）是一种数据存储格式，其特点是行列混存，按页管理。现有的PAX格式（如 Apache ORC）是为通用的追加写入（append
‑
only）存储介质（如HDFS）打造的，其中，append
‑
only存储介质是一种不支持对写入数据进行修改的存储介质，但是，由于其自身不包含缓存组件，因此，在进行数据读写操作时，会有较高延迟。

技术实现思路

[0003]本申请实施例提供一种数据处理方法、设备、存储介质及系统，能够以行列混存方式对数据进行存储，有效地避免文件数量爆炸的情况，另外，结合不同粒度的统计信息进行数据存储，有利于提高数据处理性能，降低延迟信息。
[0004]第一方面，本申请实施例提供了一种数据处理方法，包括：获取待存储数据，所述待存储数据用于持久化存储至数据库；基于所述待存储数据生成至少一个数据文件，其中，每个数据文件包括至少一个文件块，每个文件块中包括多个行组文件，且所述数据文件为支持数据追加写和行列混存的存储格式；确定所述数据文件在不同文件粒度上的统计信息，所述文件粒度包括：与数据文件相对应的第一粒度、与文件块相对应的第二粒度、与行组文件相对应的第三粒度；将所述待存储数据和所述统计信息存储至数据库。
[0005]第二方面，本申请实施例提供...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：获取待存储数据，所述待存储数据用于持久化存储至数据库；基于所述待存储数据生成至少一个数据文件，其中，每个数据文件包括至少一个文件块，每个文件块中包括多个行组文件，且所述数据文件为支持数据追加写和行列混存的存储格式；确定所述数据文件在不同文件粒度上的统计信息，所述文件粒度包括：与数据文件相对应的第一粒度、与文件块相对应的第二粒度、与行组文件相对应的第三粒度；将所述待存储数据和所述统计信息存储至数据库。2.根据权利要求1所述的方法，在基于所述待存储数据生成至少一个数据文件之前，所述方法还包括：获取所述待存储数据中需要进行排序的至少一个排序列；基于所述至少一个排序列对所述待存储数据进行行排序，获得排序后数据。3.根据权利要求1所述的方法，在基于所述待存储数据生成至少一个数据文件之前，所述方法还包括：获取用于对所述待存储数据进行列排序的设定规则；基于所述设定规则对所述待存储数据进行列排序，获得排序后数据。4.根据权利要求1所述的方法，所述方法还包括：获取数据处理请求；基于所述数据处理请求生成一缓冲区，所述缓冲区用于存储与所述数据处理请求相对应的数据；基于所述缓冲区进行数据处理操作，获得与所述数据处理请求相对应的数据处理结果。5.根据权利要求4所述的方法，基于所述缓冲区进行数据处理操作，获得与所述数据处理请求相对应的数据处理结果，包括：在所述数据处理请求包括数据读取请求时，通过缓冲区获取与所述数据读取请求相对应的预取数据，并确定用于预取至所述缓冲区的位于所述预取数据之后的下一批数据；将所述下一批数据预取至缓冲区，以作为预取数据；基于所述缓冲区获得的所有数据，确定与所述数据读取请求相对应的数据读取结果。6.根据权利要求5所述的方法，在通过缓冲区获取与所述数据读取请求相对应的预取数据之前，所述方法还包括：基于所述数据库中每个数据文件所对应的统计信息和所述数据读取请求对所述数据库中的所有数据文件进行筛选，获得筛选后文件；在所述筛选后文件中，确定用于预取至所述缓冲区的预取数据。7.根据权利要求6所述的方法，基于所述数据库中每个数据文件所对应的统计信息和所述数据读取请求对所述数据库中的所有数据文件进行筛选，获得筛选后文件，包括：基于所述数据读取请求确定读取数据类型和读取数据大小；基于每个数据文件所对应的统计信息、读取数据类型和读取数据大小对所述数据库中的所有数据文件进...

【专利技术属性】
技术研发人员：侯文彬，李飞飞，陆元飞，邢玉辉，苏茂萌，魏闯先，占超群，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人