数据处理方法及装置、存储介质和电子设备制造方法及图纸

技术编号:20160376 阅读:49 留言:0更新日期:2019-01-19 00:13
本发明专利技术的实施方式提供了一种数据处理方法、装置、电子设备以及存储介质。该数据处理方法包括:获取待处理的数据文件,所述数据文件中的数据按照行组和列块的格式进行存储,所述数据文件包括文件头,所述文件头中包括行组元数据,所述行组元数据中包括与所述数据对应的检索标识;基于接收到的数据查询请求,根据所述行组元数据中包含的所述检索标识对所述数据文件中的数据进行过滤,以得到与所述数据查询请求对应的查询结果。通过数据文件的文件头中的检索标识,本发明专利技术的方法可快速对数据文件中的数据进行过滤,提高了数据查询效率和查询准确率,并且减少了硬件资源消耗。

【技术实现步骤摘要】
数据处理方法及装置、存储介质和电子设备
本专利技术的实施方式涉及大数据
,更具体地,本专利技术的实施方式涉及数据处理方法、数据处理装置、电子设备、计算机可读存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着计算机技术的发展,涌现了各种用于数据处理的数据库,由于数据量较多,在查询或者是获取数据时需要对所有数据进行过滤,以提高数据查询效率。现有技术中,数据按照Parquet存储格式进行存储,它将大数据表的数据按列存入文件中。Parquet存储格式中包括行组、列块以及页等多个模块。Parquet存储格式在数据写入时会按列块以行组为单位计算对应的统计信息,通过这些统计信息和该列的过滤条件可以判断每个行组的数据是否需要扫描和读取。
技术实现思路
但是,现有方案中,Parquet存储格式通过每一个列块的统计信息来过滤出符合查询条件的数据,当列块的数据分布比较均匀时,误判的概率较高而导致扫描原本不需要扫描的行组,过滤效率较低,准确率较低;另外,导致大数据计算过程中会读取更多的数据,从而消耗更多的资源。因此本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:获取待处理的数据文件,所述数据文件中的数据按照行组和列块的格式进行存储,所述数据文件包括文件头,所述文件头中包括行组元数据,所述行组元数据中包括与所述数据对应的检索标识;基于接收到的数据查询请求,根据所述行组元数据中包含的所述检索标识对所述数据文件中的数据进行过滤,以得到与所述数据查询请求对应的查询结果。

【技术特征摘要】
1.一种数据处理方法,包括:获取待处理的数据文件,所述数据文件中的数据按照行组和列块的格式进行存储,所述数据文件包括文件头,所述文件头中包括行组元数据,所述行组元数据中包括与所述数据对应的检索标识;基于接收到的数据查询请求,根据所述行组元数据中包含的所述检索标识对所述数据文件中的数据进行过滤,以得到与所述数据查询请求对应的查询结果。2.根据权利要求1所述的数据处理方法,根据所述行组元数据中包含的所述检索标识对所述数据文件中的数据进行过滤包括:判断所述检索标识是否满足过滤条件,并在所述检索标识满足所述过滤条件时从所述数据文件的所有列块中确定待过滤列;对所述待过滤列所在行组中的数据进行行组过滤。3.根据权利要求2所述的数据处理方法,判断所述检索标识是否满足过滤条件包括:在确定与所述数据查询请求关联的MapReduce任务中开启过滤设置且所述检索标识不为空时,判定所述检索标识满足所述过滤条件。4.根据权利要求3所述的数据处理方法,所述方法还包括:若所述检索标识为空,则读取所述数据文件中存储的所有数据。5.根据权利要求2所述的数据处理方法,对所述待过滤列所在行组中的数据进行行组过滤包括:将目标值与所述待过滤列所在行组的行组元数据进行对比,以判断是否为等值查询;通过是否为等值查询确定对所述待过滤列所在行组中的数据的过滤方式;根据所述过滤方式对所述待过滤列所在行组中的数据进行行组过滤。6.根据权利要求5所述的数据处理方...

【专利技术属性】
技术研发人员:左琴陈炬
申请(专利权)人:杭州网易再顾科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1