【技术实现步骤摘要】
数据处理方法、装置、存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种数据处理方法、装置、存储介质和计算机设备。
技术介绍
随着大数据的不断发展,以及云计算等新兴技术的不断融合,越来越多的数据流向Hadoop生态圈,同时对于能够快速的从TB级别甚至PB级别的数据中获取有价值的数据对于一个产品来说愈加重要。在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、SparkSQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等。Parquet是一种支持嵌套结构的列式存储格式,采用Dremel编码方式。然而,这种编码方式带有较多的冗余信息,造成编解码效率低等问题。
技术实现思路
基于此,有必要针对传统的数据处理方式编解码效率低的问题,提供一种数据处理方法、装置、计算机可读存储介质和计算机设备。一种数据处理方法,所述方法包括:获取待处理数据中各个节点及所述各个节点对应的节点数据,其中,所述节点数据包括位置信息和节点值;对所述各个节点和所述各个节点对应的节点数据进行编码,得到编码结果;若所述编码结果中存在节点的节点值为空,从所述编码结果中丢弃所述节点的位置信息,并标记所述节点为空列。一种数据处理装置,所述装置包括:获取模块,用于获取待处理数据中各个节点及所述各个节点对应的节点数据,其中,所述节点数据包括位置信息和节点值;编码模块,用于对所述各个 ...
【技术保护点】
1.一种数据处理方法,所述方法包括:/n获取待处理数据中各个节点及所述各个节点对应的节点数据,其中,所述节点数据包括位置信息和节点值;/n对所述各个节点和所述各个节点对应的节点数据进行编码,得到编码结果;/n若所述编码结果中存在节点的节点值为空,从所述编码结果中丢弃所述节点的位置信息,并标记所述节点为空列。/n
【技术特征摘要】
1.一种数据处理方法,所述方法包括:
获取待处理数据中各个节点及所述各个节点对应的节点数据,其中,所述节点数据包括位置信息和节点值;
对所述各个节点和所述各个节点对应的节点数据进行编码,得到编码结果;
若所述编码结果中存在节点的节点值为空,从所述编码结果中丢弃所述节点的位置信息,并标记所述节点为空列。
2.根据权利要求1所述的方法,其特征在于,所述位置信息包括定义信息和重复信息,其中,所述定义信息用于表征节点所在路径上节点值为空的层级,所述重复信息用于表征节点所在路径上重复类型的节点的层级;
所述标记所述节点为空列,包括:
获取所述节点的重复信息对应的数据集合;
根据所述重复信息对应的数据集合确定所述节点的重复信息的第一标记值,其中,所述第一标记值不等于所述重复信息对应的数据集合中的任意值;
根据所述第一标记值在所述编码结果中更新所述节点的节点数据。
3.根据权利要求2所述的方法,其特征在于,在根据所述重复信息对应的数据集合确定所述节点的重复信息的第一标记值之后,还包括:
获取所述节点的定义信息对应的数据集合;
根据所述定义信息对应的数据集合确定所述节点的定义信息的第二标记值,其中,所述第二标记值不等于所述定义信息对应的数据集合中的任意值;
所述根据所述第一标记值在所述编码结果中更新所述节点的节点数据,包括:
根据所述第一标记值和所述第二标记值在所述编码结果中更新所述节点的节点数据。
4.根据权利要求2所述的方法,其特征在于,在根据所述重复信息对应的数据集合确定所述节点的重复信息的第一标记值之后,还包括:
确定所述节点所在路径上以所述节点为起点,节点值为空的节点连续的第一数量;
将所述第一数量作为所述节点的定义信息的第二标记值;
所述根据所述第一标记值在所述编码结果中更新所述节点的节点数据,包括:
根据所述第一标记值和所述第二标记值在所述编码结果中更新所述节点的节点数据。
5.根据权利要求2所述的方法,其特征在于,所述根据所述重复信息对应的数据集合确定所述节点的重复信息的第一标记值,包括:
获取所述重复信息对应的数据集合中的最大值或者最小值;
对所述重复信息对应的数据集合中的最大值或者最小值进行处理,得到所述节点的重复信息的第一标记值。
6.根据权利要求5所述的方法,其特征在于,所述对所述重复信息对应的数据集合中的最大值或者最小值进行处理,得到所述节点的重复信息的第一标记值,包括:
在所述重复信息对应的数据集合中的最大值或者最小值的基础上增加预设数值,得到所述第一标记值,其中,所述预设数值为正值;
或者,获取所述重复信息对应的数据集合中的最大值或者最小值与预定数值之间的乘积,得到所述第一标记值,其中,所述预定数值大于1。
7.根据权利要求2所述的方法,其特征在于,所述标记所述节点为空列,包括:
获取所述节点的定义信息对应的数据集合;
根据所述定义信息对应的数据集合确定所述节点的定义信息的第二标记值,其中,所述第二标记值不等于所述定义信息对应的数据集合中的任意值;
根据所述第二标记值在所述编码结果中更新所述节点的节点数据。
8.根据权利要求3或7所述的方法,其特征在于,所述根据所述定义信息对应的数据集合确定所述节点的定义信息的第二标记值,包括:
获取所述定义信息对应的数据集合中的最大值或者最小值;
对所述定义信息对应的数...
【专利技术属性】
技术研发人员:林兆祥,易卉芹,蔡毅超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。