一种基于压缩数据直接计算的大数据处理方法技术

技术编号:29133021 阅读:39 留言:0更新日期:2021-07-02 22:28
本发明专利技术涉及一种基于压缩数据直接计算的大数据处理方法,其特征在于,包括以下步骤:1)基于改进的Sequitur压缩方法,按用户给定粒度对原始输入数据进行压缩,并转换为由数字构成的DAG图;2)确定最优遍历方式,并基于确定的最优遍历方式对步骤1)中的DAG图进行自上而下或自下而上的遍历,实现对压缩数据的直接处理。本发明专利技术通过设置改进的Sequitur算法以及自上而下和自下而上的建立策略,实现了对压缩数据的直接处理,且在时间与空间上有显著的提升,适用性强,且对于更高级的文档分析,同样可以在此基础上派生出一些表示,可以广泛应用于大数据处理领域。

【技术实现步骤摘要】
一种基于压缩数据直接计算的大数据处理方法
本专利技术涉及一种基于压缩数据直接计算的大数据处理方法,属于大数据处理

技术介绍
大数据的重要特征之一就是数据容量大而且增长快,对大数据管理系统的数据存储和计算带来了空间和时间上的巨大压力。数据处理对许多应用都很重要,从web搜索到系统诊断、安全性等等。现今的大数据时代背景下,每天都会产生大量的数据,这对空间存储和时间处理方面都带来了极大的挑战。大数据处理主要面临两方面的挑战:第一,数据量大了以后存储开销也非常大;第二,处理大规模数据耗时也很长。特别是在处理的数据持续快速增长的情况下,数据分析非常耗时,且常常需要大量的存储空间和内存空间。其中,缓解空间问题的一种常见方法是数据压缩。目前,数据有许多种压缩算法,如LZ77、后缀数组及他们的变体。但这些算法在使用时还需要解压缩,解压缩步骤延长了端到端处理时间,无法缓解处理时间方面的挑战。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于压缩数据直接计算的大数据处理方法,该方法基于改进Sequitur压缩算法来研本文档来自技高网...

【技术保护点】
1.一种基于压缩数据直接计算的大数据处理方法,其特征在于,包括以下步骤:/n1)基于改进的Sequitur压缩方法,按用户给定的最小压缩粒度对原始输入文件进行压缩,并转换为由数字构成的DAG图;/n2)确定最优遍历方式,并基于确定的最优遍历方式对步骤1)中的DAG图进行自上而下或自下而上的遍历,实现对压缩数据的直接处理。/n

【技术特征摘要】
1.一种基于压缩数据直接计算的大数据处理方法,其特征在于,包括以下步骤:
1)基于改进的Sequitur压缩方法,按用户给定的最小压缩粒度对原始输入文件进行压缩,并转换为由数字构成的DAG图;
2)确定最优遍历方式,并基于确定的最优遍历方式对步骤1)中的DAG图进行自上而下或自下而上的遍历,实现对压缩数据的直接处理。


2.如权利要求1所述的一种基于压缩数据直接计算的大数据处理方法,其特征在于:所述步骤1)中,对原始输入文件进行数据压缩时,包括以下步骤:
1.1)对原始输入文件的数量进行判断,当原始输入文件的数量大于1时,则在各个原始输入文件之间插入预设的文件分割符后存储为一个输入文件作为待压缩文件,否则直接将原始输入文件作为待压缩文件并进入步骤1.2);
1.2)对步骤1.1)中的待压缩文件进行扫描,并对扫描得到的待压缩文件中的各最小压缩粒度的数据进行数字化,得到数据字典;
1.3)基于改进的Sequitur算法对数据字典进行压缩,并将压缩后的数字串转换为DAG图进行表达。


3.如权利要求2所述的一种基于压缩数据直接计算的大数据处理方法,其特征在于:所述步骤1.2)中,对待压缩文件中的数据进行数字化的方法为:将待压缩文件中每个新出现的最小压缩粒度的数据替换为一个数字,并记录该最小压缩粒度的数据与所述数字的关系。


4.如权利要求2所述的一种基于压缩数据直接计算的大数据处理方法,其特征在于:所述步骤1.3)中,基于改进的Sequitur算法对数据字典进行压缩,并将压缩后的数字串转换为DAG图进行表达的方法,包括以下步骤:
1.3.1)创立空的规则S,按照输入数据中被数字替换后的内容,依次将各数值输入规则S;
1.3.2)对输入数值后的规则S进行遍历;
1.3.3)当出现一对已经出现过的数字对时,判断该数字对是否为一个规则,若不是,则根据该数字对创立新的规则,将创立的新的规则加入数据字典中,并在已输入的规则S中将此数字对替换为新的规则;若是,即该数字对和已建立的规则相同,则用该规则替换该数字对;
1.3.4)重复步骤1.3.2)~1.3.3),直到遍历结束,对只使用一次的规则,移除规则,替换为原始数字对;
1.3.5)将步骤1.3.4)得到的压缩后的数字串转换为有向无环图DAG进行表示。


5.如权利要求1所述的一种基于压缩数据直接计算的大数据处理方法,其特征在于:所述步骤2)中,确定最优遍历方式的方法为:
首先,从原始输入文件中随机抽取一个预设比例的样本数据;
其次,采用步骤1)的数据压缩方法对该样本数据进行压缩和转换,得到DAG图;
最后,同时采用自上而下和自下而上的遍历方式对得到的DAG图进行处理,并根据处理速度确定最优的遍历方式为自上而下或自下而上的遍历方式。


6.如权利要求5所述的一种基于压缩数据直接计算的大数据处理方法,其特征在于:采用自上而下的遍历方式对得到的DAG图进行遍历时,包括下步骤:
S1:统计DAG图中每个节点的入边,并将DAG图中每个节点的入边记为rule.InEdgeN,将每个节点处理的边数记为rule.EdgeProcessed,同时将根节点的掩码rule.mask的值初始化为true,其他节点的掩码rule.mask的值初始化为false;
S2:根据节点的个数确定线程个数,使得每个线程负责一个节点,用于对各节点的子节点的权重weight进行更新,直到DAG遍历过程中不会有数值发生变化;
S3:从...

【专利技术属性】
技术研发人员:张峰杜小勇
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1