一种用于计算海量数据的流式处理方法技术

技术编号：39037001 阅读：15 留言：0更新日期：2023-10-10 11:50

本发明专利技术公开了一种用于计算海量数据的流式处理方法，涉及数据处理技术领域。本发明专利技术包括如下步骤：数据预处理：根据数据的内在关联性，找到数据的特征包围盒，进行数据分块；分块读取数据：将每一块的数据从外存文件读取到内存处理；区分数据块：每块数据完成处理后，区分稳定态和待定态，将稳定态数据输出，待定态数据保留在内存，继续参与后续计算；处理结束：将所有块的数据处理完，输出最终结果。本发明专利技术通过预处理采用特定的编码方式及存储结构，结合流计算模式对海量数据进行优化处理，区分数据稳定态和待定态，并及时输出稳定态，只保留待定态数据在内存中参与后续，提高了计算海量数据的处理速度、内容占用大，减少操作系统内存占用。占用。占用。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于计算海量数据的流式处理方法

[0001]本专利技术属于数据处理
，特别是涉及一种用于计算海量数据的流式处理方法，能够在有限的操作系统内存资源下可以高效地实现海量数据的处理计算。

技术介绍

[0002]随着现代各种技术手段的发展，海量数据的获取越来越便捷可行。这些数据通常以GB乃至TB为单位，远远超过普通计算机内存的容量。面对海量数据快速处理的强烈现实需求，目前的实现方法却有待突破。一方面由于计算机内存的局限性，对于海量数据没有很好的处理策略，空间性能较低，无法稳定实现海量数据的计算；另一方面现有很多处理算法效率不高，不能满足快速处理的实用需求。于是，要想充分利用好这些数据，发挥其海量的优势，传统的内存算法显然已经不再适用。
[0003]因此，研究基于外存的处理算法成为形势发展的当务之急。外存算法的基本思想是将计算机内存和外存(磁盘)看成一个连续的、巨大的存储空间，算法执行时不断的将需要处理的数据从外存读入内存，而将暂不处理的数据写入外存以空出必要的内存空间。然而由于数据的随机性，数据之间不具有空间关联，设计外存算法时内外存频繁交换，效率降低，算法的稳定性也不能保证。
[0004]基于此，本专利技术提出先根据数据的内在关联性，采用四叉树结构对海量数据进行分块，各块以Morton码排序后再逐个进行处理计算。该处理方法虽然块内数据无序但块间有序，保证了数据的内在关联性，提高了数据处理过程搜索定位的效率。同时引入流计算模式，在处理的时候只读入一块点数据，每块数据处理完成后区分出稳定态和待定态，把...

【技术保护点】

【技术特征摘要】
1.一种用于计算海量数据的流式处理方法，其特征在于，包括如下步骤：步骤S1、数据预处理：根据数据的内在关联性，找到数据的特征包围盒，进行数据分块，并按块将数据保存到外存文件；步骤S2、分块读取数据：将每一块的数据从外存文件读取到内存处理；步骤S3、区分数据块：每块数据按要求完成处理后，区分稳定态和待定态，将稳定态数据输出，待定态数据保留在内存，继续参与后续计算；步骤S4、处理结束：将所有块的数据处理完，输出最终结果。2.根据权利要求1所述的一种用于计算海量数据的流式处理方法，其特征在于，所述步骤S1中，对数据进行预处理具体过程包括：步骤S11：第一次读取数据，根据数据内在的关联性，找到数据的最值，确定数据的特征包围盒；步骤S12：第二次读取数据，将全部数据划分为均匀数据格网块，根据格网块单元特征值，判断数据落在哪个格网单元内，据此统计出每个格网单元内数据的个数；步骤S13：第三次读取数据，将格网单元采用Z
‑
Order曲线顺序进行外部排序，对每个单元添加落入其内的所有数据，并将这些数据输出到临时文件。3.根据权利要求2所述的一种用于计算海量数据的流式处理方法，其特征在于，所述数据预处理过程中，第一次读取数据时，遍历所有数据的特征值，找出其中的最大值和最小值来确定数据的特征包围盒；第二次读取数据时，利用四叉树结构进行剖分，四叉树的叶节点即格网单元，并以Morton码为键值key；第三次读取数据时，将新读取的数据添加到其所属格网单元内，当单元内数据的个数达到上限记录时，表明该单元已完成预处理，将该单元内的所有数据输出到临时文件，同时释放内存。4.根据...

【专利技术属性】
技术研发人员：张英，
申请(专利权)人：劳弗尔视觉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人