【技术实现步骤摘要】
一种并行分布式大数据架构构建方法及系统
[0001]本专利技术涉及并行数据处理的
,尤其涉及一种并行分布式大数据架构构建方法及系统。
技术介绍
[0002]大数据是由分布存储在集群节点中多个单节点的磁盘空间中能被进行分布式处理的数据构成的一个数据总体。大数据的规模可以随着节点数量的不断增加而不断扩大。
[0003]在当代,我们已经被海量的数据包围,要从这些数据中提取出有价值的信息,就需要提供底层细节透明的分布式基础设施。常见的并行分布式架构有HDFS系统、HBase系统、MapReduce分布式计算框架等;HDFS系统具有高容错性、高伸缩性等优点,但难以保障数据的一致性;HBase系统虽能支持海量数据的写入,但不适合于大范围数据查询;MapReduce分布式计算框架可以在不了解分布式系统底层细节的情况下开发并行、分布的应用程序,重复利用大规模的计算资源,但过于低层化,对于一个简单的查询,需要写Map和reduce函数,复杂且耗费时间。
技术实现思路
[0004]本部分的目的在于概述本专利技术的实 ...
【技术保护点】
【技术特征摘要】
1.一种并行分布式大数据架构构建方法,其特征在于:包括,通过网格单元(100)建立网格,将数据按照时间戳依次存入所述网格;利用计算单元(200)计算网格数据相关性和数据节点采样时间间隔;根据所述网格数据相关性将数据通过传输单元(300)将网格数据分配给数据存储单元(400)。2.如权利要求1所述的并行分布式大数据架构构建方法,其特征在于:所述网格包括,定义共有n*m个数据,计算每层数据节点的平均密度ρ;根据所述平均密度ρ对每层数据区域进行网格划分,并判断该网格中数据节点的密度ρ
i
是否接近于平均密度ρ,若不接近,则根据数据节点面积划分网格;其中,n为数据层数,m为每层数据的节点数,ρ
i
表示第i个数据节点;定义|ρ
i
‑
ρ|≥0.01为不接近。3.如权利要求2所述的并行分布式大数据架构构建方法,其特征在于:所述网格数据相关性包括网格空间相关性C
N
、数据采集时间相关性D
T
和数据采集位置相关性D
L
;结合布尔值函数和网格数据获得该网格空间相关性;根据所述数据节点采样时间间隔,计算所述数据采集时间相关性D
T
;根据采集地点编号对数据进行Hash映射,结合设置的相关系数获得所述数据采集位置相关性D
L
。4.如权利要求3所述的并行分布式大数据架构构建方法,其特征在于:所述网格空间相关性包括,其中,F
q
表示第q个数据节点采样时间间隔内网格F采集的数据,G
...
【专利技术属性】
技术研发人员:张蒙蒙,赵祥,柯静,潘丽君,
申请(专利权)人:南京翌淼信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。