The invention relates to a method for calculating distributed multidimensional discrete data, belonging to the technical field of computer data processing. The mapping service interface method first calls the distributed storage system to obtain metadata and parsed hash range to the host, then all of the data in the storage system according to the primary key primary key mapping hash code mapping and hash range to the host data corresponding to each primary host, eventually in the allocation of tasks in distributed computing system according to the host assignment data in the primary key. In particular, the cross layer optimization of Multidimensional Discrete Data in distributed computing system Spark and distributed storage system Cassandra is described in detail. The invention can effectively achieve the purpose of localization calculation of tasks, and the method is visual, effective and convenient to use.
【技术实现步骤摘要】
一种分布式多维离散数据的计算方法
本专利技术涉及一种分布式多维离散数据的计算方法,属于计算机数据处理
技术介绍
维度是描述现实世界事物的参数个数,随着对物理世界认知的加深,人们不再仅仅使用一个维度来描述现实事物,而是采用多个维度来详尽的对事物进行描述。多维离散数据是指以某些维度为基准对数据进行离散化划分存储的数据集合,以这种数据为基础的应用广泛存在,例如,在气象预报系统中,用户需要使用预报模式、物理量类型、预报时刻、预报时效、地理高度等5个维度共同刻画一个气象预报数据,通过物理量类型和地理高度两个维度的组合为基准对数据进行离散化划分,并在多台计算机以这两个维度为键进行分布式存储,最终同一个键的数据将会被存储在同一台机器上。新兴的分布式计算系统采用多台计算机对数据进行并行的处理,在处理海量数据方面有较强的优势,以MapReduce,Spark等为代表的分布式计算系统已经被广泛的应用于大数据场景。分布式计算其实质是将大的任务分解成若干个小任务,将这些小任务分配给多台机器,每个小任务从存储系统中读取本任务的数据进行处理,这样可以节约运行时间,大大提高计算效率。 ...
【技术保护点】
一种分布式多维离散数据的计算方法,其特征在于该方法包括以下步骤:(1)根据分布式存储系统的数据划分规则,在分布式计算系统中建立一个多维离散数据的分区键值ki与哈希码的映射函数,将分区键值与哈希码的映射函数记作fhash,fhash:分区键值→哈希码;(2)分布式计算系统从分布式存储系统获取包含有多维离散数据信息的元数据,元数据为多维离散数据在分布式存储系统中所有主机的哈希码区间,将获取的所有元数据的哈希码区间的起始哈希码集合记为M,M={m1,m2,m3,...,mi,...,mn},其中mi为第i个哈希码区间的起始哈希码,将集合M中的起始哈希码按照从小到大排列,将集合M的 ...
【技术特征摘要】
1.一种分布式多维离散数据的计算方法,其特征在于该方法包括以下步骤:(1)根据分布式存储系统的数据划分规则,在分布式计算系统中建立一个多维离散数据的分区键值ki与哈希码的映射函数,将分区键值与哈希码的映射函数记作fhash,fhash:分区键值→哈希码;(2)分布式计算系统从分布式存储系统获取包含有多维离散数据信息的元数据,元数据为多维离散数据在分布式存储系统中所有主机的哈希码区间,将获取的所有元数据的哈希码区间的起始哈希码集合记为M,M={m1,m2,m3,...,mi,...,mn},其中mi为第i个哈希码区间的起始哈希码,将集合M中的起始哈希码按照从小到大排列,将集合M的元素个数记为|M|;将所有与起始哈希码相对应的主机集合记为H,H={h1,h2,h3,...,hz,...,hn},其中hz表示第z个起始哈希码所在的主机;(3)在分布式计算系统中建立一个上述步骤(1)的分区键值ki与步骤(2)的主机集合的键机映射表,记作Fstatic,分区键值→主机集合;设定一个描述分区键值固定性的参数wstatic,根据参数wstatic,对上述步骤(1)的分布式存储系统中多维离散数据的分区键值的固定性进行判断,若wstatic为假,则进行步骤(5),若参数wstatic为真,则进行步骤(4);(4)对分布式计算系统的键机映射表Fstatic进行更新,具体过程如下:(4-1)判断在分布式计算系统的指定路径上是否存在键机映射表的记录文件,若存在记录文件,则将键机映射表的记录文件加载到分布式计算系统的内存中用于对步骤(3)的键机映射表Fstatic进行初始化,进行步骤(5);若不存在记录文件,则进行步骤(4-2);(4-2)对分布式存储系统中的分区键值集合K={k1,k2,k3,...,ki,...ks}的每一个分区键值计算对应的主机位置,具体步骤如下:(4-2-1)设置变量i=1,将分区键值集合K的第i个分区键值记作ki,分区键值集合...
【专利技术属性】
技术研发人员:王建民,龙明盛,李峰,黄向东,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。