一种异构集群的Hadoop矩阵处理方法及系统技术方案

技术编号：14944329 阅读：73 留言：0更新日期：2017-04-01 10:53

一种异构集群的Hadoop矩阵处理方法，包括以下步骤：搭建一个物理集群，设置一个Master节点及多个Slaver节点；在所述Master节点及多个Slaver节点上分别配置Java开发环境下的编程环境，并预编矩阵相乘CUDA版的Map和Reduce代码；读取内存中已存储第一矩阵A及第二矩阵B的相关信息，并根据预编代码对所述存储的第一矩阵A及第二矩阵B进行MapReduce矩阵相乘运算；控制运算结果直接写进分布式文件系统HDFS；其中，所述A＝(aij)是m×s的矩阵，B＝(bij)是s×n的矩阵。本发明专利技术从算法角度提升Hadoop矩阵相乘性能有限，能够更深层次提高程序的性能，有效提高了矩阵相乘运算的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理
，尤其涉及一种异构集群的Hadoop矩阵处理方法及系统。
技术介绍
高矩阵运算已广泛应用于工业、科技等重要领域，从图像处理、数据挖掘到生物计算等，矩阵乘法是矩阵运算中最为重要的计算之一。但随着矩阵规模的扩展，短时间内进行矩阵相乘变得困难起来。传统矩阵乘法采用单个节点串行处理或GPU并行处理方案。该方案虽然在一定程度上提高了性能，但是并不适用于海量数据处理。Hadoop是一个能够对大数据处理的分布式框架，是MapReduce编程模型最为流行的开源实现。它简化了数据分发、处理、计算和任务调度，并具有高容错、高可靠、高可扩展和高资源利用率等特性。编程人员只需要编写Map和Reduce函数，Hadoop会自动将任务分配到集群的各个节点，并执行任务，从而达到数据并行。论文(孙远帅，陈，官新均，林琛)“基于Hadoop的大数据乘法处理方法”，提出采用内积法和外积法实现MapReduce的矩阵相乘。然而，(1)对于海量数据处理应用，Hadoop表现并不理想。海量数据处理应用，有两个特点：计算密集和数据密集，Hadoop主要适用于数据密集型应用；(2)采用内积法的MapReduce仅仅一个作业就可以完成任务，但是Map阶段的中间输出结果很大，Hadoop框架在Map阶段需要将中间结果写入本地磁盘，Shuffle阶段需要复制对应分区的中间结果，因此，该方案在实际应用中很少使用。外积法在...

【技术保护点】
一种异构集群的Hadoop矩阵处理方法，其特征在于：包括以下步骤，搭建一个物理集群，设置一个Master节点及多个Slaver节点；在所述Master节点及多个Slaver节点上分别配置Java开发环境下的编程环境，并预编矩阵相乘CUDA版的Map和Reduce代码；读取内存中已存储第一矩阵A及第二矩阵B的相关信息，并根据预编代码对所述存储的第一矩阵A及第二矩阵B进行MapReduce矩阵相乘运算；控制运算结果直接写进分布式文件系统HDFS；其中，所述A＝(aij)是m×s的矩阵，B＝(bij)是s×n的矩阵。

【技术特征摘要】
1.一种异构集群的Hadoop矩阵处理方法，其特征在于：包括以下步骤，
搭建一个物理集群，设置一个Master节点及多个Slaver节点；
在所述Master节点及多个Slaver节点上分别配置Java开发环境下的编程环
境，并预编矩阵相乘CUDA版的Map和Reduce代码；
读取内存中已存储第一矩阵A及第二矩阵B的相关信息，并根据预编代码
对所述存储的第一矩阵A及第二矩阵B进行MapReduce矩阵相乘运算；
控制运算结果直接写进分布式文件系统HDFS；
其中，所述A＝(aij)是m×s的矩阵，B＝(bij)是s×n的矩阵。
2.根据权利要求1所述的异构集群的Hadoop矩阵处理方法，其特征在于：
所述Java开发环境下的编程环境是指Java开发环境JDK，Hadoop，IntelGPU
的编程环境CUDA，JCuda，Ganglia；
其中，JCuda提供了Java直接访问CUDA的API，Ganglia实时监控集群的
CPU、内存、网络、硬盘利用率。
3.根据权利要求1所述的异构集群的Hadoop矩阵处理方法，其特征在于：
所述第一矩阵A及第二矩阵B的存储方式采用三元组表格存储方式，具体
列信息包括i，j，aiTbj；
其中，aiT为第一矩阵A的第i行；bj为第二矩阵B的第j列。
4.根据权利要求3所述的异构集群的Hadoop矩阵处理方法，其特征在于：
MapReduce矩阵相乘运算具体包括：
Map阶段，根据预编代码得到emit((i,j),aiT·bj)，其中Reduce阶段，直接获得Map阶段的结果。
5.根据权利要求1所述的异构集群的Hadoop矩阵处理方法，其特征在于：
在所述步骤控制运算结果直接写进分布式文件系统HDFS之后，还包括步骤，
搭建Web...

【专利技术属性】
技术研发人员：刘勇，喻之斌，须成忠，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人