一种大数据处理系统的正交分解构造与优化的方法及系统技术方案

技术编号:12814439 阅读:46 留言:0更新日期:2016-02-05 14:35
本发明专利技术公开一种大数据处理系统的正交分解构造与优化的方法及系统,该方法包括:采用超级优化的方法,在所述大数据处理系统执行逻辑的中间表示代码或二进制硬件指令层面进行离线静态分析,提取优化指令序列作为优化后基本块;创建优化代码数据库,计算所述优化后基本块的指纹,将所述指纹与所述优化后基本块分别存入指纹Map与所述优化代码数据库;采集在线输入的程序,并提取所述程序的基本块,计算所述基本块的指纹,将所述程序的基本块的所述指纹与所述优化代码数据库中的所述指纹进行对比,若匹配则将所述程序的所述基本块输入即时编译引擎执行,其中所述大数据处理系统只负责最核心的资源与任务管理,工作于中间层,与平台、语言无关。

【技术实现步骤摘要】

本专利技术涉及大数据处理领域,特别涉及一种大数据处理系统的正交分解构造与优化的方法及系统
技术介绍
网络大数据的复杂性、不确定性、涌现性给当前IT系统的架构、计算能力带来了挑战和机遇,催生了大数据处理框架,围绕着这些计算框架,诞生了各种大数据处理系统,例如用于批量大数据处理的Google GFS与MapReduce,Norkia的Disco,面向流式处理的Google Dremel、Microsoft 的 Dryad、Twitter 的 Storm、Yahoo 的 S4 等,学术界和开源社区也围绕着面向批量大数据处理的Apache Hadoop、基于Hadoop的更具实时性的Impala、伯克利AMP Lab的基于RDD的,面向工作集叠代应用的Spark展开了深入研究,国内的互联网巨头百度、阿里、腾讯等也在Hadoop等系统上部署了应用。各类系统面向不同的应用,设计有针对性的计算模型、调度算法,数据结构,从而不断演进,如Dremel、Storm等流式处理模型,面向更具实时性的流数据,支持创建拓扑结构来转换没有终点的数据流;而Spark则针对MapReduce模型不擅长的迭代处理和交互应用,提出了 RDD内存数据集及相关迭代模型;Had00p自身的计算框架由原本单一的MapReduce 演化出了基于 DAG (Directed Acyclic Graph)的更为灵活的 Tez ;Hadoop 自身的调度系统也从单一的全局任务调度发展到了新一代的Yarn,分离了 JobTracker的资源管理与任务调度功能。然而,由于大数据处理系统规模大,强调平台无关性,避免与具体的操作系统、硬件平台挂钩,上述系统的演进都忽视了对底层平台技术的利用,Intel中国研究院的NativeTask通过设计外挂的计算引擎模块,将部分Hadoop计算引擎内部的计算外延到Hotspot虚拟机之外,取得了一定的本地化效果,思想值得借鉴,但还未充分发挥存储结点、计算结点本地操作系统、硬件平台的潜力,国内的百度公司也提出了 Hadoop的C++扩展,通过使用类似Pipe的协议将Map和Reduce两阶段的JAVA执行逻辑替换为C++编写并预编译好的二进制可执行文件,向本地化迈进了一步,但其失去了中间逻辑表示的灵活性,同时本地化仅限于Map和Reduce的用户逻辑,也没有深度挖掘代码的优化空间。专利技术专利“基于S-PLUS的大数据平台的构建方法”,该专利技术公开一种基于S-PLUS的大数据平台的构建方法,专利技术体系架构自底向上分为四层:物理层、虚拟化层、服务层和应用层。物理层部署了异构的硬件资源;在虚拟化层,利用Eucalyptus构建虚拟机群,在虚拟机集群上部署了 Hadoop环境;在服务层,集成了 S-PLUS语言,实现数据挖掘功能并提供服务。在应用层,提供给用户清晰的操作界面,其功能包括:数据存储和处理系统、数组运算工具、完整连贯的统计分析工具、优秀的统计制图功能。S-PLUS软件是一种简便而强大的编程语言,可操纵数据的输入和输出,实现分支、循环,用户可自定义功能。该专利技术能有效处理智慧城市中信息系统服务、信息监管、公共安全等智慧城市系统需关注的目标,以大数据的方式进行展现并分析结果,处理效率高。但该专利技术研究了如何利用大数据处理环境Hadoop,并与虚拟机群Eucalyptus结合,提供数据挖掘服务,而本专利技术深入到大数据处理环境的重构方法和优化策略的层面,以使大数据处理系统能够充分发挥物理平台的潜力。专利技术专利“云计算中面向节能的Hadoop分布式文件系统存储策略”,该专利技术公开了一种云计算中面向节能的Hadoop分布式文件系统存储策略,包括如下步骤:步骤1,将数据节点进行区域划分,对于活跃状态的数据节点划分为热区,对于待机状态的数据节点划分为冷区,将新建的文件存储于热区;步骤2,对于存储于热区的数据文件根据优先匹配策略,将该数据文件存储在经过优先匹配的热区最大数据节点;步骤3,判断该数据文件的活跃程度,当活跃程度达到阈值范围后,将该数据文件转存到冷区;步骤4,对转存在冷区的该数据文件进行活跃程度判断,如果存储该数据文件的冷区数据节点最后一次访问时间与当前时间之差大于节点待机时间阈值,则将该节点置为待机状态。专利技术能有效利用热节点和冷节点较大幅度的降低能耗。该专利技术研究的是Hadoop文件系统的面向节能环境的改造,重点在于存储分区,本专利技术站在更高的层面,从正交分解的方法上提出大数据处理系统的重构,文件系统仅是其中的一个环节。
技术实现思路
针对现有技术的不足,本专利技术提出一种大数据处理系统的正交分解构造与优化的方法及系统。本专利技术提出一种大数据处理系统的正交分解构造与优化的方法,包括:步骤1,采用超级优化的方法,在所述大数据处理系统执行逻辑的中间表示代码或二进制硬件指令层面进行离线静态分析,提取优化指令序列作为优化后基本块;步骤2,创建优化代码数据库,计算所述优化后基本块的指纹,将所述指纹与所述优化后基本块分别存入指纹Map与所述优化代码数据库; 步骤3,采集在线输入的程序,并提取所述程序的基本块,计算所述基本块的指纹,将所述程序的基本块的所述指纹与所述优化代码数据库中的所述指纹进行对比,若匹配则将所述程序的所述基本块输入即时编译引擎执行。所述的大数据处理系统的正交分解构造与优化的方法,所述步骤2还包括:结合部分启发式的规则,从所述优化代码数据库中选取值得进一步优化的所述优化后基本块。所述的大数据处理系统的正交分解构造与优化的方法,还包括所述大数据处理系统只负责最核心的资源与任务管理,工作于中间层,与平台、语言无关。所述的大数据处理系统的正交分解构造与优化的方法,所述指纹Map记录基本块的哈希值与数据块存放地址间的映射关系。所述的大数据处理系统的正交分解构造与优化的方法,所述步骤3包括:对于基本块为中间表示代码,则通过即时编译引擎分析编译为平台相关的二进制指令并交给CPU执行;对于机器码段,则由CPU直接译码执行。本专利技术还提出一种大数据处理系统的正交分解构造与优化的系统,包括:优化基本块模块,用于采用超级优化的方法,在所述大数据处理系统执行逻辑的中间表示代码或二进制硬件指令层面进行离线静态分析,提取优化指令序列作为优化后基本块;创建优化代码数据库模块,用创建优化代码数据库,计算所述优化后基本块的指纹,将所述指纹与所述优化后基本块分别存入指纹Map与所述优化代码数据库;采集与匹配模块,用于采集在线输入的程序,并提取所述程序的基本块,计算所述基本块的指纹,将所述程序的基本块的所述指纹与所述优化代码数据库中的所述指纹进行对比,若匹配则将所述程序的所述基本块输入即时编译引擎执行。所述的大数据处理系统的正交分解构造与优化的系统,所述创建优化代码数据库模块还包括:结合部分启发式的规则,从所述优化代码数据库中选取值得进一步优化的所述优化后基本块。所述的大数据处理系统的正交分解构造与优化的系统,还包括所述大数据处理系统只负责最核心的资源与任务管理,工作于中间层,与平台、语言无关。所述的大数据处理系统的正交分解构造与优化的系统,所述指纹Map记录基本块的哈希值与数据块存放地址间的映射关系。所述的大数据处理系统的正交分解构造与优化的系统,所述采集与匹配模本文档来自技高网
...

【技术保护点】
一种大数据处理系统的正交分解构造与优化的方法,其特征在于,包括:步骤1,采用超级优化的方法,在所述大数据处理系统执行逻辑的中间表示代码或二进制硬件指令层面进行离线静态分析,提取优化指令序列作为优化后基本块;步骤2,创建优化代码数据库,计算所述优化后基本块的指纹,将所述指纹与所述优化后基本块分别存入指纹Map与所述优化代码数据库;步骤3,采集在线输入的程序,并提取所述程序的基本块,计算所述基本块的指纹,将所述程序的基本块的所述指纹与所述优化代码数据库中的所述指纹进行对比,若匹配则将所述程序的所述基本块输入即时编译引擎执行。

【技术特征摘要】

【专利技术属性】
技术研发人员:向小佳赵晓芳
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1