当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种支持大规模动态图数据查询的并行处理框架及设计方法技术

技术编号:17486180 阅读:73 留言:0更新日期:2018-03-17 10:30
本发明专利技术提供一种支持大规模动态图数据查询的并行处理框架及设计方法,设计方法如下:该并行处理框架结合了MapReduce框架和BSP框架,以Hadoop框架为底层基础,采取“MapReduce+BSP”模式来满足图计算数据量大和多次迭代的需求,同时该并行处理框架通过构建迭代控制模块、构建实时监听模块、Map阶段功能设计、Reduce阶段功能设计来实现实时监控功能来检查图文件的动态变化。本发明专利技术设计出的框架将MapReduce框架和BSP框架的优势合二为一,在解决BSP框架无法实现高吞吐量计算的同时,避免了MapReduce框架无法进行多次迭代计算的缺点。

A parallel processing framework and design method to support large scale dynamic graph data query

The invention provides a data support for large-scale dynamic graph query parallel processing framework and design method, the design method is as follows: the parallel processing framework with the MapReduce framework and the BSP framework, using the Hadoop framework as the foundation, take the \MapReduce+BSP\ mode to meet the calculation of large amount of data and iteration needs, and the parallel processing the framework by constructing iterative control module, real-time monitoring module, Map stage Reduce stage function design, functional design to achieve the real-time monitoring function to check the map file changes. The framework designed by the invention combines the advantages of the MapReduce framework and the BSP framework, and solves the shortcoming that the BSP framework can not achieve high throughput computing while avoiding the repeated computation of the MapReduce framework.

【技术实现步骤摘要】
一种支持大规模动态图数据查询的并行处理框架及设计方法
本专利技术属于大规模图
,特别涉及一种图数据的处理框架设计,具体涉及一种支持大规模动态图数据查询的并行处理框架的设计。
技术介绍
随着“大数据”和“云计算”技术的快速发展,新一代信息通信技术已经崛起。智能交通、社交网络等领域已经很难用传统互联网技术来满足大众的需求。如何处理这些领域背后复杂图结构的问题,已经成为越来越多研究机构关注的重点。在信息量增长和数据间关系复杂的环境下,大规模动态图的处理技术日新月异,以Google、Facebook、Apache等为代表的研究机构针对大规模动态图的存储、索引、迭代处理等技术推出了一系列框架平台,以此来满足不同背景领域的需求。目前,针对于大规模动态图的处理框架主要集中在MapReduce和BSP两个框架上。图1、图2分别给出了MapReduce和BSP框架的工作流程。对比两个基础框架,MapReduce框架能够对大块文件进行批处理,如图1所示,该框架拥有比较成熟的编程接口,易于编程实现,具有较高的通用性和抽象度,但是对于迭代计算只能在外部多次链式启动作业,产生较高网络传输开销,大大降低了本文档来自技高网...
一种支持大规模动态图数据查询的并行处理框架及设计方法

【技术保护点】
一种支持大规模动态图数据查询的并行处理框架,其特征在于:该并行处理框架结合了MapReduce框架和BSP框架,以Hadoop框架为底层基础,采取“MapReduce+BSP”模式来满足图计算数据量大和多次迭代的需求,在HDFS分布式文件系统的基础上对Hadoop核心源码包进行部分修改,保留了Hadoop框架原有的分布式文件系统、主从集群架构模式、RPC通信机制、容错控制机制、任务调度机制,同时该并行处理框架通过构建迭代控制模块JobTracker、构建实时监听模块、Map阶段功能设计、Reduce阶段功能设计来实现实时监控功能来检查图文件的动态变化以及实现BSP迭代控制、Hadoop实时监听...

【技术特征摘要】
1.一种支持大规模动态图数据查询的并行处理框架,其特征在于:该并行处理框架结合了MapReduce框架和BSP框架,以Hadoop框架为底层基础,采取“MapReduce+BSP”模式来满足图计算数据量大和多次迭代的需求,在HDFS分布式文件系统的基础上对Hadoop核心源码包进行部分修改,保留了Hadoop框架原有的分布式文件系统、主从集群架构模式、RPC通信机制、容错控制机制、任务调度机制,同时该并行处理框架通过构建迭代控制模块JobTracker、构建实时监听模块、Map阶段功能设计、Reduce阶段功能设计来实现实时监控功能来检查图文件的动态变化以及实现BSP迭代控制、Hadoop实时监听、MapReduce框架优化。2.一种支持大规模动态图数据查询的并行处理框架的设计方法,采用了按照权利要求1所述的并行处理框架,其特征在于具体设计方法如下:步骤1构建JobTracker迭代控制模块:用户在提交作业时,通过实现迭代控制接口及相应图处理算法的迭代收敛条件来完成框架的迭代控制功能;步骤2构建监听进程模块:监听进程模块作为单独的一个进程来运行,与JobTracker进程同时启动,主要负责实时监控HDFS分布式文件系统的文件变化,通过设定相应的路径和时间间隔,来采取轮询机制定时监控固定的文件输入目录是否发生变化,从而实现处理动态图算法的功能;步骤3Map阶段功能设计:Mapper将会从执行完毕的Reducer本地缓存文件目录中拷贝待处理文件,并且与TaskTracker保持通信,按照相应命令进行处理下一轮迭代任务;步骤4Reduce阶段功能设计:框架针对图处理多次迭代的特点,Reduce阶段结束后会将中间结果写到本地磁盘系统而非HDFS文件系统,等到作业中所有迭代任务完成后,再将最终结果写入到HDFS中,最终清除缓存目录,完成作业。3.按照权利要求2所述的一种支持大规模动态图数据查询的并行处理框架的设计方法,其特征在于所述JobTracker迭代控制模块的构建方法如下:步骤1-1初始化JobTrackerJobTracker模块通过脚本命令start-mapred.sh进行启动,JobTracker进程启动后,会通过调用offerService()方法启动一些监听线程来跟踪作业的状态并及时向JobTracker反馈;jobQueueJobInProgressListener用来跟踪各个JobInProgress实例在作业执行过程中的改变;eagerTaskInitializationListener不断监听Job初始化队列;步骤1-2RPC通信机制和心跳机制首先,TaskTracker在初始化时会执行run()方法来与JobTracker建立连接,JobTracker接收到TaskTracker发送过来的心跳信息后,首先检查心跳信息是否来自于合法的TaskTracker节点,然后根据status、acceptNewTasks、responseId等参数来获得TaskTracker的状态信息、心跳编号等,处理发送过来的心跳信息,最后,TaskTracker接收到JobTracker发送回来的响应信息后,通过调用getActions方法获得TaskTrackerAction数组中的命令,进行下一轮的迭代任务;步骤1-3清理本地临时文件当loopListener线程发来迭代结束的标志位信息时,JobTracker会实例化Task类中的NewDirectOutputCollector对象,将最后结果直接输出到HDFS分布式文件系统,同时将JobCleanup任务返回给TaskTracker执行,进行清理本地系统的临时文件。4.按照权利要求2所述的一种支持大规模动态图数据查询的并行处理框架的设计方法,其特征在于所述监听进程模块的构建方法如下:步骤2-1初始化监听进程监听进程模块主要由Listener和Monitor两部分构成,整体采用了观察者的设计模式,定义了对象间一对多的依赖关系,通过多个观察者对象监听HDFS分布式文件系统内文件夹和文件的创建、修改、删除等事件源,当这些事件源被触发时,通知所有依赖于此的观察者对象,使得观察者根据此反馈进行后续操作;当JobTracker进程启动时,监听进程模块同时启动并初始化Listener和Monitor,接收来自客户端传入的被监控对象的路径和监控扫描时间间隔等参数信息,调用start()方法开始定时扫描固定路径下的文件,完成监听进程模块的初始化工作;步骤2-2开启监听进程工作...

【专利技术属性】
技术研发人员:宋宝燕王俊陆单晓欢丁琳琳张毅隆尹东晓
申请(专利权)人:辽宁大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1