一种基于血统和检测点技术的分布式内存文件系统技术方案

技术编号：12589530 阅读：76 留言：0更新日期：2015-12-24 14:43

本发明专利技术公开了一个基于血统和检测点技术的分布式内存文件系统，该分布式内存文件系统，能够在保证容错性的情况下提高数据的读写吞吐量，利用血统的概念来规避由于复制数据造成的吞吐量降低的问题，即在任务失败时通过重新计算恢复数据，并且使用检测点技术来控制失败节点数据重新计算所需要的时间,利用严格优先权模型和加权公平共享模型，为失败节点的重新计算提供了足够的计算资源，同时这样也不会影响到其他作业的运行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文件在运算过程中的DAG图，文件备份技术，以及数据重算机制，并且具备资源的调度功能。
技术介绍
尽管目前缓存技术提高了读数据的速度，但是写数据时依旧是通过网络或硬盘，并且通过复制来保证数据的容错。近些年来，已经有很多努力来提高大规模并行数据处理系统的速度和复杂度。开发者和研究者已经构建了很多编程框架和存储系统来处理各种各样的作业。由于这些系统都是I/O相关的，传统上一般引入缓存来提升性能，但传统意义上在分布式计算系统中使用缓存虽然能极大提升读数据的速度，对于写数据的性能却帮助不大，这是因为分布式系统需要提供容错，而对于容错数据一般采用在多个不同节点上保存副本来实现。在内存中产生数据副本对于写数据的性能有较大影响，并且节点之间副本的传输受限于网络时延和吞吐量，相比直接使用本地内存进行缓存性能会差很多。写数据的性能严重影响了流水线式的作业，这种任务的一个作业会用到另一个作业的输出，这些作业一般用Oozie和Luigi框架进行管理，例如，首先利用MapReduce来提取数据，然后利用这些数据进行数据库查询，再之后在数据库查询的结果上使用机器学习算法。另外，许多高级编程接口，比如Pig和Flumejava，把程序编译成多个MapReduce作业然后顺序执行。这些案例，每一步之间都要通过网络进行数据备份。硬件性能的提高并不能解决这些问题，在一个节点上，内存的带宽是硬盘的I到3个数量级，内存和硬盘之间带宽的差别越来越大。固态硬盘的出现也不会对这个问题带来影响，因为固态硬盘的主要优势是减少随机访问的延迟，不能增加顺序I/O的带宽，而这是数据密集型...

【技术保护点】
一种基于血统和检测点技术的分布式内存文件系统，其特征在于包含两层架构：血统层和持久层，血统层主要提供较高的I/O吞吐量，并且能够跟踪创建特定数据输出的作业序列；持久层则将数据持久化到存储介质中，主要用到异步备份技术，持久层是任何现存的基于存储系统的数据备份系统；主节点包含工作流的管理模块，管理模块是为了能够跟踪血统的信息、计算检测点的序列和管理集群资源重新计算分配资源；每一个工作节点都运行一个守护进程来管理本地资源并且定期向主节点报告状态信息；每一个工作节点使用虚拟硬盘来存储内存映射文件；一个用户应用程序能够访问守护进程和直接与虚拟硬盘进行交互，这样，使用本地数据的用户程序就可以以内存访问的速度进行数据处理，避免了额外的数据拷贝；在设置输出数据的检测点后，该系统会删除血统记录，这将会大大减少血统信息的数量；系统使用LRU作为默认的内存替换策略，并允许用户使用其他的回收策略；用被动后备式的方法来保证主节点的容错性，主节点把每一步的操作都以日志的形式同步到持久层，当主节点失败时，一个新的主节点将从备用节点选出新的主节点，新的主节点依靠读取日志来恢复原来节点的状态。

【技术特征摘要】

【专利技术属性】
技术研发人员：雷州，朱俊，曹纪中，
申请(专利权)人：江苏南开之星软件技术有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人