当前位置: 首页 > 专利查询>马志强专利>正文

应用于分布式基因组分析的快速I/O系统技术方案

技术编号:18445148 阅读:111 留言:0更新日期:2018-07-14 10:28
本发明专利技术公开了一种应用于分布式基因组分析的快速I/O系统,它使用分布式文件系统HDFS作为基本存储系统,并利用每个节点的本地磁盘,综合提高多节点分布式计算中的基因组数据的高通量的I/O功能;HDFS集群与基因组分析计算节点耦合;其中一个计算节点作为HDFS的名字节点;所有计算节点用作HDFS数据节点;写入文件系统的数据在集群中的3个不同节点上存储3个副本;在每个计算节点上,启动NFS代理;在每个计算节点上,通过NFS代理将HDFS挂载为文件系统MF;在每个计算节点上,本地文件系统LF用作临时存储;计算节点上的分析进程像读取传统文件系统一样从挂载文件系统MF读取数据;对于要写入的数据,将数据写入LF;在LF中,由进程生成的文件将在进程退出之前自动保存到MF。

A fast I/O system for distributed genome analysis

This invention discloses a fast I/O system for distributed genome analysis. It uses the distributed file system HDFS as the basic storage system and uses the local disk of each node to improve the high throughput I/O function of the genome data in the multi node distributed computing; the HDFS cluster and the genome analysis calculation section. Point coupling; one of the computing nodes is the name node of HDFS; all computing nodes are used as HDFS data nodes; the data written to the file system stores 3 copies on 3 different nodes in the cluster; on each computing node, the NFS agent is started; on each computing node, the HDFS is mounted as a file system through the NFS agent. MF; on each computing node, the local file system LF is used as a temporary storage; the analysis process on the computing node reads data from the mount file system MF like a traditional file system; writes data to LF for the data to be written; in LF, the file generated by the process will automatically save to M before the process exits. F.

【技术实现步骤摘要】
应用于分布式基因组分析的快速I/O系统
本专利技术涉及存储系统
,尤其涉及一种应用于分布式基因组分析的快速I/O系统。
技术介绍
基因组数据,比如人的全基因组数据,数据量是巨大的。所以对基因组的分析过程需要读取和写入大量的数据,包括输入,输出和中间文件。传统的集中式I/O数据处理系统,如NFS和SAN,便成为基因组数据分析的瓶颈。昂贵的存储设备可用于提高I/O性能。但是,并非在所有需求中都有负担如此成本的预期。而且,如果集群扩展到1000个节点,这可能会成为技术上的瓶颈。分布式系统,比如GFS[1]和HDFS[2],可以以低成本提供高I/O。同时,它们可以扩展到在1000个节点上运行。然而,分布式文件系统的语义与传统的本地文件系统的语义是不同的。所以使用传统文件系统作为接口的基因组分析工具可能无法很好地与分布式文件系统协作。
技术实现思路
该方法使用分布式文件系统HDFS作为基本的存储系统,在此基础上构建了用于基因组数据在多服务器节点上的分布式计算的高通量的I/O功能。相比集中式单拷贝存储系统,本专利技术将生成数据于3个节点上存储3个拷贝,让后续步骤可以以3倍I/O通量读取。系统资源得到更有效地使用。在计算过程中,除了开始和结束阶段需要处理大量的读取或者存储数据的需求,通常I/O是不密集的。此时I/O可以被其它节点的进程使用。HDFS的数据复制机制确保多拷贝文件的写入速度不会比单拷贝系统明显地慢。将HDFS挂载为传统文件系统,使传统工具(如bwa和GATK)无需修改即可从HDFS读取数据。能满足计算过程中产生的临时存储需求的本地文件系统,使传统工具可与分布式存储系统配合使用。附图说明图1为本系统的一个示例图。具体实施方式本专利技术构建了用于基因组分析的分布式I/O系统。它以分布式文件系统(HDFS)为基本存储系统,在多个服务器节点上提供高通量I/O功能,进行分布式基因组数据计算。它的工作原理如下:一个HDFS集群与基因组分析计算节点耦合。其中一个计算节点作为HDFS的名字节点(NameNode)。所有计算节点都用作HDFS的数据节点(DataNodes)。写入文件系统的数据在集群中的3个不同节点上存储3个副本。在每个计算节点上,启动NFS代理。由NFS代理向计算节点提供文件系统。在每个计算节点上,通过NFS代理将HDFS挂载为文件系统MF。在每个计算节点上,本地文件系统LF作为临时存储使用。分析流程中,计算节点通过文件系统MF对数据进行读取,对于要写入的数据,系统将文件写入LF。在LF中,由进程生成的文件将在进程退出之前自动保存到MF。分析计算节点和HDFS存储节点是同一组节点。计算节点上的数据分析进程可以通过HDFS代理挂载的文件系统MF对节点上的HDFS数据节点进行I/O操作。图为系统的一个示例。它包含4个节点。每个节点的硬盘都有两部分,一部分挂载到/mnt/local,由LF使用,一部分用作HDFS存储。每个节点都有一个代理将MF装载到/mnt/dfs。分析程序可以通过代理从MF读取数据,从LF读取数据或者将数据写入LF,将数据从LF存储到MF。数据会被复制到3个节点。上述实施方式仅为本专利技术的优选实施方式,不能以此来限定本专利技术保护的范围,本领域的技术人员在本专利技术的基础上所做的任何非实质性的变化及替换均属于本专利技术所要求保护的范围。本文档来自技高网...

【技术保护点】
1.应用于分布式基因组分析的快速I/O系统,其特征在于,它使用分布式文件系统HDFS作为基本存储系统,利用每个节点的本地磁盘提高多节点分布式计算中的基因组数据的高通量的I/O功能;HDFS集群与基因组分析计算节点耦合;其中一个计算节点作为HDFS的名字节点;所有计算节点用作HDFS数据节点;写入文件系统的数据在集群中的3个不同节点上存储3个副本;在每个计算节点上,启动NFS代理;NFS代理向计算节点提供文件系统支持;在每个计算节点上,通过NFS代理将HDFS挂载为文件系统MF;在每个计算节点上,本地文件系统LF用作临时存储;计算节点上的分析进程像读取传统文件系统一样从挂载文件系统MF读取数据;对于要写入的数据,将数据写入LF;在LF中,由进程生成的文件将在进程退出之前自动保存到MF;HDFS存储节点是同一组分析计算节点;计算节点上的分析进程可以通过挂载的文件系统MF对HDFS的数据节点进行I/O操作。

【技术特征摘要】
2017.02.02 US 62/453,5391.应用于分布式基因组分析的快速I/O系统,其特征在于,它使用分布式文件系统HDFS作为基本存储系统,利用每个节点的本地磁盘提高多节点分布式计算中的基因组数据的高通量的I/O功能;HDFS集群与基因组分析计算节点耦合;其中一个计算节点作为HDFS的名字节点;所有计算节点用作HDFS数据节点;写入文件系统的数据在集群中的3个不同节点上存储3个副本;在每个计算...

【专利技术属性】
技术研发人员:马志强薛红顾磷李威洁
申请(专利权)人:马志强
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1