当前位置: 首页 > 专利查询>常州大学专利>正文

面向基因测序大数据的云存储方法技术

技术编号:19151690 阅读:33 留言:0更新日期:2018-10-13 10:38
本发明专利技术提供一种面向基因测序大数据的云存储方法,针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本,分布式多副本以及分布式单副本三种存储模式来保存不同的数据文件。本发明专利技术提供的面向基因测序大数据的云存储方法,采用基于GlusterFS分布式文件系统实现,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。

Cloud storage method for gene sequencing large data

The invention provides a cloud storage method for large gene sequencing data. In view of the characteristics of high throughput sequencing large data and concurrent access performance, access frequency and availability in the analysis process, three storage modes, namely, block multi-copy, distributed multi-copy and distributed single-copy, are proposed to store different data files. . The cloud storage method for large gene sequencing data provided by the invention is implemented by a GlusterFS-based distributed file system, and has a strong lateral scaling ability, which can support several PB storage capacity and process thousands of clients.

【技术实现步骤摘要】
面向基因测序大数据的云存储方法
本专利技术涉及基因测序大数据处理
,特别是涉及一种面向基因测序大数据的云存储方法。
技术介绍
随着生物医疗技术特别是大规模基因测序的耗时与成本大大降低,精准医学与基因检测已从实验室逐步走进临床应用和普通人的生活。伴随着基因检测与精准医疗向着大规模、商业化方向发展,个人基因测序数据将出现井喷趋势,海量基因测序数据的云存储是一项具有挑战性的任务;与此同时,人们通过网络访问基因测序数据及其相关数据资源的需求也必将随之兴起。国外一些科研服务机构,包括ENCODE,ATGC提供了面向学术研究服务的基因测序大数据存储与数据挖掘工具,他们将文件存储在RAID5或者RAID10磁盘阵列存储上,这种方法缺点是单节点失效导致文件无法访问,存储空间难以扩展;而国内的基因测序机构现阶段侧重于市场开发,尚未开展对面向普通消费者的基因测序数据的云存储与检索业务。
技术实现思路
本专利技术所要解决的技术问题是:为了克服现有技术中的不足,本专利技术提供一种面向基因测序大数据的云存储方法,所述云存储方法可动态扩展存储空间,为基因测序大数据及其分析产生的数据文件提出了一种高性能、高可用性且经济的存储系统。本专利技术解决其技术问题所要采用的技术方案是:一种面向基因测序大数据的云存储方法,包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中,其中,关系数据库包括SQLserver、Mysql、oracle等都是关系型管理数据库;检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本、分布式多副本以及分布式单副本三种存储策略来保存不同访问特征的文件。不同存储策略的存储过程为:(1)条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上,提高并发访问性能;每个数据块都存储在至少三个不同存储节点上,以提高数据可用性;(2)分布式多副本存储策略:构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;(3)分布式单副本存储策略:构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个节点上保存完整副本。许多物种的基因组、转录组与表观遗传组已经通过测序并构建了图谱,测序数据分析过程中使用已知的基因组作为参考可大大提高分析的准确性;由于基因组比较大,将测序片段(read)比对到参考基因组坐标是一项非常耗时的工作。因此,比对算法(aligner)基于参考基因组构建所需要的索引文件,能大大加快比对速度;对于模式生物特别是人类,许多基因的功能以及位点变异导致的疾病都已经被揭示,形成了许多注释文件。参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大,并发性能要求高,访问频率高,可用性要求高。针对这类数据文件的访问特点,本专利技术采用条块化多副本存储策略,将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上提高并发访问性能,且每个数据块都存储在至少三个不同存储节点上以提高数据可用性。条块化多副本存储策略的优势在于访问某一文件时,多个存储节点并行地读取该文件的不同数据块,读取速度成倍增加,在访问频率很高的应用条件下极大地提升访问性能;每个数据块在不同存储节点上保存多个副本,单一节点故障不影响数据的访问,而多个节点同时失效的概率极低,从而大大提高了数据的可用性。原始高通量基因测序数据通常是fastq格式,通常包含了测序平台、flowcell、lane以及相关信息。随着参考基因组以及分析算法的提高,对原始数据进行二次或三次分析能更准确地解读基因变异与表达水平,因此原始测序数据需要长期保存;分析过程产生的重要中间文件(例如比对生成的bam文件)以及分析结果(如表达水平FPKM文件与变异事件vcf文件),用户通常会多次访问下载,也需要长期保存。原始测序数据文件与重要的分析结果数据规模很大,原始测序数据的单个文件大,数据可用性要求高,但使用频率低,访问性能要求不高。针对这类数据文件的访问特点,本专利技术采用分布式多副本存储策略,构建分布式存储集群扩展存储空间,每个文件在至少两个不同存储节点,每个节点保存一份完整副本。分布式多副本存储策略的优点是能根据需求动态扩展存储空间以存储海量测序数据;其次,在不同存储节点上保存多个副本提高了数据的可用性,单个节点故障不影响数据的访问;最后,可使用普通台式机硬盘构建大规模存储空间,适用于使用频率低与访问性能要求高的大规模数据归档。基因测序数据分析过程会产生大量的中间文件,如日志文件、配置文件和临时文件等。这类数据文件的特点是文件数量非常多,整体容量大,但单个文件较小,访问频率低,数据可用性要求低。本专利技术采用分布式单副本存储策略保存这些数据,构建分布式集群扩展存储空间以存储分析过程产生的海量数据,每个文件只在一个节点上保存完整副本,从一个存储节点即可完整地读取一个文件的内容。附图说明下面结合附图和实施例对本专利技术作进一步说明。图1是本专利技术数据文件存储系统的结构示意图;图2是本专利技术条块化多副本存储策略的结构示意图;图3是本专利技术分布式多副本存储策略的结构示意图;图4是本专利技术分布式单副本存储策略的结构示意图。具体实施方式现在结合附图对本专利技术作详细的说明。此图为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。如图1所示,一种面向基因测序大数据的云存储系统,包括客户端、云存储管理系统、关系数据库和云存储服务器,所述云存储服务器包括多个存储节点,关系数据库包括SQLserver、Mysql、oracle等关系型管理数据库。本实施例采用基于GlusterFS分布式文件系统,使用GlusterFS可从物理存储池进行独立划分创建不同类型的逻辑卷,并且支持POSIX文件系统规范。本专利技术提出的面向基因测序大数据的云存储方法包含一个Mysql数据库云存储管理系统,云存储上的所有文件详细信息都记录在Mysql数据库中,用户检索文件时可避免低效的磁盘目录读取操作,而是从Mysql数据库中获取文件信息与存储路径,根据存储路径读取文件内容。基于该云存储系统提出一种面向基因测序大数据的云存储方法,包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中,检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本、分布式多副本以及分布式单本文档来自技高网...

【技术保护点】
1.一种面向基因测序大数据的云存储方法,其特征在于:包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储;其中,针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略;针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略;针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略;不同存储策略的存储过程为,条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上,提高并发访问性能;每个数据块都存储在至少三个不同存储节点上,以提高数据可用性;分布式多副本存储策略:构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;分布式单副本存储策略:构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个节点上保存完整副本。

【技术特征摘要】
1.一种面向基因测序大数据的云存储方法,其特征在于:包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储;其中,针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略;针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略;针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略;不同存储策略的存储过程为,条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上...

【专利技术属性】
技术研发人员:刘辉
申请(专利权)人:常州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1