面向基因测序大数据的云存储方法技术

技术编号：19151690 阅读：33 留言：0更新日期：2018-10-13 10:38

本发明专利技术提供一种面向基因测序大数据的云存储方法，针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点，提出条块化多副本，分布式多副本以及分布式单副本三种存储模式来保存不同的数据文件。本发明专利技术提供的面向基因测序大数据的云存储方法，采用基于GlusterFS分布式文件系统实现，具有强大的横向扩展能力，通过扩展能够支持数PB存储容量和处理数千客户端。

Cloud storage method for gene sequencing large data

The invention provides a cloud storage method for large gene sequencing data. In view of the characteristics of high throughput sequencing large data and concurrent access performance, access frequency and availability in the analysis process, three storage modes, namely, block multi-copy, distributed multi-copy and distributed single-copy, are proposed to store different data files. . The cloud storage method for large gene sequencing data provided by the invention is implemented by a GlusterFS-based distributed file system, and has a strong lateral scaling ability, which can support several PB storage capacity and process thousands of clients.

全部详细技术资料下载

【技术实现步骤摘要】
面向基因测序大数据的云存储方法
本专利技术涉及基因测序大数据处理
，特别是涉及一种面向基因测序大数据的云存储方法。
技术介绍
随着生物医疗技术特别是大规模基因测序的耗时与成本大大降低，精准医学与基因检测已从实验室逐步走进临床应用和普通人的生活。伴随着基因检测与精准医疗向着大规模、商业化方向发展，个人基因测序数据将出现井喷趋势，海量基因测序数据的云存储是一项具有挑战性的任务；与此同时，人们通过网络访问基因测序数据及其相关数据资源的需求也必将随之兴起。国外一些科研服务机构，包括ENCODE，ATGC提供了面向学术研究服务的基因测序大数据存储与数据挖掘工具，他们将文件存储在RAID5或者RAID10磁盘阵列存储上，这种方法缺点是单节点失效导致文件无法访问，存储空间难以扩展；而国内的基因测序机构现阶段侧重于市场开发，尚未开展对面向普通消费者的基因测序数据的云存储与检索业务。
技术实现思路
本专利技术所要解决的技术问题是：为了克服现有技术中的不足，本专利技术提供一种面向基因测序大数据的云存储方法，所述云存储方法可动态扩展存储空间，为基因测序大数据及其分析产生的数据文件提出了一种高性能、高可用性且经济的存储系统。本专利技术解决其技术问题所要采用的技术方案是：一种面向基因测序大数据的云存储方法，包括以下步骤：首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时，将文件名、文件大小以及存储路径保存至关系数据库中，其中，关系数据库包括SQLserver、...

【技术保护点】
1.一种面向基因测序大数据的云存储方法，其特征在于：包括以下步骤：首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储；其中，针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略；针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略；针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略；不同存储策略的存储过程为，条块化多副本存储策略：将单个大文件分割成若干数据块，每个数据块保存在不同存储节点上，提高并发访问性能；每个数据块都存储在至少三个不同存储节点上，以提高数据可用性；分布式多副本存储策略：构建分布式集群扩展存储空间以保存海量数据，每个文件在至少两个不同存储节点保存完整副本，提高数据可用性；分布式单副本存储策略：构建分布式集群扩展存储空间以存储海量数据，每个文件只在一个节点上保存完整副本。

【技术特征摘要】
1.一种面向基因测序大数据的云存储方法，其特征在于：包括以下步骤：首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储；其中，针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略；针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略；针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略；不同存储策略的存储过程为，条块化多副本存储策略：将单个大文件分割成若干数据块，每个数据块保存在不同存储节点上...

【专利技术属性】
技术研发人员：刘辉，
申请(专利权)人：常州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人