基因组测序数据归档方法、服务器及计算机可读存储介质技术

技术编号：20392665 阅读：25 留言：0更新日期：2019-02-20 03:58

本发明专利技术适用于计算机技术领域，提供了基因组测序数据归档方法、服务器及计算机可读存储介质，其中方法包括：获取基因组测序文件中的序列文件；其中，所述序列文件用于存储序列数据，所述序列数据由至少两个基因序列排列而成；确定所述序列数据中每两个所述基因序列之间的相似度；基于所述相似度对所述基因序列进行重新排列，使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列；对重新排列了所述基因序列的所述序列文件进行压缩处理，得到归档序列文件。本发明专利技术中，服务器对基因组测序数据进行压缩归档时，其压缩率更高，可以极大地减少对存储资源的占用，降低存储成本。

全部详细技术资料下载

【技术实现步骤摘要】
基因组测序数据归档方法、服务器及计算机可读存储介质
本专利技术属于计算机
，尤其涉及基因组测序数据归档方法、服务器及计算机可读存储介质。
技术介绍
基因测序技术是一种新型的基因检测技术，用于分析测定基因全序列。高通量测序技术是目前最常用的基因测序技术，其可以一次并行对几十万到几百万条基因份子进行序列测定。通常，通过高通量测序技术进行测序会产生海量的基因组测序数据，基因组测序数据一般包括序列数据、序列比对数据、日志数据以及注释数据，不同的数据存储在不同的文件中。其中，序列数据包含大量的基因序列，这些基因序列中通常会存在一些相似度较高的基因序列。在通过高通量测序技术对基因进行测序后，需要对测序得到的海量基因组测序数据进行归档。现有的基因组测序数据归档方法通常先采用通用的压缩方式对基因组数据进行压缩，再对压缩后的基因组数据进行归档。而通用的压缩方式是直接基于序列数据中基因序列的原始顺序对这些数据进行压缩，这样会存在压缩率低，需要占用大量存储资源的问题。
技术实现思路
有鉴于此，本专利技术实施例提供了基因组测序数据归档方法、服务器及计算机可读介质，以解决现有的基因组测序数据归档方法存在的数据压缩率低，需要占用大量存储资源的问题。本专利技术实施例的第一方面提供了一种基因组测序数据归档方法，包括：获取基因组测序文件中的序列文件；其中，所述序列文件用于存储序列数据，所述序列数据由至少两个基因序列排列而成；确定所述序列数据中每两个所述基因序列之间的相似度；基于所述相似度对所述基因序列进行重新排列，使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列；对重新排列...

【技术保护点】
1.一种基因组测序数据归档方法，其特征在于，包括：获取基因组测序文件中的序列文件；其中，所述序列文件用于存储序列数据，所述序列数据由至少两个基因序列排列而成；确定所述序列数据中每两个所述基因序列之间的相似度；基于所述相似度对所述基因序列进行重新排列，使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列；对重新排列了所述基因序列的所述序列文件进行压缩处理，得到归档序列文件；将所述归档序列文件存储至数据库。

【技术特征摘要】
1.一种基因组测序数据归档方法，其特征在于，包括：获取基因组测序文件中的序列文件；其中，所述序列文件用于存储序列数据，所述序列数据由至少两个基因序列排列而成；确定所述序列数据中每两个所述基因序列之间的相似度；基于所述相似度对所述基因序列进行重新排列，使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列；对重新排列了所述基因序列的所述序列文件进行压缩处理，得到归档序列文件；将所述归档序列文件存储至数据库。2.根据权利要求1所述的基因组测序数据归档方法，其特征在于，所述序列文件还用于存储所述序列数据的数据来源信息、数据量信息以及数据质量信息；所述确定所述序列数据中每两个所述基因序列之间的相似度之前，还包括：提取所述序列文件中的所述数据来源信息、所述数据量信息以及所述数据质量信息；所述将所述归档序列文件存储至数据库存储至数据库，包括：将所述数据来源信息、所述数据量信息以及所述数据质量信息与所述归档序列文件关联存储至数据库。3.根据权利要求1所述的基因组数据的归档方法，其特征在于，所述确定所述序列数据中每两个所述基因序列之间的相似度之前，还包括：获取所述序列数据对应的基因序列的排序信息；所述将所述归档序列文件存储至数据库，包括：将所述基因序列的排序信息与所述归档序列文件关联存储至数据库。4.根据权利要求3所述的基因组测序数据归档方法，其特征在于，所述将所述归档序列文件存储至数据库之后，包括：获取读档请求，所述读档请求包括待读取的目标归档序列文件的标识信息；基于所述目标归档序列文件的标识信息，从所述数据库中获取所述目标归档序列文件；对所述目标归档序列文件进行解压，得到解压序列文件；基于所述基因序列的排序信息对所述解压序列文件中的基因序列的排列顺序进行调整，得到目标序列文件。5.根据权利要求3所述的基因组测序数据归档方法，其特征在于，所述将所述归档序列文件存储至数据库之前，包括：对所述归档序列文件进行解压得到解压文件；基于所述基因序列的排序信息对所述解压文...

【专利技术属性】
技术研发人员：刘永初，刘阳，李阳，
申请(专利权)人：安吉康尔深圳科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人