基因组测序数据归档方法、服务器及计算机可读存储介质技术

技术编号:20392665 阅读:25 留言:0更新日期:2019-02-20 03:58
本发明专利技术适用于计算机技术领域,提供了基因组测序数据归档方法、服务器及计算机可读存储介质,其中方法包括:获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;确定所述序列数据中每两个所述基因序列之间的相似度;基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件。本发明专利技术中,服务器对基因组测序数据进行压缩归档时,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。

【技术实现步骤摘要】
基因组测序数据归档方法、服务器及计算机可读存储介质
本专利技术属于计算机
,尤其涉及基因组测序数据归档方法、服务器及计算机可读存储介质。
技术介绍
基因测序技术是一种新型的基因检测技术,用于分析测定基因全序列。高通量测序技术是目前最常用的基因测序技术,其可以一次并行对几十万到几百万条基因份子进行序列测定。通常,通过高通量测序技术进行测序会产生海量的基因组测序数据,基因组测序数据一般包括序列数据、序列比对数据、日志数据以及注释数据,不同的数据存储在不同的文件中。其中,序列数据包含大量的基因序列,这些基因序列中通常会存在一些相似度较高的基因序列。在通过高通量测序技术对基因进行测序后,需要对测序得到的海量基因组测序数据进行归档。现有的基因组测序数据归档方法通常先采用通用的压缩方式对基因组数据进行压缩,再对压缩后的基因组数据进行归档。而通用的压缩方式是直接基于序列数据中基因序列的原始顺序对这些数据进行压缩,这样会存在压缩率低,需要占用大量存储资源的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了基因组测序数据归档方法、服务器及计算机可读介质,以解决现有的基因组测序数据归档方法存在的数据压缩率低,需要占用大量存储资源的问题。本专利技术实施例的第一方面提供了一种基因组测序数据归档方法,包括:获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;确定所述序列数据中每两个所述基因序列之间的相似度;基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;将所述归档序列文件存储至数据库。本专利技术实施例的第二方面提供了一种服务器,包括:第一获取单元,用于获取基因组测序文件中的序列文件;确定单元,用于确定所述序列数据中每两个所述基因序列之间的相似度;排列单元,用于基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;第一压缩单元,用于对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;第一存储单元,用于将所述归档序列文件存储至数据库。本专利技术实施例的第三方面提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本专利技术实施例与现有技术相比存在的有益效果是:在本专利技术实施例中,服务器获取基因组测序文件中的序列文件,确定序列文件所存储的序列数据中每两个基因序列之间的相似度,基于每两个基因序列之间的相似度对基因序列进行重新排列,将序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列,从而使得序列数据中相似度较高的基因序列排列在一起后进行压缩处理得到归档序列文件,并存储至数据库,相较于按照序列数据中基因序列的原始顺序对序列文件进行压缩后再存储,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的基因组测序数据归档方法的实现流程图;图2是本专利技术第二实施例提供的基因组测序数据归档方法的实现流程图;图3是本专利技术第三实施例提供的基因组测序数据归档方法的实现流程图;图4是本专利技术第四实施例提供的服务器的示意图;图5是本专利技术第五实施例提供的服务器的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。请参阅图1,图1是本专利技术第一实施例提供的一种基因组数据归档方法的实现流程图。本实施例中的基因组数据归档方法的执行主体为服务器,具体可以为用于存储数据的数据服务器。如图所述的基因组数据归档方法可包括:S101,获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成。在S101中,基因组测序文件用于存储基因组测序数据,基因组测序数据为通过高通量测序技术对基因组数据进行测序之后产生的数据。其中,基因组测序数据主要包括序列数据、序列比对数据、注释数据以及日志数据。其中,序列数据由至少两个基因序列排列而成,基因序列包括大量非编码序列,非编码序列存在大量重复的序列片段,序列数据中基因序列的原始排列顺序由基因所表达的遗传信息所决定。序列数据主要包括对基因组数据进行测序后得到的关于基因组序列的核酸序列信息、对基因组数据进行测序的公司以及对基因组数据进行测序的机器标识。序列比对数据包括对基因组数据进行测序后得到的基因组序列与参考基因组进行比对之后的比对数据信息。注释数据及日志数据则分别包括对基因组中的突变数据进行解释说明的记录信息及从包括对序列数据在内的各种分析数据中提取得到的统计信息。相应的,基因组测序文件包括分别用于存储序列数据、序列比对数据、注释数据以及日志数据的序列文件、序列比对文件、注释文件及日志文件。序列文件可以为后缀名为.fasta或.fastq的文件;序列比对文件可以为后缀名为.sam或.bam的文件;注释文件后缀名为.vcf或.gvcf的文件;日志文件为后缀名.log或.stat的文件。在需要对基因测序数据进行归档时,可以先将需要进行归档的基因组测序数据上传至服务器中,并触发用于对基因组测序数据进行归档的归档请求,服务器接收到归档请求时,获取待归档的基因组测序数据,并从基因组测序数据中获取文件后缀名为.fasta或.fastq的序列文件。S102,确定所述序列数据中每两个所述基因序列之间的相似度。在S102中,在获取到序列文件后,服务器可以将序列数据中每两个基因序列的组成成分进行比对,进而确定序列数据中每两个基因序列的相似度。S103,基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所有所述基因序列紧邻排列。在S103中,服务器基于确定的所有两个基因序列之间的相似度对基因序列进行重新排列,使序列数据中相似度大于预设相似度阈值的所有基因序列紧邻排列,因此序列数据中达到预设相似度条件的基因序列会被排列在一起。服务器具体可以通过预存于服务器中的FaStore算法去实现基于相似度对基因序列进行重新排列,并将序列数据中相似度大于预设相似度阈值的所有基因序列紧邻排列的目的。S104,对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件。在S104中,在对于重新排列了基因序列的序列文件进行压缩处理时本文档来自技高网...

【技术保护点】
1.一种基因组测序数据归档方法,其特征在于,包括:获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;确定所述序列数据中每两个所述基因序列之间的相似度;基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;将所述归档序列文件存储至数据库。

【技术特征摘要】
1.一种基因组测序数据归档方法,其特征在于,包括:获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;确定所述序列数据中每两个所述基因序列之间的相似度;基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;将所述归档序列文件存储至数据库。2.根据权利要求1所述的基因组测序数据归档方法,其特征在于,所述序列文件还用于存储所述序列数据的数据来源信息、数据量信息以及数据质量信息;所述确定所述序列数据中每两个所述基因序列之间的相似度之前,还包括:提取所述序列文件中的所述数据来源信息、所述数据量信息以及所述数据质量信息;所述将所述归档序列文件存储至数据库存储至数据库,包括:将所述数据来源信息、所述数据量信息以及所述数据质量信息与所述归档序列文件关联存储至数据库。3.根据权利要求1所述的基因组数据的归档方法,其特征在于,所述确定所述序列数据中每两个所述基因序列之间的相似度之前,还包括:获取所述序列数据对应的基因序列的排序信息;所述将所述归档序列文件存储至数据库,包括:将所述基因序列的排序信息与所述归档序列文件关联存储至数据库。4.根据权利要求3所述的基因组测序数据归档方法,其特征在于,所述将所述归档序列文件存储至数据库之后,包括:获取读档请求,所述读档请求包括待读取的目标归档序列文件的标识信息;基于所述目标归档序列文件的标识信息,从所述数据库中获取所述目标归档序列文件;对所述目标归档序列文件进行解压,得到解压序列文件;基于所述基因序列的排序信息对所述解压序列文件中的基因序列的排列顺序进行调整,得到目标序列文件。5.根据权利要求3所述的基因组测序数据归档方法,其特征在于,所述将所述归档序列文件存储至数据库之前,包括:对所述归档序列文件进行解压得到解压文件;基于所述基因序列的排序信息对所述解压文...

【专利技术属性】
技术研发人员:刘永初刘阳李阳
申请(专利权)人:安吉康尔深圳科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1