下一代测序数据的存储、传输和压缩制造技术

技术编号:17573227 阅读:34 留言:0更新日期:2018-03-28 20:44
一种计算机设备,该计算机设备包括:前端接口,该前端接口与客户端计算机通信;后端接口,该后端接口与存储器通信;压缩器,该压缩器借助于所述前端接口从在客户端计算机上运行的应用接收原生下一代测序(NGS)数据,所述应用被编程以对原生NGS数据进行处理,将所述原生NGS数据的压缩形式添加至编码数据文件或数据对象的一部分中,并且借助于所述后端接口将所述编码数据文件或数据对象的所述一部分存储在所述存储器中;和解压器,该解压器借助于所述后端接口从所述存储器接收编码数据文件或数据对象的一部分,将所述编码数据文件或数据对象的所述一部分解压以由此生成原生NGS数据,并且借助于所述前端接口将所述原生NGS数据发送至所述客户端,以供在所述客户端上运行的所述应用使用。

【技术实现步骤摘要】
【国外来华专利技术】下一代测序数据的存储、传输和压缩对临时申请的优先权引用本申请要求由ShaiLubliner、ArieKeshet和EranSegal于2015年5月21日提交的、名称为“COMPRESSIONOFGENOMICSFILES(基因组文件的压缩)”的美国临时申请No.62/164,611的优先权,由此将该申请的内容全部结合在本文中。本申请还要求由专利技术人DannySade和ArieKeshet于2015年5月21日提交的、名称为“STORAGEOFCOMPRESSEDGENOMICSFILES(压缩基因组文件的存储)”的美国临时申请No.62/164,651的优先权,由此将该申请的内容全部结合在本文中。
本专利技术涉及下一代测序数据的高效存储和传输。
技术介绍
在过去的十年里,技术的巨大进步和下一代测序(NGS)的采用使得测序成本迅速下降到在2015年人类全基因组高覆盖度测序的价格为$1,000的程度。与此同时,规模也快速发展,在2014年就已经测序了228,000个个体的基因组。近年来,全球NGS容量每7个月就翻一翻,并且预计在短期到中期的将来将继续每12个月翻一翻。NGS到2025年正以预计每年增加至2-40艾字节(exabyte)的速率生成原始数据,这使所有其它科学和
都黯然失色。然而,这些原始数据在意味着通过下游处理而进行还原的同时还广泛地共享并几乎总是进行存档。因此,这些原始数据的存储、传输和管理给NGS的继续发展带来了技术和经济上的挑战。数据压缩已经被证明在许多
中都是极有价值的工具,并且它将在NGS中起到关键作用。原生NGS数据格式大多数NGS数据都根据少数几个事实标准之一存储在文件中。参照图1,图1是示例性FASTQ机器输出读段(read)、示例性比对(alignment)以及代表该示例性比对的示例性SAM文件的现有技术图示。FASTQ是用于存储NGS机器的输出数据的事实标准文件格式。FASTQ文件是基于文本的,并且每个机器输出读长都由四个文本行代表,如图1所示。第一行以字符“@”开始,随后是读段标识符和可选的描述。第二行包含读段的碱基—A、C、G、T或N(未确定)。第三行以字符“+”开始,该字符“+”随后是可选的与第一行中的读段标识符相同的读段标识符。第四行对第二行中的碱基的质量评分(qualityscore)进行编码并且必须具有相同长度。质量评分代表在对应碱基中被编码成可打印字符的根据弗瑞德标准(Phredscale)的对应碱基的估计出错概率。SAM(序列比对/映射)和BAM(二进制比对/映射)是用于存储短读段比对程序如BWA和Bowtie的输出的事实文件格式。SAM指定一文本格式,该文本格式由可选的标题区段和随后的一个或多个比对区段构成,比对区段均报告一个读段的比对,如图1中所示。每个标题区段的行或记录以字符“@”开始,随后是双字母记录型编码。一个例外是用于注解,每个记录由TAB界定的一系列数据段构成。每个这种数据段都遵循格式“TAG:VALUE(值)”,其中TAG是限定“VALUE(值)”的格式和内容的两字符的串。各种标题记录类型提供关于如下的信息:·文件的格式版本和比对区段的分类顺序;·用于该比对的参考基因组的名称、长度和指针;·产生文件中的读段组的测序运行(以组织、平台、日期识别);以及·产生SAM文件的程序。允许用户限定附加类型的标题记录和数据段。每个比对区段由代表一个读段的比对结果的一行文本构成,如图1中所示。读段r001/1和r001/2是一个读段对,r003是嵌合读段,而r004代表剪接比对(splitalignment)。将小写字母的碱基从比对中剪除。将两个SAM文件行剪接起来,其目的是容易阅读。比对区段包含提供关于如下的信息的11个强制字段。·读段的名称(它可能出现多次,每个候选映射出现一次);·报告同伴配对读段的比对的标志;·映射该读段所相对的参考基因组的名称;·该读段在参考基因组中的估计位置;·映射决策的质量(或概率或错误);·报告读段和参考基因组之间的失准(插入或删除)的“CIGAR”串;·参考基因组,相对于该参考基因组映射同伴配对读段;·同伴配对读段在上述参考基因组中的位置;·产生该配对读段的DNA片段的长度;·读段碱基序列(当出现在FASTQ文件中时);以及·FASTQ文件中的读段碱基的质量评分。(为了容易阅读,从图1的示例中省略了质量评分)。还限定了几个可选的比对区段字段。BAM是SAM的压缩版本。BAM是通过将SAM文件分成高达64字节的块,然后将每个块压缩成gzip文档,并且将这些文档连结而创建单个输出文件而创建的。为了支持对BAM文件的随机读取操作,还可以创建同伴BAM索引(BAI)文件。为此,SAM文件中的比对区段必须在基因组中以位置排序,并且BAI文件包含将基因组内的位置或范围有效地映射到相关gzip块或多个gzip块的BAM文件中的偏移的数据结构。压缩算法许多算法都形成了无损NGS数据压缩方案的基础。用于NGS数据压缩的一个算法是字替代。数据格式内的字段(也被称为符号)有时可能比对其字母表进行编码严格需要的位数—它能够采取的一组值—长。在这种情况下,可以从字母表的每个字母到将被结合到压缩格式内的较短对应字段的值限定一对一映射。例如,FASTQ使用字节来对四个DNA碱基或未定义读出数(N)中的任一个进行编码。该组五个字母可以由正好3位来编码。因为3位实际上能够代表8个不同字母,因此可以通过使用7位对三个一组的碱基进行编码以提高压缩比,从而将效率从5/8提高到53/73(125/128或98%)。用于NGS数据压缩的另一种算法是概率-权重编码。在符号的字母表的字母以不均等但是已知的概率出现的情况下,压缩率的提高能够超过通过字替代可实现的水平。霍夫曼编码(Huffmancoding)将符号映射到可变长度编码字,从而较短的编码字代表较高概率的字母,反之亦然。参照图2,图2是示例性霍夫曼编码二叉树的现有技术图示。在图2所示的示例中,符号A、B和C出现的概率分别为0.5、0.25、0.25。当这些被分别编码为0、10和11时,霍夫曼编码是最佳的。为了允许清楚地解压,没有编码字可以是另一个编码字的前缀:因此,如果在上述示例中0代表A,对于具有更长编码字的更大字典则所有其它编码字必须以1开始等等。霍夫曼编码的设计如下:建立二叉树,以一组未连接的叶节点开始,每个叶节点代表符号字母表的字母。在该过程的第一步骤中,形成新的分支节点,以用作具有最低组合概率的两个叶节点的夫节点。新创建的节点被分配其两个子节点的概率的和。针对子树根部处的仍然没有连接的一组节点重复该过程,直到它们全部都被全局根节点连接。现在在根节点处开始,通过给通向父节点的分支的前缀增加0或1而将编码字前缀分配给树的分支。对于图2中所示的单分支节点,传入分支标记为1,传出分支标记为10和11。最后,每个字母通过被分配给通向该字母的分支的编码字进行编码。现代测序机通常给大多数解码碱基分配高质量评分:对于Illumina软件,版本1.8及以后版本,分值“A”至“J”(按弗瑞德标准(Phredscale)为32至41)在大多数数据组中比“!”至“@”更普遍。质量评分的霍夫曼编码将压缩比本文档来自技高网...
下一代测序数据的存储、传输和压缩

【技术保护点】
一种用于下一代测序数据即NGS数据的存储、传输和压缩的计算机设备,该计算机设备包括:前端接口,该前端接口通过第一存储访问协议与客户端计算机通信;后端接口,该后端接口通过第二存储访问协议与存储系统通信;压缩器,该压缩器借助于所述前端接口从在所述客户端计算机上运行的应用接收原生NGS数据,所述应用被编程以对原生NGS数据进行处理,将所述原生NGS数据的压缩形式添加至编码数据文件或数据对象的一部分中,并且借助于所述后端接口将所述编码数据文件或数据对象的所述一部分存储在所述存储系统中;和解压器,该解压器借助于所述后端接口从所述存储系统接收编码数据文件或数据对象的一部分,将所述编码数据文件或数据对象的所述一部分解压以由此生成原生NGS数据,并且借助于所述前端接口将所述原生NGS数据发送至所述客户端,以供在所述客户端上运行的所述应用使用。

【技术特征摘要】
【国外来华专利技术】2015.05.21 US 62/164,651;2015.05.21 US 62/164,6111.一种用于下一代测序数据即NGS数据的存储、传输和压缩的计算机设备,该计算机设备包括:前端接口,该前端接口通过第一存储访问协议与客户端计算机通信;后端接口,该后端接口通过第二存储访问协议与存储系统通信;压缩器,该压缩器借助于所述前端接口从在所述客户端计算机上运行的应用接收原生NGS数据,所述应用被编程以对原生NGS数据进行处理,将所述原生NGS数据的压缩形式添加至编码数据文件或数据对象的一部分中,并且借助于所述后端接口将所述编码数据文件或数据对象的所述一部分存储在所述存储系统中;和解压器,该解压器借助于所述后端接口从所述存储系统接收编码数据文件或数据对象的一部分,将所述编码数据文件或数据对象的所述一部分解压以由此生成原生NGS数据,并且借助于所述前端接口将所述原生NGS数据发送至所述客户端,以供在所述客户端上运行的所述应用使用。2.根据权利要求1所述的设备,该设备进一步包括缓存管理器,该缓存管理器用于管理解码NGS数据文件或数据对象的一部分的缓存,其中当在所述缓存中驻留有必备的原生NGS数据时,所述解压器将缓存的原生NGS数据发送至所述客户端而不是生成所述原生NGS数据。3.根据权利要求1所述的设备,其中,所述缓存驻留在所述存储系统上。4.根据权利要求1所述的设备,其中,所述缓存不驻留在所述存储系统上。5.根据权利要求1所述的设备,其中,所述存储系统为网络文件服务器。6.根据权利要求1所述的设备,其中,所述存储系统为基于云的服务器。7.根据权利要求1所述的设备,其中,所述第一存储访问协议为文件访问协议。8.根据权利要求1所述的设备,其中,所述第一存储访问协议为对象存储协议。9.根据权利要求1所述的设备,其中,所述存储系统为基于文件的存储系统,并且所述第二存储访问协议为文件访问协议。10.根据权利要求1所述的设备,其中,所述存储系统为基于对象的...

【专利技术属性】
技术研发人员:达恩·萨德沙伊·卢布林尔阿里·凯舍特埃兰·西格尔伊塔·西拉
申请(专利权)人:基因福米卡数据系统有限公司
类型:发明
国别省市:以色列,IL

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1