用于从压缩的基因组序列读段重建基因组参考序列的方法和系统技术方案

技术编号:22889658 阅读:36 留言:0更新日期:2019-12-21 09:25
本公开中描述的方法和设备包括依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。描述所有基因组序列的语法元素根据其统计性质按块分割。每个语法元素块被熵编码。然后,熵编码的块串联形成压缩的比特流。凭借语法元素表示参考基因组与比对的序列之间的差异,语法元素根据其统计性质按块分割,每个语法元素块被熵编码。这些熵编码的语法元素被嵌入描述比对的读段的语法元素的编码块的比特流中。所公开的方法使得能够在解码压缩的基因组序列时重建用于比对的参考基因组,同时保留对压缩的数据的随机访问的不同选项并且使得能够高效压缩。

Methods and systems for reconstructing genomic reference sequences from compressed genomic sequences

【技术实现步骤摘要】
【国外来华专利技术】用于从压缩的基因组序列读段重建基因组参考序列的方法和系统相关申请的交叉引用本申请要求2017年7月11日提交的专利申请PCT/US2017/041579和2017年2月14日提交的专利申请PCT/US17/17842的优先权和权益。
本公开涉及比对的基因组序列读段的无损压缩,其中,使用关联的比对信息和参考基因组或其一些部分来比对所述基因组序列。基因组序列通常旨在作为称为核苷酸的分子的串联,以形成脱氧核糖核酸(DNA)或核糖核酸(RNA)的片段。本专利技术可以被应用于用于使用相同字母表对较短序列进行比对的符号的任何参考序列。本专利技术应用于已经借助无参考压缩方法压缩的比对基因组序列。在这方面的初步尝试是在Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率deBruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学,2015;16:288.)中描述的尝试,然而,本专利技术中解决了其中多个局限性。在本公开的背景下,比对的基因组序列的无参考压缩包括创建通过交叠和串联被映射在用于比对的参考基因组的相邻或交叠区域中的基因组序列而构建的被称为“重叠群”的一个或多个局部参考序列。有关重叠群的详尽描述,请参见https://en.wikipedia.org/wiki/Contig。所述重叠群不需要被包括在压缩的比特流中,因为它们在解码端被重建为解码处理的一部分。一旦为已经在其中映射了一个或多个基因组序列的基因组区域构建了重叠群,就通过根据基因组描述符描述基因组序列并且用特定熵编码器压缩每个相同类型的基因组描述符块,来向所述基因组序列施加基于参考的压缩。这种方法能够实现比诸如GZIP、LZMA、BZ的通用压缩方案更好的压缩比,并且保留随机访问。比对的基因组序列的基于参考的压缩是基于根据比对序列的映射位置以及相对于用于比对的一个或多个参考序列的差异来表示所述比对序列,并且仅对所述位置和差异进行编码。然而,这种方法允许实现非常高的压缩比(随着覆盖度大致线性增加,其中,术语覆盖度是指包含参考基因组的每个核苷酸的平均读段数量),编码和解码处理二者都需要使用用于比对和压缩的特定参考序列。该方法的缺点是,如果用于比对和压缩的参考序列在解码侧不可用(例如,由于缺乏参考基因组或其版本的唯一标识,或者倘若原始数据源不再可用),则压缩的内容无法恢复。基于包括用于存储或传输的压缩的表示中的参考基因组的解决方案将导致不利于压缩效率。为了解决这种问题,存在在不使用用于比对的参考基因组的情况下实现对比对的基因组序列读段进行压缩和解压缩的无参考压缩方法。这些方法中的一些采用诸如GZIP、BZIP2、LZMA的通用压缩器,实现大约3:1的不良压缩比。更高效的方法是基于通过称为“组装”的处理,从比对的读段本身构建出一个或多个参考序列,在“组装”中,使用被映射在用于比对的参考基因组的相邻基因组间隔上的读段,通过找到共享的子序列并且串联它们来构建更长序列。从串联或合并较短序列而获得的较长序列被称为“重叠群”。这些方法包括来自Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率deBruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学,2015;16:288.)的已引用的文献。本公开解决了用于在联合地应用基因组序列的无参考压缩时,对用于基因组序列读段比对的参考基因组进行高效压缩的问题。
技术实现思路
下面的权利要求书的特征通过提供一种用于在对基因组序列进行无参考压缩的情况下,对参考基因组进行无损压缩的方法,来解决现有解决方案的问题,所述方法包括以下步骤:·将所述读段与一个或多个参考序列进行比对,由此产生比对的读段,·组装所述比对的读段,由此产生重叠群,·比较所述参考序列和所述重叠群,由此获得与错配位置和错配类型相关的信息,·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。在所述压缩方法的另一方面,组装所述比对的读段包括以下步骤:针对所述参考序列上的每个位置,选择在所述位置处的所述比对的读段中出现频率最高的核苷酸。在所述压缩方法的另一方面,分别使用第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息。在所述压缩方法的另一方面,所述第一描述符和所述第二描述符被封装在相同的访问单元中,以便能够在所述解码设备处选择性重建用于比对的所述参考序列。在所述压缩方法的另一方面,所述重叠群的长度被定义为所述编码器的输入参数或者由所述编码器动态调整。在所述压缩方法的另一方面,使用分割单元式截断一元二值化将所述第一描述符二值化,其中,所述分割单元式截断一元是重复的截断一元二值化的串联,其中,每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分,其中,N是预先选择的参数。在所述压缩方法的另一方面,使用截断一元二值化将所述第二描述符二值化,其中,所述第二描述符的值后跟着零,并且如果所述值等于要被二值化的最大可能值,则丢弃尾随的0比特。在所述压缩方法的另一方面,所述方法不对表示特定参考基因组的使用的信息进行编码。在所述压缩方法的另一方面,所述重叠群的所述长度被包含在语法报头中。一种用于编码基因组序列数据的设备,所述基因组序列数据包括核苷酸序列的读段,所述设备包括用于以下步骤的装置:·将所述读段与一个或多个参考序列进行比对,由此产生比对的读段,·组装所述比对的读段,由此产生重叠群,·比较所述参考序列和所述重叠群,由此获得与错配位置和错配类型相关的信息,·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。在所述用于编码基因组序列数据的设备中,用于组装所述比对的读段的所述装置还包括用于针对所述参考序列上的每个位置,选择在所述位置处的所述比对的读段中出现频率最高的核苷酸的装置。所述用于编码基因组序列数据的设备还包括分别通过第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息的装置。所述用于编码基因组序列数据的设备还包括用于将所述第一描述符和所述第二描述符封装在相同的访问单元中,以便能够在所述解码设备处选择性重建用于比对的所述参考序列的装置。所述用于编码基因组序列数据的设备还包括接收所述重叠群的长度作为输入参数的装置和用于动态调整所述重叠群的长度的装置。所述用于编码基因组序列数据的设备还包括用于采用分割单元式截断一元二值化将所述第一描述符二值化的二值化装置,其中,所述分割单元式截断一元是重复的截断一元二值化的串联,其中,每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分,其中,N是预先选择的参数。所述用于编码基因组序列数据的设备还包括用于采本文档来自技高网
...

【技术保护点】
1.一种用于编码基因组序列数据的方法,其特征在于,所述基因组序列数据包括核苷酸序列的读段,所述方法包括以下步骤:/n·将所述读段与一个或多个参考序列进行比对,由此产生比对的读段,/n·组装所述比对的读段,由此产生重叠群,/n·比较所述参考序列和所述重叠群,由此获得与错配位置和错配类型相关的信息,/n·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。/n

【技术特征摘要】
【国外来华专利技术】20170214 US PCT/US2017/017842;20170711 US PCT/US201.一种用于编码基因组序列数据的方法,其特征在于,所述基因组序列数据包括核苷酸序列的读段,所述方法包括以下步骤:
·将所述读段与一个或多个参考序列进行比对,由此产生比对的读段,
·组装所述比对的读段,由此产生重叠群,
·比较所述参考序列和所述重叠群,由此获得与错配位置和错配类型相关的信息,
·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。


2.根据权利要求1所述的方法,其特征在于,组装所述比对的读段包括以下步骤:针对所述参考序列上的每个位置,选择在所述位置处的所述比对的读段中出现频率最高的核苷酸。


3.根据权利要求2所述的方法,其特征在于,分别使用第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息。


4.根据权利要求3所述的方法,其特征在于,所述第一描述符和所述第二描述符被封装在相同的访问单元中,以便能够在所述解码设备处选择性重建用于比对的所述参考序列。


5.根据权利要求4所述的方法,其特征在于,所述重叠群的长度被定义为所述编码器的输入参数或者由所述编码器动态调整。


6.根据权利要求5所述的方法,其特征在于,使用分割单元式截断一元二值化将所述第一描述符二值化,其中,所述分割单元式截断一元是重复的截断一元二值化的串联,其中,每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分,其中,N是预先选择的参数。


7.根据权利要求5所述的方法,其特征在于,使用截断一元二值化将所述第二描述符二值化,其中,所述第二描述符的值后跟着零,并且如果所述值等于要被二值化的最大可能值,则丢弃尾随的0比特。


8.根据权利要求5所述的方法,其特征在于,所述方法不对表示特定参考基因组的使用的信息进行编码。


9.根据权利要求6所述的方法,其特征在于,所述重叠群的所述长度被包含在语法报头中。


10.一种用于编码基因组序列数据的设备,其特征在于,所述基因组序列数据包括核苷酸序列的读段,所述设备包括用于以下步骤的装置:
·将所述读段与一个或多个参考序列进行比对,由此产生比对的读段,
·组装所述比对的读段,由此产生重叠群,
·比较所述参考序列和所述重叠群,由此获得与错配位置和错配类型相关的信息,
·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。


11.根据权利要求10所述的设备,其特征在于,用于组装所述比对的读段的所述装置还包括用于针对所述参考序列上的每个位置,选择在所述位置处的所述比对的读段中出现频率最高的核苷酸的装置。


12.根据权利要求11所述的设备,其特征在于,还包括分别通过第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息的装置。


13.根据权利要求12所述的设备,其特征在于,所述设备还包括用于将所述第一描述符和所述第二描述符封装在相同的访问单元中,以便能够在所述解码设备处选择性重建用于比对的所述参考序列的装置。


14.根据权利要求13所述的设备,其特征在于,所述设备还包括接收所述重叠群的长度作为输入参数的装置和用于动态调整所述重叠群的长度的装置。


15.根据权利要求14所述的设备,其特征在于,所述设备还包括用于采用分割单元式截断一元二值化将所述第一描述符二值化的二值化装置,其中,所述分割单元式截断一元是重复的截断一元二值化的串联,其中,每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分,其中,N是预先选择的参数。


16.根据权利要求14所述的设备,其特征在于,...

【专利技术属性】
技术研发人员:克劳迪奥·阿尔贝蒂穆罕默德·霍索·巴鲁克
申请(专利权)人:耶诺姆希斯股份公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1