用于从压缩的基因组序列读段重建基因组参考序列的方法和系统技术方案

技术编号：22889658 阅读：36 留言：0更新日期：2019-12-21 09:25

本公开中描述的方法和设备包括依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。描述所有基因组序列的语法元素根据其统计性质按块分割。每个语法元素块被熵编码。然后，熵编码的块串联形成压缩的比特流。凭借语法元素表示参考基因组与比对的序列之间的差异，语法元素根据其统计性质按块分割，每个语法元素块被熵编码。这些熵编码的语法元素被嵌入描述比对的读段的语法元素的编码块的比特流中。所公开的方法使得能够在解码压缩的基因组序列时重建用于比对的参考基因组，同时保留对压缩的数据的随机访问的不同选项并且使得能够高效压缩。

Methods and systems for reconstructing genomic reference sequences from compressed genomic sequences

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于从压缩的基因组序列读段重建基因组参考序列的方法和系统相关申请的交叉引用本申请要求2017年7月11日提交的专利申请PCT/US2017/041579和2017年2月14日提交的专利申请PCT/US17/17842的优先权和权益。
本公开涉及比对的基因组序列读段的无损压缩，其中，使用关联的比对信息和参考基因组或其一些部分来比对所述基因组序列。基因组序列通常旨在作为称为核苷酸的分子的串联，以形成脱氧核糖核酸(DNA)或核糖核酸(RNA)的片段。本专利技术可以被应用于用于使用相同字母表对较短序列进行比对的符号的任何参考序列。本专利技术应用于已经借助无参考压缩方法压缩的比对基因组序列。在这方面的初步尝试是在Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率deBruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学，2015；16:288.)中描述的尝试，然而，本专利技术中解决了其中多个局限性。在本公开的背景下，比对的基因组序列的无参考压缩包括创建通过交叠和串联被映射在用于比对的参考基因组的相邻或交叠区域中的基因组序列而构建的被称为“重叠群”的一个或多个局部参考序列。有关重叠群的详尽描述，请参见https://en.wikipedia.org/wiki/Contig。所述重叠群不需要被包括在压缩的比特流中，因为它们在解码端被重建为解码处理的一部分。一旦为已经在其中映...

【技术保护点】
1.一种用于编码基因组序列数据的方法，其特征在于，所述基因组序列数据包括核苷酸序列的读段，所述方法包括以下步骤：/n·将所述读段与一个或多个参考序列进行比对，由此产生比对的读段，/n·组装所述比对的读段，由此产生重叠群，/n·比较所述参考序列和所述重叠群，由此获得与错配位置和错配类型相关的信息，/n·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。/n

【技术特征摘要】
【国外来华专利技术】20170214 US PCT/US2017/017842;20170711 US PCT/US201.一种用于编码基因组序列数据的方法，其特征在于，所述基因组序列数据包括核苷酸序列的读段，所述方法包括以下步骤：
·将所述读段与一个或多个参考序列进行比对，由此产生比对的读段，
·组装所述比对的读段，由此产生重叠群，
·比较所述参考序列和所述重叠群，由此获得与错配位置和错配类型相关的信息，
·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。

2.根据权利要求1所述的方法，其特征在于，组装所述比对的读段包括以下步骤：针对所述参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸。

3.根据权利要求2所述的方法，其特征在于，分别使用第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息。

4.根据权利要求3所述的方法，其特征在于，所述第一描述符和所述第二描述符被封装在相同的访问单元中，以便能够在所述解码设备处选择性重建用于比对的所述参考序列。

5.根据权利要求4所述的方法，其特征在于，所述重叠群的长度被定义为所述编码器的输入参数或者由所述编码器动态调整。

6.根据权利要求5所述的方法，其特征在于，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

7.根据权利要求5所述的方法，其特征在于，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

8.根据权利要求5所述的方法，其特征在于，所述方法不对表示特定参考基因组的使用的信息进行编码。

9.根据权利要求6所述的方法，其特征在于，所述重叠群的所述长度被包含在语法报头中。

10.一种用于编码基因组序列数据的设备，其特征在于，所述基因组序列数据包括核苷酸序列的读段，所述设备包括用于以下步骤的装置：
·将所述读段与一个或多个参考序列进行比对，由此产生比对的读段，
·组装所述比对的读段，由此产生重叠群，
·比较所述参考序列和所述重叠群，由此获得与错配位置和错配类型相关的信息，
·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。

11.根据权利要求10所述的设备，其特征在于，用于组装所述比对的读段的所述装置还包括用于针对所述参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸的装置。

12.根据权利要求11所述的设备，其特征在于，还包括分别通过第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息的装置。

13.根据权利要求12所述的设备，其特征在于，所述设备还包括用于将所述第一描述符和所述第二描述符封装在相同的访问单元中，以便能够在所述解码设备处选择性重建用于比对的所述参考序列的装置。

14.根据权利要求13所述的设备，其特征在于，所述设备还包括接收所述重叠群的长度作为输入参数的装置和用于动态调整所述重叠群的长度的装置。

15.根据权利要求14所述的设备，其特征在于，所述设备还包括用于采用分割单元式截断一元二值化将所述第一描述符二值化的二值化装置，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

16.根据权利要求14所述的设备，其特征在于，...

【专利技术属性】
技术研发人员：克劳迪奥·阿尔贝蒂，穆罕默德·霍索·巴鲁克，
申请(专利权)人：耶诺姆希斯股份公司，
类型：发明
国别省市：瑞士;CH

全部详细技术资料下载我是这个专利的主人