【技术实现步骤摘要】
【国外来华专利技术】用于压缩基因组数据的方法
本专利技术涉及一种用于压缩基因组数据的方法,其中基因组数据被存储在至少一个数据文件中,该至少一个数据文件包含由基因组测序方法构建的至少多个映射的和/或比对的读段,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分。
技术介绍
由于新型高能量测序(HTS)和/或新一代测序(NGS)技术,对大量遗传信息的测序已经变得可以承受。由于这种大量的数据,与测序成本相比,IT成本可能成为一个主要障碍。需要基因组数据的高性能压缩以降低存储大小和传输成本。在这样的数据文件中,除了其他数据外,还存储核苷酸序列、映射位置、比对信息(CIGAR字符串)和质量得分。例如在Li等人的“TheSequenceAlignment/MapformatandSAMtools”,生物信息学,25(16),2078-9,(2009)中描述了这种结构。作为预处理步骤,可以根据基因组测序方法产生的原始核苷酸序列和质量评分来计算映射位置和比对信息。旨在用于存储这种映射和/或比对读段的一种文件格式是序列比对/映射格式(SAM)。映射的和/或比对的测 ...
【技术保护点】
一种用于压缩基因组数据的方法,其中,所述基因组数据存储在至少一个数据文件中,所述至少一个数据文件包含通过基因组测序方法构建的至少多个读段,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分,所述方法包括如下步骤:‑通过使用所述当前读段的映射位置和CIGAR字符串来展开所述数据文件之一的当前读段的核苷酸序列,其中所述当前读段具有至少一个先前读段,‑计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值,其中所述差值包含映射位置的差值和核苷酸序列的差值,‑将所述计算出的差值传递给熵编码器以压缩所述差值,‑通过所 ...
【技术特征摘要】
【国外来华专利技术】2015.06.16 US 62/180,1461.一种用于压缩基因组数据的方法,其中,所述基因组数据存储在至少一个数据文件中,所述至少一个数据文件包含通过基因组测序方法构建的至少多个读段,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分,所述方法包括如下步骤:-通过使用所述当前读段的映射位置和CIGAR字符串来展开所述数据文件之一的当前读段的核苷酸序列,其中所述当前读段具有至少一个先前读段,-计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值,其中所述差值包含映射位置的差值和核苷酸序列的差值,-将所述计算出的差值传递给熵编码器以压缩所述差值,-通过所压缩的差值对所述当前读段编码,以及-将所述当前读段作为所述先前读段之一并且将下一个读段作为新的当前读段重复上述步骤,直到不再有下一个读段可用为止。2.根据权利要求1所述的方法,其中,所述计算出的差值被传递给所述熵编码器以用于对所述差值的无损压缩。3.根据权利要求1或2所述的方法,其中,所述当前读段具有多个连续的先前读段,所述方法包括如下步骤:-计算所述当前读段的展开的核苷酸序列与至少两个所述先前读段的展开的核苷酸序列之间的差值,-从所述计算出的差值中选择指示所述当前读段的展开的核苷酸序列和所述对应的先前读段的展开的核苷酸序列之间的最小差值的差值,以及-将所述选择的差值传递给所述熵编码器以压缩所述选择的差值。4.根据权利要求3所述的方法,其中,如果存在固定数目的连续的先前读段,则所述连续的先前读段的数目是大于1的固定数目,其中所述当前读段作为最新的读段被添加到所述固定数目的先前读段且最旧的读段从所述固定数目的先前读段中删除。5.根据权利要求3所述的方法,其中,连续的先前读段的数目是可变的。6.根据权利要求3至5中任一项所述的方法,其中,针对每个计算出的差值计算作为任意度量的距离,特别是作为任意度量的距离的熵,其中在选择差值的步骤中选择具有最小距离的差值。7.根据上述权利要求中的任一项所述的方法,其中,通过构建所述连续的先前读段的展开的核苷酸序列中的每个展开的核苷酸的共有序列,基于连续的先前读段的展开的核苷酸序列计算共有展开的核苷酸序列,其中所述共有读段用作先前读段以用于计算所述差值。8.根据权利要求1至8中任一项所述的方法,其中,对于没有先前读段的当前读段,计算所述当前读段的展开的核苷酸序列与已映射的测序数据的任意读段的展...
【专利技术属性】
技术研发人员:M·曼德龙,J·福格斯,J·奥斯特曼,
申请(专利权)人:汉诺威戈特弗里德威廉莱布尼茨大学,
类型:发明
国别省市:德国,DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。