全基因组重测序分析及用于全基因组重测序分析的方法技术

技术编号：23346525 阅读：52 留言：0更新日期：2020-02-15 04:57

本发明专利技术公开一种全基因组重测序分析及用于全基因组重测序分析的方法。所述用于全基因组重测序分析的方法包括：获取对待检测样本的DNA序列进行识别所得到的多条测序序列；将所述多条测序序列分成多个测序序列组；基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库。

Analysis of whole genome re sequencing and its application

全部详细技术资料下载

【技术实现步骤摘要】
全基因组重测序分析及用于全基因组重测序分析的方法
本专利技术涉及基因测序领域，具体而言，涉及一种全基因组重测序分析及用于全基因组重测序分析的方法。
技术介绍
全基因组重测序是指对具备参考基因组的物种中的不同个体进行基因组测序，并识别出样本个体基因与参考基因组的差别。随着大众对人类基因组认知水平的提高，全基因组重测序在医学、鉴定等领域发挥着越来越重要的作用。现阶段，全基因组重测序包括实验和数据分析两大步骤：1)使用二代测序仪，将输入样本的DNA序列识别为测序序列；2)通过数理统计方法，确定二代测序仪输出的测序序列与参考基因组之间的差异。对于步骤2)，目前通常采用BWA、Samtools、GATK等开源软件分别完成全基因组重测序数据分析所需的测序序列对比、排序、去重、质量值校正及变异识别等标准流程。然而，只有BWA和Samtools软件具有并行化处理能力，其它标准流程所使用的软件均为串行工具，其数据处理时间长，难以充分利用多核CPU资源。此外，由于全基因重测序的每一流程均由不同的软件实现，软件与软件之间将...

【技术保护点】
1.一种用于全基因组重测序分析的方法，其特征在于，包括：/n获取对待检测样本的DNA序列进行识别所得到的多条测序序列；/n将所述多条测序序列分成多个测序序列组；/n基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及/n根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库。/n

【技术特征摘要】
1.一种用于全基因组重测序分析的方法，其特征在于，包括：
获取对待检测样本的DNA序列进行识别所得到的多条测序序列；
将所述多条测序序列分成多个测序序列组；
基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及
根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库。

2.根据权利要求1所述的方法，其特征在于，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库包括：
基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中各条测序序列对应的染色体编号，确定每条测序序列的所属染色体；以及
基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行排序和去重，生成对应所述染色体的测序序列库。

3.根据权利要求1所述的方法，其特征在于，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库包括：
基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中的各条测序序列在所述参考基因组上的对应位置，并行地对各条测序序列进行排序，并根据各条测序序列对应的染色体编号，并行地确定每条测序序列的所属染色体；以及
基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行去重，生成对应所述染色体的测序序列库。

4.根据权利要求1-3任一项所述的方法，其特征在于，各测序序列组中测序序列的数目相等。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述测序序列组的数量与所述待检测样本的染色体数量相等。

6.根据权利要求1-3任一项所述的方法，其特征在于，依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比包括：依次地或并行地对所述测序序列组中的各条测序序列执行模糊匹配与回溯操作；所述模糊匹配与回溯操作包括：
基于映射关系确定与所述参考基因组上至少一个对应片段完全匹配的子串；以及
基于所述子串，将所述测序序列分别与所述至少一个对应片段对齐，确定出所述子串外的碱基相似度满足预设阈值的对应片段。

7.根据权利要求6所述的方法，其特征在于，所述模糊匹配与回溯操作基于现场可编程逻辑门阵列实现。

8.根据权利要求2所述的方法，其特征在于，基于每个测序序列组的并行操作还包括：
依次地或并行地将所述测序序列组中的各条测序序列缓存至其所属染色体中；
根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行排序和去重包括：
从对应所述染色体的缓存中，获取所述染色体中的各条测序序列；及
根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次进行排序，同时删除在所述参考基因组上同一对应位置的重复测序序列。

9.根据权利要求3所述的方法，其特征在于，基于每个测序序列组的并行操作还包括：<...

【专利技术属性】
技术研发人员：张凯，沈一鸣，
申请(专利权)人：南京医基云医疗数据研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人