序列变异识别的验证方法和系统技术方案

技术编号：21959074 阅读：58 留言：0更新日期：2019-08-24 22:22

提供了用于验证变异识别的方法和系统。接收沿目标基因组序列的样本读长的序列数据。接收沿所述目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示。所述方法和系统获得在一个或多个基线基因组序列内的指定位置的基线变异频率，确定所述目标基因组序列在所述指定位置的样本变异频率，分析在所述指定位置的基线和样本变异频率以获得质量得分，以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。

Validation Method and System for Sequence Variation Recognition

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】序列变异识别的验证方法和系统相关申请本申请涉及并要求2017年1月17日提交的标题为“序列变异识别的验证方法和系统”的美国临时专利申请第62/447,076号，以及2016年11月16日提交的标题为“提高变异识别准确性的方法和系统”的美国临时专利申请第62/422,841号优先权，其全部内容中的完整主题通过引用并入本文。
本文主题一般涉及用于分析测序操作的系统和方法，以及更特别地涉及验证与测序操作相关的变异识别。
技术介绍
现今癌症治疗技术正在从包治百病的方法转变。综合诊断方法对检测DNA变异的方法提出了挑战。DNA检测方法的非限制实施例包括Sanger测序、免疫组化(IHC)、荧光原位杂交(FISH)以及定量PCR(qPCR)。一些检测方法每次分析一个或几个基因变化的DNA。然而，随着已知的推动癌症进展的DNA改变的数量继续增长，提出了一种在一次测序操作中分析越来越多的基因变化的DNA的新方法。下一代测序技术(NGS)提供了使用一个样本评估多个基因中变异的能力。为此，已经提出了一种提供基于NGS检验(测定)的杂交捕获的系统，其靶向多个癌症基因(例如，超过100个癌症基因)，用于在NextSeqTM和HiSeqTM平台测序。NGS检验包括用于识别单核苷酸变异(SNVs)、小插入和缺失(indels)、多核苷酸变异(MNVs)、基因扩增(CNVs)的DNA工作流程。NGS检验还包括用于识别剪接变异和基因融合的RNA工作流程。当确定样本核酸序列沿序列上的一个或多个碱基对位置与参考序列不同时，识别变异。在对单个样本测序的时，可以在同一时间评估来自不同基因的DNA...

【技术保护点】
1.一种用于验证变异识别的计算机实现的方法，所述方法包括：在执行程序指令的一个或多个处理器的控制下，接收测序数据，所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长；接收沿目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示；获得在一个或多个基线基因组序列内的所述指定位置的基线变异频率；获得在所述目标基因组序列的所述指定位置的样本变异频率；分析在所述指定位置的所述基线和所述样本变异频率，以获得质量得分；以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。

【技术特征摘要】
【国外来华专利技术】2016.11.16 US 62/422,841;2017.01.17 US 62/447,0761.一种用于验证变异识别的计算机实现的方法，所述方法包括：在执行程序指令的一个或多个处理器的控制下，接收测序数据，所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长；接收沿目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示；获得在一个或多个基线基因组序列内的所述指定位置的基线变异频率；获得在所述目标基因组序列的所述指定位置的样本变异频率；分析在所述指定位置的所述基线和所述样本变异频率，以获得质量得分；以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。2.如权利要求1所述的方法，其中所述分析操作包括获得所述样本变异频率与所述基线变异频率的分布之间的关系，所述质量得分基于所述关系。3.如权利要求1所述的方法，其中所述分析操作包括相对于所述基线变异频率的分布索引所述样本变异频率。4.如权利要求3所述的方法，其中关系基于非参数Wilcoxon秩和检验。5.如权利要求1所述的方法，其中所述基线变异频率指示沿所述基线基因组序列的相应位置的背景噪声程度。6.如权利要求1所述的方法，其中所述验证还包括将所述质量得分与阈值进行比较；并且当所述质量得分超过所述阈值时，声明所述潜在变异识别为有效变异识别。7.如权利要求1所述的方法，其中所述基线变异频率来源于与一种以上类型的等位基因相关的多个所述基线基因组序列。8.如权利要求1所述的方法，还包括接收测序数据，所述测序数据包括沿所述基线基因组序列的核苷酸序列的多个参考读长，以及确定在所述指定位置的所述参考读长的所述基线变异频率。9.如权利要求8所述的方法，其中确定所述基线变异频率还包括：a.从当前碱基对窗口内的一组位置的所述参考读长中接收所述测序数据；b.识别当前所述碱基对窗口内的所述一组位置中的一个或多个位置的候选变异频率；c.选择所述候选变异频率中的一个作为所述参考读长内所述指定位置的所述基线变异频率；以及d.沿所述基线基因组序列移动所述碱基对窗口并重复在a、b和c的操作。10.一种用于验证变异识别的计算机实现的方法，所述方法包括：在一个或多个处理器的控制下，执行程序指令以接收目标基因组序列的潜在变异识别的指示；接收测序数据，所述测序数据包括沿所述目标基因组序列的样本和核苷酸原始片段的读长，所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长；相对于基线基因组序列的所述指定位置的基线变异频率，分析所述目标基因组序列的所述指定位置的样本变异频率，以获得质量得分；以及确定以下至少一项：A)所述原始片段是否确认潜在变异识别；B)所述样本读长是否为所述样本片段提供预定量的覆盖范围；以及C)所述潜在变异识别是否与预定义群体中显示的先前变异识别匹配；以及根据所述质量得分和所述确定操作验证所述潜在变异识别。11.如权利要求10所述的方法，其中所述确定包括操作A)，并且操作A)包括：识别指示支持变异识别的所述原始片段；获得指示所述支持变异识别的所述原始片段的加权片段得分；以及将所述加权片段得分与所述原始片段阈值进行比较，以确定是否确认所述潜在变异识别。12.如权利要求10所述的方法，其中所述确定包括操作A)，并且其中所述原始片段对应于双链体拼接片段、单链体拼接片段、双链体未拼接片段或单链体未拼接片段中的至少一个。13.如权利要...

【专利技术属性】
技术研发人员：陈晓，赵晨，杰西卡·戈登，张诗乐，姜婷婷，格温·贝里，叶莎·沙阿，庄韩宇，
申请(专利权)人：伊路米纳有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人