位置相关变体识别计算流水线制造技术

技术编号:13829702 阅读:51 留言:0更新日期:2016-10-13 16:04
本公开提供了一种利用计算机辅助实现的分析多个核酸序列片段中变体的方法。该方法使用的计算流水线包括使用位置相关参数的模块。该方法包括在处理器上执行下列步骤:接收多个核酸序列片段,这些核酸序列片段至少包括一个第一核酸序列片段和一个第二核酸序列片段;分别将第一核酸序列片段和第二核酸序列片段比对到基因组中的第一位置和第二位置;基于第一位置和第二位置,分别向该位置相关参数赋予第一数值和第二数值;将第一核酸序列片段和第二核酸序列片段输送通过使用位置相关参数的模块,分别使用第一数值和使用第二数值;并且产生变体识别。

【技术实现步骤摘要】
相关申请的交叉引用本申请要求2015年3月27日提交的美国临时申请62/139,148和2015年4月3日提交的美国临时申请62/143,013的优先权。其全部内容在此参考并入。专利
本专利技术主要涉及基因测序数据的分析。
技术介绍
二代测序技术(NGS)为大量生产生物数据提供了强有力的工具,并为取得个性化医疗提供了帮助。虽然仅就取得序列数据来说,高通量基因测序的成本有所降低,但是分析与解读这些大规模测序数据依然存在巨大的挑战。为了识别NGS数据中的变体,大量序列比对器和变体识别器被研发出来并且被整合成各式各样的计算流水线。一个典型的计算流水线包含一个序列比对器和一个变体识别器:前者可以将序列片段与参考基因组进行比对,后者确定变异点并且向对象分配一个基因型。在计算过程中,用户为了正确分析序列数据,常常需要设定许多参数。更重要的是,一些数据需要基于细胞种类或者用于制备样品的族群来进行优化,从而准确识别变体。具体来说,一个参数的最佳取值可能取决于其在基因组中的位置。例如,与变体出现概率相关的参数就可能取决于其在基因组中的位置。然而由于计算流水线每次运行都需要巨大的计算量,通过运行整个变体识别计算流水线来测试每一个参数设定在实际操作中是很难实现的。因此,有持续的需求研发新的方法和系统来针对基因组位置进行分析NGS数据的参数优化。专利技术概述一方面,本专利技术提供了一种通过用电脑执行计算流水线来分析多个核酸序列片段中的变体的方法。该方法包括基于位置相关参数的模块。该方法包括用处理器执行一系列步骤:获取多个核酸序列片段,其至少包含第一核酸序列片段和一个第二核酸序列片段;将第一核酸序列片段比对到基因组的第一位置;将第二核酸序列片段比对到基因组的第二位置,其中第一位置与第二位置不相同。根据基因组第一位置为位置相关参数设定第一数值;根据基因组第二位置为位置相关参数设定第二数值,其中第一数值与第二数值不相同;将第一核酸序列片段输送通过所述模块,其中使用第一数值;将第二核酸序列片段输送通过所述模块,其中使用第二数值;并且生成变体识别。在某些实施方式中,所述模块是变体识别模块。在某些实施方式中,所述位置相关参数是变体识别的先验概率或者阈值。在某些实施方式中,所述先验概率是全基因组单核苷酸多态性概率,或者插入缺失概率。在某些实施方式中,所述模块是局域比对模块。在某些实施方式中,所述位置相关参数是碱基错配惩罚,间隙开口,间隙延伸,或者一个比对候选者的阈值。在某些实施方式中,所述第一和/或第二位置是外显子或内含子。在某些实施方式中,所述第一和/或第二位置是细胞核周边或细胞核中心。在某些实施方式中,所述基因组从一个族群或者区域群体中获得。在某些实施方式中,所述基因组从一个健康主体或者一个患有疾病的主体中获得。在某些实施方式中,所述疾病是癌症。另一方面,本专利技术提供了一种非暂时性计算机可读介质以及通过使用其存储的计算流水线来识别来自多个核酸序列片段的变体的方法。该计算流水线包括至少一个基于位置相关参数的模块。处理器执行的指令行实现一系列步骤,包括:获取多个核酸序列片段,其至少包括一个第一核酸序列片段和一个第二核酸序列片段;将第一核酸序列片段比对到基因组中的第一位置;将第二核酸序列片段比对到基因组中的第二位置,其中第一位置不同于第二位置;基于基因组中的第一位置为所述位置相关参数赋予第一数值;基于基因组中的第二位置,为所述位置相关参数赋予第二数值,其中第一数值不同于第二数值;将第
一核酸序列片段输送通过所述模块,其中使用第一数值;将第二核酸序列片段输送通过所述模块,其中使用第二数值;并且生成变体识别。另一方面,本专利技术提供了一种通过用电脑执行计算流水线来分析大量核酸序列片段中的变体的方法。该方法包括定位模块和变体识别模块,其中该变体识别模块取决于先验概率参数。所述方法包括在处理器上执行一系列步骤:获取多个核酸序列片段,其至少包含第一核酸序列片段和第二核酸序列片段的;将所述第一核酸序列片段比对到基因组中的第一位置;将所述第二核酸序列片段比对到基因组中的第二位置,其中第一位置不同于第二位置;基于基因组中的第一位置为所述先验概率参数赋予第一数值;基于基因组中的第二位置,为先验概率参数赋予第二数值,其中第一数值不同于第二数值;将第一核酸序列片段输送通过所述变体识别模块,其中使用第一数值;将第二核酸序列片段输送通过所述变体识别模块,其中使用第二数值;并且生成变体识别。另一方面,本专利技术提供了一种非暂时性计算机可读介质以及通过使用其存储的计算流水线来识别来自多个核酸序列片段的变体的方法。该计算流水线包括比对模块和变体识别模块,其中变体识别模块依赖于先验概率参数。处理器执行的指令行实现一系列步骤,包括:获取多个核酸序列片段,其至少包括第一核酸序列片段和第二核酸序列片段;将第一核酸序列片段比对到基因组中的第一位置进行比对;将第二核酸序列片段比对到基因组中的第二位置,其中第一位置不同于第二位置;基于基因组中的第一位置为先验概率参数赋予第一数值;基于基因组中的第二位置,为先验概率参数赋予第二数值,其中第一数值不同于第二数值;将第一核酸序列片段输送通过所述变体识别模块,其中使用第一数值;将第二核酸序列片段输送通过所述变体识别模块,其中使用第二数值;并且生成变体识别。该专利技术的上述特征优势可以通过以下的描述、权利要求和附图,得到更好的理解。附图简要说明图1.展示了一个示例性计算流水线。图2.展示了一个包含了一个使用位置相关参数的模块的示例性计算流水线。专利技术详述在关于以上专利技术的概述、具体描述、如下的权利要求以及附图中,引用了本专利技术中的特定特征(包括步骤)。应当理解的是本专利技术的说明书中包含了对这些特定特征的所有可能的组合。例如,当专利技术的实施例或者一个特定方面或者一个权利要求中展示了一个特定的特征,该特征也可以在可能的程度上在本专利技术的其他方面或实施例中使用。应当理解,除非根据上下文不允许,本说明书和权利要求中使用的单数形式“一个”包括复数形式。比如,一个“模块”包括一个或多个模块,以及本领域技术人员知道的等价形式。一个具有两个或者更多特定步骤的方法可以被以任意顺序或者同时执行(除非在文本中排除了这种可能性)。该方法可以包含一个或多个其他步骤,这些步骤可以在任意特定步骤前面,或者在两个特定步骤之间,或者在所有的特定步骤之后被执行(除非文本中排除了这种可能性)。在提供的值的范围内,可以理解,每个居中值,到下限的单位的十分之一,除非上下文清楚地另有规定,该范围的上限和下限和任何在该所述范围中的所述或者居中值,都被本公开内容涵盖,同时符合在所述范围内明确排除的极限。当所述范围包括一个或者两个极限,排除这两个极限或其中一个极限的范围也被包含在这个公开内容中。为了简单清楚的阐述,当合适的时候,标号在不同的附图中重复使用,以指示相应的或类似的元件。此外,大量的具体细节被提供,以便透彻理解这里所描述的实施例的阐述。然而,本文描述的实施例可以在不存在具体细节的情况下实施。在其他实例中,方法、程序和组件没有详细描述,但没有模糊所描述的相关功能。此外,描述不应被认为是限制本文所述的实施方式的范围。应该理解的是,除非另有说明,在本公开中阐述的实施例的描述和表征并非相互排斥。定义本文档来自技高网
...

【技术保护点】
一种使用计算流水线分析多个核酸序列片段中的变体的计算机辅助实现方法,其中所述计算流水线包括取决于位置相关参数的模块,其特征在于,所述方法包括在处理器上执行如下步骤:接收多个核酸序列片段,其至少包含第一核酸序列片段和第二核酸序列片段;将所述第一核酸序列片段和所述第二核酸序列片段分别比对到基因组中的第一位置与第二位置,其中所述第一位置不同于所述第二位置;基于基因组中的所述第一位置和所述第二位置,分别给所述位置相关参数赋予第一数值和第二数值;将所述第一核酸序列片段和所述第二核酸序列片段通过所述模块,分别使用所述第一数值和所述第二数值的;生成变体识别。

【技术特征摘要】
2015.03.27 US 62/139,148;2015.04.03 US 62/143,0131.一种使用计算流水线分析多个核酸序列片段中的变体的计算机辅助实现方法,其中所述计算流水线包括取决于位置相关参数的模块,其特征在于,所述方法包括在处理器上执行如下步骤:接收多个核酸序列片段,其至少包含第一核酸序列片段和第二核酸序列片段;将所述第一核酸序列片段和所述第二核酸序列片段分别比对到基因组中的第一位置与第二位置,其中所述第一位置不同于所述第二位置;基于基因组中的所述第一位置和所述第二位置,分别给所述位置相关参数赋予第一数值和第二数值;将所述第一核酸序列片段和所述第二核酸序列片段通过所述模块,分别使用所述第一数值和所述第二数值的;生成变体识别。2.如权利要求1所述的方法,其特征在于,所述模块是变体识别模块。3.如权利要求2所述的方法,其特征在于,所述位置相关参数是先验概率或变体识别阈值。4.如权利要求3所述的方法,其特征在于,所述先验概率是全基因组单核苷酸多态性概率或插入缺失多态性概率。5.如权利要求1所述的方法,其特征在于,所述模块是局域比对模块。6.如权利要求5所述的方法,其特征在于,所述位置相关参数是碱基错配惩罚、间隙开口、间隙延伸或比对候选者的阈值。7.如权利要求1所述的方法,其特征在于,所述第一位置和/或第二位置是在外显子或内含子内。8.如权利要求1所述的方法,其特征在于,所述基因组来自于一个族群或区域群体。9.如权利要求1所述的方法,其特征在于,所述基因组来自于健康对象或者患有一...

【专利技术属性】
技术研发人员:叶军周巍陈洛祁冯汉鹰陈洪刘晓峰
申请(专利权)人:知源生信公司美国硅谷
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1