System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于推算靶变体的靶变体参考组制造技术_技高网

用于推算靶变体的靶变体参考组制造技术

技术编号:43355176 阅读:23 留言:0更新日期:2024-11-19 17:41
本公开涉及用于生成包括具有靶变体指示的靶变体位置的靶变体参考组或者使用该靶变体参考组来推算该对应的靶变体的基因型检出的系统、非暂态计算机可读介质和方法。具体地,在一个或多个实施方案中,所公开的系统生成包括不同单倍型的多种定相基因组样本的初始参考组。所公开的系统还将靶变体位置添加到该初始参考组以指示靶变体的存在或不存在,从而创建包括具有靶变体指示的靶变体位置的靶变体参考组。附加地或另选地,所公开的系统可基于(i)在该靶变体参考组中表示的单倍型与(ii)对应于该靶基因组样本的核苷酸读段的比较,利用该靶变体参考组来推算指示靶基因组样本内靶变体的存在或不存在的基因型检出。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、近年来,生物技术公司和研究机构已改进用于对基因组样本进行核苷酸测序以及确定核碱基检出的硬件和软件。例如,一些现有的测序仪和测序数据分析软件(一起称为“现有的测序系统”)通过使用常规的桑格测序或边合成边测序(sbs)方法来预测序列内的各个核苷酸。当使用sbs时,现有的测序系统可监测从模板平行合成的数千个寡核苷酸,以基于掺入到寡核苷酸中的带荧光标签的核碱基的图像来预测培养的核苷酸读段的核碱基检出。在捕获此类图像之后,一些现有的测序系统确定对应于寡核苷酸的核苷酸读段的核碱基检出,并且将碱基检出数据发送到具有测序数据分析软件的计算设备。通过使用测序数据分析软件,现有的测序系统将核苷酸读段与参考基因组进行比对。基于比对的核苷酸读段与参考基因组之间的差异,现有的系统可进一步利用变体检出器来识别基因组样本的变体,诸如单核苷酸多态性(snp)、重复序列扩增变体或者插入或缺失(indel)。

2、尽管有这些进展,现有的测序系统经常针对难以检出的基因组区域确定不准确的变体检出,诸如具有可变数目串联重复序列(vntr)扩增、短串联重复序列(str)扩增、结构变体或其他类型的变体的区域。对于基因组样本的特定难以检出的基因组区域,现有的测序系统通常使用参考组和基因型推算模型基于基因组样本中检测到的变体来推算核碱基检出以及对单倍型进行定相。例如,现有的测序系统经常使用为推算基因型而定制的各种类型的隐马尔可夫模型(hmm),以诸如通过使用基因型可能性推算和定相方法(glimpse)或impute来推算特定基因组区域的核碱基检出。基于在参考组的单倍型和基因组样本的核苷酸读段之间共有的变体,基因型推算模型可以不同的准确性推算基因组样本的难以检出的基因组区域的变体。

3、根据基因或其他基因组区域,难以检出的基因组区域的变体检出可以无关紧要,也可以是关键的。因为现有的测序系统通常使用不足以捕获或标记重复序列扩增变体(例如,vntr或str)或特定致病变体的变异的参考组,不正确的变体检出可能产生严重后果。例如,识别复制因子c亚基1(rfc1)基因中的特定重复序列扩增变体的变体检出可正确或不正确地识别小脑性共济失调、神经病、前庭反射消失综合征(canvas)谱上的表型的遗传指示。例如,rfc1基因中的双等位基因内含子aaggg重复序列扩增使得此类变体检出特别具有挑战性。作为又一示例,正确或不正确地识别细胞色素p450家族2亚家族d成员6(cyp2d6)基因的变体的变体检出可导致正确地识别神经阻滞剂恶性综合征的遗传指示或完全略过该遗传指示。因此,虽然基因上的此类致病变体的变体检出可能是关键的,但通常缺乏具有足够变异以支持准确变体检出的合适的参考组。

4、尽管准确地确定重复序列扩增和致病变体的变体检出是重要的,但是由于质量差的核苷酸读段数据、差的核苷酸读段比对或不充分的参考组,现有的测序系统通常不能生成变体检出或生成不准确的变体检出。实际上,许多现有的测序系统不生成基因型检出或生成不准确的基因型检出,因为(i)对应于靶变体的靶基因组区域的核苷酸读段提供的覆盖不充分,(ii)比对模型不能将此类基因组区域的核苷酸读段准确地映射到参考基因组上,或(iii)现有的参考组包含的数据不足以支持准确推算。

5、为了说明(i)和(ii)的技术问题,一些现有的测序系统将对应于重复序列扩增的核苷酸读段与靶基因组区域进行比对,以仅在靶基因组区域的中间留下读段覆盖漏洞。因为重复序列扩增或致病变体的靶基因组区域可表现出此类读段覆盖漏洞,现有的测序系统不生成基因型检出或生成不准确的基因型检出。实际上,在没有来自对应于重复序列扩增的基因组区域的核苷酸读段的直接证据或具有此类重复序列扩增的足够的数据的参考组的情况下,现有的测序系统不能准确地对重复序列扩增(诸如rfc1和cyp21a2中的重复序列扩增)或其他重要的致病变体进行基因分型。

6、这些问题和难题,连同附加的问题和难题存在于现有的测序系统中。


技术实现思路

1、本公开描述了解决一个或多个上述问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。例如,所公开的系统可生成包括具有靶变体指示的靶变体位置的靶变体参考组,或者使用靶变体参考组来推算对应的靶变体的基因型检出。更具体地,在一个或多个实施方案中,所公开的系统生成包括不同单倍型的多种定相基因组样本的初始参考组。所公开的系统还将靶变体位置添加到该初始参考组以指示靶变体的存在或不存在,从而创建包括具有靶变体指示的靶变体位置的靶变体参考组。附加地或另选地,所公开的系统可基于(i)在该靶变体参考组中表示的单倍型与(ii)对应于该靶基因组样本的核苷酸读段的比较,利用该靶变体参考组来推算指示靶基因组样本内靶变体的存在或不存在的基因型检出。

2、本公开的一个或多个实施方案的附加的特征和优点将在随后的描述中概述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,所述计算机实现的方法包括:

2.根据权利要求1所述的计算机实现的方法,其中,所述至少一个靶变体位置包括双等位基因靶变体的靶变体指示的靶变体位置。

3.根据权利要求1所述的计算机实现的方法,其中,所述至少一个靶变体位置包括多等位基因靶变体的靶变体指示的多个靶变体位置。

4.根据权利要求1所述的计算机实现的方法,其中,对所述基因组样本的所述等位基因进行定相包括对所述基因组样本的子集的杂合等位基因进行定相。

5.根据权利要求1所述的计算机实现的方法,其中,所述标记变体包括单核苷酸多态性(SNP)。

6.根据权利要求1所述的计算机实现的方法,其中,生成所述参考组包括生成定相参考组,所述定相参考组包括根据所述基因组样本的所述母本单倍型和所述父本单倍型定相的标记变体的所述标记变体指示。

7.根据权利要求1所述的计算机实现的方法,其中,所述不同单倍型的基因组样本包括表现出遗传多样性的不同单倍型的基因组样本。

8.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括重复序列扩增。</p>

9.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括在群体内传播的缺失、插入、重复、倒位、易位或拷贝数变异(CNV)。

10.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括复制因子C亚基1(RFC1)基因、细胞色素P450家族2亚家族D成员6(CYP2D6)基因、细胞色素P450家族2亚家族B成员6(CYP2B6)基因、细胞色素P450家族21亚家族A成员2(CYP21A2)基因、运动神经元存活1(SMN1)基因、运动神经元存活2(SMN2)基因、葡萄糖脑苷脂酶β(GBA)基因、血型Rh(CE)(RHCE)基因、脂蛋白(A)(LPA)基因、脆性X智力障碍1(FMR1)基因、氨基己糖苷酶亚基α(HEXA)基因、血红蛋白亚基α1(HBA1)基因、血红蛋白亚基α2(HBA2)基因或血红蛋白亚基β(HBB)基因的变体。

11.根据权利要求1所述的计算机实现的方法,其中,所述靶变体满足阈值携带率、关于特定标记变体的阈值连锁不平衡(LD)或阈值突变率中的一者或多者。

12.一种系统,所述系统包括:

13.根据权利要求12所述的系统,其中,所述靶变体指示指示在所述基因组样本的所述定相等位基因的所述至少一个靶变体位置中所述靶变体的存在或不存在。

14.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:

15.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过生成所述靶基因组样本是否包括所述靶变体的预测来推算所述靶变体的所述基因型检出。

16.根据权利要求15所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过预测所述靶基因组样本是否在存在于母本单倍型或父本单倍型上的等位基因处包括致病变体来生成所述预测。

17.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过如下方式来推算所述基因型检出:

18.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过推算重复序列扩增的所述基因型检出来推算所述靶变体的所述基因型检出。

19.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统利用基因型推算模型来推算所述基因型检出。

20.一种存储指令的非暂态计算机可读介质,所述指令当由至少一个处理器执行时使得计算设备:

21.根据权利要求20所述的非暂态计算机可读介质,其中,所述靶变体指示指示在基因组样本的所述定相等位基因的所述至少一个靶变体位置中所述靶变体的存在或不存在。

22.根据权利要求20所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:

23.根据权利要求20所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过生成所述靶基因组样本是否包括所述靶变体的预测来推算所述靶变体的所述基因型检出。

24.根据权利要求20所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过推算复制因子C亚基1(RFC1)基...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,所述计算机实现的方法包括:

2.根据权利要求1所述的计算机实现的方法,其中,所述至少一个靶变体位置包括双等位基因靶变体的靶变体指示的靶变体位置。

3.根据权利要求1所述的计算机实现的方法,其中,所述至少一个靶变体位置包括多等位基因靶变体的靶变体指示的多个靶变体位置。

4.根据权利要求1所述的计算机实现的方法,其中,对所述基因组样本的所述等位基因进行定相包括对所述基因组样本的子集的杂合等位基因进行定相。

5.根据权利要求1所述的计算机实现的方法,其中,所述标记变体包括单核苷酸多态性(snp)。

6.根据权利要求1所述的计算机实现的方法,其中,生成所述参考组包括生成定相参考组,所述定相参考组包括根据所述基因组样本的所述母本单倍型和所述父本单倍型定相的标记变体的所述标记变体指示。

7.根据权利要求1所述的计算机实现的方法,其中,所述不同单倍型的基因组样本包括表现出遗传多样性的不同单倍型的基因组样本。

8.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括重复序列扩增。

9.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括在群体内传播的缺失、插入、重复、倒位、易位或拷贝数变异(cnv)。

10.根据权利要求1所述的计算机实现的方法,其中,所述靶变体包括复制因子c亚基1(rfc1)基因、细胞色素p450家族2亚家族d成员6(cyp2d6)基因、细胞色素p450家族2亚家族b成员6(cyp2b6)基因、细胞色素p450家族21亚家族a成员2(cyp21a2)基因、运动神经元存活1(smn1)基因、运动神经元存活2(smn2)基因、葡萄糖脑苷脂酶β(gba)基因、血型rh(ce)(rhce)基因、脂蛋白(a)(lpa)基因、脆性x智力障碍1(fmr1)基因、氨基己糖苷酶亚基α(hexa)基因、血红蛋白亚基α1(hba1)基因、血红蛋白亚基α2(hba2)基因或血红蛋白亚基β(hbb)基因的变体。

11.根据权利要求1所述的计算机实现的方法,其中,所述靶变体满足阈值携带率、关于特定标记变体的阈值连锁不平衡(ld)或阈值突变率中的一者或多者。

12.一种系统,所述系统包括:

13.根据权利要求12所述的系统,其中,所述靶变体指示指示在所述基因组样本的所述定相等位基因的所述至少一个靶变体位置中所述靶变体的存在或不存在。

14.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:

15.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过生成所述靶基因组样本是...

【专利技术属性】
技术研发人员:D·安德鲁斯M·A·贝克里斯基M·A·埃贝勒J·G·马约尔
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1