【技术实现步骤摘要】
【国外来华专利技术】相关专利申请本申请要求于2013年10月15日提交的临时专利申请No.61/891,193的优先权,该临时专利申请以引用的方式全文并入。
技术介绍
虽然大多数的人基因组由基本上整个人类种群所共有的保守序列构成,但是基因组的小的但是重要的一部分是高度可变的。这些序列差异并未均匀散布在整个基因组中。而是,某些基因组区域(“基因座”)比其他区域含有更多的序列变异(“多态性”)。特定基因座处的具体核苷酸序列(即该基因座处存在的等位基因)的种类可具有重要的生物学意义。例如,个体在特定基因座所携带的等位基因可影响个体是否对疾病具有易感性或者是否治疗剂有可能有效。此外,有关高度多态性基因座处的等位基因的种类的知识可用于追踪生物样品的种族起源和/或地理起源,这对人类学家来说可能是非常有价值的并且这在法医学上可用于将个体与生物样品联系起来。考虑到下一代测序技术的可用性不断增加,将下一代测序数据用于等位基因鉴定的前景颇具吸引力。遗憾的是,利用测序数据来精确且有效地鉴定高度多态性基因座处存在的等位基因是有挑战性的,尤其是在测序数据是使用高通量的基因组范围的测序方法来生成时。对高度精确的等位基因预测方法存在需求的一套高度多态性基因座是那些编码人白细胞抗原(HLA)蛋白的基因座。HLA蛋白将抗原肽递呈给淋巴细胞以便介导关键的免疫学事件,包括自体抗原耐受和对病原体或肿瘤的免疫应答。I类HLA由所有有核细胞遍在表达,将胞质抗原递呈给细胞毒性T细胞。II类HLA主要由免疫细胞表达,将胞外抗原递呈给辅助T细胞。人类具有六种主要的HLA蛋白,即三种I类蛋白(HLA-A、HLA-B和HLA-C)和三 ...
【技术保护点】
一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。
【技术特征摘要】
【国外来华专利技术】2013.10.15 US 61/891,1931.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。2.根据权利要求1所述的方法,其中所述基因组序列为人基因组序列并且所述多个等位基因序列为人序列。3.根据权利要求2所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。4.根据权利要求2所述的方法,其中所述人基因组序列为GRCh37/hg19。5.根据权利要求1所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;ii)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。6.根据权利要求5所述的方法,其中所述鉴定的等位基因选自一组蛋白质群组。7.根据权利要求5所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。8.根据权利要求5所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。9.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。10.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。11.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。12.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;ii)对于每对候选等位基因,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。13.根据权利要求1所述的方法,其中所述序列数据为基因组范围的测序数据。14.根据权利要求13所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。15.根据权利要求14所述的方法,其中所述序列数据的覆盖度为至少30倍。16.根据权利要求14所述的方法,其中所述序列数据的覆盖度范围为30倍到100倍,并且其中所述测序读段来自DNA。17.根据权利要求14所述的方法,其中所述序列数据的覆盖度范围为100倍到500倍,并且其中所述测序读段来自RNA。18.根据权利要求14所述的方法,其中所述序列数据的覆盖度为1000倍,并且所述测序读段来自靶向序列。19.根据权利要求1所述的方法,其中所述测序读段的平均长度少于250个核苷酸。20.根据权利要求1所述的方法,其中所述测序读段为双端测序读段。21.根据权利要求1所述的方法,其中所述测序读段为单端测序读段。22.根据权利要求1所述的方法,其中所述测序读段的平均长度少于50个核苷酸。23.根据权利要求1所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。24.根据权利要求1所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。25.根据权利要求1所述的方法,其中所述基因座是高度多态性基因座。26.根据权利要求1所述的方法,其中基因座是HLA基因座。27.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)通过所述计算机系统,将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,通过所述计算机系统确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,通过所述计算机系统确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,通过所述计算机系统,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)通过所述计算机系统,将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。28.根据权利要求27所述的方法,其中所述鉴定的等位基因选自一组肽群组。29.根据权利要求27所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。30.根据权利要求27所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才在步骤e)中鉴定所述第三组候选等位基因。31.根据权利要求27所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。32.根据权利要求27所述的方法,其中所述人基因组序列为GRCh37/hg19。33.根据权利要求27所述的方法,其中所述序列数据为基因组范围的测序数据。34.根据权利要求33所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。35.根据权利要求33所述的方法,其中所述序列数据的覆盖度少于60倍。36.根据权利要求27所述的方法,其中所述测序读段的平均长度少于100个核苷酸。37.根据权利要求27所述的方法,其中所述测序读段的平均长度少于50个核苷酸。38.根据权利要求27所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。39.根据权利要求27所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。40.根据权利要求27至39中任一项所述的方法,其中所述基因座是高度多态性基因座。41.根据权利要求27至39中任一项所述的方法,其中所述基因座为HLA基因座。42.一种计算机系统,包括:至少一个处理器;与所述至少一个处理器相关联的存储器;显示器;和所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。43.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。44.一种计算机系统,包括:至少一个处理器;与所述至少一个处理器相关联的存储器;显示器;和所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。45.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。46.一种确定受试者在线粒体DNA的高变区(HV)基因座处的基因型的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述HV基因座的多个HV等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述HV基因座的测序读段的一个或多个候选等位基因鉴定为所述HV基因座的基因型。47.根据权利要求46所述的方法,其中所述基因组序列为人基因组序列并且所述多个HV等位基因序列为人序列。48.根据权利要求47所述的方法,其中所述基因组序列中的HV基因座的序列已被移除或屏蔽。49.根据权利要求47所述的方法,其中所述人基因组序列为GRCh37/hg19。50.根据权利要求46所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HV基因座的多个HV等位基因序列;ii)将最大数目的测序读段映射至其上的HV等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HV等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述HV基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因鉴定为第三组候选等位基因。51.根据权利要求50所述的方法,其中所述鉴定的HV等位基因选自一组HV肽群组。52.根据权利要求50所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HV基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HV等位基因鉴定为所述第二组候选等位基因的子集。53.根据权利要求50所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因的测序读段的数目占映射至所述HV基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。54.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因为这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。55.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因为这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。56.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因通过如下方式来确定:i)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的独立候选等位基因或候选等位基因组合为所述最有可能说明所述测序读段的一个或多个候选等位基因。57.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每个独立的候选等位基因和每个候选等位基因组合,确定频率对数似然分值,所述频率对数似然分值为所述每个独立的候选等位基因和每个候选等位基因组合存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的独立候选等位基因或候选等位基因组合为所述最有可能说明所述测序读段的一个或多个候选等位基因。58.根据权利要求46所述的方法,其中所述序列数据为基因组范围的测序数据。59.根据权利要求58所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。60.根据权利要求59所述的方法,其中所述序列数据的覆盖度少于60倍。61.根据权利要求46所述的方法,其中所述测序读段的平均长度少于100个核苷酸。62.根据权利要求46所述的方法,其中所述测序读段的平均长度少于50个核苷酸。63.根据权利要求46所述的方法,其中所述测序读段的平均长度少于40个核苷酸。64.根据权利要求46所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。65.根据权利要求46所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。66.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:a)在计算机系统上接收所述受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述HLA基因座的测序读段的候选等位基因对鉴定为构成所述受试者在所述HLA基因座处的HLA类型的等位基因。67.根据权利要求66所述的方法,其中所述基因组序列为人基因组序列并且所述多个HLA等位基因序列为人序列。68.根据权利要求67所述的方法,其中所述基因组序列中的HLA基因座的序列已被移除或屏蔽。69.根据权利要求67所述的方法,其中所述人基因组序列为GRCh37/hg19。70.根据权利要求66所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;ii)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因。71.根据权利要求70所述的方法,其中所述鉴定的HLA等位基因选自一组HLA肽群组。72.根据权利要求70所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。73.根据权利要求70所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。74.根据权利要求66所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段以低严格性映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;ii)将来自每个四位数蛋白质家族的所有等位基因鉴定为准候选等位基因,所述四位数蛋白质家族的至少一个等位基因属于所映射等位基因的前10%;iii)将所述测序读段以更高严格性映射至参考序列,所述参考序列包含所述准候选等位基因;iv)将最大数目的测序读段映射至其上的所述准候选等位基因鉴定为第一组候选等位基因;v)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第二组候选等位基因;以及vi)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第三组候选等位基因。75.根据权利要求74所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。76.根据权利要求74所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才在步骤vi)中鉴定所述第三组候选等位基因。77.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。78.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。79.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。80.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;ii)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。81.根据权利要求66所述的方法,其中所述序列数据为基因组范围的测序数据。82.根据权利要求81所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。83.根据权利要求81所述的方法,其中所述序列数据的覆盖度少于60倍。84.根据权利要求66所述的方法,其中所述测序读段的平均长度少于100个核苷酸。85.根据权利要求66所述的方法,其中所述测序读段的平均长度少于50个核苷酸。86.根据权利要求66所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。87.根据权利要求66所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述HLA基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。88.根据权利要求66所述的方法,所述方法还包括向所述受试者移植细胞、组织或器官的步骤,所述细胞、组织或器官在所述HLA基因座处的HLA类型匹配所述受试者在所述HLA基因座处的HLA类型。89.根据权利要求66所述的方法,所述方法还包括将来自所述受试者的细胞、组织或器官移植给接受者的步骤,所述接受者在所述HLA基因座处的HLA类型匹配所述受试者在所述HLA基因座处的HLA类型。90.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:a)在计算机系统上接收所述受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;c)通过所述计算机系统,将最大数目的测序读段映射至其上的所述HLA等位基因鉴定为第一组候选等位基因;d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述HLA等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。