高分辨率等位基因鉴定制造技术

技术编号:13998784 阅读:60 留言:0更新日期:2016-11-15 12:25
本文提供了用于精确确定基因座处存在的等位基因的方法,所述方法可广泛适用于任何基因座,包括高度多态性基因座如HLA基因座、BGA基因座和HV基因座。所公开的方法的实施例可用于各种各样的应用,包括例如器官移植、个体化用药、诊断学、法医学和人类学。

【技术实现步骤摘要】
【国外来华专利技术】相关专利申请本申请要求于2013年10月15日提交的临时专利申请No.61/891,193的优先权,该临时专利申请以引用的方式全文并入。
技术介绍
虽然大多数的人基因组由基本上整个人类种群所共有的保守序列构成,但是基因组的小的但是重要的一部分是高度可变的。这些序列差异并未均匀散布在整个基因组中。而是,某些基因组区域(“基因座”)比其他区域含有更多的序列变异(“多态性”)。特定基因座处的具体核苷酸序列(即该基因座处存在的等位基因)的种类可具有重要的生物学意义。例如,个体在特定基因座所携带的等位基因可影响个体是否对疾病具有易感性或者是否治疗剂有可能有效。此外,有关高度多态性基因座处的等位基因的种类的知识可用于追踪生物样品的种族起源和/或地理起源,这对人类学家来说可能是非常有价值的并且这在法医学上可用于将个体与生物样品联系起来。考虑到下一代测序技术的可用性不断增加,将下一代测序数据用于等位基因鉴定的前景颇具吸引力。遗憾的是,利用测序数据来精确且有效地鉴定高度多态性基因座处存在的等位基因是有挑战性的,尤其是在测序数据是使用高通量的基因组范围的测序方法来生成时。对高度精确的等位基因预测方法存在需求的一套高度多态性基因座是那些编码人白细胞抗原(HLA)蛋白的基因座。HLA蛋白将抗原肽递呈给淋巴细胞以便介导关键的免疫学事件,包括自体抗原耐受和对病原体或肿瘤的免疫应答。I类HLA由所有有核细胞遍在表达,将胞质抗原递呈给细胞毒性T细胞。II类HLA主要由免疫细胞表达,将胞外抗原递呈给辅助T细胞。人类具有六种主要的HLA蛋白,即三种I类蛋白(HLA-A、HLA-B和HLA-C)和三种II类蛋白(HLA-DQ、HLA-DR和HLA-DP)。每种I类蛋白由单个HLA基因座(例如,HLA-A基因座、HLA-B基因座和HLA-C基因座)编码。另一方面,II类蛋白为由α链和β链构成的异型二聚体,这两条链每一者由其自己的HLA基因座(例如,HLA-DQA1基因座、HLA-DQB1基因座、HLA-DRA基因座、HLA-DRB1基因座、HLA-DRB3基因座、HLA-DRB4基因座、HLA-DRB5基因座、HLA-DPA1基因座和HLA-DPB1基因座)编码。在人类中,主要HLA基因座(I类和II类二者)每一者均存在于染色体6上。由于人类是二倍体生物,所以人类携带两个拷贝的染色体6,并因而携带两个拷贝的每种HLA基因座。HLA基因座是高度多态性的。HLA基因座中的多态性通常导致HLA蛋白的氨基酸序列中存在差异。这种HLA多样性使得在群体内能将宽泛范围的不同抗原递呈给免疫细胞。然而,HLA序列中的这些变异也会导致个体之间器官和组织的组织不相容性,极大地增加了外科移植手术的复杂性。如果由移植的器官或组织表达的HLA蛋白被移植接收者的免疫系统识别为外来物的话,则可能的结果是器官排斥。类似地,包括转移将移植接收者中的细胞所表达的HLA蛋白识别为外来物的免疫细胞的移植可导致移植物抗宿主病。如果存在于有前景的供应者和接收者的HLA基因座处的等位基因编码匹配的HLA蛋白的话,则会在最大可能性程度上降低移植物抗宿主病以及器官或组织排斥的风险。为了确定是否存在匹配,有必要确定供应者和接收者中的HLA基因座处存在哪种HLA等位基因,这是称为HLA分型的方法。个体在HLA基因座处的HLA类型由存在于该个体两个拷贝的HLA基因座处的两个HLA等位基因(或如果是纯合子的话,两个拷贝的单种HLA等位基因)构成。也越来越认识到HLA类型在许多疾病中发挥重要作用。例如,某些HLA类型与自身免疫障碍(包括狼疮、炎性肠病、多发性硬化症、关节炎和I型糖尿病)之间存在着强的关联性(例如,Graham等人,Eur.Hum.Genet.(《欧洲人类遗传杂志》)15:823-830(2007);Fu等人,J.Autoimmun.(《自身免疫杂志》)37:104-112(2011);Cassinotti等人,Am.J.Gastroenterol(《美国胃肠道杂志》)104:195-217(2009);Luckey等人,J.Autoimmun.(《自身免疫杂志》)37:122-128(2011);Lemire,M.,BMC Proc.(《BMC汇刊》)7:S33(2009);Noble等人,Curr.Diab.Rep.(《现代糖尿病报道》)11:533-542(2011),特此将这些参考文献每一者以引用的方式全文并入)。举个例子,II类HLA DQA1*02:01(DQ2)和DRB1*03:01(DR3)常常存在于全身性红斑狼疮患者中并且与疾病易感性显著相关联(Graham等人,Eur.Hum.Genet.(《欧洲人类遗传学杂志》)15:823-830(2007))。其他II类HLA蛋白的存在也与乳腺癌和宫颈癌的耐受性或易感性相关(例如,Chaudhuri等人,Proc.Nuc.Acad.Sci.USA(《美国科学院院刊》)97:11451-11454(2000);Garcia-Corona等人,Arch.Dermatol《皮肤病学纪要》.140:1227-1231(2004),特此将这些文献的每一者全文以引用的方式并入)。HLA分子的发病机理和治疗适应症凸显了对精确且有效的HLA分型方法的需求。过去,HLA类型通过区分“两位数(two-digit)”抗原组团以低分辨率解析,“两位数”抗原组近似于肽结合中的血清学特异性。然而,对于许多应用,两位数HLA分型是不够的。例如,具有相同两位数类型的两种HLA蛋白质之间的单氨基酸差异可导致改变的T细胞识别特异性和组织排斥(例如,Archbold等人,Trends Immunol.(《免疫性趋势》)29:220-226(2008);Tynan等人,Nat.Immunol.(《自然免疫学》)6:1114-1122(2005);Fleischhauer等人,N Eng.J.Med.(《新英格兰医学杂志》)323:1818-1822(1990),特此将这些参考文献的每一者以引用的方式全文并入)。因此,在氨基酸序列水平上的高分辨率HLA分型(也称为“四位数”分型)可能是关键的。例如,以高分辨率解析HLA类型可实质上改善不相关脐带血移植中以及癌症疫苗接种试验中的临床结果(Nagorson等人,Cancer Immunol.Immunother.(《癌免疫学和免疫疗法》)57:1903-1910(2008);Liao等人,Bone Marrow Transplant.(《骨髓移植》)40:201-208(2007),特此将这些参考文献的每一者以引用的方式全文并入)。HLA基因座的高度多态性性质使得精确、高分辨率分型存在相当大的挑战,尤其是以高通量进行分型时。在人种群中,主要的I类和II类HLA基因座处存在超过7527种四位数HLA等位基因。能够以四位数分辨率解析HLA类型的现有HLA分型方法(如通过测序特异性引物(SSP)进行的群组特异性PCR(group specific PCR by sequencing specific priming))和基于序列的分型(sequence-based typing,SBT))具有低的通量。其他提出的分本文档来自技高网...

【技术保护点】
一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。

【技术特征摘要】
【国外来华专利技术】2013.10.15 US 61/891,1931.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。2.根据权利要求1所述的方法,其中所述基因组序列为人基因组序列并且所述多个等位基因序列为人序列。3.根据权利要求2所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。4.根据权利要求2所述的方法,其中所述人基因组序列为GRCh37/hg19。5.根据权利要求1所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;ii)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。6.根据权利要求5所述的方法,其中所述鉴定的等位基因选自一组蛋白质群组。7.根据权利要求5所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。8.根据权利要求5所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。9.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。10.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。11.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。12.根据权利要求1所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;ii)对于每对候选等位基因,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。13.根据权利要求1所述的方法,其中所述序列数据为基因组范围的测序数据。14.根据权利要求13所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。15.根据权利要求14所述的方法,其中所述序列数据的覆盖度为至少30倍。16.根据权利要求14所述的方法,其中所述序列数据的覆盖度范围为30倍到100倍,并且其中所述测序读段来自DNA。17.根据权利要求14所述的方法,其中所述序列数据的覆盖度范围为100倍到500倍,并且其中所述测序读段来自RNA。18.根据权利要求14所述的方法,其中所述序列数据的覆盖度为1000倍,并且所述测序读段来自靶向序列。19.根据权利要求1所述的方法,其中所述测序读段的平均长度少于250个核苷酸。20.根据权利要求1所述的方法,其中所述测序读段为双端测序读段。21.根据权利要求1所述的方法,其中所述测序读段为单端测序读段。22.根据权利要求1所述的方法,其中所述测序读段的平均长度少于50个核苷酸。23.根据权利要求1所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。24.根据权利要求1所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。25.根据权利要求1所述的方法,其中所述基因座是高度多态性基因座。26.根据权利要求1所述的方法,其中基因座是HLA基因座。27.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)通过所述计算机系统,将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,通过所述计算机系统确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,通过所述计算机系统确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,通过所述计算机系统,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)通过所述计算机系统,将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。28.根据权利要求27所述的方法,其中所述鉴定的等位基因选自一组肽群组。29.根据权利要求27所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。30.根据权利要求27所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才在步骤e)中鉴定所述第三组候选等位基因。31.根据权利要求27所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。32.根据权利要求27所述的方法,其中所述人基因组序列为GRCh37/hg19。33.根据权利要求27所述的方法,其中所述序列数据为基因组范围的测序数据。34.根据权利要求33所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。35.根据权利要求33所述的方法,其中所述序列数据的覆盖度少于60倍。36.根据权利要求27所述的方法,其中所述测序读段的平均长度少于100个核苷酸。37.根据权利要求27所述的方法,其中所述测序读段的平均长度少于50个核苷酸。38.根据权利要求27所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。39.根据权利要求27所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。40.根据权利要求27至39中任一项所述的方法,其中所述基因座是高度多态性基因座。41.根据权利要求27至39中任一项所述的方法,其中所述基因座为HLA基因座。42.一种计算机系统,包括:至少一个处理器;与所述至少一个处理器相关联的存储器;显示器;和所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。43.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至所述基因座的测序读段的候选等位基因对鉴定为所述基因座处存在的等位基因。44.一种计算机系统,包括:至少一个处理器;与所述至少一个处理器相关联的存储器;显示器;和所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。45.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;b)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。46.一种确定受试者在线粒体DNA的高变区(HV)基因座处的基因型的计算机实现方法,所述方法包括:a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述HV基因座的多个HV等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述HV基因座的测序读段的一个或多个候选等位基因鉴定为所述HV基因座的基因型。47.根据权利要求46所述的方法,其中所述基因组序列为人基因组序列并且所述多个HV等位基因序列为人序列。48.根据权利要求47所述的方法,其中所述基因组序列中的HV基因座的序列已被移除或屏蔽。49.根据权利要求47所述的方法,其中所述人基因组序列为GRCh37/hg19。50.根据权利要求46所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HV基因座的多个HV等位基因序列;ii)将最大数目的测序读段映射至其上的HV等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HV等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述HV基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因鉴定为第三组候选等位基因。51.根据权利要求50所述的方法,其中所述鉴定的HV等位基因选自一组HV肽群组。52.根据权利要求50所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HV基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HV等位基因鉴定为所述第二组候选等位基因的子集。53.根据权利要求50所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因的测序读段的数目占映射至所述HV基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。54.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因为这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。55.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因为这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。56.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的一个或多个候选等位基因通过如下方式来确定:i)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的独立候选等位基因或候选等位基因组合为所述最有可能说明所述测序读段的一个或多个候选等位基因。57.根据权利要求46所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每个独立的候选等位基因和每个候选等位基因组合,确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每个独立的候选等位基因和每个候选等位基因组合,确定频率对数似然分值,所述频率对数似然分值为所述每个独立的候选等位基因和每个候选等位基因组合存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的独立候选等位基因或候选等位基因组合为所述最有可能说明所述测序读段的一个或多个候选等位基因。58.根据权利要求46所述的方法,其中所述序列数据为基因组范围的测序数据。59.根据权利要求58所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。60.根据权利要求59所述的方法,其中所述序列数据的覆盖度少于60倍。61.根据权利要求46所述的方法,其中所述测序读段的平均长度少于100个核苷酸。62.根据权利要求46所述的方法,其中所述测序读段的平均长度少于50个核苷酸。63.根据权利要求46所述的方法,其中所述测序读段的平均长度少于40个核苷酸。64.根据权利要求46所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。65.根据权利要求46所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。66.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:a)在计算机系统上接收所述受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至包含基因组序列和所述HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因;以及c)通过所述计算机系统,将最有可能说明映射至所述HLA基因座的测序读段的候选等位基因对鉴定为构成所述受试者在所述HLA基因座处的HLA类型的等位基因。67.根据权利要求66所述的方法,其中所述基因组序列为人基因组序列并且所述多个HLA等位基因序列为人序列。68.根据权利要求67所述的方法,其中所述基因组序列中的HLA基因座的序列已被移除或屏蔽。69.根据权利要求67所述的方法,其中所述人基因组序列为GRCh37/hg19。70.根据权利要求66所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;ii)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因。71.根据权利要求70所述的方法,其中所述鉴定的HLA等位基因选自一组HLA肽群组。72.根据权利要求70所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。73.根据权利要求70所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才在步骤iv)中鉴定所述第三组候选等位基因。74.根据权利要求66所述的方法,其中步骤b)包括由所述计算机系统执行的如下步骤:i)将所述测序读段以低严格性映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;ii)将来自每个四位数蛋白质家族的所有等位基因鉴定为准候选等位基因,所述四位数蛋白质家族的至少一个等位基因属于所映射等位基因的前10%;iii)将所述测序读段以更高严格性映射至参考序列,所述参考序列包含所述准候选等位基因;iv)将最大数目的测序读段映射至其上的所述准候选等位基因鉴定为第一组候选等位基因;v)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第二组候选等位基因;以及vi)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第三组候选等位基因。75.根据权利要求74所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。76.根据权利要求74所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才在步骤vi)中鉴定所述第三组候选等位基因。77.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP。78.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对为这样的候选等位基因对,其最有可能说明:i)存在于映射至所述候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至所述候选等位基因的测序读段中的连续的成对SNP;以及iii)所述候选等位基因对在人类中的频率。79.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中所述基因型对数似然分值和所述相位对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。80.根据权利要求66所述的方法,其中所述最有可能说明所述测序读段的候选等位基因对通过如下方式来确定:i)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;ii)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;其中所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对为最有可能说明所述测序读段的候选等位基因对。81.根据权利要求66所述的方法,其中所述序列数据为基因组范围的测序数据。82.根据权利要求81所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。83.根据权利要求81所述的方法,其中所述序列数据的覆盖度少于60倍。84.根据权利要求66所述的方法,其中所述测序读段的平均长度少于100个核苷酸。85.根据权利要求66所述的方法,其中所述测序读段的平均长度少于50个核苷酸。86.根据权利要求66所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。87.根据权利要求66所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述HLA基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。88.根据权利要求66所述的方法,所述方法还包括向所述受试者移植细胞、组织或器官的步骤,所述细胞、组织或器官在所述HLA基因座处的HLA类型匹配所述受试者在所述HLA基因座处的HLA类型。89.根据权利要求66所述的方法,所述方法还包括将来自所述受试者的细胞、组织或器官移植给接受者的步骤,所述接受者在所述HLA基因座处的HLA类型匹配所述受试者在所述HLA基因座处的HLA类型。90.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:a)在计算机系统上接收所述受试者的序列数据,所述序列数据包含多个测序读段;b)通过所述计算机系统,将所述测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;c)通过所述计算机系统,将最大数目的测序读段映射至其上的所述HLA等位基因鉴定为第一组候选等位基因;d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述HLA等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位...

【专利技术属性】
技术研发人员:白玉W·弗瑞
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1