【技术实现步骤摘要】
【国外来华专利技术】基于单倍型块的基因组标记插补
[0001]本专利技术涉及基因组预测的
,具体是基于基因组标记预测的改进。
技术介绍
[0002]在许多研究和
中,例如植物遗传学、育种工程和全基因组关联研究,大量个体的基因分型以及依赖于处理大量基因组数据的其他高通量应用仍然是一个挑战。在给定现有技术的情况下,必须平衡成本、精确度和通量,以在预测质量、效率和工作量方面获得可接受的结果。
[0003]目前,主要使用单核苷酸多态性(SNP)阵列进行高通量基因分型。这些阵列可以具有各种密度,例如10k、50k或600kSNP。阵列使用起来相对简单,通常可以产生强大的基因分型,判读失败和判读错误相对较少。然而,阵列是昂贵的,并且阵列中覆盖的SNP可能不能精确地覆盖被认为在给定应用中特别相关的基因变异。
[0004]近年来,下一代测序(NGS)的快速发展使靶向的基于测序基因分型(GBS)和全基因组测序(WGS)变得更便宜、更准确、应用更广泛。与基因分型阵列相比,GBS和WGS具有几个优点,包括检测新变异位点的能力、检测多等位基 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于从多个个体(402)的基因组标记数据预测基因组相关特征(458)的计算机实现的方法,所述方法包括:
‑
接收(102)每个个体的基因组标记数据(434,454),所述多个个体分别包含一个单倍型或多个单倍型,个体的基因组标记数据指示所述个体的基因组中的多个标记位点(602
‑
620),其中所述标记位点的第一标记位点分别分配给在所述第一标记位点处识别的标记变异(1140
‑
1142),其中所述标记位点的多个第二(1144)标记位点具有缺失或不确定的标记变异分配;
‑
计算(104)包括多个单倍型块(1126
‑
1136)的单倍型块文库(448),包括起始和终止坐标的每个单倍型块以及位于所述起始和终止坐标中的一系列标记位点,称为“比较标记位点”;
‑
在所述起始坐标和终止坐标对应于一个或多个单倍型块的起始坐标和终止坐标的基因组亚区内,在所述第二标记位点选择性地进行(106)单倍型块引导的标记变异的标记插补,其中所述插补是作为包括在单倍型子集基因组亚区中的标记变异的函数来计算的,所述单倍型子集的单倍型包括所述一个或多个单倍型块;
‑
通过将插补的标记变异分配到相应的第二标记位点来补充(108)多个个体的基因组标记数据;
‑
使用补充的基因组标记数据(454)来计算性地预测个体的特征(458)。2.根据权利要求1所述的计算机实现的方法,所述执行(106)单倍型块引导的标记插补包括对于所述个体的每种单倍型:
‑
选择单倍型中的一个或多个基因组亚区,所述单倍型的起始和终止坐标对应于一个或多个单倍型块的起始和终止坐标;对于单倍型的一个或多个所选的基因组亚区中的每一个以及位于所选基因组亚区内的第一和/或第二标记位点中的每一个:
‑
识别所述单倍型中包含的一个或多个单倍型块,所述单倍型的起始和终止坐标界定覆盖标记位点的基因组亚区;
‑
识别个体的单倍型的子集,所述子集的单倍型是包含所述一个或多个识别的单倍型块的单倍型;
‑
识别在已识别的单倍型子集内最常分配给所述标记位点的标记变异;和
‑
如果满足阈值标准,则将最常分配的标记变异分配给所述标记位点,其中所述阈值标准具体为所述最常分配的标记变异的最小标记变异计数和/或所述最常分配的标记变异的标记变异计数与单倍型子集中单倍型数量的最小比值。3.根据前述权利要求中任一项所述的计算机实现的方法,每个所述第一标记位点已经分配了一个或多个计数参数(804,806),每个计数参数表示一个标记变异并且具有分配的数值,所述数值表示序列读序的拷贝数,所述序列读序包括由计数器参数表示的标记变异,所述进行(106)单倍型块引导的标记插补包括,对于所述个体的每个单倍型:
‑
选择所述单倍型中的一个或多个基因组亚区,所述单倍型的起始和终止坐标对应于一个或多个单倍型块的起始和终止坐标;对于单倍型的一个或多个所选的基因组亚区中的每一个以及位于所选基因组亚区内的第一和/或第二标记位点中的每一个:
‑
识别所述单倍型中包含的一个或多个单倍型块,所述单倍型的起始和终止坐标界定覆盖标记位点的基因组亚区;
‑
识别个体的单倍型的子集,所述子集的单倍型是包含所述一个或多个识别的单倍型块的单倍型;
‑
通过合计表示相同标记变异的所有计数参数的数值,计算子集中所有单倍型中分配给所述位点的每个标记变异的合计读序计数;
‑
识别已计算出的最高合计读序计数的标记变异;和
‑
如果满足阈值标准,则将最高读序计数所支持的标记变异分配给所述单倍型子集的每个所识别的基因组亚区中的标记位点,其中所述阈值标准具体为最小合计读序计数阈值和/或最高合计读序计数与覆盖所述标记位点的单倍型子集中的读序总数的最小比率。4.根据权利要求2或3所述的计算机实现的方法,每个比较标记位点已分配称为“比较标记变异”的标记变异(1122,1124),通过将所述单倍型块与所述多个个体的每个所述单倍型匹配来确定包括所述单倍型块的单倍型子集,所述匹配包括:
‑
将所述单倍型块的比较标记位点与单倍型的相应第一或第二标记位点进行比对;
‑
将比较标记变异与分配给分别比对的第一标记位点单倍型标记变异进行比较;
‑
计算比对的单倍型块和单倍型对的匹配得分,作为比对到第一标记位点的数字比较标记位点的函数,所述第一标记为点已分配了与比对的比较标记变异相同或足够相似的标记变异;
‑
如果匹配分数超过阈值,则将所述单倍型识别为包含单倍型块的单倍型。5.根据前述权利要求中任一项所述的计算机实现的方法,进一步包括对于包括一个单倍型块的单倍型子集的每个单倍型,以及对于所述单倍型中包括的每个标记位点或局部区域:
‑
确定在标记位点或局部区域观察到的局部读序深度,由此在单倍型块引导的标记插补中插补的所述标记变异分别表示一个读序;
‑
在标记位点或局部区域确定平均局部读序深度,作为所述子集的所有单倍型的相应标记位点或局部区域的平均值;
‑
在标记位点或局部区域识别观察到的局部读序深度与平均局部读序深度的比率;
‑
如果所述比率低于最小阈值或高于最大阈值,则在所述位点识别结构标记变异,其中结构标记变异具体是拷贝数变异(CNV)。6.根据前述权利要求中任一项所述的计算机实现的方法,进一步包括:
‑
接收(202)每个个体基因组的基因组数据(404);
‑
处理(204)所述基因组数据以识别每个个体的基因组中的多个标记位点处标记变异,从而将所述标记位点中的第一批分配给在相应的第一标记位点处识别的标记变异,由此对于多个第二标记位点,标记变异未被识别或分配了不确定的标记变异;和
‑
提供处理的基因组数据(434),所述处理的基因组数据包括标记位点和分别分配的标记变异的关联作为基因组标记数据(434)。7.根据权利要求6所述的计算机实现的方法,
‑
其中所述个体是单倍体或双单倍体生物或是一组近交生物,每个个体包含单个单倍型,处理在多个标记位点识别...
【专利技术属性】
技术研发人员:阿德南,
申请(专利权)人:哥廷根大学公法基金会,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。