用于确定高同源性区域中的基因型的方法技术

技术编号:16112773 阅读:60 留言:0更新日期:2017-08-30 06:07
本文公开了涉及确定受试者的携带状态或基因型的方法。本文公开了一种将实验和计算方式组合来解析基因组基因座(即,所述基因型)的结构的方法,所述基因组基因座的序列与所述基因组中的其他序列是高度同源的。具体地,对受试者的基因的携带状态和/或拷贝数的所述确定利用下一代测序,其中所述基因具有对应的高度同源性同源物,例如基因或假基因。本文还描述了一种用于此类确定的计算机辅助方法。

【技术实现步骤摘要】
【国外来华专利技术】用于确定高同源性区域中的基因型的方法
以下公开内容总体上涉及确定基因型,并且更具体地,涉及确定与具有对应的高度同源性同源物的基因相关联的基因型。技术背景许多疾病源自因突变而失活的基因。因此,对此类突变的识别是临床基因医学的基本目标。对于许多基因而言,这些突变相对易于从下一代测序(NGS)数据中找到。然而,对于多种重要且普遍的病症的受试者的基因的子集而言,识别失活基因并计数其数量是具有挑战性的,因为这些基因被基因组的其他同源部分有效地遮蔽。解析与其他(通常功能失调的)区域高度同源的基因组区域的结构和内容是特别困难的,甚至在使用先进NGS工具的情况下同样如此。不幸的是,这些技术障碍是尤其成问题的,因为许多这些困难区域具有疾病暗示。实际上,它们与功能失调区域的极大同源性导致基因与同源物之间频繁的重排,这可能影响基因的功能性拷贝的数量。因此,仍然需要检测并确定受试者关于基因的基因型和/或携带状态,其中所述基因具有同源性同源物。专利技术概述允许确定高度同源性基因和对应同源物的基因型的当前技术是时间密集型和劳动密集型的,并且是昂贵的,从而使得它们不适于广泛的临床使用。目前公开的方法可以可承受的且高通量的方式进行实践。因此,节省了大量的时间、劳力和花费。此外,本专利技术方法解决解析在以下区域中的结构/拷贝数/基因型的问题,在所述区域中NGS读取与基因或其同源物的唯一比对受到损害。重要的是,这些损害的“高度同源性”区域是基于两个特征:(1)给定的实验中的NGS读取的长度,以及(2)由比对软件(例如BWA)所允许的错配的量。在一方面,本文提供一种用于确定个体关于感兴趣基因的基因组结构(即,基因型)的方法,其中感兴趣基因具有高度同源性同源物。在一个实施方案中,感兴趣基因以及其同源物的序列信息使用针对外显子的引物。在某些实施方案中,所述序列信息来自感兴趣基因和/或同源物的内含子。在某些实施方案中,所述序列信息来自基因间区。在另一实施方案中,所述序列信息由下一代测序(NGS)生成。在一些实施方案中,NGS是高深度全基因组鸟枪测序(即,不使用富集探针)。在其他实施方案中,NGS是靶向测序,例如像杂交捕获技术、多重扩增子富集、或使用于测序反应的基因组特定区域富集的任何其他手段。在一些实施方案中,所述测序以多重测定进行。在一个实施方案中,基因是SMN1并且假基因是SMN2。在一个实施方案中,改变的拷贝数的SMN1的存在指示受试者可能是疾病脊髓性肌萎缩(SMA)的携带者。在另一个实施方案中,基因是CYP21A2并且假基因是CYP21A1P。在一个实施方案中,改变的拷贝数的CYP21A2的存在指示受试者可能是疾病先天性肾上腺皮质增生症(CAH)的携带者。在一个实施方案中,基因是HBA1并且同源物是HBA2(或反之亦然)。在一个实施方案中,改变的拷贝数的HBA1或HBA2的存在指示受试者可能是疾病α地中海贫血的携带者。在另一实施方案中,基因是GBA并且假基因是GBAP。在一个实施方案中,改变的拷贝数的GBA的存在指示受试者可能是疾病戈谢氏病(Gaucher’sDisease)的携带者。在一个实施方案中,基因是PMS2并且假基因是PMS2CL或多种其他假基因中的一种。截止2015年12月,存在15种假基因。假基因可选自但不限于称为PMS2CL的13种假基因,其中13种假基因中其他12种编号为PMS2P1到PMS2P12。在一个实施方案中,改变的拷贝数和/或改变基因和假基因的取向的倒位(例如,使假基因的部分与基因融合并且因此损害基因功能的那些倒位)的存在可指示受试者具有增加的患疾病林奇综合征(LynchSyndrome)的风险。在一个实施方案中,基因是CHEK2,其具有多种假基因。截止2014年12月,存在七种假基因。所述假基因可选自但不限于在经过验证的数据库(curateddatabase)中所列举的CHEK2假基因。在一个实施方案中,通过与其假基因重组产生的突变(例如,假基因衍生的移码突变)的存在可指示受试者具有增加的患疾病乳腺癌以及其他疾病的风险。在本领域中熟知的是,七种假基因中仅一种已经被命名,并且风险主要与一种突变1100delC相关联。然而,其他突变也导致患疾病的风险。患者处于患李-佛美尼综合症(LiFraumenisyndrome)和其他可遗传癌症的风险下。在一方面,提供一种配置来执行用于实施本文所述的方法的指令的计算机系统。通过以下详细描述,本专利技术的其他目的、特征和优势将变得显而易见。然而,应理解,尽管指示本专利技术的优选实施方案,但是详细描述和特定实施例仅通过说明的方式给出,因为在本专利技术的范围和精神内的各种改变和修改对于通读此详细描述的本领域技术人员而言将变得显而易见。附图简述图1示出基因以及其同源物(例如,在假基因的情况下是功能失调的同源物)的各种基因组结构。在“正常的”样品中,基因以及其同源物各自有两个拷贝。对于许多具有同源物的基因而言(实际上,对于引起戈谢氏病、脊髓性肌萎缩(“SMA”)、先天性肾上腺皮质增生症(“CAH”)和α地中海贫血的基因以及与各种癌症相关的多种基因而言),基因和同源物在染色体上彼此相对接近。示出经历基因和/或同源物的“缺失或复制”的染色体的一些实例。基因与同源物之间的重组可产生“融合”基因,所述“融合”基因一部分是“基因”并且一部分是“同源物”。最后,基因与同源物之间的序列的“互换”是相对频繁的。图2是如本文所述的方法的流程图。图3示出本专利技术的各种实施方案可在其中运行的示例性系统和环境。图4示出示例性计算系统。图5是SMN1和SMN2的拷贝数(“CN”)图。对于10,000个样品而言,使用本文所述的测序数据和CN分析来计算样品的SMN1和SMN2的CN,并且然后使用这些值分别作为散点图中的x坐标和y坐标。每个样品的CN(SMN1)(即,SMN1的拷贝数)通过基于正交qPCR的测定来验证:通过此后一种测定确定具有1个、2个或3个拷贝的样品分别由圆圈、三角形和正方形指示。应注意,在具有CN(SMN1)=1和CN(SMN1)=2的点之间的测序数据中有非常清楚的间隔。实际上,使用CN(SMN1)=1.4的截取值来将样品分类为具有1个或2个SMN1拷贝,基于测序的CN分析将不产生假阳性或假阴性。其他值得注意的特征或曲线包括:(1)最高点密度在(2,2)附近,这是轨迹的正常排列;(2)然而,许多样品距离(2,2)很远,和SMN1与SMN2之间频繁的转换/缺失/复制一致。图6示出GBA和GBAP的两个拷贝数图。对于两个单一患者样品,在九个不同位点处绘制GBA以及其同源物/假基因GBAP的CN值,从5’到3’(左到右)排列。顶部样品(A)是正常的,因为它具有GBA和GBAP两者的两个拷贝。然而,底部样品(B)经历“互换”事件,其中GBAP拷贝之一的3’端获得GBA衍生的序列。图7是HBA1和HBA2的拷贝数图。所述曲线图示出48个患者样品在围绕并包括HBA2和HBA1的区域中的CN值。粗线示出单个染色体的较大区段已缺失的单个样品,因此其在图的右侧的大部分信号下降。正如所预期的,大部分样品具有CN=2。三个样品具有在Z1与Z2区域之间发生的短缺失。图8是示出用于CYP21A2基因以及其同源物CYP21本文档来自技高网...
用于确定高同源性区域中的基因型的方法

【技术保护点】
一种用于根据来自基因组样品的实验测序数据推断相对于参考基因组序列的高度同源性基因组区域的特性(例如,拷贝数、取向、融合基因状态和序列)的方法,所述方法包括:a.使用靶向DNA测序(例如,使用分别利用探针或引物的杂交捕获技术或扩增子测序,所述探针或引物被特异性地设计来产生对基因或同源物而言独特的读取)或高深度非靶向测序(例如,全基因组鸟枪测序)来从基因及其同源物两者中以实验的方式获得NGS序列读取;b.基于基因或同源物与人类参考基因组的比对,在电脑上对所述基因或同源物的读取进行区分;c.计数在感兴趣位点(例如,在整个所述基因和同源物两者上拼接的位点)和≥10个—并且优选地≥50个—对照位点两者处的读取数(“深度”);d.执行拷贝数分析,所述拷贝数分析通过一系列归一化计算和统计学置信度分析将原始读取深度转换成可解读的拷贝数调用;以及e.识别突变,其中确定拷贝数和分离基因衍生的读取的能力是用于适当地识别这些变体的关键因素。

【技术特征摘要】
【国外来华专利技术】2014.12.29 US 62/097,139;2015.09.28 US 62/234,0121.一种用于根据来自基因组样品的实验测序数据推断相对于参考基因组序列的高度同源性基因组区域的特性(例如,拷贝数、取向、融合基因状态和序列)的方法,所述方法包括:a.使用靶向DNA测序(例如,使用分别利用探针或引物的杂交捕获技术或扩增子测序,所述探针或引物被特异性地设计来产生对基因或同源物而言独特的读取)或高深度非靶向测序(例如,全基因组鸟枪测序)来从基因及其同源物两者中以实验的方式获得NGS序列读取;b.基于基因或同源物与人类参考基因组的比对,在电脑上对所述基因或同源物的读取进行区分;c.计数在感兴趣位点(例如,在整个所述基因和同源物两者上拼接的位点)和≥10个—并且优选地≥50个—对照位点两者处的读取数(“深度”);d.执行拷贝数分析,所述拷贝数分析通过一系列归一化计算和统计学置信度分析将原始读取深度转换成可解读的拷贝数调用;以及e.识别突变,其中确定拷贝数和分离基因衍生的读取的能力是用于适当地识别这些变体的关键因素。2.如权利要求1所述的方法,其中步骤(b)包括:b...

【专利技术属性】
技术研发人员:DE马齐ADJ罗伯逊EA埃文斯JR马圭尔
申请(专利权)人:考希尔股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1