遗传变异的非侵入性评估的方法和过程技术

技术编号:21973208 阅读:50 留言:0更新日期:2019-08-28 01:50
本文提供用于非侵入性评估遗传变异的方法、过程、系统和机器。

Method and process of non-invasive assessment of genetic variation

【技术实现步骤摘要】
遗传变异的非侵入性评估的方法和过程相关专利申请本专利申请要求2013年10月4日提交的名为“遗传变异的非侵入性评估方法和过程(METHODSANDPROCESSESFORNON-INVASIVEASSESSMENTOFGENETICVARIATIONS)”,专利技术人为GregoryHannum,档案号为SEQ-6073-PV的美国临时专利申请61/887,081的权利。前述专利申请的全部内容通过引用纳入本文,包括所有文字、表格和附图。领域本文提供的技术部分涉及遗传变异的非侵入性评估方法、过程和机器。背景活体生物(如动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(如病毒)被编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。人的完整基因组包含位于二十四(24)条染色体上的约30,000个基因(见《人类基因组》(The人类基因组),T.Strachan,BIOS科学出版社、1992)。各基因编码特定蛋白质,所述蛋白质在通过转录和翻译表达之后,在活细胞中实现特定的生物化学功能。许多医学病症由一种或多种遗传变异引起。某些遗传变异引起医学病症,包括例如血友病、地中海贫血、杜氏肌营养不良症(DMD)、亨廷顿氏病(HD)、阿尔茨海默病和囊性纤维化(CF)(《人类基因组突变》(HumanGenomeMutations),D.N.Cooper和M.Krawczak,BIOS出版社、1993)。这类遗传疾病可能由特定基因DNA中单个核苷酸的加入、取代或缺失所致。某些出生缺陷由染色体异常(也称为非整倍性)造成,例如21三体性(唐氏综合征)、13三体性(帕陶氏综合征)、18三体性(爱德华氏综合征)、16和22三倍体、X单体性(特纳氏综合征)和某些性染色体非整倍性如克氏综合征(XXY)。其他遗传变异是胎儿性别,这通常可基于性染色体X和Y来确定。一些遗传变异使个体倾向于或引起许多疾病中的任一种,例如糖尿病、动脉硬化、肥胖症、各种自体免疫疾病和癌症(如结直肠癌、乳腺癌、卵巢癌、肺癌)。对一种或多种遗传变异或变化的鉴定可有助于诊断特定医学病症,或确定特定医学病症的诱因。鉴定遗传变异能帮助医疗决策和/或使用有益的医疗方案。在某些实施方式中,对一种或多种遗传变异或变化的鉴定涉及分析无细胞DNA。无细胞DNA(CF-DNA)由来自细胞死亡和外周血循环的DNA片段组成。高浓度的CF-DNA能指示某些临床病症,例如癌症、创伤、烧伤、心肌梗塞、中风、败血症、感染和其它疾病。此外,无细胞胎儿DNA(CFF-DNA)能在母本血流中检测,并且用于多种非侵入性产前诊断。概述在某些方面中,本专利技术提供了一种包括存储器和一个或多个微处理器的系统,一个或多个微处理器设置为按照存储器中的指令进行用于减少样品的序列读数中的偏好的过程,该过程包括(a)生成测试样品的序列读数的(i)局部基因组偏好评价与(ii)偏好频率之间的关系,从而生成样品偏好关系,其中序列读数是来自测试样品的循环无细胞核酸,并且序列读数映射到参照基因组,(b)比较样品偏好关系和参照偏好关系,从而生成比较,其中参照偏好关系是(i)局部基因组偏好评价与(ii)参照偏好频率之间的关系,并且(c)按照(b)中确定的比较将样品的序列读数的计数标准化,其中样品的序列读数中的偏好减少。在某些方面中,本专利技术提供了一种包括存储器和一个或多个微处理器的系统,一个或多个微处理器设置为按照存储器中的指令进行用于减少样品的序列读数中的偏好的过程,该过程包括(a)生成测试样品的序列读数的(i)鸟嘌呤和胞嘧啶(GC)密度与(ii)GC密度之间的关系,从而生成样品GC密度关系,其中序列读数是来自测试样品的循环无细胞核酸,并且序列读数映射到参照基因组,(b)比较样品GC密度和参照GC密度关系,从而生成比较,其中参照GC密度关系是(i)GC密度与(ii)参照的GC密度频率之间的关系,并且(c)按照(b)中确定的比较将样品的序列读数的计数标准化,其中样品的序列读数中的偏好减少。在某些方面中,本专利技术还提供了一种包括存储器和一个或多个微处理器的系统,一个或多个微处理器设置为按照存储器中的指令进行用于确定样品是否存在非整倍性的过程,该过程包括(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定读数密度分布,(b)按照一个或多个主成分来调整测试样品的读数密度概况,主成分通过主成分分析获自已知整倍体样品的组,从而提供包括调整的读数密度的测试样品概况,(c)比较测试样品概况与参照概况,从而提供比较,并且(d)根据比较确定测试样品是否存在染色体非整倍性。下述说明、实施例、权利要求和附图中进一步描述某些技术方面。附图说明附图描述本技术的实施方式但不具限制性。为了说明的清楚和方便,附图未按比例制作,并且在一些情况中,可能夸大或放大多个方面以协助对具体实施方式的理解。图1显示Epanechnikov核提供的GC密度的实施方式(带宽=200bp)。图2显示HTRA1基因的GC密度(y-轴)图,其中GC密度跨越整个基因组进行标准化。基因组位置示于x轴上。图3显示参照基因组(实线)以及样品所获序列读数(虚线)的局部基因组偏好评价(例如GC密度、x轴)。偏移频率(例如密度频率)示于y轴上。GC密度评价跨越整个基因组进行标准化。该实施例中,所述样品相比从参照所预期的有更多高GC含量的读数。图4显示参照基因组的GC密度评价分布和样品序列读数的GC密度评价分布,使用加权第三阶多项式拟合的关系。GC密度评价(x-轴)跨越整个基因组进行标准化。GC密度频率在y轴上用对参照的密度频率除以样品的密度频率的比例取log2来表示。图5A显示基因组所有部份的中值GC密度(x-轴)的分布。图5B显示根据多种样品的GC密度分布确定的中值绝对偏差(MAD)值(x-轴)。GC密度频率示于y轴上。根据多种参照样品(如训练组)的中值GC密度分布和根据多种样品的GC密度分布确定的MAD值来筛选部份。包括超出既定阈值(例如MAD的四分位间范围的四倍)的GC密度的部份根据筛选方法从考虑中移除。图6A显示基因组的样品的读数密度概况,包括基因组中的中值读数密度(y-轴,例如读数密度/部份)和各基因组部份的相对位置(x-轴,部份的指标)。图6B显示第一主成分(PC1),图6C显示第二主成分(PC2),它们获自500个整倍体的训练组中所获的读数密度概况的主成分分析。图7A-C显示基因组的样品的读数密度概况的示例,所述基因组包括染色体21的三体(例如用两条垂直线括出的)。各基因组部份的相对位置示于x轴上。读数密度示于y轴上。图7A显示原始(例如未校准)读数密度概况。图7B显示7A的包括第一调整(包括扣除中值概况)的概况。图7C显示7B的包括第二调整的概况。第二调整包括扣除8x主成分概况,基于其在该样品中发现的代表进行加权。(例如建立模型)。例如样品概况=A*PC1+B*PC2+C*PC3...,而校正概况(例如7C所示)=样品概况-A*PC1+B*PC2+C*PC3...。本文档来自技高网...

【技术保护点】
1.一种用于确定样品是否存在非整倍性的方法,包括:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。

【技术特征摘要】
2013.10.04 US 61/887,0811.一种用于确定样品是否存在非整倍性的方法,包括:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。2.如权利要求1所述的方法,其中,使用微处理器进行(b)中的调整。3.一种用于确定样品是否存在非整倍性的方法,包括:将来自怀有胎儿的妊娠雌性的血液的循环无细胞核酸加载测序设备,或将所述核酸的修饰变体加载测序设备,所述测序设备产生对应于所述核酸的核苷酸碱基的信号;在任选地将所述信号转移至包括一个或多个计算设备的系统之后,由所述系统从所述核酸的信号生成序列读数,其中所述系统中的一个或多个计算设备包括存储器和一个或多个处理器,并且其中在所述系统中,一个计算设备,或计算设备的组合设置为将所述序列读数映射至参照基因组,并且:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)使用微处理器按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。4.如权利要求1、2或3所述的方法,其中在(b)中由1-10个主成分来调整所述读数密度概况。5.如权利要求1、2或3所述的方法,其中在(b)中由5个主成分来调整所述读数密度概况。6.如权利要求1-5中任一项所述的方法,其中针对读数密度概况中的一个或多个特征调整所述一个或多个主成分,其特征选自胎儿性别、序列偏好、胎儿分数、与DNA酶I灵敏度相关的偏好、熵、重复序列偏好、染色质结构偏好、聚合酶误差率偏好、回文偏好、插入重复偏好、PCR扩增偏好、和隐藏拷贝数变异。7.如权利要求6所述的方法,其中序列偏好包括鸟嘌呤和胞嘧啶(GC)偏好。8.如权利要求1-7中任一项所述的方法,其中所述比较包括确定显著性水平。9.如权利要求1-8中任一项所述的方法,其中,确定所述显著性水平包括确定p-值。10.如权利要求1-9中任一项所述的方法,其中,所述参照概况包括获自已知整倍性样品的组的读数密度概况。11.如权利要求1-10中任一项所述的方法,其中,所述参照概况包括过滤的部份的读数密度。12.如权利要求1-11中任一项所述的方法,其中,所述参照概况包括按照所述一个或多个主成分调整的读数密度。13.如权利要求8-12中任一项所述的方法,其中,所述显著性水平表示所述测试样品概况和所述参照概况之间有统计学显著差异,并且确定存在染色体非整倍性。14.如权利要求1-13中任一项所述的方法,其中,所述多个样品包括已知整倍性样品的组。15.如权利要求1-14中任一项所述的方法,其中,所述多个样品的部份的读数密度是中值读数密度。16.如权利要求1-15中任一项所述的方法,其中,所述测试样品的过滤部份的读数密度是中值读数密度。17.如权利要求10-16中任一项所述的方法,其中,所述参照概况的读数密度概况包括中值读数密度。18.如权利要求10-17中任一项所述的方法,其中,按照包括核心密度评价的过程确定所述测试样品概况、所述多个样品和所述参照概况的读数密度。19.如权利要求16-18中任一项所述的方法,其中,按照所述测试样品的中值读数密度确定所述测试样品概况。20.如权利要求17-19中任一项所述的方法,其中,按照所述参照的中值读数密度分布确定所述参照概况。21.如权利要求1-20中任一项所述的方法,包括按照针对所述读数密度分布的不确定性测量对参照基因组的部份进行过滤。22.如权利要求21所述的方法,其中,所述不确定性测量是MAD。23.如权利要求1-22中任一项所述的方法,其中,所述测试样品概况代表所述测试样品的染色体剂量。24.如权利要求23所述的方法,包括比较测试样品概况的染色体剂量与参照概况的染色体剂量,从而生成染色体剂量比较。25.如权利要求24所述的方法,其中按照所述染色体剂量比较确定所述测试样品是否存在染色体非整倍性。26.如权利要求1-25中任一项所述的方法,其中确定所述测试样品是否存在染色体非整倍性包括鉴定是否存在1个拷贝的染色体、2个拷贝的染色体、3个拷贝的染色体、4个拷贝的染色体、5个拷贝的染色体、染色体的一个或多个区段的缺失或染色体的一个或多个区段的插入。27.如权利要求1-26中任一项所述的方法,其中,映射至所述测试样品的过滤的部份的序列读数的计数通过在(a)之前进行的过程来标准化,包括:(I)生成测试样品的序列读数的(i)局部基因组偏好评价与(ii)偏好频率之间的关系,从而生成样品偏好关系,其中,序列读数是来自测试样品的循环无细胞核酸,并且所述序列读数映射至参照基因组;(II)将所述样品偏好关系与参照偏好关系比较,从而生成比较,其中,所述参照偏好关系是参照的(i)局部基因组偏好评价与(ii)偏好频率之间的关系;并且(III)按照(II)中确定的比较将所述样品的序列读数的计数标准化,从而减少所述样品的序列读数中的偏好。28.如权利要求27所述的方法,其中(III)中的标准化包括提供标准化的计数。29.如权利要求27或28所述的方法,其中通过包括核心密度评价的过程确定各局部基因组偏好评价。30.如权利要求27-29中任一项所述的方法,其中所述参照偏好关系和所述样品偏好关系的各局部基因组偏好评价代表局部偏好含量。31.如权利要求30所述的方法,其中所述局部偏好含量针对5000bp或更小的多核苷酸区段。32.如权利要求27-31中任一项所述的方法,其中通过包括使用滑动窗分析的过程来确定各所述局部基因组偏好评价。33.如权利要求32所述的方法,其中所述窗是约5个连续核苷酸至约5000个连续核苷酸,并且所述窗在滑动窗分析中一次滑动约1个碱基至约10个碱基。34.如权利要求32所述的方法,其中所述窗是约200个连续核苷酸并且所述窗在滑动窗分析中一次滑动约1个碱基。35.如权利要求27-34中任一项所述的方法,其中(II)包括生成(i)和(ii)之间的拟合关系:(i)比例,各比例包括各所述局部基因组偏好评价的样品偏好关系频率和参照偏好关系频率,与(ii)局部基因组偏好评价。36.如权利要求35所述的方法,其中(I)中的拟合关系获自加权的拟合。37.如权利要求27-36中任一项所述的方法,其中,所述样品的各序列读数表示为二进制格式。38.如权利要求37所述的方法,其中各所述序列读数的二进制格式包括所述读数映射至的染色体和所述读数映射至的染色体位置。39.如权利要求38所述的方法,其中所述二进制格式是5-字节格式,包括1-字节染色体序数和4-字节染色体位置。40.如权利要求37-39中任一项所述的方法,其中所述二进制格式比序列比对/映射(SAM)格式小50倍和/或比GZip格式小13%。41.如权利要求27-40中任一项所述的方法,其中(III)中的标准化包括因数化除了偏好以外的一个或多个特征,并且标准化所述序列读数的计数。42.如权利要求41所述的方法,其中所述因数化一个或多个特征是通过包括使用多变量模型的过程。43.如权利要求42所述的方法,其中所述包括使用多变量模型的过程通过多变量模型进行。44.如权利要求41-43中任一项所述的方法,其中,按照(III)中的标准化和所述一个或多个特征的因数化将所述序列读数的计数标准化。45.如权利要求27-44中任一项所述的方法,包括在(III)之后,按照下述过程生成基因组的一个或多个部分或其区段的读数密度,所述过程包括生成含(III)中标准化的序列读数的一个或多个计数的所述一个或多个部分各自的概率密度评价。46.如权利要求45所述的方法,其中,所述概率密度评价是核心密度评价。47.如权利要求45或46所述的方法,包括生成所述基因组或其区段的读数密度概况。48.如权利要求47所述的方法,其中,所述读数密度概况包括所述基因组的一个或多个部分,或其区段的读数密度。49.如权利要求45-48中任一项所述的方法,包括调整所述一个或多个部份的各读数密度。50.如权利要求45-49中任一项所述的方法,其中,所述一个或多个部份经过滤从而提供过滤的部份。51.如权利要求45-50中任一项所述的方法,其中,所述一个或多个部份经加权从而提供加权的部份。52.如权利要求51所述的方法,其中,所述一个或多个部份经本征函数加权。53.如权利要求27-52中任一项所述的方法,其中所述局部基因组偏好评价是局部GC密度并且所述偏好频率是GC偏好频率。54.如权利要求1-26中任一项所述的方法,其中,映射至所述测试样品的过滤的部份的序列读数的计数通过在(a)之前进行的过程来标准化,包括:(1)生成所述测试样品的序列读数的(i)鸟嘌呤和胞嘧啶(GC)密度与(ii)CC密度频率之间的关系,从而生成样品GC密度关系,其中所述序列读数映射至所述参照基因组;(2)将所述样品GC密度关系与参照GC密度关系比较,从而生成比较,其中,所述参照GC密度关系是参照的(i)GC密度与(ii)CC密度频率之间的关系;并且(3)按照(2)中确定的比较将所述样品的序列读数的计数标准化,从而减少所述样品的序列读数中的偏好。55.如权利要求54所述的方法,其中(3)中的标准化包括提供标准化的计数。56.如权利要求54或55所述的方法,其中通过包括使用核心密度评价的过程确定各所述GC密度。57.如权利要求54-56中任一项所述的方法,其中通过使用滑动窗分析的过程来确定各所述GC密度。58.如权利要求57所述的方法,其中所述窗是约5个连续核苷酸至约5000个连续核苷酸,并且所述窗在滑动窗分析中一次滑动约1个碱基至约10个碱基。59.如权利要求58所述的方法,其中所述窗是约200个连续核苷酸并且所述窗在滑动窗分析中一次滑动约1个碱基。60.如权利要求54-59中任一项所述的方法,其中(2)包括生成(i)和(ii)之间的拟合关系:(i)比例,各比例包括各所述GC密度的样品GC密度关系频率和参照GC密度关系频率,与(ii)GC密度。61.如权利要求60所述的方法,其中(1)中的拟合关系获自加权的拟合。62.如权利要求54-61中任一项所述的方法,其中,所述样品的各序列读数表示为二进制格式。63.如权利要求62所述的方法,其中各所述序列读数的二进制格式包括所述读数映射至的染色体和所述读数映射至的染色体位置。64.如权利要求63所述的方法,其中所述二进制格式是5-字节格式,包括1-字节染色体序数和4-字节染色体位置。65.如权利要求62-64中任一项所述的方法,其中所述二进制格式比序列比对/映射(SAM)格式小50倍和/或比GZip格式小13%。66.如权利要求54-65中任一项所述的方法,其中(c)中的标准化包括因数化除了GC密度以外的一个或多个特征,并且标准化所述序列读数。67.如权利要求66所述的方法,其中所述因数化一个或多个特征是通过包括使用多变量模型的过程。68.如权利要求67所述的方法,其中所述包括使用多变量模型的过程通过多变量模型进行。69.如权利要求54-68中任一项所述的方法,其中对所述测试样品的过滤的部份加权。70.如权利要求69所述的方法,其中所述测试样品的过滤的部份通过包括本征函数的过程加权。71.如权利要求1-70中任一项所述的方法,包括,在(a)之前获得所述序列读数。72.如权利要求71所述的方法,其中,所述序列读数通过大规模平行测序(MPS)生成。73.如权利要求1-72中任一项所述的方法,包括获得映射至完整参照基因组或基因组区段的序列读数。74.如权利要求73所述的方法,其中,所述基因组的区段包括染色体或其区段。75.如权利要求73或74所述的方法,其中,在(1)之前将映射至所述参照基因组的序列读数的计数标准化。76.如权利要求75所述的方法,其中,通过GC含量、箱式标准化、GCLOESS、PERUN、GCRM或其组合将映射至所述参照基因组的序列读数的计数标准化。77.如权利要求73或74所述的方法,其中,映射至所述参照基因组的序列读数的计数是原始计数。78.如权利要求1-77中任一项所述的方法,其中,所述参照基因组的各部份包括大约相等长度的连续核苷酸。79.如权利要求1-78中任一项所述的方法,其中,所述参照基因组的各部份包括约50kb。80.如权利要求1-78中任一项所述的方法,其中,所述参照基因组的各部份包括约100kb。81.如权利要求1-80中任一项所述的方法,其中,所述参照基因组的各部份包括与所述参照基因组的相邻部份一样的连续核苷酸的区段。82.如权利要求1-81中任一项所述的方法,其中,所述测试样品包括来自妊娠雌性的血液...

【专利技术属性】
技术研发人员:G·汉纳姆
申请(专利权)人:塞昆纳姆股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1