【技术实现步骤摘要】
遗传变异的非侵入性评估的方法和过程相关专利申请本专利申请要求2013年10月4日提交的名为“遗传变异的非侵入性评估方法和过程(METHODSANDPROCESSESFORNON-INVASIVEASSESSMENTOFGENETICVARIATIONS)”,专利技术人为GregoryHannum,档案号为SEQ-6073-PV的美国临时专利申请61/887,081的权利。前述专利申请的全部内容通过引用纳入本文,包括所有文字、表格和附图。领域本文提供的技术部分涉及遗传变异的非侵入性评估方法、过程和机器。背景活体生物(如动物、植物和微生物)的遗传信息和复制遗传信息的其他形式(如病毒)被编码成脱氧核糖核酸(DNA)或核糖核酸(RNA)。遗传信息是代表化学或假定核酸的一级结构的一连串核苷酸或修饰的核苷酸。人的完整基因组包含位于二十四(24)条染色体上的约30,000个基因(见《人类基因组》(The人类基因组),T.Strachan,BIOS科学出版社、1992)。各基因编码特定蛋白质,所述蛋白质在通过转录和翻译表达之后,在活细胞中实现特定的生物化学功能。许多医学病症由一种或多种遗传变异引起。某些遗传变异引起医学病症,包括例如血友病、地中海贫血、杜氏肌营养不良症(DMD)、亨廷顿氏病(HD)、阿尔茨海默病和囊性纤维化(CF)(《人类基因组突变》(HumanGenomeMutations),D.N.Cooper和M.Krawczak,BIOS出版社、1993)。这类遗传疾病可能由特定基因DNA中单个核苷酸的加入、取代或缺失所致。某些出生缺陷由染色体异常(也称为非整倍性) ...
【技术保护点】
1.一种用于确定样品是否存在非整倍性的方法,包括:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。
【技术特征摘要】
2013.10.04 US 61/887,0811.一种用于确定样品是否存在非整倍性的方法,包括:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。2.如权利要求1所述的方法,其中,使用微处理器进行(b)中的调整。3.一种用于确定样品是否存在非整倍性的方法,包括:将来自怀有胎儿的妊娠雌性的血液的循环无细胞核酸加载测序设备,或将所述核酸的修饰变体加载测序设备,所述测序设备产生对应于所述核酸的核苷酸碱基的信号;在任选地将所述信号转移至包括一个或多个计算设备的系统之后,由所述系统从所述核酸的信号生成序列读数,其中所述系统中的一个或多个计算设备包括存储器和一个或多个处理器,并且其中在所述系统中,一个计算设备,或计算设备的组合设置为将所述序列读数映射至参照基因组,并且:(a)按照读数密度分布过滤参照基因组的部份,从而提供包括过滤的部份的读数密度的测试样品的读数密度概况,其中,所述读数密度包括来自妊娠雌性的测试样品的循环无细胞核酸的序列读数,并且针对多个样品的部份的读数密度确定所述读数密度分布;(b)使用微处理器按照一个或多个主成分调整测试样品的读数密度概况,所述主成分通过主成分分析获自已知的整倍性样品的组,从而提供包括调整的读数密度的测试样品概况;(c)将所述测试样品概况与参照概况比较,从而提供比较;并且(d)按照所述比较确定所述测试样品中是否存在染色体非整倍性。4.如权利要求1、2或3所述的方法,其中在(b)中由1-10个主成分来调整所述读数密度概况。5.如权利要求1、2或3所述的方法,其中在(b)中由5个主成分来调整所述读数密度概况。6.如权利要求1-5中任一项所述的方法,其中针对读数密度概况中的一个或多个特征调整所述一个或多个主成分,其特征选自胎儿性别、序列偏好、胎儿分数、与DNA酶I灵敏度相关的偏好、熵、重复序列偏好、染色质结构偏好、聚合酶误差率偏好、回文偏好、插入重复偏好、PCR扩增偏好、和隐藏拷贝数变异。7.如权利要求6所述的方法,其中序列偏好包括鸟嘌呤和胞嘧啶(GC)偏好。8.如权利要求1-7中任一项所述的方法,其中所述比较包括确定显著性水平。9.如权利要求1-8中任一项所述的方法,其中,确定所述显著性水平包括确定p-值。10.如权利要求1-9中任一项所述的方法,其中,所述参照概况包括获自已知整倍性样品的组的读数密度概况。11.如权利要求1-10中任一项所述的方法,其中,所述参照概况包括过滤的部份的读数密度。12.如权利要求1-11中任一项所述的方法,其中,所述参照概况包括按照所述一个或多个主成分调整的读数密度。13.如权利要求8-12中任一项所述的方法,其中,所述显著性水平表示所述测试样品概况和所述参照概况之间有统计学显著差异,并且确定存在染色体非整倍性。14.如权利要求1-13中任一项所述的方法,其中,所述多个样品包括已知整倍性样品的组。15.如权利要求1-14中任一项所述的方法,其中,所述多个样品的部份的读数密度是中值读数密度。16.如权利要求1-15中任一项所述的方法,其中,所述测试样品的过滤部份的读数密度是中值读数密度。17.如权利要求10-16中任一项所述的方法,其中,所述参照概况的读数密度概况包括中值读数密度。18.如权利要求10-17中任一项所述的方法,其中,按照包括核心密度评价的过程确定所述测试样品概况、所述多个样品和所述参照概况的读数密度。19.如权利要求16-18中任一项所述的方法,其中,按照所述测试样品的中值读数密度确定所述测试样品概况。20.如权利要求17-19中任一项所述的方法,其中,按照所述参照的中值读数密度分布确定所述参照概况。21.如权利要求1-20中任一项所述的方法,包括按照针对所述读数密度分布的不确定性测量对参照基因组的部份进行过滤。22.如权利要求21所述的方法,其中,所述不确定性测量是MAD。23.如权利要求1-22中任一项所述的方法,其中,所述测试样品概况代表所述测试样品的染色体剂量。24.如权利要求23所述的方法,包括比较测试样品概况的染色体剂量与参照概况的染色体剂量,从而生成染色体剂量比较。25.如权利要求24所述的方法,其中按照所述染色体剂量比较确定所述测试样品是否存在染色体非整倍性。26.如权利要求1-25中任一项所述的方法,其中确定所述测试样品是否存在染色体非整倍性包括鉴定是否存在1个拷贝的染色体、2个拷贝的染色体、3个拷贝的染色体、4个拷贝的染色体、5个拷贝的染色体、染色体的一个或多个区段的缺失或染色体的一个或多个区段的插入。27.如权利要求1-26中任一项所述的方法,其中,映射至所述测试样品的过滤的部份的序列读数的计数通过在(a)之前进行的过程来标准化,包括:(I)生成测试样品的序列读数的(i)局部基因组偏好评价与(ii)偏好频率之间的关系,从而生成样品偏好关系,其中,序列读数是来自测试样品的循环无细胞核酸,并且所述序列读数映射至参照基因组;(II)将所述样品偏好关系与参照偏好关系比较,从而生成比较,其中,所述参照偏好关系是参照的(i)局部基因组偏好评价与(ii)偏好频率之间的关系;并且(III)按照(II)中确定的比较将所述样品的序列读数的计数标准化,从而减少所述样品的序列读数中的偏好。28.如权利要求27所述的方法,其中(III)中的标准化包括提供标准化的计数。29.如权利要求27或28所述的方法,其中通过包括核心密度评价的过程确定各局部基因组偏好评价。30.如权利要求27-29中任一项所述的方法,其中所述参照偏好关系和所述样品偏好关系的各局部基因组偏好评价代表局部偏好含量。31.如权利要求30所述的方法,其中所述局部偏好含量针对5000bp或更小的多核苷酸区段。32.如权利要求27-31中任一项所述的方法,其中通过包括使用滑动窗分析的过程来确定各所述局部基因组偏好评价。33.如权利要求32所述的方法,其中所述窗是约5个连续核苷酸至约5000个连续核苷酸,并且所述窗在滑动窗分析中一次滑动约1个碱基至约10个碱基。34.如权利要求32所述的方法,其中所述窗是约200个连续核苷酸并且所述窗在滑动窗分析中一次滑动约1个碱基。35.如权利要求27-34中任一项所述的方法,其中(II)包括生成(i)和(ii)之间的拟合关系:(i)比例,各比例包括各所述局部基因组偏好评价的样品偏好关系频率和参照偏好关系频率,与(ii)局部基因组偏好评价。36.如权利要求35所述的方法,其中(I)中的拟合关系获自加权的拟合。37.如权利要求27-36中任一项所述的方法,其中,所述样品的各序列读数表示为二进制格式。38.如权利要求37所述的方法,其中各所述序列读数的二进制格式包括所述读数映射至的染色体和所述读数映射至的染色体位置。39.如权利要求38所述的方法,其中所述二进制格式是5-字节格式,包括1-字节染色体序数和4-字节染色体位置。40.如权利要求37-39中任一项所述的方法,其中所述二进制格式比序列比对/映射(SAM)格式小50倍和/或比GZip格式小13%。41.如权利要求27-40中任一项所述的方法,其中(III)中的标准化包括因数化除了偏好以外的一个或多个特征,并且标准化所述序列读数的计数。42.如权利要求41所述的方法,其中所述因数化一个或多个特征是通过包括使用多变量模型的过程。43.如权利要求42所述的方法,其中所述包括使用多变量模型的过程通过多变量模型进行。44.如权利要求41-43中任一项所述的方法,其中,按照(III)中的标准化和所述一个或多个特征的因数化将所述序列读数的计数标准化。45.如权利要求27-44中任一项所述的方法,包括在(III)之后,按照下述过程生成基因组的一个或多个部分或其区段的读数密度,所述过程包括生成含(III)中标准化的序列读数的一个或多个计数的所述一个或多个部分各自的概率密度评价。46.如权利要求45所述的方法,其中,所述概率密度评价是核心密度评价。47.如权利要求45或46所述的方法,包括生成所述基因组或其区段的读数密度概况。48.如权利要求47所述的方法,其中,所述读数密度概况包括所述基因组的一个或多个部分,或其区段的读数密度。49.如权利要求45-48中任一项所述的方法,包括调整所述一个或多个部份的各读数密度。50.如权利要求45-49中任一项所述的方法,其中,所述一个或多个部份经过滤从而提供过滤的部份。51.如权利要求45-50中任一项所述的方法,其中,所述一个或多个部份经加权从而提供加权的部份。52.如权利要求51所述的方法,其中,所述一个或多个部份经本征函数加权。53.如权利要求27-52中任一项所述的方法,其中所述局部基因组偏好评价是局部GC密度并且所述偏好频率是GC偏好频率。54.如权利要求1-26中任一项所述的方法,其中,映射至所述测试样品的过滤的部份的序列读数的计数通过在(a)之前进行的过程来标准化,包括:(1)生成所述测试样品的序列读数的(i)鸟嘌呤和胞嘧啶(GC)密度与(ii)CC密度频率之间的关系,从而生成样品GC密度关系,其中所述序列读数映射至所述参照基因组;(2)将所述样品GC密度关系与参照GC密度关系比较,从而生成比较,其中,所述参照GC密度关系是参照的(i)GC密度与(ii)CC密度频率之间的关系;并且(3)按照(2)中确定的比较将所述样品的序列读数的计数标准化,从而减少所述样品的序列读数中的偏好。55.如权利要求54所述的方法,其中(3)中的标准化包括提供标准化的计数。56.如权利要求54或55所述的方法,其中通过包括使用核心密度评价的过程确定各所述GC密度。57.如权利要求54-56中任一项所述的方法,其中通过使用滑动窗分析的过程来确定各所述GC密度。58.如权利要求57所述的方法,其中所述窗是约5个连续核苷酸至约5000个连续核苷酸,并且所述窗在滑动窗分析中一次滑动约1个碱基至约10个碱基。59.如权利要求58所述的方法,其中所述窗是约200个连续核苷酸并且所述窗在滑动窗分析中一次滑动约1个碱基。60.如权利要求54-59中任一项所述的方法,其中(2)包括生成(i)和(ii)之间的拟合关系:(i)比例,各比例包括各所述GC密度的样品GC密度关系频率和参照GC密度关系频率,与(ii)GC密度。61.如权利要求60所述的方法,其中(1)中的拟合关系获自加权的拟合。62.如权利要求54-61中任一项所述的方法,其中,所述样品的各序列读数表示为二进制格式。63.如权利要求62所述的方法,其中各所述序列读数的二进制格式包括所述读数映射至的染色体和所述读数映射至的染色体位置。64.如权利要求63所述的方法,其中所述二进制格式是5-字节格式,包括1-字节染色体序数和4-字节染色体位置。65.如权利要求62-64中任一项所述的方法,其中所述二进制格式比序列比对/映射(SAM)格式小50倍和/或比GZip格式小13%。66.如权利要求54-65中任一项所述的方法,其中(c)中的标准化包括因数化除了GC密度以外的一个或多个特征,并且标准化所述序列读数。67.如权利要求66所述的方法,其中所述因数化一个或多个特征是通过包括使用多变量模型的过程。68.如权利要求67所述的方法,其中所述包括使用多变量模型的过程通过多变量模型进行。69.如权利要求54-68中任一项所述的方法,其中对所述测试样品的过滤的部份加权。70.如权利要求69所述的方法,其中所述测试样品的过滤的部份通过包括本征函数的过程加权。71.如权利要求1-70中任一项所述的方法,包括,在(a)之前获得所述序列读数。72.如权利要求71所述的方法,其中,所述序列读数通过大规模平行测序(MPS)生成。73.如权利要求1-72中任一项所述的方法,包括获得映射至完整参照基因组或基因组区段的序列读数。74.如权利要求73所述的方法,其中,所述基因组的区段包括染色体或其区段。75.如权利要求73或74所述的方法,其中,在(1)之前将映射至所述参照基因组的序列读数的计数标准化。76.如权利要求75所述的方法,其中,通过GC含量、箱式标准化、GCLOESS、PERUN、GCRM或其组合将映射至所述参照基因组的序列读数的计数标准化。77.如权利要求73或74所述的方法,其中,映射至所述参照基因组的序列读数的计数是原始计数。78.如权利要求1-77中任一项所述的方法,其中,所述参照基因组的各部份包括大约相等长度的连续核苷酸。79.如权利要求1-78中任一项所述的方法,其中,所述参照基因组的各部份包括约50kb。80.如权利要求1-78中任一项所述的方法,其中,所述参照基因组的各部份包括约100kb。81.如权利要求1-80中任一项所述的方法,其中,所述参照基因组的各部份包括与所述参照基因组的相邻部份一样的连续核苷酸的区段。82.如权利要求1-81中任一项所述的方法,其中,所述测试样品包括来自妊娠雌性的血液...
【专利技术属性】
技术研发人员:G·汉纳姆,
申请(专利权)人:塞昆纳姆股份有限公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。