用于疾病和病症分析的无细胞DNA甲基化模式制造技术

技术编号：21958612 阅读：76 留言：0更新日期：2019-08-24 21:57

本文公开了利用测序读取来检测并定量由血液样品制备的无细胞DNA中组织类型或癌症类型的存在的方法和系统。

Cell-free DNA methylation patterns for disease and disease analysis

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于疾病和病症分析的无细胞DNA甲基化模式关于联邦政府资助研究的声明本专利技术是在美国国家卫生研究院(NIH)美国国家心脏、肺和血液研究所(NHLBI)授予的批准号MAPGENU01HL108634的政府支持下完成的。政府拥有本专利技术的一定权利。优先权本申请要求于2016年6月7日提交的美国临时专利申请62/347010、2017年3月20日提交的美国临时专利申请62/473829和2017年4月28日提交的美国临时专利申请62/491560的优先权，其全部通过引入整体并入本文。
本文公开的专利技术总体上涉及分析核酸样品(例如，无细胞DNA样品)的测序数据的方法。其还涉及癌症诊断和预后的方法，包括癌症的鉴别、起源和定位。背景与涉及侵入式手术的传统活组织检查不同，液体活组织检查仅利用以最小侵入性获得的血液样品。血液是唯一通过人体循环系统与几乎所有人体器官(包括肿瘤和炎症组织)接触的生物材料。因此，血液携带涉及许多器官的状态的大量有价值的信息和疾病迹象。例如，在血浆中，无细胞循环DNA(缩写为cfDNA)(从许多器官中凋亡或坏死的细胞释放的经降解的DNA片段)被认为是来自许多正常组织细胞和患病细胞(例如，癌性肿瘤细胞)的DNA的混合物。因此，它们是基于血液的癌症诊断的最佳来源之一，并且最近成为基于血液的癌症诊断的主要目标。然而，来自患病细胞的DNA片段通常仅构成cfDNA样品的一小部分，特别是在疾病的早期阶段。因此，表示患病DNA的测序信息通常被表示正常DNA的测序信息所淹没。所需的是用于选择性地和灵敏地破译与患病DNA相关的测序信息的方法和/或系统。非...

【技术保护点】
1.一种表征来自对象的无细胞DNA(cfDNA)样品的方法，其包括：接收来自对象的cfDNA样品的多个测序读取，其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据；基于多个测序读取计算甲基化模式，其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态；将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分，其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关，并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率；和如果一个或多于一个似然得分中的至少一个超过阈值，则将测序读取表征为包含生物组成。

【技术特征摘要】
【国外来华专利技术】2016.06.07 US 62/347,010;2017.03.20 US 62/473,829;1.一种表征来自对象的无细胞DNA(cfDNA)样品的方法，其包括：接收来自对象的cfDNA样品的多个测序读取，其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据；基于多个测序读取计算甲基化模式，其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态；将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分，其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关，并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率；和如果一个或多于一个似然得分中的至少一个超过阈值，则将测序读取表征为包含生物组成。2.根据权利要求1所述的方法，其还包括：针对多个测序读取的每一个，重复计算、比较和表征步骤。3.根据权利要求1所述的方法，其还包括：基于现有的甲基化测序数据，建立所述一个或多于一个预先建立的甲基化特征。4.根据权利要求2所述的方法，其中还包括：基于多个测序读取中含有生物组成的测序读取的数目，确定cfDNA样品中的生物组成的水平。5.根据权利要求3所述的方法，其中现有的甲基化测序数据选自组织特异性测序数据、疾病特异性测序数据、个体测序数据、群体测序数据及其组合。6.根据权利要求1所述的方法，其中cfDNA样品由来自对象的血浆或血液样品制备。7.根据权利要求1所述的方法，其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。8.根据权利要求7所述的方法，其中癌组织选自肝癌组织、肺癌组织、肾癌组织、结肠癌组织、胰腺癌组织、脑癌组织及其组合。9.根据权利要求1所述的方法，其中在箱水平确定甲基化状态和预先确定的甲基化状态。10.根据权利要求1所述的方法，其中在CpG位点水平确定甲基化状态和预先确定的甲基化状态。11.根据权利要求1所述的方法，其中一个或多于一个基序是CpG位点。12.根据权利要求4所述的方法，其还包括：将对象的cfDNA的生物组成水平与已知癌症患者中cfDNA的生物组成水平进行比较。13.根据权利要求4所述的方法，其还包括：将对象的cfDNA的生物组成水平与正常对象中cfDNA的生物组成水平进行比较。14.根据权利要求13所述的方法，其还包括：根据以下步骤确定正常对象中的生物组成水平：接收来自正常对象的cfDNA样品的多个测序读取，其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据；基于多个测序读取计算甲基化模式，其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态；将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分，其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关，并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率；如果一个或多于一个似然得分中的至少一个超过阈值，则将测序读取表征为包含生物组成；针对多个测序读取的每一个，重复计算、比较和表征步骤；和基于多个测序读取中含有生物组成的测序读取的数目，确定来正常对象的cfDNA样品中的生物组成的水平。15.一种将来自未知对象的无细胞(cfDNA)样品中生物组成的水平与来自正常对象或已知癌症患者的相同生物组成的水平进行比较的方法，该方法包括：接收来自未知对象的cfDNA样品的第一多个测序读取，其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据；i)基于第一多个测序读取计算甲基化模式，其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态；ii)将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分，其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关，并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率；iii)如果一个或多于一个似然得分中的至少一个超过阈值，则将测序读取表征为包含生物组成；iv)针对第一多个测序读取的每一个，重复计算、比较和表征步骤；v)基于第一多个测序读取中含有生物组成的测序读取的数目，确定来自未知对象的cfDNA样品中生物组成的第一水平；接收来自正常对象或已知癌症患者的cfDNA样品的第二多个测序读取，其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据；通过对来自正常对象或已知癌症患者的cfDNA样品执行步骤i)至步骤v)，确定来自患者的cfDNA样品中生物组成的第二水平；和比较生物组成的第一水平和第二水平。16.一种检测来自患者的无细胞DNA(cfDNA)样品的组成变化的方法，其包括：在第一时间点，接收来自患者的第一cfDNA样品的第一多个测序读取，其中第一多个测序读取中的每一个包括从50个或多于50个核酸的第一连续核酸序列获得的甲基化测序数据；i)基于第一多个测序读取计算第一甲基化模式，其中第一甲基化模式包括对应于第一连续核酸序列的第一基因组区域和所述第一基因组区域中一个或多于一个基序的甲基化状态；ii)将第一甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个第一似然得分，其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关，并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率；iii)如果一个或多于一个第一似然得分中的至少一个超过阈值，则将测序读取表征为包含生物组成；iv)针对第一多个测序读取中的每个测序读取重复步骤i)至步骤iii)，以确定在第一时间点cfDNA样品中生物组成的存在；v)基于第一多个测序读取中含有生物组成的测序读取的数目，确定第一cfDNA样品中生物组成的第一水平；在第二时间点，接收来自同一患者的第二cfDNA样品的第二多个测序读取，其中第二多个测序读取的每一个包括从50个或多于50个核酸的第二连续核酸序列获得的甲基化测序数据；针对第二多个测序读取中的每个测序读取重复步骤i)至步骤v)，以确定在第二时间点第二cfDNA样品中生物组成的第二水平；和检测第一时间点和第二时间点之间的生物组成的变化。17.根据权利要求16所述的方法，其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。18.一种计算机程序产品，其包括计算机可读介质，所述计算机可读介质具有记录在其上的被设置用于实施权利要求1至17中任一项所述的方法的计算机程序逻辑。19.一种计算机程序产品，其包括非暂时性计算机可读介质，所述非暂时性计算机可读介质具有被配置用于癌症检测和组织来源鉴别的指令，当所述指令被计算系统的处理器执行时，使得处理器执行以下步骤：接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令；鉴别cfDNA甲基化谱中的多个CpG簇特征，其中多个CpG簇特征的总数是K，K是正整数；确定循环肿瘤DNA(ctDNA)负荷系数θ，其中0≤θ≤1；确定潜在的癌症类型t；估计每个CpG簇特征的甲基化水平xk，其中k＝1,2,...K；使用θ、t和xk计算预测得分λ；如果λ大于预先确定的阈值，则确定患者患有潜在癌症类型t的癌症；和如果λ小于预先确定的阈值，则确定患者未患癌症。20.根据权利要求19所述的计算机程序产品，其中K为14000至15000。21.根据权利要求19至20所述的计算机程序产品，其中鉴别多个CpG簇特征的步骤还包括以下步骤：在第一非癌甲基化谱中确定CpG簇的第一甲基化水平；在第二癌性甲基化谱中确定CpG簇的第二甲基化水平；使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR；和如果MR大于预先确定的阈值，则将该CpG簇鉴别为具有CpG簇特征。22.根据权利要求19至21所述的计算机程序产品，其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。23.根据权利要求19至22所述的计算机程序产品，其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。24.根据权利要求19至23所述的计算机程序产品，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。25.根据权利要求19至24所述的计算机程序产品，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数，得出描述甲基化水平xk的概率密度函数。26.根据权利要求19至25所述的计算机程序产品，其中使用全局优化估计法确定ctDNA负荷系数θ。27.根据权利要求19至26所述的计算机程序产品，其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。28.根据权利要求19至27所述的计算机产品，其中将预定义θ值表示为其中J是正整数。29.根据权利要求19至28所述的计算机程序产品，其中使用全局优化估计法确定潜在癌症类型t。30.根据权利要求19至29所述的计算机程序产品，其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。31.根据权利要求29至30所述的计算机程序产品，其中预定义t值为0、1、2、3、4、5、或6。32.根据权利要求19至31所述的计算机程序产品，其中使用最大似然估计法确定预测得分λ，其中最大似然估计法使用的变量包括θ、t、和xk。33.根据权利要求19至32所述的计算机程序产品，其中使用以下方程计算预测得分λ：其中，K是多个CpG簇特征的总数，L是最大似然函数，是经优化的θ，是经优化的t，M是xk的函数，N是xk的函数。34.一种被配置用于癌症检测和组织来源鉴别的装置，其包括：非暂时性存储器；和耦合到非暂时性存储器的处理器，所述处理器被配置用于执行以下步骤：访问存储在非暂时性存储器中的患者的无细胞DNA(cfDNA)甲基化谱的数据；鉴别cfDNA甲基化谱中的多个CpG簇特征，其中多个CpG簇特征的总数是K，K是正整数；确定循环肿瘤DNA(ctDNA)负荷系数θ，其中0≤θ≤1；确定潜在的癌症类型t；估计每个CpG簇特征的甲基化水平xk，其中k＝1,2,...K；使用θ、t和xk计算预测得分λ；如果λ大于预先确定的阈值，则确定患者患有潜在癌症类型t的癌症；和如果λ小于预先确定的阈值，则确定患者未患癌症。35.根据权利要求34所述的装置，其中K为14000至15000。36.根据权利要求34至35所述的装置，其中鉴别多个CpG簇特征的步骤还包括以下步骤：在第一非癌甲基化谱中确定CpG簇的第一甲基化水平；在第二癌性甲基化谱中确定CpG簇的第二甲基化水平；使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR；和如果MR大于预先确定的阈值，则将该CpG簇鉴别为具有CpG簇特征。37.根据权利要求34至36所述的装置，其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。38.根据权利要求34至37所述的装置，其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。39.根据权利要求34至38所述的装置，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。40.根据权利要求34至39所述的装置，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数，得出描述甲基化水平xk的概率密度函数。41.根据权利要求34至40所述的装置，其中使用全局优化估计法确定ctDNA负荷系数θ。42.根据权利要求34至41所述的装置，其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。43.根据权利要求34至42所述的装置，其中将预定义θ值表示为其中J是正整数。44.根据权利要求34至43所述的装置，其中使用全局优化估计法确定潜在癌症类型t。45.根据权利要求34至44所述的装置，其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。46.根据权利要求34至45所述的装置，其中预定义t值为0、1、2、3、4、5、或6。47.根据权利要求34至46所述的装置，其中使用最大似然估计法确定预测得分λ，其中最大似然估计法使用的变量包括θ、t、和xk。48.根据权利要求34至47所述的装置，其中使用以下方程计算预测得分λ：其中，K是多个CpG簇特征的总数，L是最大似然函数，是经优化的θ，是经优化的t，M是xk的函数，N是xk的函数。49.一种通过计算机系统执行癌症检测和组织来源鉴别的方法，其包括由计算机系统的处理器接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令，所述非暂时性计算机可读介质与处理器通信；通过处理器鉴别cfDNA甲基化谱中的多个CpG簇特征，其中多个CpG簇特征的总数是K，K是正整数；通过处理器确定循环肿瘤DNA(ctDNA)负荷系数θ，其中0≤θ≤1；通过处理器确定潜在的癌症类型t；通过处理器估计每个CpG簇特征的甲基化水平xk，其中k＝1,2,...K；使用θ、t和xk通过处理器计算预测得分λ；如果λ大于预先确定的阈值，则通过处理器确定患者患有潜在癌症类型t的癌症；和如果λ小于预先确定的阈值，则通过处理器确定患者未患癌症。50.根据权利要求49所述的方法，其中K为14000至15000。51.根据权利要求49至50所述的方法，其中鉴别多个CpG簇特征的步骤还包括以下步骤：在第一非癌甲基化谱中确定CpG簇的第一甲基化水平；在第二癌性甲基化谱中确定CpG簇的第二甲基化水平；使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR；和如果MR大于预先确定的阈值，则将该CpG簇鉴别为具有CpG簇特征。52.根据权利要求49至51所述的方法，其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。53.根据权利要求49至52所述的方法，其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。54.根据权利要求49至53所述的方法，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。55.根据权利要求49至54所述的方法，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数，得出描述甲基化水平xk的概率密度函数。56.根据权利要求49至55所述的方法，其中使用全局优化估计法确定ctDNA负荷系数θ。57.根据权利要求49至56所述的方法，其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。58.根据权利要求49至57所述的方法，其中将预定义θ值表示为其中J是正整数。59.根据权利要求49至58所述的方法，其中使用全局优化估计法确定潜在癌症类型t。60.根据权利要求49至59所述的方法，其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。61.根据权利要求49至60所述的方法，其中预定义t值为0、1、2、3、4、5、或6。62.根据权利要求49至61所述的方法，其中使用最大似然估计法确定预测得分λ，其中最大似然估计法使用的变量包括θ、t、和xk。63.根据权利要求49至62所述的方法，其中使用以下方程计算预测得分λ：其中，K是多个CpG簇特征的总数，L是最大似然函数，是经优化的θ，是经优化的t，M是xk的函数，N是xk的函数。64.一种方法，其包括：对从患者获得的cfDNA进行亚硫酸氢盐测序以获得甲基化谱；鉴别甲基化谱中的多个CpG簇特征，其中多个CpG簇特征的总数是K，K是正整数；确定循环肿瘤DNA(ctDNA)负荷系数θ，其中0≤θ≤1；确定潜在的癌症类型t；估计每个CpG簇特征的甲基化水平xk，其中k＝1,2,...K；和使用θ、t和xk计算预测得分λ。65.根据权利要求64所述的方法，其中K为14000至15000。66.根据权利要求64至65所述的方法，其中鉴别多个CpG簇特征的步骤还包括以下步骤：在第一非癌甲基化谱中确定CpG簇的第一甲基化水平；在第二癌性甲基化谱中确定CpG簇的第二甲基化水平；使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR；和如果MR大于预先确定的阈值，则将该CpG簇鉴别为具有CpG簇特征。67.根据权利要求64至66所述的方法，其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。68.根据权利要求64至67所述的方法，其中MR的预先确定的阈值为0.1或约0.1至0.5或约0.5。69.根据权利要求64至68所述的方法，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。70.根据权利要求64至69所述的方法，其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤：通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数，得出描述甲基化水平xk的概率密度函数。71.根据权利要求64至70所述的方法，其中使用全局优化估计法确定ctDNA负荷系数θ。72.根据权利要求64至71所述的方法，其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。73.根据权利要求64至72所述的方法，其中将预定义θ值表示为其中J是正整数。74.根据权利要求64至73所述的方法，其中使用全局优化估计法确定潜在癌症类型t。75.根据权利要求64至74所述的方法，其中全局...

【专利技术属性】
技术研发人员：向红·婕思敏·周，康舒里，李文渊，史蒂文·杜比尼特，李青娇，
申请(专利权)人：加利福尼亚大学董事会，南加利福尼亚大学，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人