用于疾病和病症分析的无细胞DNA甲基化模式制造技术

技术编号:21958612 阅读:76 留言:0更新日期:2019-08-24 21:57
本文公开了利用测序读取来检测并定量由血液样品制备的无细胞DNA中组织类型或癌症类型的存在的方法和系统。

Cell-free DNA methylation patterns for disease and disease analysis

【技术实现步骤摘要】
【国外来华专利技术】用于疾病和病症分析的无细胞DNA甲基化模式关于联邦政府资助研究的声明本专利技术是在美国国家卫生研究院(NIH)美国国家心脏、肺和血液研究所(NHLBI)授予的批准号MAPGENU01HL108634的政府支持下完成的。政府拥有本专利技术的一定权利。优先权本申请要求于2016年6月7日提交的美国临时专利申请62/347010、2017年3月20日提交的美国临时专利申请62/473829和2017年4月28日提交的美国临时专利申请62/491560的优先权,其全部通过引入整体并入本文。
本文公开的专利技术总体上涉及分析核酸样品(例如,无细胞DNA样品)的测序数据的方法。其还涉及癌症诊断和预后的方法,包括癌症的鉴别、起源和定位。背景与涉及侵入式手术的传统活组织检查不同,液体活组织检查仅利用以最小侵入性获得的血液样品。血液是唯一通过人体循环系统与几乎所有人体器官(包括肿瘤和炎症组织)接触的生物材料。因此,血液携带涉及许多器官的状态的大量有价值的信息和疾病迹象。例如,在血浆中,无细胞循环DNA(缩写为cfDNA)(从许多器官中凋亡或坏死的细胞释放的经降解的DNA片段)被认为是来自许多正常组织细胞和患病细胞(例如,癌性肿瘤细胞)的DNA的混合物。因此,它们是基于血液的癌症诊断的最佳来源之一,并且最近成为基于血液的癌症诊断的主要目标。然而,来自患病细胞的DNA片段通常仅构成cfDNA样品的一小部分,特别是在疾病的早期阶段。因此,表示患病DNA的测序信息通常被表示正常DNA的测序信息所淹没。所需的是用于选择性地和灵敏地破译与患病DNA相关的测序信息的方法和/或系统。非常需要癌症的早期检测和鉴别。传统上,癌症的鉴别涉及侵入性组织活检程序。当癌症处于早期阶段时,不存在用非侵入性方法提供癌症组织来源的精确筛选和鉴别的方法或设备。在癌症有机会转移之前进行癌症的早期检测提供了提高癌症存活率的最佳策略。最近,使用来自血液的无细胞DNA(cfDNA)的癌症检测由于其非侵入性而引起了极大的兴趣。然而,在大多数早期和许多晚期癌症患者中,肿瘤cfDNA水平非常低(Bettegowda等人,2014;Newman等人,2014)。因此,基于cfDNA的早期癌症诊断的主要挑战是如何从血液中的总cfDNA中鉴别出微量的肿瘤cfDNA。解决这一挑战的主流方法是基于突变的方法,即使用结合错误抑制技术的靶向深度测序(>5000X覆盖率),以在小的基因面板(genepanel)中鉴别cfDNA突变(Bettegowda等人,2014;Newman等人,2014;Newman等人,2016)。虽然这种方法提供了一种在突变是已知的情况下监测癌症复发的灵敏方法,但是小的基因面板不能用于诊断目的,因为突变可以广泛传播并且是相当异质性的,即使在相同类型的癌症中也是如此(Burrell等人,2013;Tumer等人,2012;Greenman等人,2007;Schmitt等人,2012)。然而,扩大基因面板(同时保持测序深度)是成本高昂的。因此,仍存在使用不同的方法,即使用cfDNA甲基化模式来检测痕量肿瘤cfDNA的挑战。本公开内容公开了在癌症处于早期阶段时使用从患者抽取的血液样品来筛查癌症和鉴别癌细胞组织来源的机器、设备、计算机产品和方法的不同实施方案。
技术实现思路
在一个方面,本文提供了表征来自对象的无细胞DNA(cfDNA)样品的方法。在一些实施方案中,该方法包括以下步骤:接收来自对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和基因组区域中一个或多于一个基序的甲基化状态;将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;并且,如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成。在一些实施方案中,该方法还包括针对多个测序读取的每一个重复比较和表征步骤的步骤。在一些实施方案中,该方法还包括基于现有甲基化测序数据(例如,基于阵列和测序数据)建立一个或多于一个预先建立的甲基化特征的步骤。在一些实施方案中,该方法还包括基于多个测序读取中含有生物组成的测序读取的数目来确定cfDNA样品中生物组成的水平的步骤。在一些实施方案中,现有的甲基化测序数据选自组织特异性测序数据、疾病特异性测序数据、个体测序数据、群体测序数据及其组合。在一些实施方案中,cfDNA样品由来自对象的血浆或血液样品制备。生物样品可以是任何生物液体,例如唾液、羊水、囊液、脊髓液或脑液、尿液、汗液或泪液。其可以含有污染量的细胞,例如每微升液体的细胞的量为至多或小于约1个、10个、100个、1000个或10000个完整细胞(平均值)(或其中可衍生的任何范围)。在一些实施方案中,生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。本文描述的方法、计算机程序和装置可以应用于任何疾病或病症,在所述疾病或病症中,来自受影响个体与未受影响个体或者处于疾病或病症的不同阶段或具有不同预后的个体的无细胞DNA的甲基化模式存在差异。例如,可以基于用来获得疾病的甲基化特征的数据,鉴别来自少突胶质细胞的无细胞DNA的异常甲基化模式以诊断多发性硬化、鉴别来自胰腺β细胞的无细胞DNA的异常甲基化模式以诊断I型糖尿病、鉴别来自胰腺细胞的无细胞DNA的异常甲基化模式以诊断胰腺炎。因此,在一些实施方案中,包括从患有疾病的生物样品中获得或产生无细胞DNA的甲基化谱。在其他实施方案中,包括从未患病或被认为无疾病的生物样品中获得或产生无细胞DNA的甲基化谱。在一些实施方案中,癌组织选自肝癌组织、肺癌组织、肾癌组织、结肠癌组织、脑癌组织、胰腺癌组织、脑癌组织、胃肠癌组织、头颈癌组织、骨癌组织、舌癌组织、牙龈癌组织及其组合。在其他实施方案中,组织选自肝组织、脑组织、肺组织、肾组织、结肠组织、胰腺组织、脑组织、胃肠组织、头颈组织、骨组织、舌组织、牙龈组织及其组合。在一些实施方案中,在箱(bin)水平确定甲基化状态和预先确定的甲基化状态。在一些实施方案中,在CpG位点水平确定甲基化状态和预先确定的甲基化状态。在一些实施方案中,一个或多于一个基序是CpG位点。在一些实施方案中,其中该方法还包括将对象的cfDNA中的生物组成的水平与正常对象或已知癌症患者、或已知受特定疾病或病症影响或患有特定疾病或病症的患者中的生物组成的水平进行比较。在一些实施方案中,使用相同方法或不同方法预先确定正常对象或已知癌症或其他疾病患者中的生物组成的水平。在一个方面,本文提供了用于将来自正常对象的生物组成的水平与来自潜在患者的相同生物组成的水平进行比较的方法。此处,本文公开的方法可用于使用来自正常对象和潜在患者的cfDNA样品确定生物组成的水平本文档来自技高网
...

【技术保护点】
1.一种表征来自对象的无细胞DNA(cfDNA)样品的方法,其包括:接收来自对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;和如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成。

【技术特征摘要】
【国外来华专利技术】2016.06.07 US 62/347,010;2017.03.20 US 62/473,829;1.一种表征来自对象的无细胞DNA(cfDNA)样品的方法,其包括:接收来自对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;和如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成。2.根据权利要求1所述的方法,其还包括:针对多个测序读取的每一个,重复计算、比较和表征步骤。3.根据权利要求1所述的方法,其还包括:基于现有的甲基化测序数据,建立所述一个或多于一个预先建立的甲基化特征。4.根据权利要求2所述的方法,其中还包括:基于多个测序读取中含有生物组成的测序读取的数目,确定cfDNA样品中的生物组成的水平。5.根据权利要求3所述的方法,其中现有的甲基化测序数据选自组织特异性测序数据、疾病特异性测序数据、个体测序数据、群体测序数据及其组合。6.根据权利要求1所述的方法,其中cfDNA样品由来自对象的血浆或血液样品制备。7.根据权利要求1所述的方法,其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。8.根据权利要求7所述的方法,其中癌组织选自肝癌组织、肺癌组织、肾癌组织、结肠癌组织、胰腺癌组织、脑癌组织及其组合。9.根据权利要求1所述的方法,其中在箱水平确定甲基化状态和预先确定的甲基化状态。10.根据权利要求1所述的方法,其中在CpG位点水平确定甲基化状态和预先确定的甲基化状态。11.根据权利要求1所述的方法,其中一个或多于一个基序是CpG位点。12.根据权利要求4所述的方法,其还包括:将对象的cfDNA的生物组成水平与已知癌症患者中cfDNA的生物组成水平进行比较。13.根据权利要求4所述的方法,其还包括:将对象的cfDNA的生物组成水平与正常对象中cfDNA的生物组成水平进行比较。14.根据权利要求13所述的方法,其还包括:根据以下步骤确定正常对象中的生物组成水平:接收来自正常对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;针对多个测序读取的每一个,重复计算、比较和表征步骤;和基于多个测序读取中含有生物组成的测序读取的数目,确定来正常对象的cfDNA样品中的生物组成的水平。15.一种将来自未知对象的无细胞(cfDNA)样品中生物组成的水平与来自正常对象或已知癌症患者的相同生物组成的水平进行比较的方法,该方法包括:接收来自未知对象的cfDNA样品的第一多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;i)基于第一多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;ii)将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;iii)如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;iv)针对第一多个测序读取的每一个,重复计算、比较和表征步骤;v)基于第一多个测序读取中含有生物组成的测序读取的数目,确定来自未知对象的cfDNA样品中生物组成的第一水平;接收来自正常对象或已知癌症患者的cfDNA样品的第二多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;通过对来自正常对象或已知癌症患者的cfDNA样品执行步骤i)至步骤v),确定来自患者的cfDNA样品中生物组成的第二水平;和比较生物组成的第一水平和第二水平。16.一种检测来自患者的无细胞DNA(cfDNA)样品的组成变化的方法,其包括:在第一时间点,接收来自患者的第一cfDNA样品的第一多个测序读取,其中第一多个测序读取中的每一个包括从50个或多于50个核酸的第一连续核酸序列获得的甲基化测序数据;i)基于第一多个测序读取计算第一甲基化模式,其中第一甲基化模式包括对应于第一连续核酸序列的第一基因组区域和所述第一基因组区域中一个或多于一个基序的甲基化状态;ii)将第一甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个第一似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;iii)如果一个或多于一个第一似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;iv)针对第一多个测序读取中的每个测序读取重复步骤i)至步骤iii),以确定在第一时间点cfDNA样品中生物组成的存在;v)基于第一多个测序读取中含有生物组成的测序读取的数目,确定第一cfDNA样品中生物组成的第一水平;在第二时间点,接收来自同一患者的第二cfDNA样品的第二多个测序读取,其中第二多个测序读取的每一个包括从50个或多于50个核酸的第二连续核酸序列获得的甲基化测序数据;针对第二多个测序读取中的每个测序读取重复步骤i)至步骤v),以确定在第二时间点第二cfDNA样品中生物组成的第二水平;和检测第一时间点和第二时间点之间的生物组成的变化。17.根据权利要求16所述的方法,其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。18.一种计算机程序产品,其包括计算机可读介质,所述计算机可读介质具有记录在其上的被设置用于实施权利要求1至17中任一项所述的方法的计算机程序逻辑。19.一种计算机程序产品,其包括非暂时性计算机可读介质,所述非暂时性计算机可读介质具有被配置用于癌症检测和组织来源鉴别的指令,当所述指令被计算系统的处理器执行时,使得处理器执行以下步骤:接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令;鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;使用θ、t和xk计算预测得分λ;如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;和如果λ小于预先确定的阈值,则确定患者未患癌症。20.根据权利要求19所述的计算机程序产品,其中K为14000至15000。21.根据权利要求19至20所述的计算机程序产品,其中鉴别多个CpG簇特征的步骤还包括以下步骤:在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。22.根据权利要求19至21所述的计算机程序产品,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。23.根据权利要求19至22所述的计算机程序产品,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。24.根据权利要求19至23所述的计算机程序产品,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。25.根据权利要求19至24所述的计算机程序产品,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。26.根据权利要求19至25所述的计算机程序产品,其中使用全局优化估计法确定ctDNA负荷系数θ。27.根据权利要求19至26所述的计算机程序产品,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。28.根据权利要求19至27所述的计算机产品,其中将预定义θ值表示为其中J是正整数。29.根据权利要求19至28所述的计算机程序产品,其中使用全局优化估计法确定潜在癌症类型t。30.根据权利要求19至29所述的计算机程序产品,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。31.根据权利要求29至30所述的计算机程序产品,其中预定义t值为0、1、2、3、4、5、或6。32.根据权利要求19至31所述的计算机程序产品,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk。33.根据权利要求19至32所述的计算机程序产品,其中使用以下方程计算预测得分λ:其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。34.一种被配置用于癌症检测和组织来源鉴别的装置,其包括:非暂时性存储器;和耦合到非暂时性存储器的处理器,所述处理器被配置用于执行以下步骤:访问存储在非暂时性存储器中的患者的无细胞DNA(cfDNA)甲基化谱的数据;鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;使用θ、t和xk计算预测得分λ;如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;和如果λ小于预先确定的阈值,则确定患者未患癌症。35.根据权利要求34所述的装置,其中K为14000至15000。36.根据权利要求34至35所述的装置,其中鉴别多个CpG簇特征的步骤还包括以下步骤:在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。37.根据权利要求34至36所述的装置,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。38.根据权利要求34至37所述的装置,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。39.根据权利要求34至38所述的装置,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。40.根据权利要求34至39所述的装置,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。41.根据权利要求34至40所述的装置,其中使用全局优化估计法确定ctDNA负荷系数θ。42.根据权利要求34至41所述的装置,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。43.根据权利要求34至42所述的装置,其中将预定义θ值表示为其中J是正整数。44.根据权利要求34至43所述的装置,其中使用全局优化估计法确定潜在癌症类型t。45.根据权利要求34至44所述的装置,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。46.根据权利要求34至45所述的装置,其中预定义t值为0、1、2、3、4、5、或6。47.根据权利要求34至46所述的装置,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk。48.根据权利要求34至47所述的装置,其中使用以下方程计算预测得分λ:其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。49.一种通过计算机系统执行癌症检测和组织来源鉴别的方法,其包括由计算机系统的处理器接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令,所述非暂时性计算机可读介质与处理器通信;通过处理器鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;通过处理器确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;通过处理器确定潜在的癌症类型t;通过处理器估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;使用θ、t和xk通过处理器计算预测得分λ;如果λ大于预先确定的阈值,则通过处理器确定患者患有潜在癌症类型t的癌症;和如果λ小于预先确定的阈值,则通过处理器确定患者未患癌症。50.根据权利要求49所述的方法,其中K为14000至15000。51.根据权利要求49至50所述的方法,其中鉴别多个CpG簇特征的步骤还包括以下步骤:在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。52.根据权利要求49至51所述的方法,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。53.根据权利要求49至52所述的方法,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。54.根据权利要求49至53所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。55.根据权利要求49至54所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。56.根据权利要求49至55所述的方法,其中使用全局优化估计法确定ctDNA负荷系数θ。57.根据权利要求49至56所述的方法,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。58.根据权利要求49至57所述的方法,其中将预定义θ值表示为其中J是正整数。59.根据权利要求49至58所述的方法,其中使用全局优化估计法确定潜在癌症类型t。60.根据权利要求49至59所述的方法,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。61.根据权利要求49至60所述的方法,其中预定义t值为0、1、2、3、4、5、或6。62.根据权利要求49至61所述的方法,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk。63.根据权利要求49至62所述的方法,其中使用以下方程计算预测得分λ:其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。64.一种方法,其包括:对从患者获得的cfDNA进行亚硫酸氢盐测序以获得甲基化谱;鉴别甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;和使用θ、t和xk计算预测得分λ。65.根据权利要求64所述的方法,其中K为14000至15000。66.根据权利要求64至65所述的方法,其中鉴别多个CpG簇特征的步骤还包括以下步骤:在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。67.根据权利要求64至66所述的方法,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。68.根据权利要求64至67所述的方法,其中MR的预先确定的阈值为0.1或约0.1至0.5或约0.5。69.根据权利要求64至68所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk。70.根据权利要求64至69所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。71.根据权利要求64至70所述的方法,其中使用全局优化估计法确定ctDNA负荷系数θ。72.根据权利要求64至71所述的方法,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。73.根据权利要求64至72所述的方法,其中将预定义θ值表示为其中J是正整数。74.根据权利要求64至73所述的方法,其中使用全局优化估计法确定潜在癌症类型t。75.根据权利要求64至74所述的方法,其中全局...

【专利技术属性】
技术研发人员:向红·婕思敏·周康舒里李文渊史蒂文·杜比尼特李青娇
申请(专利权)人:加利福尼亚大学董事会南加利福尼亚大学
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1