当前位置: 首页 > 专利查询>格里尔公司专利>正文

甲基化标记和标靶甲基化探针板制造技术

技术编号:29767018 阅读:17 留言:0更新日期:2021-08-20 21:22
本发明专利技术提供了一种用于多个癌症特异性甲基化模式的标靶检测的癌症化验板。本发明专利技术还提供了包含设计、制造和使用供诊断癌症的所述癌症化验板的多种方法。

【技术实现步骤摘要】
【国外来华专利技术】甲基化标记和标靶甲基化探针板相关申请的交叉引用本申请要求2018年9月27日提交的美国临时专利申请案第62/737,836号及2019年4月2日提交的国际专利申请案第PCT/US2019/025358号的权益,在此通过引用将其全部内容合并于本文。序列表本申请包含一序列表,其已以ASCII格式以电子方式提交,现通过引用将其整体并入本申请。该ASCII副本创建于2019年9月26日,名为50251-846_601_SL.txt,大小为52371626位元组(bytes)。
技术介绍
脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与许多疾病过程有关,包含癌症。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是用于检测、诊断和/或监测癌症的有价值的诊断工具。例如,不同的甲基化区域的特定模式可用作各种疾病的分子标记。然而,WGBS目前不适合于产品化验。原因是绝大多数的基因组在癌症中没有差异甲基化,或局部CpG密度太低而无法提供可靠的信号。仅百分之几的基因组可能对分类有用。使用WGBS,以目前的测序成本计算,由于成本限制,深度测序(高达~1000×)只能在一小部分的多个基因组区域内完成,可能占基因组的0.1%。此外,在识别各种疾病中的多个差异甲基化区域方面存在各种挑战。首先,确定一疾病群组中的差异甲基化区域,只有与一群组的多个对照组对象比较才有分量,因此,如果对照组的人数较少,则所述确定将对较小对照组失去信心。另外,在一群组的多个对照组对象中,甲基化状态可以变化,这在当确定一疾病组中所述多个区域存在差异甲基化时很难解释。另一方面,在一CpG位点的胞嘧啶甲基化与在一随后的CpG位点的甲基化强烈相关。概括这种依赖性本身就是一个挑战。因此,还没有能够通过从多个差异甲基化区域分析DNA来准确诊断疾病的经济有效的方法。
技术实现思路
在多个对象中及早检测到癌症是很重要的,因为它可以及早治疗,从而获得更大的生存机会。利用无细胞DNA(cell-freeDNA,cfDNA)片段,标靶检测癌症特定的甲基化模式,可以通过提供一种成本效益高、非侵入性的方法用于获得相关于癌症的存在或不存在、癌症的起源组织、或癌症类型的信息,使癌症的早期检测成为可能。通过使用一标靶基因组区域化验板而非在一测试样本中的所有核酸进行测序(也称为“全基因组测序”),该方法可以增加标靶区域的测序深度,并降低成本。为此,本说明书提供了用于检测标靶基因组区域中癌症特异性甲基化模式的癌症化验板(或者称为“诱饵集”),以及使用癌症化验板诊断癌症的方法。本文进一步提供通过识别具有癌症特异性甲基化模式的基因组位点以及可用于本文提供的各种方法的基因组位点或基因组区域的列表来设计和制造癌症化验板的方法。本文所描述的方法还包含设计探针以有效地扩增与所选基因组区域相对应或衍生自所选基因组区域的cfDNA而不下拉过量不需要的DNA的方法。在一个方面,本文提供一种用于杂交捕获的诱饵组,所述诱饵组包含不同的多个含有寡核苷酸的探针,其中所述多个含有寡核苷酸的探针中的每个包含一序列,所述序列的长度为至少30个碱基,所述序列与以下互补:(1)一基因组区域的一序列;或(2)上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列,其中所述一个或多个转换中的每个相应转换发生在所述基因组区域中的一胞嘧啶处,以及其中所述不同的多个含有寡核苷酸的探针的每个探针与对应于一CpG位点的一序列互补,所述CpG位点在多个癌症样本中相对于多个非癌症样本是差异甲基化的。所述诱饵组可以包含至少500、1,000、2,000、2,500、5,000、6,000、7,500、10,000、15,000、20,000、25,000、50,000或100,000个不同的含有寡核苷酸的探针。在一个方面,所述CpG位点在多个癌症样本中相对于多个非癌症样本基于一标准被认为是差异甲基化的,所述标准包含多个癌症样本的一数量,所述多个癌症样本的所述数量包含与所述CpG位点重叠的一异常甲基化cfDNA片段。在一个方面,所述CpG位点被认为在多个癌症样本中相对于多个非癌症样本基于一标准是差异甲基化的,所述标准包含N癌症及N非癌症,其中:N癌症是多个癌症样本的一数量,所述多个癌症样本的所述数量包含覆盖所述CpG位点的一cfDNA片段,所述cfDNA片段:(1)具有至少X个CpG位点,其中至少Y%的多个CpG位点被甲基化或未甲基化,其中X至少为4,及Y至少为70;以及(2)在多个非癌性样本中具有一p值稀有度低于一阈值;以及N非癌症是多个癌症样本的一数量,所述多个癌症样本的所述数量包含覆盖所述CpG位点的一cfDNA片段,所述cfDNA片段:(1)具有至少M个CpG位点,其中至少N%的多个位点被甲基化或未甲基化,其中M至少为4,及N至少为70;以及(2)在多个非癌性样本中具有一p值稀有度低于一阈值。在一个方面,N等于X,及N等于Y。在一个方面,所述CpG位点基于与N癌症正相关及与N非癌症负相关的一标准而被认为是差异甲基化的。在一个方面,所述CpG位点基于(N癌症+1)/(N癌症+N非癌症+2)的一排名得分而被认为是差异甲基化的。在一个方面,在所述不同的多个含有寡核苷酸的探针中的每个,长度为至少30个碱基的所述序列可以为:(1)与从列表1至列表8中的任一个所列的多个基因组区域中选择的一基因组区域内的一序列互补;或者(2)与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换中的每个相应转换发生在所述基因组区域中的一胞嘧啶处。在一个方面,所述不同的多个含有寡核苷酸的探针是每个与一亲和部分相结合。所述亲合部分是生物素。在一个方面,对于所述不同的多个含有寡核苷酸的探针中的至少一个,至少30个碱基的序列与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换的每个相应转换发生在所述基因组区域中的一胞嘧啶处。在另一个方面,对于至少500、1000、2000、2500、5000、6000、10000、15000、20000、25000或50000个的所述不同的多个含有寡核苷酸的探针中的每个,至少30个碱基的序列与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换的每个相应转换发生在所述基因组区域中的一胞嘧啶处。在一个方面,所述诱饵组中至少80%、90%或95%的所述多个含有寡核苷酸的探针不包含至少30、至少40或至少45个碱基的一序列,所述序列具有20个或以上的脱靶基因组区域。在另一个方面,所述诱饵组中所述多个含有寡核苷酸的探针不包含至少30、至少40或至少45个碱基的一序列,所述序列具有20个或以上的脱靶基因组区域。至少30个碱基的所述序列的长度为至少40个碱基、至少45个碱基、至少50个碱基、至少60个碱基、至少75个或至少100个碱基。所述多个含有寡核苷酸的探针中的每个具有长度为至少45、40、75、100或120个碱基的一核酸序列。所述多个含有寡核苷酸本文档来自技高网
...

【技术保护点】
1.一种用于杂交捕获的诱饵组,其特征在于,所述诱饵组包含不同的多个含有寡核苷酸的探针,其中所述多个含有寡核苷酸的探针中的每个包含一序列,所述序列的长度为至少30个碱基,所述序列与以下互补:/n(1)一基因组区域的一序列;或/n(2)上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列,其中所述一个或多个转换中的每个相应转换发生在所述基因组区域中的一胞嘧啶处,以及/n其中所述不同的多个含有寡核苷酸的探针的每个探针与对应于一CpG位点的一序列互补,所述CpG位点在多个癌症样本中相对于多个非癌症样本是差异甲基化的。/n

【技术特征摘要】
【国外来华专利技术】20180927 US 62/737,836;20190402 US PCT/US2019/02531.一种用于杂交捕获的诱饵组,其特征在于,所述诱饵组包含不同的多个含有寡核苷酸的探针,其中所述多个含有寡核苷酸的探针中的每个包含一序列,所述序列的长度为至少30个碱基,所述序列与以下互补:
(1)一基因组区域的一序列;或
(2)上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列,其中所述一个或多个转换中的每个相应转换发生在所述基因组区域中的一胞嘧啶处,以及
其中所述不同的多个含有寡核苷酸的探针的每个探针与对应于一CpG位点的一序列互补,所述CpG位点在多个癌症样本中相对于多个非癌症样本是差异甲基化的。


2.如权利要求1所述的诱饵组,其特征在于,所述诱饵组包含至少500、1,000、2,000、2,500、5,000、6,000、7,500、10,000、15,000、20,000、25,000、50,000或100,000个不同的含有寡核苷酸的探针。


3.如权利要求1或2所述的诱饵组,其特征在于,所述CpG位点在多个癌症样本中相对于多个非癌症样本基于一标准被认为是差异甲基化的,所述标准包含多个癌症样本的一数量,所述多个癌症样本的所述数量包含与所述CpG位点重叠的一异常甲基化cfDNA片段。


4.如权利要求1至3任一项所述的诱饵组,其特征在于,所述CpG位点被认为在多个癌症样本中相对于多个非癌症样本基于一标准是差异甲基化的,所述标准包含癌症及N非癌症,其中:

癌症是多个癌症样本的一数量,所述多个癌症样本的所述数量包含覆盖所述CpG位点的一cfDNA片段,所述cfDNA片段:(1)具有至少X个CpG位点,其中至少Y%的多个CpG位点被甲基化或未甲基化,其中X至少为4,及Y至少为70;以及(2)在多个非癌性样本中具有一p值稀有度低于一阈值;以及
N非癌症是多个癌症样本的一数量,所述多个癌症样本的所述数量包含覆盖所述CpG位点的一cfDNA片段,所述cfDNA片段:(1)具有至少M个CpG位点,其中至少N%的多个位点被甲基化或未甲基化,其中M至少为4,及N至少为70;以及(2)在多个非癌性样本中具有一p值稀有度低于一阈值。


5.如权利要求4所述的方法,其特征在于,M等于X,及N等于Y。


6.如权利要求4或5所述的方法,其特征在于,所述CpG位点基于与癌症正相关及与N非癌症负相关的一标准而被认为是差异甲基化的。


7.如权利要求5所述的诱饵组,其特征在于,所述CpG位点基于(癌症+1)/(N癌症+N非癌症+2)的一排名得分而被认为是差异甲基化的。


8.如权利要求1至7任一项所述的诱饵组,其特征在于,对于所述不同的多个含有寡核苷酸的探针中的每个,长度为至少30个碱基的所述序列:(1)与从列表1至列表8中的任一个所列的多个基因组区域中选择的一基因组区域内的一序列互补;或者(2)与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换中的每个相应转换发生在所述基因组区域中的一胞嘧啶处。


9.如权利要求1至8任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针是每个与一亲和部分相结合。


10.如权利要求9所述的诱饵组,其特征在于,所述亲合部分是生物素。


11.如权利要求1至10任一项所述的诱饵组,其特征在于,对于所述不同的多个含有寡核苷酸的探针中的至少一个,至少30个碱基的序列与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换的每个相应转换发生在所述基因组区域中的一胞嘧啶处。


12.如权利要求11所述的诱饵组,其特征在于,对于至少500、1000、2000、2500、5000、6000、10000、15000、20000、25000或50000个的所述不同的多个含有寡核苷酸的探针中的每个,至少30个碱基的序列与上述(1)的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中所述一个或多个转换的每个相应转换发生在所述基因组区域中的一胞嘧啶处。


13.如权利要求1至12任一项所述的诱饵组,其特征在于,所述诱饵组中至少80%、90%或95%的所述多个含有寡核苷酸的探针不包含至少30、至少40或至少45个碱基的一序列,所述序列具有20个或以上的脱靶基因组区域。


14.如权利要求1至13任一项所述的诱饵组,其特征在于,所述诱饵组中所述多个含有寡核苷酸的探针不包含至少30、至少40或至少45个碱基的一序列,所述序列具有20个或以上的脱靶基因组区域。


15.如权利要求1至14任一项所述的诱饵组,其特征在于,至少30个碱基的所述序列的长度为至少40个碱基、至少45个碱基、至少50个碱基、至少60个碱基、至少75个或至少100个碱基。


16.如权利要求1至14任一项所述的诱饵组,其特征在于,所述多个含有寡核苷酸的探针中的每个具有长度为至少45、40、75、100或120个碱基的一核酸序列。


17.如权利要求1至16任一项所述的诱饵组,其特征在于,所述多个含有寡核苷酸的探针中的每个具有长度不超过300、250、200或150个碱基的一核酸序列。


18.如权利要求1至17任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针中的每个的长度在60至200个碱基之间、长度在100至150个碱基之间、长度在110至130个碱基之间,和/或长度在120个碱基。


19.如权利要求1至18任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针包含至少500、至少1,000、至少2,000、至少2,500、至少5,000、至少6,000、至少7,500和至少10,000、至少15,000、至少20,000或至少25,000对的不同探针,其中每对探针包含一第一探针和一第二探针,其中所述第二探针不同于所述第一探针,并通过长度为至少30、至少40、至少50或至少60个核苷酸的一重叠序列与所述第一探针相重叠。


20.如权利要求1至19任一项所述的诱饵组,其特征在于,所述诱饵组包含多个含有寡核苷酸的探针,配置为标靶列表1至8中任一个列表中所识别的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%的基因组区域。


21.如权利要求20所述的诱饵组,其特征在于,所述诱饵组包含多个含有寡核苷酸的探针,被配置成标靶列表1中所识别的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%的基因组区域。


22.如权利要求20所述的诱饵组,其特征在于,所述诱饵组包含多个含有寡核苷酸的探针,被配置成标靶列表3中所识别的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%的基因组区域。


23.如权利要求1至22任一项所述的诱饵组,其特征在于,所述诱饵组中全部的含有寡核苷酸的探针被配置成与由选自列表1至8中任一个列表中对应于至少30%、40%、50%、60%、70%、80%、90%或95%的基因组区域的多个cfDNA分子所获得的多个片段杂交。


24.如权利要求1至23任一项所述的诱饵组,其特征在于,所述诱饵组中全部的含有寡核苷酸的探针被配置成与由对应于列表1至8中任一个列表中的至少500、1,000、5,000、10,000、15,000、20,000、至少25,000或至少30,000个基因组区域的多个cfDNA分子所获得的多个片段杂交。


25.如权利要求1至24任一项所述的诱饵组,其特征在于,所述诱饵组中全部含有寡核苷酸的探针被配置成与由对应于列表1至8中任一个列表中的至少50、60、70、80、90、100、120、150或200个基因组区域的多个cfDNA分子所获得的多个片段杂交。


26.如权利要求1至25任一项所述的诱饵组,其特征在于,所述多个含有寡核苷酸的探针包含至少500、1,000、5,000或10,000个不同的探针子集,其中每个探针子集包含多个探针,以2倍平铺的方式共同延伸跨过从列表1至8中任一个列表的多个基因组区域中选择的一基因组区域。


27.如权利要求26所述的诱饵组,其特征在于,以所述2倍平铺的方式共同延伸跨过所述基因组区域的所述多个探针包含至少一对探针,所述至少一对探针通过长度至少为30个碱基、至少40个碱基、至少50个碱基或至少60个碱基的一序列相重叠。


28.如权利要求1至27任一项所述的诱饵组,其特征在于,所述多个探针共同延伸跨过所述基因组的多个部分,总体上的一总合大小为0.2MB至15MB之间、0.5MB至15MB之间、1MB至15MB之间、3MB至12MB之间、3MB至7MB之间、5MB至9MB之间或7MB至12MB之间。


29.如权利要求1至28任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针的至少一个子集被设计成与从列表4或列表6中的一个或多个基因组区域衍生的多个cfDNA片段杂交。


30.如权利要求29所述的诱饵组,其特征在于,所述不同的含有寡核苷酸的探针的所述子集被设计成标靶来自列表4或列表6中的至少2个、至少10个、至少50个、至少100个、至少1,000个或至少5,000个、至少8,000个、至少10,000个或至少20,000个基因组区域。


31.如权利要求29或30所述的诱饵组,其特征在于,所述子集的标靶包含列表4或列表6中所识别的至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%的基因组区域。


32.如权利要求1至31任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针中的每一个包含少于20、15、10、8或6个CpG检测位点。


33.如权利要求1至32任一项所述的诱饵组,其特征在于,至少80%、85%、90%、92%、95%或98%的所述多个含有寡核苷酸的探针在所有的CpG检测位点上仅具有CpG或仅具有CpA。


34.如权利要求1至33任一项所述的诱饵组,其特征在于,所述诱饵组的所述多个含有寡核苷酸的探针对应于从列表1至列表8中的任一个列表的所述多个基因组区域中选择的多个基因组区域的一数量,其中与所述诱饵组中的多个探针对应的所述多个基因组区域中至少30%为外显子或内含子。


35.如权利要求1至34任一项所述的诱饵组,其特征在于,所述诱饵组的所述多个含有寡核苷酸的探针对应于多个基因组区域的一数量,其中与所述诱饵组中的多个探针对应的至少15%或至少20%的基因组区域为外显子。


36.如权利要求1至35任一项所述的诱饵组,其特征在于,所述诱饵组的所述多个含有寡核苷酸的探针对应于多个基因组区域的一数量,其中与所述诱饵组中的多个探针对应的少于10%的基因组区域是基因间区域。


37.如权利要求1至36任一项所述的诱饵组,其特征在于,对于所述不同的多个含有寡核苷酸的探针中的每一个,所述至少30个核苷酸序列与另一序列互补,所述另一序列是所述基因组区域的所述序列通过在所述序列内的所有CpG位点处的一个或多个转换而变异生成的。


38.如权利要求1至37任一项所述的诱饵组,其特征在于,对于多个含有寡核苷酸的探针,所述多个含有寡核苷酸的探针相对于所述基因组区域内的所述序列通过一个或多个转换而变异,且在所述基因组区域内的每个CpG位点处均发生一转换。


39.如权利要求1至37任一项所述的诱饵组,其特征在于,所述不同的多个含有寡核苷酸的探针与多个cfDNA片段互补,所述多个cfDNA片段已被转化以尿嘧啶取代胞嘧啶,其中在来自多个癌症对象的cfDNA中发现的所述多个cfDNA片段是在来自多个非癌症对象的cfDNA中发现的所述多个cfDNA片段的频率的至少2倍、10倍、20倍、50倍、100倍、或者1000倍。


40.一种混合物,其特征在于,所述混合物包含:
转化的cfDNA;以及
如权利要求1至39任一项所述的诱饵组。


41.如权利要求40所述的混合物,其特征在于,所述转化的cfDNA包含亚硫酸氢盐转化的cfDNA。


42.如权利要求40所述的混合物,其特征在于,所述转化的cfDNA包含已通过胞嘧啶脱氨酶转化的cfDNA。


43.一种用于扩增一转化的cfDNA样本的方法,其特征在于,所述方法包含:
将转化的无细胞DNA样本与如权利要求1至39任一项所述的诱饵组相接触;以及
通过杂交捕获来扩增所述样本并用于多个基因组区域的一第一集合。


44.一种用于提供关于一癌症的存在或不存在、癌症的一阶段或癌症的一类型的序列信息的方法,其特征在于,所述方法包含:
用一脱氨基剂处理来自一生物样本的无细胞DNA,以产生一无细胞DNA样本,所述无细胞DNA样本包含多个脱氨基核苷酸;
扩增所述无细胞DNA样本,以用于获取多个无细胞DNA分子的信息,其中扩增所述无细胞DNA样本以获取所述多个无细胞DNA分子的信息包含:将所述无细胞DNA与多个探针相接触,所述多个探针被配置成杂交到对应于列表1至列表8的任一个列表中所识别的多个区域的多个无细胞DNA分子;以及
对扩增后的所述多个无细胞DNA分子进行测序,从而获得多个序列读数的一集合,以提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息。


45.如权利要求44所述的方法,其特征在于,所述多个探针包含多个引物,及扩增所述无细胞DNA包含:使用所述多个引物通过PCR扩增所述多个无细胞DNA片段。


46.如权利要求44或45所述的方法,其特征在于,扩增所述无细胞DNA不涉及杂交捕获。


47.如权利要求44所述的方法,其特征在于,所述多个探针被配置为杂交到从所述多个cfDNA分子获得的多个转换片段,所述多个转换片段对应于或衍生自列表1至列表8中任何一个列表中的至少30%、40%、50%、60%、70%、80%、90%或95%的基因组区域。


48.如权利要求44或47所述的方法,其特征在于,所述无细胞DNA样本通过如权利要求43所述的方法扩增,及所述多个探针包含所述多个含有寡核苷酸的探针。


49.如权利要求44至48任一项所述的方法,其特征在于,所述方法进一步包含以下步骤:通过评估多个序列读数的集合来确定一癌症分类,其中所述癌症分类为:
(a)癌症存在或不存在;
(b)癌症的一阶段;或
(c)一种类型的癌症存在或不存在。


50.如权利要求49所述的方法,其特征在于,所述癌症分类是癌症存在或不存在。


51.如权利要求49至50任一项所述的方法,其特征在于,所述确定一癌症分类的步骤包含:
(a)基于多个序列读数的集合生成一测试特征向量;以及
(b)将所述测试特征向量应用于一分类器。


52.如权利要求51所述的方法,其特征在于,所述分类器包含一模型,所述模型通过一训练程序训练,所述训练过程具有来自一个或多个患有癌症的训练对象的多个片段的一癌症集合和来自一个或多个没有癌症的训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。


53.如权利要求51或52所述的方法,其特征在于,所述分类器在接收者操作特性曲线下具有大于0.70、大于0.75、大于0.77、大于0.80、大于0.81、大于0.82或大于0.83的一面积。


54.如权利要求50或51所述的方法,其特征在于,在99%的特异性下,所述分类器具有至少35%、至少40%、至少45%或至少50%的敏感度。


55.如权利要求49所述的方法,其特征在于,所述癌症分类是癌症的一阶段。


56.如权利要求55所述的方法,其特征在于,所述癌症阶段选自阶段I、阶段II、阶段III和阶段IV。


57.如权利要求49所述的方法,其特征在于,所述癌症分类是一种类型的癌症存在或不存在。


58.如权利要求57所述的方法,其特征在于,确定一癌症分类的步骤包含:
(a)基于多个序列读数的集合生成一测试特征向量;以及
(b)将所述测试特征向量应用于一分类器。


59.如权利要求58所述的方法,其特征在于,所述分类器包含一模型,所述模型通过一训练程序训练,所述训练过程具有来自一个或多个患有癌症的训练对象的多个片段的一癌症集合和来自一个或多个没有癌症的训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。


60.如权利要求57至59任一项所述的方法,其特征在于,所述类型的癌症选自由以下组成的群组:头颈癌、肝癌/胆道癌、上消化道癌、胰腺癌/胆囊癌、结直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴肿瘤、黑色素瘤、肉瘤、乳腺癌和子宫癌。


61.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为头颈癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少85%、或至少87%的敏感度。


62.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症是肝癌/胆道癌,及在99.4%特异性下,所述分类器具有至少60%、至少65%、至少70%、或至少73%的敏感度。


63.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为上消化道癌,及在99.4%特异性下,所述分类器具有至少70%、至少75%、至少80%、或至少85%的敏感度。


64.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为胰腺癌或胆囊癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少85%、或至少90%的敏感度。


65.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为结直肠癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、至少95%、或至少98%的敏感度。


66.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为卵巢癌,及在99.4%特异性下,所述分类器具有至少60%、至少70%、至少80%、至少85%、或至少87%的敏感度。


67.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为肺癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、至少95%、或至少97%的敏感度。


68.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为多发性骨髓瘤,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少85%、或至少90%、或至少93%的敏感度。


69.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为淋巴肿瘤,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、或至少95%、或至少98%的敏感度。


70.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为黑色素瘤,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、或至少95%、或98%的敏感度。


71.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为肉瘤,及在99.4%特异性下,所述分类器具有至少35%、至少40%、至少45%、或至少50%的敏感度。


72.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为乳腺癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、或至少95%、或至少98%的敏感度。


73.如权利要求58至60任一项所述的方法,其特征在于,所述类型的癌症为子宫癌,及在99.4%特异性下,所述分类器具有至少70%、至少80%、至少90%、或至少95%、或至少97%的敏感度。


74.如权利要求49至73任一项所述的方法,其特征在于,确定一癌症分类的步骤包含:
(a)基于多个序列读数的集合生成一测试特征向量;以及
(b)将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。


75.如权利要求74的方法,其特征在于,所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于每一个训练对象,基于所述多个低甲基化的训练片段及基于所述多个高甲基化的训练片段产生一训练特征向量;及
(d)利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。


76.如权利要求74所述的方法,其特征在于,所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于在一参考基因组中的多个CpG位点中的每一个:
量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及
基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;
(d)对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;
(e)对于每一个训练对象:
基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及
基于所述多个训练片段的所述排名生成一特征向量;
(f)获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及
(g)利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。


77.如权利要求74至76任一项所述的方法,其特征在于,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。


78.如权利要求74至77任一项所述的方法,其特征在于,所述方法还包含以下步骤:
(a)基于所述模型获得测试样本的一癌症概率;以及
(b)将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。


79.如权利要求78所述的方法,其特征在于,所述方法还包含:对所述对象施用一抗癌剂。


80.一种治疗癌症患者的方法,其特征在于,所述方法包含:
向以如权利要求78所述的方法确定为一癌症对象的一对象施用一抗癌剂。


81.如权利要求80所述的方法,其特征在于,所述抗癌剂是选自以下群组所组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。


82.一种评估一对象是否患有癌症的方法,其特征在于,所述方法包含:
获取所述对象cfDNA;
通过杂交捕获从所述对象分离cfDNA的一部分;
从捕获的cfDNA获得多个序列读数,以确定多个cfDNA片段的甲基化状态;
将一分类器应用于所述多个序列读数;以及
基于所述分类器的应用判断所述对象是否具有癌症;
其中所述分类器在接收者操作特性曲线下具有大于0.70、大于0.75、大于0.77、大于0.80、大于0.81、大于0.82、或大于0.83的一面积。


83.如权利要求82所述的方法,其特征在于,所述方法还包含:在通过杂交捕获从所述对象分离cfDNA的所述部分之前,将cfDNA中的未甲基化的胞嘧啶转化为尿嘧啶。


84.如权利要求82所述的方法,其特征在于,所述方法还包含:在通过杂交捕获从所述对象分离cfDNA的所述部分后,将cfDNA中的未甲基化的胞嘧啶转化为尿嘧啶。


85.如权利要求82至84任一项所述的方法,其特征在于,所述分类器是二进制分类器。


86.如权利要求82至85任一项所述的方法,其特征在于,通过杂交捕获从所述对象分离cfDNA的一部分包含:将所述无细胞DNA与不同的多个含有寡核苷酸的探针的一诱饵组相接触。


87.如权利要求86任一项所述的方法,其特征在于,所述诱饵组是如权利要求1至39任一项所述的诱饵组。


88.一种用于识别在多个癌症样本中相对于多个非癌症样本列表现出差异甲基化的多个基因组区域的方法,其特征在于,所述方法包含:
(a)从多个癌症对象和多个非癌症对象获得转化的cfDNA的多个序列读数;
(b)基于所述多个序列读数,确定多个cfDNA片段:
(i)在多个非癌性样本中具有一p值稀有度低于一阈值;及
(ii)具有至少X个CpG位点,其中至少Y%的CpG位点被甲基化,其中X为至少4、5、6、7、8、9或10,及Y为至少70;
(c)对于一参考基因组中的多个CpG位点中的每一个,计算具有在步骤(b)中识别的一片段的:(1)多个癌症对象的一数量(N癌症);及(2)多个非癌症对象的一数量(N非癌症);
(d)对于所述参考基因组中的所述多个CpG位点中的每一个,基于包含N癌症和N非癌症的标准确定所述CpG位点是否在多个癌症样本中差异甲基化;以及
(e)至少部分地基于在一基因组区域内包含一差异甲基化的CpG位点来识别在癌症中差异甲基化的所述基因组区域。


89.一种用于识别在多个癌症样本中相对于多个非癌症样本列表现出差异甲基化的多个基因组区域的方法,其特征在于,所述方法包含:
(a)从多个癌症对象和多个非癌症对象获得转化的cfDNA的多个序列读数;
(b)基于所述多个序列读数,确定多个cfDNA片段:
(i)具有至少X个CpG位点,其中至少Y%的CpG位点未甲基化,其中X为4、5、6、7、8、9或10及Y为至少70;及
(ii)在多个非癌性样本中具有一p值稀有度低于一阈值;
(c)对于一参考基因组中的多个CpG位点中的每一个,计算具有在步骤(b)中识别的一片段的:(1)多个癌症对象的一数量(N癌症);及(2)多个非癌症对象的一数量(N非癌症);
(d)对于所述参考基因组中的所述多个CpG位点中的每一个,基于包含N癌症和N非癌症的标准确定所述CpG位点是否在多个癌症样本中差异甲基化;以及
(e)至少部分地基于在一基因组区域内包含一差异甲基化的CpG位点来识别在癌症中差异甲基化的所述基因组区域。


90.如权利要求88或89所述的方法,其特征在于,所述CpG位点基于与N癌症正相关及与N非癌症负相关的标准被认为是差异甲基化。


91.如权利要求90所述的方法,其特征在于,当(N癌症+1)/(N癌症+N非癌症+2)大于一阈值时,所述CpG位点被认为是差异甲基化。


92.如权利要求89至91任一项所述的方法,其特征在于,被识别的多个基因组区域中的每一个具有至少X个CpG位点,其中X是4、5或6。


93.如权利要求89至92任一项所述的方法,其特征在于,至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、或至少90%的被识别的区域来自列表1至列表8中的任一个。


94.一种用于开发从癌症与非癌症之间的差异甲基化的多个基因组区域中杂交捕获cfDNA的诱饵组的方法,其特征在于,所述方法包含:
通过比较源自癌症对象中的多个cfDNA片段中的一个或多个参数与源自多个非癌症对象中的多个cfDNA片段中的一个或多个参数,识别基因组的至少1000、至少5000、至少10000、至少25000、或至少30000个差异甲基化的基因组区域;以及
经由电脑模拟,设计多个含有寡核苷酸的探针,所述多个含有寡核苷酸的探针包含长度至少30个碱基的一序列,所述长度至少30个碱基的所述序列(1)与一基因组区域的一序列互补,或(2)与所述基因组区域的所述序列仅通过一个或多个转换而变异生成的一序列互补,其中每个相应的转换发生在所述基因组区域的一胞嘧啶处。


95.如权利要求94所述的方法,其特征在于,所述方法包含:经由电脑模拟,移除具有至少X个脱标靶区域的多个探针,其中X为至少一个。


96.如权利要求95所述的方法,其特征在于,X为至少5、至少10或至少20。


97.如权利要求94至96任一项所述的方法,其特征在于,通过如权利要求88至93任一项所述的方法来识别多个差异甲基化区域。


98.如权利要求94至97任一项所述的方法,其特征在于,所述方法还包含:
合成所述多个含有寡核苷酸的探针,所述多个含有寡核苷酸的探针是经由电脑模拟设计。


99.一种用于选择cfDNA杂交捕获的多个探针的方法,其特征在于,所述方法包含:
识别一第一集合的多个基因组区域,所述第一集合的多个基因组区域为多个癌症对象相对于多个非癌症对象在cfDNA是优先高甲基化的;
识别一第二集合的多个基因组区域,所述第二集合的多个基因组区域为多个癌症对象相对于多个非癌症对象在cfDNA是优先低甲基的;以及
选择对应所述第一集合的多个基因组区域及所述第二集合的多个基因组区域的cfDNA杂交捕获的多个探针,其中所述多个探针包含一第一集合的多个探针及一第二集合的多个探针,所述第一集合的多个探针对应所述第一集合的多个基因组区域的cfDNA杂交捕获,及所述第二集合的多个探针对应所述第二集合的多个基因组区域的cfDNA杂交捕获;
其中所述多个探针包含至少500、至少1000、至少2500、至少5000、至少10000、至少20000个探针子集,其中每个探针子集包含以2倍平铺的方式延伸跨过一基因组区域的多个探针。


100.如权利要求99所述的方法,其特征在于,用于杂交捕获的所述第二集合的多个探针包含以下步骤:选择仅通过一个或多个转换与所述基因组区域中的一序列不同的多个探针,其中每个转换发生在所述基因组区域中对应于一胞嘧啶的一核苷酸处。


101.如权利要求99至100任一项所述的方法,其特征在于,选择用于杂交捕获的多个探针的步骤包含:滤除具有超过多个脱标靶区域的一阈值数量的多个探针。


102.如权利要求99至101任一项所述的方法,其特征在于,每个探针子集包含至少三个探针。


103.如权利要求99至102任一项所述的方法,其特征在于,每个探针的长度为75到200个核苷酸之间、100到150个核苷酸之间、110到130个核苷酸之间、或120个核苷酸。


104.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少不同的500对的多核苷酸探针,其中所述至少500对的探针中的每一对:(i)包含两个不同的探针,配置为通过30个或更多个核苷酸的一重叠序列彼此相重叠,及(ii)被配置为与从所述多个cfDNA分子的处理中获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中相对于多个非癌性训练样本具有一异常甲基化模式。


105.如权利要求104所述的化验板,其特征在于,所述重叠序列包含至少40、50、75或100个核苷酸。


106.如权利要求104至105任一项所述的化验板,所述化验板包含至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对探针。


107.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少1000个多核苷酸探针,其中所述至少1000个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理中获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中相对于多个非癌性训练样本具有一异常甲基化模式。


108.如权利要求104至107任一项所述的化验板,其特征在于,所述多个cfDNA分子的处理包含:将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。


109.如权利要求104至108任一项所述的化验板,其特征在于,所述化验板上的所述多个多核苷酸探针中的每一个与一亲和部分接合。


110.如权利要求109所述的化验板,其特征在于,所述亲和部分为一生物素部分。


111.如权利要求104至110任一项所述的化验板,其特征在于,所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中相对于多个非癌性参考样本是高甲基化或低甲基化。


112.如权利要求104至111任一项所述的化验板,其特征在于,所述化验板上至少80%、85%、90%、92%、95%或98%的探针在多个CpG检测位点上仅具有CpG或仅具有CpA。


113.如权利要求104至112任一项所述的化验板,其特征在于,所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。


114.如权利要求104至113任一项所述的化验板,其特征在于,所述化验板上的所述多个探针中的每一个被设计为少于20、15、10或8个脱靶基因组区域。


115.如权利要求114所述的化验板,其特征在于,所述少于20个脱靶基因组区域使用k-mer接种策略来识别。


116.如权利要求115所述的化验板,其特征在于,所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部对位来识别。


117.如权利要求104至116任一项所述的化验板,其特征在于,所述化验板包含至少1000、2000、2500、5000、10000、12000、15000、20000或25000个探针。


118.如权利要求104至117任一项所述的化验板,其特征在于,所述至少500对探针或所述至少1000个探针同时包含至少20万、40万、60万、80万、100万、200万、400万、或600万个核苷酸。


119.如权利要求104至118任一项所述的化验板,其特征在于,所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。


120.如权利要求104至119任一项所述的化验板,其特征在于,所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。


121.如权利要求104至120任一项所述的化验板,其特征在于,所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。


122.如权利要求104至121任一项所述的化验板,其特征在于,所述多个基因组区域的至少30%是外显子或内含子。


123.如权利要求104至122任一项所述的化验板,其特征在于,所述多个基因组区域的至少15%是外显子。


124.如权利要求104至123任一项所述的化验板,其特征在于,所述多个基因组区域的至少20%是外显子。


125.如权利要求104至124任一项所述的化验板,其特征在于,少于10%的所述多个基因组区域是多个基因间区域。


126.如权利要求104-125任一项所述的化验板,其特征在于,所述一个或多个基因组区域中的每一个选自列表1至列表8中的一个。


127.如权利要求104至126任一项所述的化验板,其特征在于,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自列表1至列表8的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。


128.如权利要求104至127任一项所述的化验板,其特征在于,所述化验板上的多个探针的一整体部一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自列表1至列表8中的至少500、1000、5000、10000或15...

【专利技术属性】
技术研发人员:萨缪尔·S·格罗斯奥利弗·克劳德·维恩塞德梅迪·肖吉约翰·F·博桑阿拉什·詹姆席狄
申请(专利权)人:格里尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1