当前位置: 首页 > 专利查询>格里尔公司专利>正文

鉴定可鉴别或指示癌症病状的甲基化模式制造技术

技术编号:35853465 阅读:13 留言:0更新日期:2022-12-07 10:39
本发明专利技术提供一种鉴定可鉴别或指示一癌症病状的甲基化模式的系统及方法。获得第一数据集及第二数据集。各个数据集包括多个片段甲基化模式,所述多个片段甲基化模式是通过从一第一组受试者或一第二组受试者的核酸进行甲基化测序而测定,且包括在一相应多个CpG位点中的各个CpG位点的甲基化状态。多个受试者中的各个具有一各自癌症病状况的第一状态或第二状态。为各自数据集产生第一区间图及第二区间图,各个数据集包括多个节点,其特征在于一起始甲基化位点、一结束甲基化位点、各个不同片段甲基化模式的表征及多个片段的计数。扫描第一区间图及第二区间图,以在一预定范围的CpG位点内限定满足一或多个选择标准的甲基化模式,从而鉴定可鉴别一癌症病状的甲基化模式。从而鉴定可鉴别一癌症病状的甲基化模式。从而鉴定可鉴别一癌症病状的甲基化模式。

【技术实现步骤摘要】
【国外来华专利技术】鉴定可鉴别或指示癌症病状的甲基化模式
[0001]相关申请交叉引用
[0002]本申请要求于2020年2月28日提交美国临时专利申请案第62/983,443的美国专利申请的优先权,标题为“鉴定可鉴别或指示癌症病状的甲基化模式”,通过引用将其并入本文中。


[0003]本说明书一般涉及使用在生物样本中的甲基化模式来鉴定可鉴别或指示一癌症病状的甲基化模式。

技术介绍

[0004]癌症的早期检测是改善癌症结果的最人道的方式之一。现状治疗

针对实体瘤的手术、化学疗法及放射疗法的组合,或针对液体肿瘤的化学及骨髓移植

具有包括不令人满意的存活率的缺点。治疗往往使患者痛苦,同时提供不令人满意的生存时间。新的免疫疗法亦有缺点。患者必须在重症监护室接受治疗,且往往会产生致命的副作用。当早期发现癌症时,所有此等治疗皆会更有效。
[0005]为了开发更好的治疗方法及癌症诊断方法,已经投入资源来寻找癌症中的单一突变。此种做法已经演变成一种流行的医学努力,称为“精准肿瘤学(precision oncology)”,其中对肿瘤进行测序,以鉴定导致细胞不受控制生长的关键可药化突变(druggable mutation)。例如,由美国国家癌症研究所带头的一项名为“治疗选择的分子分析”(Molecular Analysis for Therapy Choice,MATCH)的临床试验计划于2015年开始。此试验有30多个分支。在此试验中所测试的更常见的肿瘤中,现有药物可解决的“可操作(actionable)”突变最佳在15%的病例中被发现。更令人失望的是,即使将突变与药物进行配对亦无法保证结果

仅有三分之一的匹配患者对治疗有反应,且其中一半的患者反应在六个月内消失。尽管对精准肿瘤学的追求仍在继续,但迄今为止的结果表明,大多数癌症过于复杂,无法使用此种还原论方法来解决。
[0006]事实上,最常见的癌症复杂得多

临床试验中高达95%的抗癌药物未能获得食品及药物管理局的批准。在另外5%的抗癌药物中,许多患者的存活率仅提高数个月,及对于一小部分接受治疗的病例。
[0007]上述缺点再次突显早期检测的必要。然而,目前的筛查测试并不令人满意。监控方法,例如乳房摄影术、结肠镜检查、子宫颈抹片检查(Pap smear)及前列腺特异性抗原(prostate specific antigen,PSA)的测试已经使用数十年,但并非所有的方法皆取得了一致性成功。有些癌症进展如此缓慢,以至于患者更有可能死于其他疾病,而有些危险的肿瘤直到治愈它们为时已晚时才被发现。此外,迄今为止,对于包括肺癌在内的多种癌症亦无令人满意的筛选测试。
[0008]因此,为了开发此种筛选测试,需要定义癌细胞的“生物标志物(biomarker)”。此等几乎可为癌细胞释放的任何物质,例如遗传物质链。美国国家癌症研究所正在支持大型
计划,希望此种生物标志物不仅能提供癌症的最早足迹,亦能帮助将侵袭性肿瘤与非危及生命的肿瘤区分开来。生物分子测序的进步,特别是在核酸样本方面,已经彻底改变细胞及分子生物学领域,并为发现此种生物标志物提供有前途的技术。由于自动化测序系统的发展,因此目前可对全基因组进行测序。
[0009]一种寻找生物标志物的特定方法是使用此种测序来鉴定异常的DNA甲基化模式。DNA甲基化在调节基因表达中扮演重要角色。异常的DNA甲基化与许多疾病过程有关,包括癌症,且已确定甲基化的特定模式与特定的癌症病状有关。参见,例如,琼斯,2002,Oncogene 21:5358

5360;帕斯卡及哈德勒,2015,Biochemia Medica 25(2):161

176,及杜等人,2010,BMC Bioinformatics 11:587,doi:10.1186/1471

2105

11

587,各篇文献在此全部并入本文中参考。此外,甲基化模式可用于对受试者的癌症病状进行分类(例如,癌症的类型、癌症的阶段、癌症的存在或不存在)。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(whole genome bisulfite sequencing,WGBS)进行DNA甲基化分析,逐渐被认为是检测、诊断及/或监控癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式及/或等位基因特异性甲基化模式可用作使用循环游离DNA(cell

free DNA)进行非侵入性诊断的分子标记。参见,例如,沃顿及萨米米,2015,Front Mol Biosci,2(13)doi:10.3389/fmolb.2015.00013。
[0010]虽然新的测序技术使包括甲基化测序的大规模测序成为可能,但使用此等新的测序技术所测序的基因组的数量及复杂性亦相应增加。尽管目前可获得大量的高保真核酸序列,但利用此等序列来获得生物的洞察,并为疾病检测及诊断提供信息仍然存在许多问题。
[0011]鉴于上述背景,本领域需要改进的方法以利用逐渐复杂及大规模的核酸测序数据来鉴定生物标志物。此外,本领域需要改进的方法来使用此种生物标志物,以建模及推断跨越基因组的复杂生物模式及非线性,从而开发用于检测、诊断及/或监控诸如癌症的疾病的测试。

技术实现思路

[0012]本公开通过提供稳健的技术来解决现有技术中所确定的缺点,所述稳健的技术用于使用核酸样本鉴定从一受试者所获得的生物样本中鉴别或指示一癌症病状的多个限定甲基化模式,(所述癌症病状例如,一长度的多个限定甲基化模式,所述长度是满足一或多个选择标准的一预定数量的CpG位点或CpG数量范围)。甲基化数据与全基因组或靶向基因组、测序数据的组合,以及使用包含节点的区间图来表示与特定基因组区域相应的甲基化模式,提供超出先前鉴定方法的额外诊断及分析能力。
[0013]本公开提供用于解决上述鉴别或指示一癌症病状的甲基化模式的问题的技术解决方案(例如,计算机系统、方法及非暂时性计算机可读存储介质)。
[0014]以下呈现本专利技术的概述,以便提供对本专利技术的一些方面的基本理解。此概述不是本专利技术的广泛概述。其不旨在鉴定本专利技术的重要的/关键性要素或描述本专利技术的范围。其唯一的目的是以简化的形式呈现本专利技术的一些概念,作为稍后呈现的更详细描述的前奏。
[0015]本公开的一方面提供一种在具有一或多个处理器以及存储一或多个程式,以供所述一或多个处理器执行的鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法。所述方法包括步骤:获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个
片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法,其特征在于:所述方法包括步骤:(A)获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,及其中所述第一多个片段包括超过1000个片段;(B)获得电子形式的一第二数据集,其中所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,其中所述第一组受试者中的各个受试者具有所述癌症病状的一第一状态,及所述第二组受试者中的各个受试者具有所述癌症病状的一第二状态,以及其中所述第二多个片段包括超过1000个片段;(C)使用所述第一数据集为一或多个相应基因组区域产生一或多个第一状态区间图,其中:在所述一或多个第一状态区间图中的各个第一状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;(D)使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图,其中:在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集中的第二多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;以及(E)为多个限定甲基化模式扫描所述一或多个第一区间图及所述一或多个第二区间图,其中在所述多个限定甲基化模式中的各个限定甲基化模式:(i)具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内,(ii)满足一或多个选择标准,以及
(iii)在一相应初始CpG位点与一相应最终CpG位点之间跨越一相应CpG区间l,从而鉴定可鉴别或指示一癌症病状的多个限定甲基化模式。2.根据权利要求1所述的方法,其特征在于:所述一或多个选择标准规定一甲基化模式:(i)是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值,(ii)是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足一第一状态深度阈值,以及(iii)是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足一第二频率阈值。3.根据权利要求2所述的方法,其特征在于:(i)当在所述一或多个第一区间图中的甲基化模式的频率超过所述第一频率阈值时,所述甲基化模式是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值,(ii)当在所述一或多个第一区间图中的甲基化模式的覆盖率超过所述第一状态深度阈值时,所述甲基化模式是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足所述第一状态深度阈值,及(iii)当在所述一或多个第二区间图中的甲基化模式的频率低于所述第二频率阈值时,所述甲基化模式是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足所述第二频率阈值。4.根据权利要求3所述的方法,其特征在于:所述第一频率阈值是0.2,所述第一状态深度阈值是10,以及所述第二频率阈值是0.001。5.根据权利要求1所述的方法,其特征在于:当表达时,一各自甲基化模式满足所述一或多个选择标准:针对甲基化模式超过3、4、5或6,其中:第二计数=在所述一或多个第二状态区间图中的各自甲基化模式的一计数,以及第二状态深度=所述第二数据集在所述一或多个第二状态区间图中由所述各自甲基化模式所表示的基因组的区域中的一覆盖率。6.根据权利要求1至5中任一项所述的方法,其特征在于:所述方法进一步包括步骤:(F)训练一分类器,以使用甲基化模式信息来鉴别所述癌症病状的一状态,所述甲基化模式信息与在所述第一数据集与所述第二数据集中的所述多个限定甲基化模式相关联。7.根据权利要求6所述的方法,其特征在于:所述分类器是逻辑回归。8.根据权利要求6所述的方法,其特征在于:所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一决策树算法、一多项逻辑回归算法、一线性模型,或一线性回归算法。9.根据权利要求6至8中任一项所述的方法,其特征在于:所述方法进一步包括步骤:
(G)获得电子形式的一第三数据集,其中所述第三数据集包括在一第三多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一测试对象中所获得的一生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态;以及(H)将在所述第三数据集中的第三多个片段中的各个相应片段的片段甲基化模式应用于所述分类器,从而确定在所述测试对象中的癌症病状的状态,所述片段甲基化模式包含或相应于在所述多个限定甲基化模式中的一限定甲基化模式。10.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是一肿瘤分数,所述癌症病状的第一状态是一第一范围的肿瘤分数,以及所述癌症病状的第二状态是一第二范围的肿瘤分数。11.根据权利要求10所述的方法,其特征在于:所述第一范围是大于0.001,及所述第二范围是小于0.001。12.根据权利要求9所述的方法,其特征在于:所述癌症病状的状态是肿瘤分数;以及所述(G)的获得及(H)的应用随着时间的推移而不断重复。13.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是不存在或存在一癌症。14.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是癌症的一个阶段。15.根据权利要求13或14所述的方法,其特征在于:所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病,或其组合。16.根据权利要求9所述的方法,其特征在于:从所述测试对象中所获得的生物样本是一液体生物样本。17.根据权利要求16所述的方法,其特征在于:所述第三多个片段是细胞游离核酸。18.根据权利要求1至17中任一项所述的方法,其特征在于:所述第一多个片段及所述第二多个片段是细胞游离核酸。19.根据权利要求1至18中任一项所述的方法,其特征在于:所述一或多个第一状态区间图是由一单个第一状态区间图所组成;以及所述一或多个第二状态区间图是由一单个第二状态区间图所组成。20.根据权利要求1至18中任一项所述的方法,其特征在于:所述一或多个第一状态区间图是多个第一状态区间图;所述一或多个第二状态区间图是多个第二状态区间图;所述一或多个相应基因组区域是多个基因组区域;以及在所述多个基因组区域中的各自相应基因组区域是由在所述第一多个区间图中的第一状态区间图及在所述第二多个区间图中的第二状态区间图表示。21.根据权利要求20所述的方法,其特征在于:所述多个基因组区域是介于10与30之间。22.根据权利要求20所述的方法,其特征在于:所述多个基因组区域中的各个基因组区
域是不同的人类染色体。23.根据权利要求20所述的方法,其特征在于:所述多个基因组区域是由介于2个与1000个之间的基因组区域、介于500个与5,000个之间的基因组区域、介于1,000个与20,000个之间的基因组区域,或介于5,000个与50,000个之间的基因组区域所组成。24.根据权利要求20所述的方法,其特征在于:所述(A)的获得及(B)的获得的甲基化测序是使用多个探针进行靶向测序,以及在所述多个基因组区域中的各个基因组区域与所述多个探针中的一个探针相关联。25.根据权利要求1至24中任一项所述的方法,其特征在于:在所述一或多个第一区间图中的各自区间图的相应独立的多个节点被设置为代表所述一或多个相应基因组区域中的一相应区域的一相应树,以及在所述各自区间图的相应独立的多个节点中的各自节点代表所述相应基因组区域的一子区域。26.根据权利要求25所述的方法,其特征在于:各个相应树将所述相应独立的多个节点排列成相应多个树叶,其中在所述相应多个树叶中的各个树叶的父节点引用一或多个子节点,所述(E)的扫描产生多个查询,在所述多个查询中的各自相应查询是针对长度为l的不同候选甲基化模式,以及在所述多个查询中的各自相应查询是用于(i)在一相应树的相应独立的多个节点中的各自节点处与所述各自查询执行一自动匹配,(ii)进一步将所述查询传播至所述各自节点的子节点,以进一步将所述各自查询与所述各自节点的子节点进行自动匹配,以及(iii)将各个自动匹配的结果传送至所述各自节点的父节点。27.根据权利要求26所述的方法,其特征在于:所述树是具有一随机表面积启发式的k维树的一维版本,其中k是2或更大的正整数。28.根据权利要求26所述的方法,其特征在于:长度l的各个可能的甲基化模式是由多个查询进行采样。29.根据权利要求28所述的方法,其特征在于:l是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个CpG位点。30.根据权利要求1至29中任一项所述的方法,其特征在于:所述CpG位点数量范围是l个连续的CpG位点。31.根据权利要求30所述的方法,其特征在于:l是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续的CpG位点。32.根据权利要求1所述的方法,其特征在于:所述预定的CpG数量范围是在一人类参考基因组中2至100个连续的CpG位点。33.根据权利要求1至32中任一项所述的方法,其特征在于:来自所述第一组受试者中的相应受试者的各自生物样本的甲基化测序会产生十亿或更多、二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多片段,此等片段被评估为包含在所述第一数据集中的甲基化模式。34.根据权利要求1至32中任一项所述的方法,其特征在于:来自所述第一组受试者中的相应受试者的各自生物样本的甲基化测序会产生少于十亿个片段或少于10,000个片段,
此等片段被评估为包含在所述第一数据集中的甲基化模式。35.根据权利要求1至34中任一项所述的方法,其特征在于:跨越所述一或多个相应基因组区域存在超过10,000个CpG位点、超过25,000个CpG位点、超过50,000个CpG位点,或超过80,000个CpG位点。36.根据权利要求1至34中任一项所述的方法,其特征在于:跨越所述一或多个相应基因组区域存在少于10,000个CpG位点、少于25,000个CpG位点、少于50,000个CpG位点,或少于80,000个CpG位点。37.根据权利要求1至36中任一项所述的方法,其特征在于:通过一各自片段的甲基化测序所获得的一相应多个序列读数的平均序列读数长度是介于140与280个核苷酸之间。38.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表介于500个碱基对与10,000个碱基对之间的一人类基因组参考序列。39.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的介于500个碱基对与2,000个碱基对之间的碱基对。40.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的不同部分。41.根据权利要求1至40中任一项所述的方法,其特征在于:在所述相应多个CpG位点中的一个CpG位点的甲基化状态为:当所述CpG位点通过所述甲基化测序而被确定为甲基化时,所述甲...

【专利技术属性】
技术研发人员:科林
申请(专利权)人:格里尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1