当前位置: 首页 > 专利查询>格里尔公司专利>正文

使用甲基化变体的肿瘤分数估计制造技术

技术编号:42893653 阅读:20 留言:0更新日期:2024-09-30 15:12
公开了一种用于从受试者的DNA样本生成肿瘤分数估计的计算机实现的方法。所述方法可包括接收来自受试者的样本的甲基化序列读段的数据集。所述方法还可包括将数据集划分成多个变体。所述方法还可包括确定多个变体的甲基化状态。所述方法还可包括基于参考序列读段库来过滤多个变体以生成过滤的变体子集。所述库可包括从参考个体的多个组织的非癌症样本和活检样本生成的读段。确定过滤的子集中变体的甲基化状态的计数,并输入到基于参考序列读段中变体的重现率而训练的模型中。肿瘤分数估计可由所述模型生成。

【技术实现步骤摘要】
【国外来华专利技术】

本公开整体涉及经由用于从核酸样本预测肿瘤分数的计算模型进行早期癌症检测。


技术介绍

1、癌症是世界范围内主要的死亡原因。由于癌症通常在晚期才被发现,限制了治疗方案对长期生存的功效,从而增加了癌症的致死率。目前的检测方法通常是癌症类型特异性的,即对每种癌症类型进行单独筛查。每个单独的筛查过程都是针对癌症类型量身定制的。例如,乳房x射线照相术扫描用于乳腺癌检测,而结肠镜检查或粪便测试有助于结肠直肠癌检测。每种不同的筛查方法通常不能交叉应用于其他癌症类型。此外,目前的筛查方法受到低检测率或高假阳性率的阻碍。低检测率通常无法检测出早期癌症,因为癌症刚刚发展。高阳性率将未患癌症的个体误诊为癌症状态阳性。因此,大多数筛查测试仅在它们用于测试具有发展所筛查的癌症的高风险的个体时是实用的,并且它们在普通人群中检测癌症的能力有限。

2、新的研究涉及许多疾病过程(包括癌症)中异常的dna甲基化。dna甲基化在调节基因表达中起作用。因此,异常的dna甲基化可能在正常基因表达途径中产生问题,从而导致癌症或其他疾病。例如,差异甲基化区域的特定模式可用作各种疾病状态的分子本文档来自技高网...

【技术保护点】

1.一种用于从受试者的无细胞脱氧核糖核酸(cfDNA)样本生成肿瘤分数估计的计算机实现的方法,其特征在于:所述计算机实现的方法包括:

2.根据权利要求1所述的计算机实现的方法,其特征在于:所述多个变体的所述重现率是基于所述库中的所述参考序列读段来确定的。

3.根据权利要求1至2中任一项所述的计算机实现的方法,其特征在于:基于参考序列读段来过滤所述多个变体以生成所述过滤的变体子集包括过滤出在所述非癌症样本中的存在率超过阈值的一个或多个变体。

4.根据权利要求1至3中任一项所述的计算机实现的方法,其特征在于:特定变体的特定重现率对应于在所述库中的所述参考序...

【技术特征摘要】
【国外来华专利技术】

1.一种用于从受试者的无细胞脱氧核糖核酸(cfdna)样本生成肿瘤分数估计的计算机实现的方法,其特征在于:所述计算机实现的方法包括:

2.根据权利要求1所述的计算机实现的方法,其特征在于:所述多个变体的所述重现率是基于所述库中的所述参考序列读段来确定的。

3.根据权利要求1至2中任一项所述的计算机实现的方法,其特征在于:基于参考序列读段来过滤所述多个变体以生成所述过滤的变体子集包括过滤出在所述非癌症样本中的存在率超过阈值的一个或多个变体。

4.根据权利要求1至3中任一项所述的计算机实现的方法,其特征在于:特定变体的特定重现率对应于在所述库中的所述参考序列读段中观察到所述特定变体的比率。

5.根据权利要求1至4中任一项所述的计算机实现的方法,其特征在于:所述肿瘤分数预测是所述cfdna样本中肿瘤来源的片段的分数的概率分布。

6.根据权利要求1至5中任一项所述的计算机实现的方法,其特征在于:所述肿瘤分数预测是所述cfdna样本中肿瘤来源的片段的分数。

7.根据权利要求1至6中任一项所述的计算机实现的方法,其特征在于:所述模型包括至少一个概率模型,所述概率模型包括针对特定变体的泊松分布,并且通过所述特定变体的所述重现率对所述泊松分布进行加权。

8.根据权利要求1至7中任一项所述的计算机实现的方法,其特征在于:所述模型包括多个概率分布,每个概率分布对应于特定变体并且基于所述特定变体的位点特异性噪声率和所述特定变体的每位点测序深度而参数化。

9.根据权利要求8所述的计算机实现的方法,其特征在于:对应于特定变体的每个概率分布基于以下中的至少一者而被进一步参数化:所述cfdna样本的深度、所述cfdna样本的靶向组下拉效率和所述cfdna样本的估计肿瘤分数。

10.根据权利要求1至9中任一项所述的计算机实现的方法,其特征在于:所述过滤的子集的每个变体的计数包括所述cfdna样本的甲基化序列读段的计数,所述甲基化序列读段包括在所述变体的所述一个或多个cpg位点上的所述甲基化模式。

11.根据权利要求1至10中任一项所述的计算机实现的方法,其特征在于:包含多个连续cpg位点的特定变体由一系列二进制值编码,所述系列对应于所述连续cpg位点,观察到在特定cpg位点处的第一二进制值表示甲基化,并且观察到在所述特定cpg位点处的第二二进制值表示未甲基化。

12.根据权利要求1至11中任一项所述的计算机实现的方法,其特征在于:所述肿瘤分数预测包括组织子集的多个分数。

13.根据权利要求12所述的计算机实现的方法,其特征在于:每个分数表示来源于所述组织子集的每个组织的所述cfdna样本的片段的百分比。

14.根据权利要求12至13中任一项所述的计算机实现的方法,其特征在于:所述模型是假设所述过滤的集合中的所述变体之间的独立性的二项混合模型。

15.根据权利要求14所述的计算机实现的方法,其特征在于:所述模型包括多个甲基化子模型,每个甲基化子模型与所述过滤的集合中的变体相关联,并且通过所述组织子集中的所述变体的重现率和估计肿瘤分数而参数化,其中每个甲基化子模型被配置为基于甲基化序列读段的所述计数来计算观察到甲基化序列读段的所述计数的似然性。

16.根据权利要求15所述的计算机实现的方法,其特征在于:所述模型包括甲基化子模型的加权和,所述甲基化子模型列举针对所述变体开启或关闭的所述子集中的组织的所有可能性,每个甲基化子模型包括表示所述可能性的似然性并由开启的所述组织的所述重现率参数化的权重。

17.根据权利要求15至16中任一项所述的计算机实现的方法,其特征在于:每个甲基化子模型是泊松分布。

18.根据权利要求15至17中任一项所述的计算机实现的方法,其特征在于:所述模型通过鉴定由所述甲基化子模型计算的具有最大似然的估计肿瘤分数来生成肿瘤分数预测。

19.根据权利要求18所述的计算机实现的方法,其特征在于:经由网格搜索来确定所述最大似然。

20.根据权利要求15至19中任一项所述的计算机实现的方法,其特征在于:针对多个组织选择所述组织子集。

21.根据权利要求20所述的计算机实现的方法,其特征在于:所述模型通过鉴定由所述甲基化子模型计算的跨两个或更多个组织子集的具有最大似然的估计肿瘤分数来生成所述肿瘤分数预测,其中每个组织子集是选自来自其他组织子集的多个组织的不同组织组合。

22.根据权利要求21所述的计算机实现的方法,其特征在于:所述组织子集具有一种大小。

23.根据权利要求22所述的计算机实现的方法,其特征在于:所述组织子集的大小选自:2、3或4。

24.根据权利要求20至23中任一项所述的计算机实现的方法,其特征在于:所述模型包括癌症分类器,所述癌症分类器生成对所述片段所源自的一个或多个组织的预测,其中所述组织...

【专利技术属性】
技术研发人员:科林·梅尔顿阿卡纳·S·雪诺伊约格·布登诺奥利弗·克劳德·维恩康斯坦丁·达维多夫马修·H·拉森
申请(专利权)人:格里尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1