异常的片段检测及分类制造技术

技术编号：26483356 阅读：23 留言：0更新日期：2020-11-25 19:30

本发明专利技术公开一分析系统，其建立一数据结构，所述数据结构对来自一健康对照组的甲基化载体的字符串进行计数。所述分析系统列举来自一受试者的一样品片段给定甲基化状态载体的可能性，并使用马尔可夫链概率计算所有可能性的概率。所述分析系统通过将计算出的概率相加而获得针对受试者的测试甲基化状态载体的p值分数，所述概率小于或等于与测试甲基化状态载体相匹配可能性的经计算的概率。倘若p值分数低于一阈值分数，则分析系统确定相较于健康对照组，测试甲基化状态载体是异常的甲基化。利用多个此等样品片段，分析系统可基于各个p值分数以过滤样品片段。分析系统可在过滤后的集合上运行一分类模型，以预测受试者是否罹患癌症。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】异常的片段检测及分类
技术介绍

：DNA甲基化在调节基因表达中扮演一重要的角色。异常的DNA甲基化与许多疾病过程有关，包括癌症。使用甲基化定序(例如，全基因组亚硫酸氢盐定序(WGBS))的DNA甲基化谱图被日益被认为是用于检测、诊断及/或监测癌症的一有价值的诊断工具。例如，差异甲基化区域的特异模式及/或等位基因特异甲基化模式可作为使用循环细胞游离DNA的非侵入性诊断的分子标记。然而，本领域仍需要用于分析来自细胞游离DNA的甲基化定序资料以检测、诊断及/或监测诸如癌症的疾病的改良方法。
技术实现思路
在受试者中及早发现癌症是重要的，由于其给予较早的治疗，而因此有更大的存活机会。细胞游离DNA(cfDNA)片段的定序以及在片段中胞嘧啶及鸟嘌呤的各种二核苷酸(称为CpG位点)的甲基化状态分析可协助了解受试者是否罹患癌症。为此，此描述包括用于分析cfDNA片段的CpG位点的甲基化状态的方法。具体地，本公开提供一种识别具有或可能具有一异常的甲基化模式的一cfDNA片段的方法。在未罹患癌症的个体中，高频率出现的片段未必能产生用于区分癌症状态的高度识别特征。因此，相对于来自一健康样品(例如，未罹患癌症的一受试者)的cfDNA片段而言，具有一异常的甲基化模式的识别对于cfDNA片段的选择是重要的，所述cfDNA片段可表明检测具有低干扰的癌症特异性甲基化模式。在低干扰区域中，可选择衍生自基因组区域的cfDNA片段，其在识别一癌症患者及一健康受试者，或者具有其他健康状况的受试者是最有用的。一癌症患者与一健康受试者之间的可使...

【技术保护点】
1.一种检测在一细胞游离脱氧核糖核酸(cfDNA)样品片段中一异常的甲基化模式的方法，其特征在于：所述方法包括步骤：/n存取一数据结构，所述数据结构包括：在一参考基因组内的多个CpG位点的字符串的计数，以及来自一训练片段集的所述多个CpG位点个别的甲基化状态；/n产生用于一样品片段的一样品状态载体，所述样品状态载体包括：在所述参考基因组内的一样品基因组位置及在所述样品片段中的各个CpG位点的一甲基化状态，各个甲基化状态被确定为经甲基化或未经甲基化；/n自所述样品基因组位置列举与所述样品状态载体的长度相同的多个甲基化状态的多个可能性；/n针对各种可能性，通过存取存储在所述数据结构中的多个计数以计算一概率；/n确定与所述样品状态载体相匹配的所述可能性，并相应地将所述经计算的概率作为一样品概率；/n基于所述样品概率，相对于所述训练片段集，针对所述样品状态载体的所述样品片段产生一分数；以及/n基于所述产生的分数，确定所述样品片段是否具有一异常的甲基化模式。/n

【技术特征摘要】
【国外来华专利技术】20180313 US 62/642,4801.一种检测在一细胞游离脱氧核糖核酸(cfDNA)样品片段中一异常的甲基化模式的方法，其特征在于：所述方法包括步骤：
存取一数据结构，所述数据结构包括：在一参考基因组内的多个CpG位点的字符串的计数，以及来自一训练片段集的所述多个CpG位点个别的甲基化状态；
产生用于一样品片段的一样品状态载体，所述样品状态载体包括：在所述参考基因组内的一样品基因组位置及在所述样品片段中的各个CpG位点的一甲基化状态，各个甲基化状态被确定为经甲基化或未经甲基化；
自所述样品基因组位置列举与所述样品状态载体的长度相同的多个甲基化状态的多个可能性；
针对各种可能性，通过存取存储在所述数据结构中的多个计数以计算一概率；
确定与所述样品状态载体相匹配的所述可能性，并相应地将所述经计算的概率作为一样品概率；
基于所述样品概率，相对于所述训练片段集，针对所述样品状态载体的所述样品片段产生一分数；以及
基于所述产生的分数，确定所述样品片段是否具有一异常的甲基化模式。

2.如权利要求1所述的方法，其特征在于：所述各个CpG位点的字符串包括：在所述参考基因组内的多个基因组位置处的各个所述CpG位点的所述甲基化状态，其中各个所述甲基化状态被确定为经甲基化或未经甲基化。

3.如权利要求1所述的方法，其特征在于：所述方法进一步包括：自所述训练片段集构建所述数据结构，且包括：
针对在所述训练片段集中的各个训练片段，产生一训练状态载体，所述训练状态载体包括：在所述参考基因组内的一已知的基因组位置及在所述训练片段中的各个CpG位点的所述甲基化状态，各个甲基化状态被确定为经甲基化或未经甲基化；
确定多个字符串，其中各个字符串是所述训练状态载体的一部分，
自所述多个训练状态载体确定各个字符串的一计数；以及
在所述数据结构中为各个字符串存储多个计数。

4.如权利要求1所述的方法，其特征在于：在基于所述产生的分数确定所述样品片段是否具有一异常的甲基化模式的步骤进一步包括：确定针对所述样品片段所产生的分数是否低于一阈值分数，其中所述阈值分数表明所述样品片段具有一异常的甲基化模式的一信任程度。

5.如权利要求4所述的方法，其特征在于：所述阈值分数是0.1或更小。

6.如权利要求1所述的方法，其特征在于：所述训练片段集包括：来自一个或多个健康受试者的训练片段，其中所述一个或多个健康受试者缺乏一特定的医学疾病，且其中相对于来自所述一个或多个健康受试者的所述训练片段集，所述样品片段被确定为一异常的甲基化。

7.如权利要求1所述的方法，其特征在于：针对所述样品片段产生所述分数包括：
针对多个甲基化状态的可能性，识别小于所述样品概率的的经计算的概率；以及
通过将所有所述经识别的概率与所述样品概率相加，以产生所述样品片段的所述分数。

8.如权利要求1的方法，其特征在于：在针对各种所述可能性，通过存取存储在所述数据结构中的多个计数以计算一概率的步骤包括：
针对多个条件元素中的各个条件元素，其中各个条件元素是一条件概率，所述条件概率考量在所述可能性中CpG位点的一子集，通过以下步骤计算一次序的一马尔可夫链概率，所述次序的所述马尔可夫链概率具有存储在所述数据结构中的多个计数，所述步骤包括：
识别与所述条件元素相匹配的字符串的数量的一第一计数；
在整数长度上，识别与所述条件元素的先前甲基化状态相匹配的字符串的数量的一第二计数；以及
通过将所述第一计数除以所述第二个计数，以计算所述马尔可夫链概率。

9.如权利要求8所述的方法，其特征在于：所述次序是选自由1、2、3、4、5、6、7、8、9、10、11、12、13、14及15所组成的群组。

10.如权利要求8所述的方法，其特征在于：在计算一次序的一马尔可夫链概率，所述次序的所述马尔可夫链概率具有存储在所述数据结构中的多个计数的步骤进一步包括：实现一平滑算法。

11.如权利要求1所述的方法，其特征在于：所述样品载体被划分为多个窗口，所述多个窗口包括一第一窗口及一第二窗口，其中所述第一窗口及所述第二窗口是所述样品片段的两个不同的部分；其中确定与所述样品状态载体相匹配的可能性并相应地将所述经计算的概率作为所述样品概率的步骤包括：以匹配所述第一窗口的一第一样品概率识别一第一可能性，及以匹配所述第二窗口的一第二样品概率识别所述第二可能性；且其中所述所产生的分数是基于所述第一样品概率及所述第二样品概率中的一者。

12.如权利要求1所述的方法，其特征在于：所述方法进一步包括：基于针对各个样品片段所产生的分数过滤多个样品片段，从而导致多个样品片段的一子集具有多个异常的甲基化模式。

13.如权利要求1所述的方法，其特征在于：所述方法进一步包括：当所述样品片段包括多个CpG位点的至少一阈值数目且所述多个CpG位点具有超过一阈值百分比被甲基化时，将所述样品片段识别为经高甲基化。

14.如权利要求13所述的方法，其特征在于：多个CpG位点的所述阈值数目是5个或更多个CpG位点，且其中经甲基化的多个CpG位点的所述阈值百分比是80％或更大。

15.如权利要求1所述的方法，其特征在于：所述方法进一步包括：当所述样品片段包括多个CpG位点的至少一阈值数目且所述多个CpG位点具有超过一阈值百分比未被甲基化时，将所述样品片段识别为经低甲基化。

16.如权利要求15所述的方法，其特征在于：多个CpG位点的所述阈值数目是5个或更多个CpG位点，且其中未经甲基化的多个CpG位点的所述阈值百分比是80％或更大。

17.如权利要求1所述的方法，其特征在于：所述方法进一步包括：将所述样品状态载体应用于一分类器，所述分类器使用来自一个或多个罹患癌症的受试者的一癌症训练片段集以及来自一个或多个未罹患癌症的受试者的一非癌症训练片段集以进行训练，其中所述分类器可用于确定所述样品片段是否来自于罹患癌症的一受试者。

18.如权利要求17所述的方法，其特征在于：将所述样品状态载体应用于所述分类器产生一癌症概率以及一非癌症概率中的至少一者。

19.如权利要求18所述的方法，其特征在于：所述方法进一步包括：基于所述癌症概率以及所述非癌症概率中的至少一者，以产生一癌症状态评分。

20.一种确定一测试对象是否罹患癌症的方法，其特征在于：所述方法包括：步骤：
存取通过一训练过程所获得的一模型，所述训练过程使用来自一个或多个罹患癌症的训练受试者的一癌症片段集以及来自一个或多个未罹患癌症的训练受试者的一非癌症片段集，其中所述癌症片段集及所述非癌症片段集二者皆包括多个训练片段，其中所述训练过程包括：
针对各个训练片段，确定所述训练片段是经低甲基化或经高甲基化，其中各个经低甲基化及经高甲基化的训练片段分别包括多个CpG位点的至少一阈值数目，且所述多个CpG位点的至少一阈值百分比是未经甲基化或经甲基化，
针对在一参考基因组中的各个CpG位点：
将与所述CpG位点重叠的多个经低甲基化训练片段的一计数及与所述CpG位点重叠的多个经高甲基化训练片段的一计数进行量化；及
基于多个低甲基化训练片段及多个高甲基化训练片段的所述计数产生一低甲基化分数以及一高甲基化分数；
针对各个训练片段，基于在所述训练片段中的所述多个CpG位点的所述低甲基化分数产生一合计的低甲基化分数，及基于在所述训练片段中的所述多个CpG位点的所述高甲基化分数产生一合计的高甲基化分数；
针对各个训练受试者：
基于合计的低甲基化分数将多个训练片段进行排名，及基于合计的高甲基化分数将多个训练片段进行排名；及
基于所述多个训练片段的所述排名产生一特征载体；
针对一个或多个未罹患癌症的训练受试者获得多个训练特征载体，及针对一个或多个罹患癌症的训练受试者获得多个训练特征载体；及
使用针对所述一个或多个未罹患癌症的训练受试者的所述多个特征载体及针对所述一个或多个罹患癌症的训练受试者的所述多个特征载体，来训练所述模型；以及
将所述模型应用于与所述测试对象相对应的一测试特征载体，以确定所述测试对象是否罹患癌症。

21.如权利要求20所述的方法，其特征在于：所述阈值数目是5或更大。

22.如权利要求20所述的方法，其特征在于：所述阈值百分比是80％或更大。

23.如权利要求20所述的方法，其特征在于：针对在一参考基因组中的各个CpG位点，将与所述CpG位点重叠的多个低甲基化训练片段的一计数及与所述CpG位点重叠的多个高甲基化训练片段的一计数进行量化的步骤进一步包括：
将来自所述一个或多个与所述CpG位点重叠的罹患癌症的训练受试者的多个低甲基化训练片段的一癌症计数及来自所述一个或多个与所述CpG位点重叠的未罹患癌症的训练受试者的多个低甲基化训练片段的一非癌症计数进行量化；以及
将来自所述一个或多个与所述CpG位点重叠的罹患癌症的训练受试者的多个高甲基化训练片段的一癌症计数及来自所述一个或多个与所述CpG位点重叠的未罹患癌症的训练受试者的多个高甲基化训练片段的一非癌症计数进行量化。

24.如权利要求23所述的方法，其特征在于：针对在一参考基因组中的各个CpG位点，基于多个低甲基化训练片段及多个高甲基化训练片段的所述计数产生一低甲基化分数及一高甲基化分数的步骤进一部包括：
针对产生所述低甲基化分数，计算一低甲基化比率，所述低甲基化比率是多个低甲基化训练片段的所述癌症计数相比于多个低甲基化训练片段的所述癌症计数及多个低甲基化训练片段的所述非癌计数相加的一低甲基化总和而得到的比率；以及
针对产生所述高甲基化分数，计算一高甲基化比率，所述高甲基化比率是多个高甲基化训练片段的所述癌症计数相比于多个高甲基化训练片段的所述癌症计数及多个高甲基化训练片段的所述非癌计数相加的一高甲基化总和而得到的比率。

25.如权利要求24所述的方法，其特征在于：所述低甲基化比率及所述高甲基化比率进一步使用一平滑算法进行计算。

26.如权利要求23所述的方法，其特征在于：针对在一参考基因组中的各个CpG位点，基于多个低甲基化训练片段及多个高甲基化训练片段的所述计数产生一低甲基化分数及一高甲基化分数的步骤进一步包括：
针对产生所述低甲基化分数，计算一低甲基化对数比，所述低甲基化对数比是多个低甲基化训练片段的所述癌症计数与多个低甲基化训练片段的所述非癌症计数的对数比；以及
针对产生所述高甲基化分数，计算一高甲基化对数比，所述高甲基化对数比是多个高甲基化训练片段的所述癌症计数与多个高甲基化训练片段的所述非癌症计数的对数比。

27.如权利要求26所述的方法，其特征在于：所述低甲基化比率及高甲基化比率进一步使用一平滑算法进行计算。

28.如权利要求27所述的方法，其特征在于：针对各个训练片段，基于在所述训练片段中的所述多个CpG位点的所述低甲基化分数产生一合计的低甲基化分数，及基于在所述训练片段中的所述多个CpG位点的所述高甲基化分数产生一合计的高甲基化分数的步骤进一部包括：将在所述训练片段中的所述多个CpG位点的一最大低甲基化分数识别为所述合计的低甲基化分数，以及将在所述训练片段中的所述多个CpG位点的一最大高甲基化分数识别为所述合计的高甲基化分数。

29.如权利要求20所述的方法，其特征在于：针对各个训练受试者，基于所述多个训练片段的所述排名产生一训练特征载体的步骤进一步包括：自所述排名中识别多个合计的低甲基化分数，及自所述排名中识别多个合计的高甲基化分数，并产生一训练特征载体，所述训练特征载体包括所述多个合计的低甲基化分数及所述多个高甲基化分数。

30.如权利要求20所述的方法，其特征在于：使用针对所述一个或多个未罹患癌症的训练受试者的所述多个训练特征载体及针对所所述一个或多个罹患癌症的训练受试者的所述多个训练特征载体来训练所述模型的步骤是通过一非线性分类器进行训练。

31.如权利要求20所述的方法，其特征在于：所述方法进一步包括步骤：针对各个训练受试者，通过所述训练受试者的多个训练片段的一平均长度，将所述训练特征载体进行归一化。

32.如权利要求20所述的方法，其特征在于：所述方法进一步包括步骤：获得与所述测试对象相对应的所述测试特征载体，其中，获得所述测试特征载体的步骤包括：
自所述测试对象获得一测试片段集的多个序列读数；
针对各个测试片段，确定所述测试片段是否为经低甲基化或经高甲基化，其中各个所述经低甲基化及经高甲基化的多个测试片段分别包括多个CpG位点的至少一阈值数目，且所述多个CpG位点的至少一阈值百分比是未经甲基化或经甲基化，
针对在一参考基因组中的各个CpG位点：
将与所述CpG位点重叠的多个经低甲基化测试片段的一计数及与所述CpG位点重叠的多个经高甲基化测试片段的一计数进行量化；及
基于多个低甲基化测试片段及多个高甲基化测试片段的所述计数产生一低甲基化分数以及一高甲基化分数；
针对各个测试片段，基于在所述测试片段中的所述多个CpG位点的所述低甲基化分数产生一合计的低甲基化分数，及基于在所述测试片段中的所述多个CpG位点的所述高甲基化分数产生一合计的高甲基化分数；
针对所述测试对象，基于合计的低甲基化分数将多个测试片段进行排名，及基于合计的高甲基化分数将多个测试片段进行排名；以及
基于所述多个测试片段的所述排名，产生所述测试特征载体。

33.如权利要求20所述的方法，其特征在于：将所述模型应用于与所述测试对象的所述测试特征载体，以确定所述测试对象是否罹患癌症的步骤包括：
基于所述模型为所述测试对象产生一癌症概率；以及
将所述癌症概率与一阈值概率进行比较，以确定所述测试对象是否罹患癌症。

34.如权利要求20所述的方法，其特征在于：所述诊断模型包括：一核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络及一自动编码器模型中的一者。

35.一种确定一测试对象是否罹患癌症的方法，其特征在于：所述方法包括步骤：
存取通过一训练过程所获得的一模型，所述训练过程使用来自一个或多个罹患癌症的训练受试者的一癌症训练片段集以及来自一个或多个未罹患癌症的训练受试者的一非癌症训练片段集，其中所述癌症训练片段集及所述非癌症训练片段集二者皆包括多个训练片段，其中所述训练过程包括：
针对各个训练片段，确定所述训练片段是经低甲基化或经高甲基化，其中各个所述经低甲基化及经高甲基化的训练片段分别包括多个CpG位点的至少一阈值数目，且所述多个CpG位点的至少一阈值百分比是未经甲基化或经甲基化，
针对各个训练受试者，基于所述多个低甲基化训练片段及所述多个高甲基化训练片段产生一训练特征载；及
使用来自所述一个或多个未罹患癌症的训练受试者的所述多个训练特征载体及来自所述一个或多个罹患癌症的训练受试者的所述多个特征载体，来训练所述模型；以及
将所述模型应用于与所述测试对象相对应的一测试特征载体，以确定所述测试对象是否罹患癌症。

36.如权利要求35所述的方法，其特征在于：针对各个训练受试者，产生所述训练特征载体的步骤包括：
针对在一参考基因组中的各个CpG位点：
将与所述CpG位点重叠的多个低甲基化训练片段的一计数及与所述CpG位点重叠的多个高甲基化训练片段的一计数进行量化；及
基于多个低甲基化训练片段及多个高甲基化训练片段的所述计数产生一低甲基化分数以及一高甲基化分数；
针对所述训练受试者的各个训练片段，基于在所述训练片段中的所述多个CpG位点的所述低甲基化分数产生一合计的低甲基化分数，及基于在所述训练片段中的所述多个CpG位点的所述高甲基化分数产生一合计的高甲基化分数；以及
基于合计的低甲基化分数将所述训练受试者的多个训练片段进行排名，及基于合计的高甲基化分数将所述训练受试者的多个训练片段进行排名，其中针对所述训练受试者的所述训练特征载体是基于合计的低甲基化分数的所述排名及基于合计的高甲基化分数的所述排名。

37.如权利要求35所述的方法，其特征在于：所述方法进一步包括步骤：获得与所述测试对象相对应的所述测试特征载体，其中获得所述测试特征载体的步骤包括：
自所述测试对象获得一测试片段集的多个序列读数；
针对各个测试片段，确定所述测试片段是否为经低甲基化或经高甲基化，其中各个所述经低甲基化及经高甲基化的多个测试片段分别包括多个CpG位点的至少一阈值数目，且所述多个CpG位点的至少一阈值百分比是未经甲基化或经甲基化，
针对在一参考基因组中的各个CpG位点：
将与所述CpG位点重叠的多个经低甲基化测试片段的一计数及与所述CpG位点重叠的多个经高甲基化测试片段的一计数进行量化；及
基于多个低甲基化测试片段及多个高甲基化测试片段的所述计数产生一低甲基化分数以及一高甲基化分数；
针对各个测试片段，基于在所述测试片段中的所述多个CpG位点的所述低甲基化分数产生一合计的低甲基化分数，及基于在所述测试片段中的所述多个CpG位点的所述高甲基化分数产生一合计的高甲基化分数；
针对所述测试对象，基于合计的低甲基化分数将多个测试片段进行排名，及基于合计的高甲基化分数将多个测试片段进行排名；以及
基于所述多个测试片段的所述排名产生所述测试特征载体。

38.如权利要求37所述的方法，其特征在于：将所述模型应用于与所述测试对象的所述测试特征载体，以确定所述测试对象是否罹患癌症的步骤包括：
基于所述模型，为所述测试对象产生一癌症概率；以及
将所述癌症概率与一阈值概率进行比较，以确定所述测试对象是否罹患癌症。

39.如权利要求35所述的方法，其特征在于：所述诊断模型包括：一核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络及一自动编码器模型中的一者。

40.一种用于预测来自一疑似罹患癌症的测试对象的一测试片段是否具有一异常的甲基化模式的方法，其特征在于：所述方法包括步骤：
存取一数据结构，所述数据结构包括：在一参考基因组内的多个CpG位点的字符串的计数，以及来自一训练片段集的所述多个CpG位点个别的甲基化状态；
产生用于一测试片段的一测试状态载体，其中所述测试状态载体包括：在所述参考基因组内的一测试测试基因组位置及在所述测试片段中的各个CpG位点的一甲基化状态，其中各个甲基化状态被确定为经甲基化、未经甲基化中的一者，及不确定；
基于在所述数据结构中所存储的所述多个计数，针对所述测试状态载体计算一测试概率；
自所述测试基因组位置采样与所述测试状态载体的长度相同的一可能的甲基化状态载体子集；
对于各个所述多个经采样的可能的甲基化状态载体，至少部分地基于存储在所述数据结构中的所述多个计数，计算与所述经采样的可能的甲基化状态载体相对应的一概率；
计算所述多个经采样的可能的甲基化状态载体的一比例，其与小于或等于所述测试概率的一经计算的概率相对应；
基于所述经计算的比例，产生所述测试片段的一估计分数；以及
基于所述估计分数，确定所述测试片段是否可能具有一异常的甲基化模式。

41.如权利要求40所述的方法，其特征在于：所述方法进一步包括：
通过将所述估计分数与一阈值分数进行比较以过滤所述测试片段，选择所述阈值分数，以使与低于所述阈值分数的一估计分数相关的多个测试片段更可能包括一异常的甲基化模式。

42.如权利要求41所述的方法，其特征在于：所述方法进一步包括：
响应于确定所述测试片段可能具有一异常的甲基化模式，相对于所述多个训练片段集，计算所述测试状态载体的所述测试片段的一穷举分数，其中，所述穷举分数是基于所述测试概率及所述多个可能的甲基化状态载体的所述多个概率；以及
基于所述穷举分数确定所述测试片段是否具有一异常的甲基化模式。

43.如权利要求40所述的方法，其特征在于：所述方法进一步包括：
将一分类器应用于所述测试状态载体，利用来自一个或多个罹患癌症的训练受试者的一第一训练片段集及来自一个或多个未罹患癌症的训练受试者的一第二训练片段集以训练所述分类器，其中所述分类器可被使用于确定所述测试对象是否罹患癌症。

44.一种非暂时性计算机可读存储介质，其特征在于：所述非暂时性计算机可读存储介质存储用于检测在一细胞游离脱氧核糖核酸(cfDNA)样品片段中的一异常的甲基化模式的多个可执行指令，当由一硬件处理器执行时，使所述硬件处理器执行以下步骤，包括：
存取一数据结构，所述数据结构包括：在一参考基因组内的多个CpG位点的字符串的计数，以及来自一训练片段集的所述多个CpG位点个别的甲基化状态；
产生用于一样品片段的一样品状态载体，所述样品状态载体包括：在所述参考基因组内的一样品基因组位置及在所述样品片段中的各个CpG位点的一甲基化状态，各个甲基化状态被确定为经甲基化或未经甲基化；
自所述样品基因组位置列举与所述样品状态载体的长度相同的多个甲基化状态的多个可能性；
针对各种可能性，通过存取存储在所述数据结构中的多个计数以计算一概率；
确定与所述样品状态载体相匹配的所述可能性，并相应地将所述经计算的概率作为一样品概率；
基于所述样品概率，相对于所述训练片段集，针对所述样品状态载体的所述样品片段产生一分数；以及
基于所述产生的分数，确定所述样品片段是否具有一异常的甲基化模式。

45.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：所述各个CpG位点的字符串包括：在所述参考基因组内的多个基因组位置处的各个所述CpG位点的所述甲基化状态，其中各个所述甲基化状态被确定为经甲基化或未经甲基化。

46.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：所述步骤进一步包括：
自所述训练片段集构建所述数据结构，且包括：
针对在所述训练片段集中的各个训练片段，产生一训练状态载体，所述训练状态载体包括：在所述参考基因组内的一已知的基因组位置及在所述训练片段中的各个CpG位点的所述甲基化状态，各个甲基化状态被确定为经甲基化或未经甲基化；
确定多个字符串，其中各个字符串是所述训练状态载体的一部分；
自所述多个训练状态载体确定各个字符串的一计数；以及
在所述数据结构中为各个字符串存储多个计数。

47.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：在基于所述产生的分数确定所述样品片段是否具有一异常的甲基化模式的步骤进一步包括：确定针对所述样品片段所产生的分数是否低于一阈值分数，其中所述阈值分数表明所述样品片段具有一异常的甲基化模式的一信任程度。

48.如权利要求47所述的非暂时性计算机可读存储介质，其特征在于：所述阈值分数是0.1或更小。

49.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：所述训练片段集包括：来自一个或多个健康受试者的训练片段，其中所述一个或多个健康受试者缺乏一特定的医学疾病，且其中相对于来自所述一个或多个健康受试者的所述训练片段集，所述样品片段被确定为一异常的甲基化。

50.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：针对所述样品片段产生所述分数包括：
针对多个甲基化状态的可能性，识别小于所述样品概率的的经计算的概率；以及
通过将所有所述经识别的概率与所述样品概率相加，以产生所述样品片段的所述分数。

51.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：在针对各种所述可能性，通过存取存储在所述数据结构中的多个计数以计算一概率的步骤包括：
针对多个条件元素中的各个条件元素，其中各个条件元素是一条件概率，所述条件概率考量在所述可能性中CpG位点的一子集，通过以下步骤计算一次序的一马尔可夫链概率，所述次序的所述马尔可夫链概率具有存储在所述数据结构中的多个计数，所述步骤包括：
识别与所述条件元素相匹配的字符串的数量的一第一计数；
在整数长度上，识别与所述条件元素的先前甲基化状态相匹配的字符串的数量的一第二计数；以及
通过将所述第一计数除以所述第二个计数以计算所述马尔可夫链概率。

52.如权利要求51所述的非暂时性计算机可读存储介质，其特征在于：所述次序是选自由1、2、3、4、5、6、7、8、9、10、11、12、13、14及15所组成的群组。

53.如权利要求51所述的非暂时性计算机可读存储介质，其特征在于：在计算一次序的一马尔可夫链概率，所述次序的所述马尔可夫链概率具有存储在所述数据结构中的多个计数的步骤进一步包括：实现一平滑算法。

54.如权利要求44所述的非暂时性计算机可读存储介质，其特征在于：所述样品状态载体被划分为多个窗口，所述多个窗口包括一第一窗口及一第二窗口，其中所...

【专利技术属性】
技术研发人员：萨缪尔·S·格罗斯，康斯坦丁·达维多夫，
申请(专利权)人：格里尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人