当前位置: 首页 > 专利查询>格里尔公司专利>正文

用于评估纵向生物特征数据的系统和方法技术方案

技术编号:36922028 阅读:11 留言:0更新日期:2023-03-22 18:45
提供了用于确定一测试对象是否患有一疾病状况的系统和方法。在一个方面,所述方法包括确定一测试对象的至少第一基因型数据结构和第二基因型数据结构,其由在不同时间分别从来自所述对象的第一样本和第二样本收集的数据形成。将所述第一基因型数据结构和所述第二基因型数据结构输入到所述疾病状况的一模型中,从而分别产生所述疾病状况的第一模型得分集和第二模型得分集。基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集。对照多个参考δ得分集来评估所述测试δ得分集,以确定所述测试对象的所述疾病状况,其中每个参考δ得分集用于多个参考对象中的一相应参考对象。象中的一相应参考对象。象中的一相应参考对象。

【技术实现步骤摘要】
【国外来华专利技术】用于评估纵向生物特征数据的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月27日提交的美国临时专利申请第62/941,012号的优先权,其全部内容通过引用明确并入本文。


[0003]本公开涉及用于基于对象的基因型特征随时间的变化来评估对象的疾病状态的方法。

技术介绍

[0004]癌症代表了一个突出的全球公共卫生问题。仅美国在2015年就报告了1,658,370例病例。筛查计划和早期诊断对提高癌症患者的无病存活率和降低死亡率具有重要影响。例如,结直肠癌的早期筛查使美国的结直肠癌发病率和死亡率降低了近50%。这种降低与癌症分期相关的存活率相一致,从结直肠癌1期的94%下降到结直肠癌4期的11%。然而,早期癌症检测存在两大挑战:患者依从性和敏感性差。
[0005]有利地,对癌症的分子发病机制的认识的增加和次世代定序技术的快速发展正在推进对涉及体液中癌症发展的早期分子改变的研究。在血浆、血清和尿液中的游离DNA(cfDNA)中发现了与此类癌症发展相关的特定遗传和表观遗传改变。这种改变可能被用作几种癌症的诊断生物标志物。有利的是,非侵入性采样方法,例如所谓的“液体活检(liquid biopsies)”,可以促进患者的依从性,因为它们更容易、更快且执行成本更低。
[0006]可以在血清、血浆、尿液和其他体液中发现游离DNA,从而实现“液体活检”,这代表了对象中许多不同组织(包括患病组织)的基因组组成的快照(snapshot)。cfDNA来源于坏死或凋亡细胞,通常由所有类型的细胞释放。cfDNA包含特定的肿瘤相关改变,例如突变、甲基化和拷贝数变异(copy number variations,CNV),因此包含循环(circulating)肿瘤DNA(ctDNA)。
[0007]然而,因为cfDNA代表从广泛的组织释放的DNA,包括健康组织和经历造血的白细胞,其挑战仍然是能够区分源自疾病组织(例如:癌症)的信号与源自生殖细胞的信号。事实上,在大多数癌症患者中,大部分cfDNA来自健康细胞,例如,大于80%、90%、95%或更多。cfDNA信号可以被富集,例如,通过识别具有不符合典型1:1比例的等位基因部分的变体等位基因,例如生殖系中的杂合等位基因所示。cfDNA信号也可以根据被定序的cfDNA的大小进行富集,因为据观察,源自癌性肿瘤的cfDNA的平均长度比源自生殖细胞的cfDNA来得短。
[0008]不幸的是,迄今为止,大多数cfDNA诊断研究都集中在晚期肿瘤阶段。基于cfDNA的诊断分析在早期恶性疾病阶段的识别中的应用文献较少。尽管早期癌症检测与晚期癌症检测的工作原理相同,但早期检测存在一些独特的障碍。这些包括较低的畸变频率和数量、潜在的混杂现象,例如非肿瘤组织的克隆扩展或癌症相关突变随年龄增长的积累,以及对驱动(driver)改变的不完整了解。
[0009]在血液中,细胞凋亡是决定cfDNA量的常见事件。然而,在癌症患者中,cfDNA的数
量也会受到坏死(necrosis)的影响。由于细胞凋亡似乎是主要的释放机制,循环cfDNA的大小分布显示富含约167bp的短片段,对应于凋亡细胞产生的核小体。

技术实现思路

[0010]一般而言,与使用常规分类方法可能的情况相比,本文所述的系统和方法通过考虑对象生物特征的个体差异,可以更早地检测到疾病状态。对对象的疾病状态进行分类的常规方法可能涉及在单个时间点获得对象的一个或多个生物特征的快照(snapshot),并根据预定的疾病概况或经过训练的分类器评估对象的信息。虽然这种方法足以在对象病情进展充分时确定疾病的存在,但通常无法可靠地检测疾病的前期状态甚至早期阶段。例如,已经开发了几种分类器,用于通过询问从对象血浆中分离的游离DNA(cfDNA)的序列读取来诊断对象的癌症。然而,由于血浆含有来自健康生殖细胞和造血细胞的cfDNA,这些分类器使用血浆中存在的循环肿瘤DNA(ctDNA)的最小量,称为最小肿瘤分数(tumor fraction),以检测cfDNA序列读取中的癌性特征。然而,由于疾病的诊断阶段与治疗结果之间存在着很强的相关性,因此需要更敏感的方法来识别早期疾病的存在。
[0011]有利的是,本公开提供了用于早期疾病识别的此类方法,至少部分地通过询问对象的生物特征随时间的变化,而不是在单个时间点。具体而言,通过使用来自对象的多个生物样本随时间推移的数据,在监测疾病状态时可以解释对象生物特征的个性化差异。
[0012]在一个方面,本公开提供了一种用于确定对象的疾病状态的方法,方法通过将对象患有疾病状态的模型化概率随时间的变化与模型化概率随时间的变化的总体分布进行比较。在一些实施方案中,方法包括确定对象的第一基因型数据结构,第一基因型数据结构包括基于在第一测试时间点从对象获得的第一生物样本中的第一多个核酸分子的电子形式的第一多个序列读取的多个基因型特征的值。方法可以包括将第一基因型数据结构输入到疾病状况的模型中,从而生成疾病状况的第一模型得分集。方法可以包括确定测试对象的第二基因型数据结构,第二基因型数据结构包括基于在第一测试时间点之后发生的第二测试时间点从对象获得的第二生物样本中的第二多个核酸分子的电子形式的第二多个序列读取的多个基因型特征的值。方法可以包括将第二基因型数据结构输入到模型中,从而生成疾病状况的第二模型得分集。方法可以包括基于第一和第二模型得分集之间的差异来确定测试δ得分集。然后,方法可以包括对照多个参考δ得分集来评估测试δ得分集,从而确定测试对象的疾病状况,其中多个参考δ得分集中的每个参考δ得分集针对多个参考对象中的相应参考对象。
[0013]在另一方面,本专利技术提供了一种通过使用时间趋势测试评估对象具有疾病状态的模型化概率随时间的变化来确定对象的疾病状态的方法。在一些实施方案中,方法包括为多个测试时间点中的每个相应测试时间点确定测试对象的对应基因型数据结构,对应基因型数据结构包括基于在相应测试时间点从对象处获得的对应的生物样本中的对应的多个核酸分子的电子形式的对应的多个序列读取的多个基因型特征的值。方法可以包括将对应的基因型数据结构输入到疾病状况的模型中(在本文中单独描述),以在相应测试时间点生成疾病状况的对应的时间戳模型得分集,从而获得测试对象的多个时间戳测试模型得分集,其中,每个相应的时间戳测试模型得分集耦合到多个测试时间点中的不同测试时间点。方法可以包括将多个时间戳测试模型得分集与时间趋势测试拟合,从而获得测试对象的测
试趋势参数集。方法可包括对照多个参考对象的多个参考趋势参数集评估对象的测试趋势参数集,从而确定对象的疾病状况,其中多个参考趋势参数集中的每个相应参考趋势参数集是针对多个参考对象中的对应的参考对象。
[0014]方法可包括基于所有时间点的数据创建分类器,以一次利用所有时间点来了解疾病状况,而不是将分类器略微应用于每个时间点(例如,将预先训练的单个时间点分类器应用于从多个时间点收集的测试样本),以及以时间信息对模型分数进行事后分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定一测试对象是否具有一疾病状况的方法,其特征在于,所述方法包含:在一计算机系统执行以下步骤,其中所述计算机系统具有一个或多个处理器以及内存,所述内存存储一个或多个程序以供所述一个或多个处理器执行:(A)确定所述测试对象的一第一基因型数据结构,所述第一基因型数据结构包括基于在一第一测试时间点从所述测试对象获得的一第一生物样本中的一第一多个核酸分子的电子形式的一第一多个序列读取的多个基因型特征的多个值;(B)将所述第一基因型数据结构输入到所述疾病状况的一模型中,从而产生所述疾病状况的第一模型得分集;(C)确定所述测试对象的一第二基因型数据结构,所述第二基因型数据结构包括基于在发生在所述第一测试时间之后的一第二测试时间点从所述测试对象获得的一第二生物样本中的一第二多个核酸分子的电子形式的一第二多个序列读取的所述多个基因型特征的多个值;(D)将所述第二基因型数据结构输入到所述模型中,从而产生所述疾病状况的一第二模型得分集;(E)基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集;以及(F)对照多个参考δ得分集来评估所述测试δ得分集,从而确定所述测试对象是否具有所述疾病状况,其中在所述多个参考δ得分集中的每个参考δ得分集是针对多个参考对象中的一相应参考对象。2.如权利要求1所述的方法,其特征在于:所述模型评估来自单个时间点的数据。3.如权利要求1或2所述的方法,其特征在于:所述第一模型得分集包括所述测试对象在所述第一测试时间点具有所述疾病状况的一概率;所述第二模型得分集包括所述测试对象在所述第二测试时间点具有所述疾病状况的一概率,以及所述评估(F)包括将所述测试δ得分集与所述多个参考δ得分集的一分布进行比较,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。4.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括具有所述疾病状况的一概率。
5.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括不具有所述疾病状况的一似然或一概率。6.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括:确定所述分布的一集中趋势的量数以及所述分布的一散布量数;以及使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的一显着性。7.如权利要求6所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布中的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。8.如权利要求6或7所述的方法,其特征在于:所述分布的所述散布量数是所述分布的一标准差、一方差或一范围。9.如权利要求6所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布的所述平均数;所述分布的所述散布量数是所述分布的所述标准差;以及使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的所述显着性包括确定多个标准差的数量所述测试δ得分集是来自所述分布的所述平均数。10.如权利要求9所述的方法,其特征在于:当自所述分布的所述平均数的所述多个标准差的数量所述测试δ得分集满足一阈值时,所述测试对象被确定具有所述疾病状况。11.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括将所述测试δ得分输入到对照所述多个参考δ得分集训练的一分类器中,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。12.如权利要求11所述的方法,其特征在于:针对所述多个参考对象的至少一子集中的每个相应训练对象,对照在所述相应第二时间点之后发生的一相应第三时间点的所述相应对象是否具有所述疾病状况的一确定,来对所述分类器进一步进行训练。13.如权利要求11或12所述的方法,其特征在于:所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。14.如权利要求3至10中任一项所述的方法,其特征在于:
将所述多个参考对象中的每个相应参考对象的所述相应第一时间点与所述相应第二时间点之间的一时间量用作计算所述分布的一协变量;以及针对所述测试对象基于表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量来调整所述测试δ得分集。15.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征。16.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述测试δ得分集以及多个参考δ得分的分布中的每个参考δ得分集。17.如权利要求3至10中任一项所述的方法,其特征在于:还包括归一化,其中:针对所述相应对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。18.如权利要求17所述的方法,其特征在于:通过针对所述相应对象对每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化所述相应第一时间点与所述相应第二时间点之间的一时间量,来针对所述相应参考对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及通过将所述第一基因型数据结构以及所述第二基因型数据结构中的一个或多个基因型特征归一化所述第一测试时间点与所述第二测试时间点之间的一时间量,来将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。19.如权利要求17所述的方法,其特征在于:将所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。20.如权利要求3至19中任一项所述的方法,其特征在于:将所述多个参考对象中的每个相应参考对象的一非基因型特征作为计算所述分布中的一协变量;以及所述测试δ得分集是根据所述测试对象的所述非基因型特征来进行调整。21.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征。22.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。23.如权利要求2至19中任一项所述的方法,其特征在于:所述方法还包含:一归一化,其中:针对所述相应参考对象的一非基因型特征将所述多个参考δ得分集中的每个相应参考
δ得分集进行归一化;以及针对所述测试对象的所述非基因型特征将所述测试δ得分集进行归一化。24.如权利要求23所述的方法,其特征在于:通过对所述相应参考对象的所述非基因型特征的每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化,针对所述相应参考对象的所述非基因型特征对所述多个参考δ得分集中的每个相应参考δ得分集归一化;以及针对所述测试对象的所述非基因型特征对所述测试δ得分集归一化。25.如权利要求23所述的方法,其特征在于:所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的所述分布中的每个参考δ得分集。26.如权利要求20至25中任一项所述的方法,其特征在于:所述非基因型特征包括年龄、饮酒状态、吸烟状态、性别或其一组合。27.如权利要求1至26中任一项所述的方法,其特征在于:所述多个参考对象针对性别、年龄、吸烟状况、饮酒或其一组合进行分段。28.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一癌症。29.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一组疾病状况中的一种疾病状况,并且所述模型为所述一组疾病状况中的每种疾病状况提供一概率或一似然。30.如权利要求29所述的方法,其特征在于:所述一组疾病状况包括多种癌症状况。31.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。32.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括以下癌症的一预定阶段:一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。33.如权利要求1至中任一项所述的方法,其特征在于:所述疾病状况是一癌症的一预后。34.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是所述癌症的一特定治疗的一预后。35.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是癌症复发的一预后。36.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一冠状动脉疾病。37.如权利要求1至36中任一项所述的方法,其特征在于:所述测试对象是一人。38.如权利要求1至37中任一项所述的方法,其特征在于:所述测试对象未被诊断为具
有所述疾病状况。39.如权利要求1至38中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本独立地包括所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗水、眼泪、胸膜液、心包液或腹膜液。40.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血液样本。41.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血浆样本。42.如权利要求1至41中任一项所述的方法,其特征在于:所述第一测试时间点以及所述第二测试时间点相隔至少6个月、至少10个月或至少1年。43.如权利要求1至42中任一项所述的方法,其特征在于:所述第一多个核酸分子以及所述第二多个核酸分子是游离DNA分子。44.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括从以下群组中选择的一个或多个特征:在一基因座的一单核苷酸变体的支持、在一基因座的一甲基化状态、在一基因座的一相对拷贝数、在一基因座的一等位基因比率、所述多个游离核酸分子的一片段大小度量、在一基因座的一甲基化模式及其一数学组合。45.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个相对拷贝数,其中所述多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的一不同基因座。46.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个甲基化状态,其中所述多个甲基化状态中的每个甲基化状态对应于多个基因座中的一不同基因座。47.如权利要求1至43中任一项所述的方法,其特征在于:所述第一基因型数据结构的所述多个基因型特征包括一第一多个箱值,所述第一多个箱值中的每个相应箱值代表多个箱中的一对应箱;所述第一多个箱值中的每个相应箱值代表使用映射到多个箱中的所述对应箱的所述第一多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;所述第二基因型数据结构的所述多个基因型特征包括一第二多个箱值,所述第二多个箱值中的每个相应箱值代表所述多个箱中的一对应箱;所述第二多个箱值中的每个相应箱值代表映射到所述多个箱中的所述对应箱的所述第二多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;以及所述多个箱中的每个箱代表所述测试对象的一物种的一参考基因组的一非重叠区域。48.如权利要求47所述的方法,其特征在于:所述方法还包含对所述第一多个箱值中的每个相应箱值以及所述第二多个箱值中的每个相应箱值归一化。49.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:确定所述第一多个箱值的一第一集中趋势量数;确定所述第二多个箱值的一第二集中趋势量数;
将所述第一多个箱值中的每个相应箱值替换为所述相应箱值除以所述第一集中趋势量数;以及将所述第二多个箱值中的每个相应箱值替换为所述相应箱值除以所述第二集中趋势量数。50.如权利要求49所述的方法,其特征在于:所述第一集中趋势量数是所述第一多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数;以及所述第二集中趋势量数是所述第二多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。51.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值;以及将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值。52.如权利要求51所述的方法,其特征在于:所述相应第一GC偏差由拟合到一第一多个二维点的一曲线或一直线的一第一方程定义,其中所述第一多个二维点中的每个相应二维点包括:(i)一第一值,所述第一值是所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第一多个箱中的所述相应箱代表;以及(ii)一第二值,所述第二值是所述相应箱的所述第一多个箱值中的所述箱值;将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第一方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量;所述相应第二GC偏差由拟合到一第二多个二维点的一曲线或一直线的一第二方程定义,其中所述第二多个二维点中的每个相应二维点包括:(i)一第三值,所述第三值是所述多个物种的所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第二多个箱中的所述相应箱代表;以及(ii)一第四值,所述第四值是所述相应箱的所述第二多个箱值中的所述箱值;以及将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第二方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量。53.如权利要求1至52中任一项所述的方法,其特征在于:所述第一多个核酸分子是DNA。54.如权利要求1至53中任一项所述的方法,其特征在于:所述第一多个核酸分子通过使用多个探针的一靶向DNA甲基化定序获得。55.如权利要求54所述的方法,其特征在于:所述多个探针与所述人类基因组中的100个或更多个基因座杂交。56.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序检测所述第一多
个核酸中的一个或多个5

甲基胞嘧啶及/或5

羟甲基胞嘧啶。57.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。58.如权利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及所述DNA甲基化定序将所述一个或多个尿嘧啶读出为一个或多个对应的胸腺嘧啶。59.如权利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及所述DNA甲基化定序将所述一个或多个5

甲基胞嘧啶或5

羟甲基胞嘧啶读出为一个或多个对应的胸腺嘧啶。60.如权利要求59所述的方法,其特征在于:一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化或其组合。61.如权利要求1至60中任一项所述的方法,其特征在于:所述模型是在一组对象中进行训练的,其中在所述一组对象中的一第一部分具有所述疾病状况,并且在所述一组对象中的一第二部分不具有所述疾病状况。62.如权利要求1至61中任一项所述的方法,其特征在于:所述模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。63.如权利要求1至61中任一项所述的方法,其特征在于:所述模型包括:(i)一输入层,用于接收所述多个基因型特征的多个值,其中所述多个基因型特征包括一第一数量的维度;(ii)一嵌入层,包括一组权重,其中所述嵌入层直接或间接接收所述输入层的输出,并且所述嵌入层的一输出是具有一第二数量的维度的一模型得分集,所述第二数量的维度小于所述第一数量的维度;以及(iii)一输出层,直接或间接从所述嵌入层接收所述模型得分集,其中所述第一模型得分集是在将所述第一基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集;并且所述第二模型得分集是在将所述第二基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集。64.如权利要求63所述的方法,其特征在于:所述评估(F)包括对照所述多个参考δ得分集通过逻辑回归训练使用一逻辑函数来评估所述测试δ得分集,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)一第一得分集,使用包括所述多个基因型特征的多个值的一第一相应参考基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一第一相应生物样本来获取;以及
(ii)一第一二得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。65.如权利要求63或64所述的方法,其特征在于:所述模型是一卷积神经网络。66.如权利要求63至65中任一项所述的方法,其特征在于:所述多个参考对象...

【专利技术属性】
技术研发人员:M
申请(专利权)人:格里尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1