用于分析DNA数据的读数层特定噪声模型制造技术

技术编号:34121119 阅读:20 留言:0更新日期:2022-07-14 13:03
用于处理核酸数据集的噪声模型可以将已处理的序列读数分层到不同的读数层。每个读数层可以是基于潜在的变体位置是否在所述序列读数的重叠区域和/或互补区域来定义的。处理系统可以针对每个读数层确定在所述变体位置处的分层测序深度。所述处理系统可以针对每个读数层确定以所述读数层的所述分层测序深度为条件的一个或多个噪声参数。所述噪声参数可以与噪声分布相关联。所述处理系统可以基于以所述分层测序深度为条件的所述噪声参数生成每个噪声模型的输出。所述处理系统可以组合每个分层噪声模型的输出以生成组合结果,所述组合结果可以表示事件与观察到的所述数据一样或者比观察到的所述数据更极端的可能性。或者比观察到的所述数据更极端的可能性。或者比观察到的所述数据更极端的可能性。

A reading layer specific noise model for analyzing DNA data

【技术实现步骤摘要】
【国外来华专利技术】用于分析DNA数据的读数层特定噪声模型


[0001]本公开大体上涉及用于确定核酸测序数据集的质量分数的噪声模型。

技术介绍

[0002]计算技术可以被用于DNA测序数据,以标识可能对应于各种类型的癌症或其他疾病的DNA中的突变或变体。因此,癌症诊断或预测可以通过分析生物样本来执行,诸如从个体、动物、植物等中抽取的组织活检或血液。从血液样本中检测出源于肿瘤细胞的DNA是困难的,这是因为循环肿瘤DNA(ctDNA)相对于从血液中提取的无细胞DNA(cfDNA)中的其他分子而言以低水平存在。现有方法无法从信号噪声中标识真阳性(例如,指示受试者中的癌症)降低了已知系统和未来系统区分真阳性与由噪声源引起的假阳性的能力,这可能会导致变体调用或其他类型的分析的不可靠结果。

技术实现思路

[0003]本文公开了用于训练和应用位点特定噪声模型的系统和方法,这些位点特定噪声模型被分类为多个读数层。噪声模型可以确定靶向测序中真阳性的可能性。真阳性可以包括单核苷酸变体、插入或碱基对的缺失。具体地,模型可以使用贝叶斯推理来确定核酸序列的每个位置的噪声的比率或水平,例如指示某些突变的预期可能性。每个模型可以特定于读数层。读数层可以是基于潜在的变体位置是否在已处理的测序读数的重叠区域和/或互补区域来确定的。特定于读数层的每个模型可以是考虑了协变量(例如三核苷酸上下文、可映射性或片段重复)和特定于该读数层的各种类型的参数(例如混合物组分或序列读数的深度)的层次模型。模型可以从健康受试者的序列读数训练得到,这些序列读数也通过读数层分层。不同噪声模型的输出可以被组合以生成总体质量分数。与不会通过读数层区分序列读数的单个模型相比,包含各种读数层模型的总体管线可以以较高灵敏度标识出真阳性,并且过滤掉假阳性。
[0004]通过示例,在各种实施例中,一种用于处理样本(例如个体)的DNA测序数据集的方法可以包括:访问由DNA测序生成的测序数据集,该DNA测序数据集包括多个已处理的序列读数,该多个已处理的序列读数包括变体位置。该方法还可以包括:将多个已处理的序列读数分层到多个读数层。该方法还可以包括:针对每个读数层,确定在变体位置处的分层测序深度。该方法还可以包括:针对每个读数层,确定以读数层的分层测序深度为条件的一个或多个噪声参数,该一个或多个噪声参数对应特定于读数层的噪声模型。该方法还可以包括:针对每个读数层,基于以读数层的分层测序深度为条件的一个或多个噪声参数,生成特定于读数层的噪声模型的输出。该方法还可以包括:组合所生成的噪声模型输出以产生组合结果。该组合结果可以表示后续观察的数据的总变体计数大于或等于多个已处理序列读数中观察到的总变体计数可归因于噪声的可能性。
[0005]在一个或多个实施例中,多个读数层包括以下一项或多项:(1)双链的缝合读数层,(2)双链的未缝合读数层,(3)单链的缝合读数层,以及(4)单链的未缝合读数层。
[0006]在一个或多个实施例中,在变体位置处的突变是以下之一:单核苷酸变体、插入和缺失。
[0007]在一个或多个实施例中,该方法还可以包括:确定组合结果的质量分数,该质量分数是Phred等级分数。
[0008]在一个或多个实施例中,该方法还可以包括:响应于质量分数高于预定阈值,指示样本可能在变体位置处有突变。
[0009]在一个或多个实施例中,针对每个读数层,确定以读数层的分层测序深度为条件的一个或多个噪声参数可以包括:访问特定于读数层的参数分布,该参数分布描述了与读数层相关联的一组DNA测序样本的分布。噪声参数是从参数分布中确定的。
[0010]在一个或多个实施例中,针对每个读数层,与读数层相关联的一组DNA测序样本包括分层到读数层的序列读数,并且对应于一个或多个健康个体。
[0011]在一个或多个实施例中,针对每个读数层,特定于读数层的噪声模型是贝叶斯层次模型,并且参数分布基于伽马分布。
[0012]在一个或多个实施例中,与特定于第一读数层的噪声模型相对应的第一噪声参数具有与特定于第二读数层的噪声模型相对应的对应第二噪声参数不同的值。
[0013]在一个或多个实施例中,针对每个读数层,所确定的一个或多个噪声参数包括以读数层的分层测序深度为条件的噪声分布的均值。
[0014]在一个或多个实施例中,每个噪声分布均是以每个读数层的分层测序深度为条件的负二项分布。
[0015]在一个或多个实施例中,针对每个读数层,所确定的一个或多个噪声参数还包括分散参数。
[0016]在一个或多个实施例,每个噪声模型的输出是针对读数层确定的以分层测序深度为条件的一个或多个噪声参数。
[0017]在一个或多个实施例,每个噪声模型的所生成的输出是针对读数层确定的以分层测序深度为条件的一个或多个噪声参数。
[0018]在一个或多个实施例中,每个噪声模型的所生成的输出包括读数层的分层变体计数超过阈值的可能性。
[0019]在一个或多个实施例中,组合所生成的噪声模型输出包括组合来自每个噪声模型输出的平均变体计数和方差以产生表示组合结果的总体噪声分布的总体平均变体计数和总体分散参数。
[0020]在一个或多个实施例中,总体噪声分布是基于负二项分布而被建模的。确定总体平均变体计数和总体分散参数可以包括:基于读数层的分层测序深度,确定针对每个读数层的平均变体计数。确定步骤还可以包括:确定每个读数层的方差。确定步骤还可以包括:对每个读数层的平均变体计数进行求和以确定总体平均变体计数。确定步骤还可以包括:组合每个读数层的方差以确定总体方差。确定步骤还可以包括:基于总体平均变体计数和总体方差,确定总体分散参数。
[0021]在一个或多个实施例中,组合每个噪声模型的输出以生成组合结果可以包括:确定每个读数层的观察到的分层变体计数。组合步骤还可以包括:在每个读数层中确定比每个读数层的观察到的分层变体计数更有可能的可能事件。组合步骤还可以包括:标识与比
每个读数层的观察到的分层变体计数更高的发生可能性相关联的可能事件的组合。组合步骤还可以包括:对所标识的组合的概率进行求和以确定统计补数。组合步骤还可以包括:通过从1.0中减去统计补数来确定可能性值。
[0022]在一个或多个实施例中,包括一个双链读数的第一标识组合等同于包括两个单链读数的第二标识组合。
[0023]在一个或多个实施例中,所确定的可能性值等于或大于每个读数层的观察到的分层变体计数的发生可能性。
[0024]在一个或多个实施例中,该方法还可以包括:训练机器学习模型以确定可能性值。
[0025]在一个或多个实施例中,该方法还可以包括:接收个体的体液样本。该方法还可以包括:对体液样本的cfDNA执行DNA测序。该方法还可以包括:基于DNA测序的结果,生成原始序列读数。该方法还可以包括:折叠并且缝合原始序列读数以生成多个已处理的序列读数。
[0026]在一个或多个实施例中,体液样本是以下之一的样本:个体的血液、全血、血浆、血清、尿液、脑脊液、粪便本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理样本的DNA测序数据集的计算机实现的方法,所述计算机实现的方法包括:访问由DNA测序生成的所述DNA测序数据集,所述DNA测序数据集包括多个已处理的序列读数,所述多个已处理的序列读数包括变体位置;将所述多个已处理的序列读数分层到多个读数层;针对每个读数层,确定在所述变体位置处的分层测序深度;针对每个读数层,确定以所述读数层的所述分层测序深度为条件的一个或多个噪声参数,所述一个或多个噪声参数对应特定于所述读数层的噪声模型,其中训练所述噪声模型包括:对多个参考健康个体的训练DNA数据集分层,为所述读数层选择分层序列读数作为分层训练集,初始化所述一个或多个噪声参数,所述一个或多个噪声参数对表示所述噪声模型的噪声分布建模,以及基于来自所述多个参考健康个体的所述分层训练集的所述噪声分布,迭代地调整所述一个或多个噪声参数的值;针对每个读数层,基于以所述读数层的所述分层测序深度为条件的所述一个或多个噪声参数,生成特定于所述读数层的所述噪声模型的输出;以及组合所生成的所述噪声模型输出以产生组合结果,所述组合结果代表所述样本与总变体计数相关联的可能性。2.根据权利要求1所述的计算机实现的方法,其中所述多个读数层包括以下一项或多项:(1)双链的缝合读数层,(2)双链的未缝合读数层,(3)单链的缝合读数层,以及(4)单链的未缝合读数层。3.根据权利要求1所述的计算机实现的方法,其中所述变体位置处的突变是以下中的一者:单核苷酸变体、插入和缺失。4.根据权利要求1所述的计算机实现的方法,还包括:确定所述组合结果的质量分数,所述质量分数是Phred等级分数。5.根据权利要求4所述的计算机实现的方法,还包括:响应于所述质量分数高于预定阈值,指示所述样本可能在所述变体位置处具有突变。6.根据权利要求1所述的计算机实现的方法,其中针对读数层确定以所述读数层的所述分层测序深度为条件的所述一个或多个噪声参数包括:访问特定于所述读数层的参数分布,所述参数分布描述了与所述读数层相关联的一组DNA测序样本的分布,其中所述噪声参数是从所述参数分布中而被确定的。7.根据权利要求6所述的计算机实现的方法,其中针对每个读数层,与所述读数层相关联的所述一组DNA测序样本包括被分层到所述读数层的序列读数,并且对应于一个或多个健康个体。8.根据权利要求6所述的计算机实现的方法,其中针对每个读数层,特定于所述读数层的所述噪声模型是贝叶斯层次模型,并且所述参数分布基于伽马分布。9.根据权利要求1所述的计算机实现的方法,其中与特定于第一读数层的噪声模型相对应的第一噪声参数具有与特定于第二读数层的噪声模型相对应的对应第二噪声参数不
同的值。10.根据权利要求1所述的计算机实现的方法,其中针对每个读数层,所确定的所述一个或多个噪声参数包括以所述读数层的所述分层测序深度为条件的所述噪声分布的平均值。11.根据权利要求10所述的计算机实现的方法,其中每个噪声分布是以每个读数层的所述分层测序深度为条件的负二项分布。12.根据权利要求11所述的计算机实现的方法,其中针对每个读数层,所确定的所述一个或多个噪声参数还包括分散参数。13.根据权利要求1所述的计算机实现的方法,其中所生成的每个噪声模型的所述输出是针对所述读数层所确定的以所述分层测序深度为条件的所述一个或多个噪声参数。14.根据权利要求1所述的计算机实现的方法,其中所生成的每个噪声模型的所述输出包括所述读数层的分层变体计数超过阈值的可能性。15.根据权利要求1所述的计算机实现的方法,其中组合所生成的所述噪声模型输出包括组合来自每个噪声模型输出的平均变体计数和方差,以产生代表所述组合结果的总体噪声分布的总体平均变体计数和所述总体分散参数。16.根据权利要求15所述的计算机实现的方法,其中所述总体噪声分布是基于负二项分布而被建模的,并且其中确定所述总体平均变体计数和所述总体分散参数包括:基于所述读数层的所述分层测序深度,确定针对每个读数层的所述平均变体计数;确定针对每个读数层的所述方差;针对每个读数层的所述平均变体计数求和以确定所述总平均变体计数;组合针对每个读数层的所述方差以确定总体方差;以及基于所述总体平均变体计数和所述总体方差,确定所述总体分散参数。17.根据权利要求1所述的计算机实现的方法,其中组合所生成的所述噪声模型输出以产生所述组合结果包括:确定每个读数层的观察到的分层变体计数;在每个读数层中确定比每个读数层的观察到的所述分层变体计数更有可能的可能事件;标识与比每个读数层的观察到的所述分层变体计数更高的发生可能性相关联的所述可能事件的组合;对所标识的所述组合的概率求和以确定统计补数;以及通过从1.0中减去所述统计补数来确定可能性值。18.根据权利要求17所述的计算机实现的方法,其中包括一个双链读数的第一标识组合等同于包括两个单链读数的第二标识组合。19.根据权利要求17所述的计算机实现的方法,其中所确定的所述可能性值等于或大于每个读数层的观察到的所述分层变体计数的发生可能性。20.根据权利要求17所述的计算机实现的方法,还包括训练机器学习模型以确定所述可能性值。21.根据权利要求1所述的计算机实现的方法,还包括:接收个体的体液样本;
对所述体液样本的cfDNA执行所述DNA测序;基于所述DNA测序的结果,生成原始序列读数;以及折叠并且缝合所述原始序列读数以生成所述多个已处理的序列读数。22.根据权利要求21所述的计算机实现的方法,其中所述体液样本是以下之一的样本:所述个体的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、眼泪、组织活检、胸膜液、心包液或腹膜液。23.根据权利要求21所述的计算机实现的方法,其中所述多个已处理的序列读数是从肿瘤活检测序的。24.根据权利要求21所述的计算机实现的方法,其中所述多个已处理的序列读数是从来自血液的细胞分离物测序的,所述细胞分离物至少包括血沉棕黄层白细胞或CD4+细胞。25.根据权利要求1所述的计算机实现的方法,其中所述DNA测序包括大规模并行DNA测序操作。26.根据权利要求1所述的计算机实现的方法,其中所述DNA测序数据集是个体的体液样本的cfDNA测序数据集。27.根据权利要求1所述的计算机实现的方法,还包括:基于所述组合结果,提供对具有变体的受试者的诊断。28.根据权利要求27所述的计算机实现的方法,其中所述变体选自由以下组成的所述组:ACVR1B、AKT3、AMER1、APC、ARID1A、ARID1B、ARID2、ASXL1、ASXL2、ATM、ATR、BAP1 BCL2、BCL6、BCORL1、BCR、BLM、BRAF、BRCA1、BTG1、CASP8、CBL、CCND3、CCNE1、CD74、CDC73、CDK12、CDKN2A、CHD2、CJD2、CREBBP、CSF1R、CTCF、CTNNB1、DICER1、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、EED、EGFR、EIF1AX、EP300、EPHA3、EPHA5、EPHB1、ERBB2、ERBB4、ERCC2、ERCC3、ERCC4、ESR1、FAM46C、FANCA、FANCC、FANCD2、FANCE、FAT1、FBXW7、FGFR3、FLCN、FLT1、FOXO1、FUBP1、FYN、GATA3、GPR124、GRIN2A、GRM3、H3F3A、HIST1H1C、IDH1、IDH2、IKZF1、IL7R、INPP4B、IRF4、IRS1、IRS2、JAK2、KAT6A、KDM6A、KEAP1、KIF5B、KIT、KLF4、KLH6、KMT2C、KRAS、LMAP1、LRP1B、LZTR1、MAP3K1、MCL1、MGA、MSH2、MSH6、MST1R、MTOR、MYD88、NPM1、NRAS、NTRK1、NTRK2、NUP93、NUTM1、PAX3、PAX8、PBRM1、PGR、PHOX2B、PIK3CA、POLE、PTCH1、PTEN、PTPN11、PTPRT、RAD21、RAF1、RANBP2、RB1、REL、RFWD2、RHOA、RPTOR、RUNX1、RUNX1T1、SDHA、SHQ1、SLIT2、SMAD4、SMARCA4、SMARCD1、SNCAIP、SOCS1、SPEN、SPTA1、SUZ12、TET1、TET2、TGFBR和TNFRSF14。29.根据权利要求27所述的计算机实现的方法,还包括:向被标识为具有所述变体的所述受试者提供施用治疗的指导。30.根据权利要求29所述的计算机实现的方法,其中所述治疗包括施用选自由以下组成的所述组的药物:利妥昔单抗、曲妥珠单抗、西妥昔单抗、帕尼单抗、奥法木单抗、贝利尤单抗、伊匹单抗、帕妥珠单抗、曲美木单抗、纳武单抗、达西组单抗、乌瑞芦单抗、阿特珠单抗、派姆单抗、博纳吐单抗、CT

011、帕博利珠单抗、BMS

936559、MED14736、MSB0010718C、度伐鲁单抗、阿维鲁单抗和玛格妥昔单抗。31.根据权利要求1所述的计算机实现的方法,其中所述可能性表示后续观察到的数据的总变体计数大于或等于所述多个已处理序列读数中观察到的总变体计数可归因于噪声。32.一种非瞬态计算机可读介质,包括指令,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器执行步骤,包括:
访问由DNA测序生成的所述DNA测序数据集,所述DNA测序数据集包括多个已处理的序列读数,所述多个已处理的序列读数包括变体位置;将所述多个已处理的序列读数分层到多个读数层;针对每个读数层,确定在所述变体位置处的分层测序深度;针对每个读数层,确定以所述读数层的所述分层测序深度为条件的一个或多个噪声参数,所述一个或多个噪声参数对应特定于所述读数层的噪声模型,其中所述噪声模型的训练包括:对多个参考健康个体的训练DNA数据集分层,为所述读数层选择分层序列读数作为分层训练集,初始化所述一个或多个噪声参数,所述一个或多个噪声参数对表示所述噪声模型的噪声分布建模,以及基于来自所述多个参考健康个体的所述分层训练集的所述噪声分布,迭代地调整所述一个或多个噪声参数的值;针对每个读数层,基于以所述读数层的所述分层测序...

【专利技术属性】
技术研发人员:E
申请(专利权)人:格瑞尔有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1