使用单细胞分析的改良的变体调用程序制造技术

技术编号:34205502 阅读:58 留言:0更新日期:2022-07-20 11:46
本文描述包括两步过程的改良的变体调用方法,所述两步过程涉及1)通过细胞特异性过程对序列读段中的碱基进行误差校正,和2)使用所述误差校正的序列读段在细胞群体中进行变体调用。通常,第一步误差校正涉及应用第一机器学习模型来鉴别并校正序列读段的碱基。第二步变体调用涉及应用第二机器学习模型来分类碱基。此类改良的变体调用方法可用于鉴别参与生物过程,例如患病生物过程的变体。例如患病生物过程的变体。例如患病生物过程的变体。

Modified variant calling program using single cell analysis

【技术实现步骤摘要】
【国外来华专利技术】使用单细胞分析的改良的变体调用程序
[0001]交叉引用
[0002]本申请要求于2019年10月2日提交的美国临时专利申请第62/909,670号的权益和优先权,所述美国临时专利申请的全部公开内容出于所有目的以引用方式在此并入。

技术介绍

[0003]测序技术通常会生成具有介于0.5%

2%范围内的误差的序列读段,所述误差源自PCR和测序误差。旨在调用细胞群体中的变体的变体调用程序通常因这些误差而鉴别出假阳性,这对变体调用程序的准确性造成负面影响。减少假阳性的常规策略通常采用硬截止(hard cutoff);然而,实施这些硬截止会消除大量真阳性,所述问题通常称为丢失数据问题。因此,需要可更好地鉴别假阳性而不牺牲真阳性的改良的变体调用程序。

技术实现思路

[0004]本文描述通过两步过程改良变体调用的实施方案,所述两步过程涉及1)通过细胞特异性过程对序列读段中的碱基进行误差校正,和2)使用误差校正的序列读段在细胞群体中进行变体调用。碱基中的误差通常源自PCR误差、测序误差、测序比对误差或校正误差中的任一个。在此处,两步过程使得能够鉴别并校正错误碱基,由此使得能够进行更准确的变体调用。在多个实施方案中,碱基的误差校正涉及实施用于校正错误碱基的第一经训练机器学习模型,下文称为误差校正模型。因此,误差校正模型使得能够校正来自单个细胞的序列读段。通过细胞特异性方式进行碱基的误差校正与校正源自批量测序的序列读段相比是有利的。例如,序列读段中的碱基误差可源自单细胞,且因此可针对单细胞一起校正这些碱基误差。在多个实施方案中,细胞群体中的变体调用涉及实施第二经训练机器学习模型,下文称为变体调用程序模型。变体调用程序模型分析校正的序列读段以调用更可能为存在于细胞群体中的真变体的变体。总之,涉及实施误差校正模型和变体调用程序模型的两步过程实现调用真变体的更高的准确性。此可用于鉴别可能与疾病(例如癌症)有关的真变体。
[0005]本文公开用于调用细胞群体的一种或多种变体的方法,所述方法包括:从细胞群体的细胞获得多个序列读段;对于细胞群体中的多个细胞,校正从细胞获得的序列读段,所述校正包括:鉴别序列读段的不同于参考碱基的所关注碱基;应用误差校正模型来分析所关注碱基的单细胞特征,所述误差校正模型经训练以预测所关注碱基的概率;和校正源自细胞的序列读段的所关注碱基;通过聚集细胞群体的细胞的校正的序列读段来生成细胞群体特征,校正的序列读段包含校正的碱基;和将变体调用程序模型应用于源自聚集的序列读段的细胞群体特征以鉴别细胞群体中的一种或多种变体。
[0006]在多个实施方案中,单细胞特征包括所关注碱基周围的上下文序列、所关注碱基的测序深度、所关注碱基的等位基因频率和所关注碱基周围的窗口中的碱基的等位基因频率。在多个实施方案中,鉴别序列读段的所关注碱基包括将包含参考碱基与错配碱基之间的转换的可能性的转换矩阵应用于在错配碱基的序列读段中观察到一定比例的核苷酸碱基的概率。在多个实施方案中,鉴别序列读段的所关注碱基还包括:确定在错配碱基的序列
读段中观察到一定比例的核苷酸碱基的概率;和比较确定的概率与来自转换矩阵的转换的可能性。在多个实施方案中,响应于确定的概率大于转换的可能性,从而将错配碱基鉴别为所关注碱基。在多个实施方案中,转换矩阵是使用训练数据生成,所述训练数据包含源自一个或多个细胞样品群体的序列读段。在多个实施方案中,转换矩阵是使用来自细胞群体的细胞的多个序列读段生成。在多个实施方案中,当校正细胞群体的一个或多个细胞的序列读段时,转换矩阵中的转换可能性被动态更新。
[0007]在多个实施方案中,误差校正模型是神经网络。在多个实施方案中,误差校正模型是深度学习神经网络,所述深度学习神经网络包括一个或多个层,所述一个或多个层学习所关注碱基周围的基序和局部序列上下文。在多个实施方案中,校正源自细胞结果的多个序列读段的一个或多个序列读段包括校正至少25%的不同于参考碱基的所关注碱基。
[0008]在多个实施方案中,细胞群体特征包括以下中的一者或多者:杂合子调用百分比、杂合子调用的中值变体等位基因频率(VAF)、杂合子调用的中值基因型质量、杂合子调用的中值读段深度、纯合子调用百分比、纯合子调用的中值VAF、纯合子调用的中值基因型质量、纯合子调用的中值读段深度、参考调用百分比、用于纯合子调用的读段深度的变异系数(CV)、用于杂合子调用的读段深度的CV、纯合子调用的基因型质量的CV、杂合子调用的基因型质量的CV、用于纯合子调用的VAF的CV、用于杂合子调用的VAF的CV、用于纯合子调用的平均VAF与中值VAF之间的差、用于杂合子调用的平均VAF与中值VAF之间的差和扩增子GC百分比。
[0009]在多个实施方案中,变体调用程序模型预测所关注杂合变体或所关注纯合变体中的至少一个。在多个实施方案中,变体调用程序模型还预测不确定的变体。在多个实施方案中,变体调用程序模型是使用训练数据来训练,所述训练数据包含源自一种或多种细胞系的序列读段和存在于一种或多种细胞系中的已知杂合或纯合变体的指示。在多个实施方案中,与常规GTAK变体调用程序相比,误差校正模型和变体调用程序模型的应用在0.5%的检测限值(LOD)下实现真变体阳性预测值的至少两倍增加。在多个实施方案中,误差校正模型和变体调用程序模型的应用在0.5%的检测限值(LOD)下实现至少0.6的真变体阳性预测值。在多个实施方案中,源自细胞的多个序列读段是通过单细胞工作流分析来确定。在多个实施方案中,参考碱基是根据参考基因组序列来确定。在多个实施方案中,参考碱基是根据从对照细胞获得的一个或多个序列读段来确定。
[0010]另外,本文公开用于调用细胞群体的一种或多种变体的非暂时性计算机可读介质,所述非暂时性计算机可读介质包括如下指令,所述指令在由处理器执行时使得处理器:从细胞群体的细胞获得多个序列读段;对于细胞群体中的多个细胞,校正从细胞获得的序列读段,所述校正包括:鉴别序列读段的不同于参考碱基的所关注碱基;应用误差校正模型来分析所关注碱基的单细胞特征,所述误差校正模型经训练以预测所关注碱基的概率;和校正源自细胞的序列读段的所关注碱基;通过聚集细胞群体的细胞的校正的序列读段来生成细胞群体特征,校正的序列读段包含校正的碱基;和将变体调用程序模型应用于源自聚集的序列读段的细胞群体特征以鉴别细胞群体中的一种或多种变体。
[0011]在多个实施方案中,单细胞特征包括所关注碱基周围的上下文序列、所关注碱基的测序深度、所关注碱基的等位基因频率和所关注碱基周围的窗口中的碱基的等位基因频率。在多个实施方案中,使得处理器鉴别序列读段的所关注碱基的指令还包括在由处理器
执行时使得处理器应用转换矩阵的指令,所述转换矩阵包含参考碱基与错配碱基之间的转换的可能性。
[0012]在多个实施方案中,使得处理器鉴别序列读段的所关注碱基的指令还包括如下指令,所述指令在由处理器执行时使得处理器:确定在错配碱基的序列读段中观察到一定比例的核苷酸碱基的概率;和比较确定的概率与来自转换矩阵的转换的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于调用细胞群体的一种或多种变体的方法,所述方法包括:从所述细胞群体的细胞获得多个序列读段;对于所述细胞群体中的多个细胞,校正从所述细胞获得的序列读段,所述校正包括:鉴别所述序列读段的不同于参考碱基的所关注碱基;应用误差校正模型来分析所述所关注碱基的单细胞特征,所述误差校正模型经训练以预测所述所关注碱基的概率;和校正源自所述细胞的所述序列读段的所述所关注碱基;通过聚集所述细胞群体的细胞的校正的序列读段生成细胞群体特征,所述校正的序列读段包含校正的碱基;和将变体调用程序模型应用于源自所述聚集序列读段的所述细胞群体特征来鉴别所述细胞群体中的一种或多种变体。2.根据权利要求1所述的方法,其中所述单细胞特征包括所述所关注碱基周围的上下文序列、所述所关注碱基的测序深度、所述所关注碱基的等位基因频率和所述所关注碱基周围的窗口中的碱基的等位基因频率。3.根据权利要求1或2所述的方法,其中鉴别所述序列读段的所关注碱基包括将包含参考碱基与错配碱基之间的转换的可能性的转换矩阵应用于在错配碱基的所述序列读段中观察到一定比例的核苷酸碱基的概率。4.根据权利要求3所述的方法,其中鉴别所述序列读段的所关注碱基还包括:确定在所述错配碱基的所述序列读段中观察到一定比例的核苷酸碱基的所述概率;和比较所述确定的概率与来自所述转换矩阵的转换的可能性。5.根据权利要求4所述的方法,其中响应于所述确定的概率大于所述转换可能性,从而将所述错配碱基鉴别为所关注碱基。6.根据权利要求5所述的方法,其中所述转换矩阵是使用训练数据生成,所述训练数据包含源自一个或多个细胞样品群体的序列读段。7.根据权利要求5所述的方法,其中所述转换矩阵是使用来自所述细胞群体的细胞的所述多个序列读段生成。8.根据权利要求5所述的方法,其中当校正所述细胞群体的所述一个或多个细胞的序列读段时,所述转换矩阵中的所述转换可能性被动态更新。9.根据权利要求1

8中任一项所述的方法,其中所述误差校正模型是神经网络。10.根据权利要求1

9中任一项所述的方法,其中所述误差校正模型是深度学习神经网络,所述深度学习神经网络包括一个或多个层,所述一个或多个层学习所关注碱基周围的基序和局部序列上下文。11.根据权利要求1

10中任一项所述的方法,其中校正源自细胞结果的所述多个序列读段的一个或多个序列读段包括校正至少25%的不同于参考碱基的所关注碱基。12.根据权利要求1

11中任一项所述的方法,其中所述细胞群体特征包括以下中的一者或多者:杂合子调用百分比、杂合子调用的中值变体等位基因频率(VAF)、杂合子调用的中值基因型质量、杂合子调用的中值读段深度、纯合子调用百分比、纯合子调用的中值VAF、纯合子调用的中值基因型质量、纯合子调用的中值读段深度、参考调用百分比、用于纯合子调用的读段深度的变异系数(CV)、用于杂合子调用的读段深度的CV、纯合子调用的基因型
质量的CV、杂合子调用的基因型质量的CV、用于纯合子调用的VAF的CV、用于杂合子调用的VAF的CV、用于纯合子调用的平均VAF与中值VAF之间的差、用于杂合子调用的平均VAF与中值VAF之间的差和扩增子GC百分比。13.根据权利要求1

12中任一项所述的方法,其中所述变体调用程序模型预测所关注杂合变体或所关注纯合变体中的至少一个。14.根据权利要求13所述的方法,其中所述变体调用程序模型还预测不确定的变体。15.根据权利要求1

14中任一项所述的方法,其中所述变体调用程序模型是使用训练数据来训练,所述训练数据包含源自一种或多种细胞系的序列读段和存在于所述一种或多种细胞系中的已知杂合或纯合变体的指示。16.根据权利要求1

15中任一项所述的方法,其中与常规GTAK变体调用程序相比,所述误差校正模型和所述变体调用程序模型的所述应用在0.5%的检测限值(LOD)下实现真变体阳性预测值的至少两倍增加。17.根据权利要求1

15中任一项所述的方法,其中所述误差校正模型和所述变体调用程序模型的所述应用在0.5%的检测限值(LOD)下实现至少0.6的真变体阳性预测值。18.根据权利要求1

17中任一项所述的方法,其中源自所述细胞的所述多个序列读段是通过单细胞工作流分析来确定。19.根据权利要求1

18中任一项所述的方法,其中所述参考碱基是根据参考基因组序列来确定。20.根据权利要求1

18中任一项所述的方法,其中所述参考碱基是根据从对照细胞获得的一个或多个序列读段来确定。21.一种用于调用细胞群体的一种或多种变体的非暂时性计算机可读介质,所述非暂时性计算机可读介质包含如下指令,所述指令在由处理器执行时使得所述处理器:从所述细胞群体的细胞获得多个序列读段;对于所述细胞群体中的多个细胞,校正从所述细胞获得的序列读段,所述校正包括:鉴别所述序列读段的不同于参考碱基的所关注碱基;应用误差校正模型来分析所述所关注碱基的单细胞特征,所述误差校正模型经训练以预测所述所关注碱基的概率;校正源自所述细胞的所述序列读段的所述所关注碱基;通过聚集所述细胞群体的细胞的校正的序列读段生成细胞群体特征,所述校正的序列读段包含校正的碱基;和将变体调用程序模型应用于源自所述聚集序列读段的所述细胞群体特征来鉴别所述细胞群体中的一种或多种变体。22.根据权利要求21所述的非暂时性计算机可读介质,其中所述单细胞特征包括所述所关注碱基周围的上下文序列、所述所关注碱基的测序深度、所述所关注碱基的等位基因频率和所述所关注碱基周围的窗口中的碱基的等位基因频率。23.根据权利要求21或22所述的非暂时性计算机可读介质,其中使得所述处理器鉴别所述序列读段的所关注碱基的所述指令还包括在由所述处理器执行时使得所述处理器应用转换矩阵的指令,所述转换矩阵包含参考碱基与错配碱基之间的转换的可能性。24.根据权利要求23所述的非暂时性计算机可读介质,其中使得所述处理器鉴别所述
序列读段的所关注碱基的所述指令还包括如下指令,所述指令在由所述处理器执行时使得所述处理器:确定在错配碱基的所述序列读段中观察到一定比例的核苷酸碱基的概率;和比较所述确定的概率与来自所述转换矩阵的转换的可能性。25.根据权利要求24所述的非暂时性计算机可读介质,其中响应于所述确定的概率大于所述转换可能性,从而将所述错配碱基鉴别为所关注碱基。26.根据权利要求23

25中任一项所述的非暂时性计算机可读介质,其中所述转换矩阵是使用训练数据生成,所述训练数据包含源自一个或多个细胞样品群体的序列读段。27.根据权利要求23

25中任一项所述的非暂时性计算机可读介质,其中所述转换矩阵是使用来自所述细胞群体的细胞的所述多个序列读段生成。28.根据权利要求23

25中任一项所述的非暂时性计算机可读介质,其中当校正所述细胞群体的所述一个或多个细胞的序列读段时,所述转换矩阵中的所述转换可能性被动态更新。29.根据权利要求21

28中任一项所述的非暂时性计算机可读介质,其中所述误差校正模型是神经网络。30.根据权利要求21

29中任一项所述的非暂时性计算机可读介质,其中所述误差校正模型是深度学习神经网络,所述深度学习神经网络包括一个或多个层,所述一个或多个层学习所关注碱基周围...

【专利技术属性】
技术研发人员:M
申请(专利权)人:使命生物公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1