从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测制造技术

技术编号:24505505 阅读:41 留言:0更新日期:2020-06-13 07:41
本公开内容提供了用于在无细胞核酸样品中进行准确且灵敏的体细胞单核苷酸变体(SNV)检测的概率模型,所述样品包含序列数据集。可对于序列数据集中的每个基因座确定联合基因型,并且可固有地去除种系突变。可应用一组过滤来消除低质量的体细胞变体调用。此外,可考虑总体肿瘤无细胞脱氧核糖核酸(cfDNA)分数和重叠读取伴侣,从而能够从具有低肿瘤cfDNA分数的样品中进行准确的SNV检测和变体等位基因频率估计。通过使用概率模型和机器学习模型以区分真实变体与测序误差,从而设计出微小残留病变(MRD)的灵敏早期检测。

Detection of somatic mononucleotide variants from acellular nucleic acids and its application in the detection of minimal residual lesions

【技术实现步骤摘要】
【国外来华专利技术】从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测相关申请的交叉引用本申请要求于2017年9月15日提交的美国临时专利申请No.62/559,366的权益,其通过引用整体明确地并入本文。政府权益声明本专利技术是在国立卫生研究院(NationalInstitutesofHealth)授予的HL108634的政府支持下完成的。政府拥有本专利技术的某些权利。
技术介绍
体细胞突变可在对象的一生中自始至终在细胞中积累。尽管大多数这样的突变可具有极少明显的作用或没有明显的作用,但一些可改变基因和/或关键的细胞功能,并因此产生表型变化。体细胞突变的产物可以是癌症,这是由于细胞克隆扩增以及从正常体细胞行为的内置(in-built)程序和细胞增殖的外源性限制二者的逃逸所致。触发癌症进展的体细胞突变可被称为“驱动突变(drivermutation)”,并且不导致表型或生物学后果的体细胞突变可被称为“过客突变(passengermutation)”。分析可常见于肿瘤中的驱动突变对于分析癌症病理学、癌症诊断、精确肿瘤学和预后可能是必不可少本文档来自技高网...

【技术保护点】
1.用于从无细胞核酸例如脱氧核糖核酸(cfDNA)和核糖核酸(cfRNA)中检测体细胞单核苷酸变体(SNV)的方法,所述方法包括:/n对于包含序列数据集的cfDNA样品,估计总体肿瘤cfDNA分数;/n对于测序数据集中的至少一个基因座k,确定基因型似然;/n从包含序列数据集的所述cfDNA样品中消除种系多态性;/n通过一组过滤器过滤SNV候选;以及/n使用并入了所估计的总体肿瘤cfDNA分数的概率模型分析所述cfDNA样品,以确定所述cfDNA样品中肿瘤来源的DNA(ctDNA)的分数。/n

【技术特征摘要】
【国外来华专利技术】20170915 US 62/559,3661.用于从无细胞核酸例如脱氧核糖核酸(cfDNA)和核糖核酸(cfRNA)中检测体细胞单核苷酸变体(SNV)的方法,所述方法包括:
对于包含序列数据集的cfDNA样品,估计总体肿瘤cfDNA分数;
对于测序数据集中的至少一个基因座k,确定基因型似然;
从包含序列数据集的所述cfDNA样品中消除种系多态性;
通过一组过滤器过滤SNV候选;以及
使用并入了所估计的总体肿瘤cfDNA分数的概率模型分析所述cfDNA样品,以确定所述cfDNA样品中肿瘤来源的DNA(ctDNA)的分数。


2.权利要求1所述的方法,其中对于所述cfDNA样品,估计所述总体肿瘤cfDNA分数包括:
组合来自所述cfDNA样品中所有潜在SNV位点的信息,以降低由在一个或更多个所述潜在SNV位点处发生的测序误差引起的噪声。


3.权利要求1所述的方法,其中确定所述基因型似然包括:
在给定不同联合基因型的情况下计算所观察到的读取覆盖所述基因座的似然。


4.权利要求1所述的方法,其中确定所述基因型似然包括:
估计基因座处的基因型,其使得后验概率最大化。


5.权利要求4所述的方法,其中估计所述基因座处的基因型包括:
确定所述序列数据集中每个基因座的联合基因型。


6.权利要求1所述的方法,其中过滤所述SNV候选包括以下中的至少一项:
基于链偏倚过滤器过滤SNV候选;
基于碱基质量过滤器过滤SNV候选;
基于读取伴侣过滤器过滤测序读取;
基于读取伴侣过滤器过滤SNV候选;
基于对真实变体与测序误差进行分类的机器学习模型过滤测序读取;
基于序列背景过滤器过滤SNV候选;以及
基于公共数据库过滤SNV候选。


7.权利要求6所述的方法,其中基于所述对真实变体与测序误差进行分类的机器学习模型过滤所述测序读取包括:
建立包含真实变体或测序误差的测序读取的基准真实训练数据;
创建每个测序读取的特征谱,其具有包含以下的信息:所述读取中每个碱基的测序质量,读取比对信息,序列背景(例如读取序列和插入/缺失)以及双端测序数据的插入大小;
基于训练数据训练分类器,以通过使用每个读取的特征谱对具有真实变体的测序读取和具有测序误差的读取进行分类;以及使用经训练的分类器将每个cfDNA测序读取分类为具有真实变体的读取或具有测序误差的读取。


8.用于从无细胞核酸例如脱氧核糖核酸(cfDNA)和核糖核酸(cfRNA)中检测体细胞单核苷酸变体(SNV)的系统,所述系统包含:
计算机存储器;
通信偶连至所述计算机存储器的一个或更多个计算机处理器,所述一个或更多个计算机处理器被配置为实现包括以下的方法:
对于包含序列数据集的cfDNA样品,估计总体肿瘤cfDNA分数;
对于测序数据集中的至少一个基因座k,确定基因型似然;
从包含序列数据集的所述cfDNA样品中消除种系多态性;
通过一组过滤器过滤SNV候选;以及
使用并入了所估计的总体肿瘤cfDNA分数的概率模型分析所述cfDNA样品以确定所述cfDNA样品中肿瘤来源的DNA(ctDNA)的分数。


9.权利要求8所述的系统,其中对于所述cfDNA样品,估计所述总体肿瘤cfDNA分数包括:
组合来自所述cfDNA样品中所有潜在SNV位点的信息,以降低由在一个或更多个所述潜在SNV位点处发生的测序误差引起的噪声。


10.权利要求8所述的系统,其中确定所述基因型似然包括:
在给定不同联合基因型的情况下计算所观察到的读取覆盖所述基因座的似然。


11.权利要求10所述的系统,其中确定所述基因型似然包括:
估计基因座处的基因型,其使得后验概率最大化。


12.权利要求8所述的系统,其中估计所述基因座处的基因型包括:
确定所述序列数据集中每个基因座的联合基因型。


13.权利要求12所述的系统,其中过滤所述SNV候选包括以下中的至少一个:
基于链偏倚过滤器过滤SNV候选;
基于碱基质量过滤器过滤SNV候选;
基于读取伴侣过滤器过滤测序读取;
基于读取伴侣过滤器过滤SNV候选;
基于对真实变体与测序误差进行分类的机器学习模型过滤测序读取;
基于序列背景过滤器过滤SNV候选;以及
基于公共数据库过滤SNV候选。


14.权利要求13所述的系统,其中基于对真实变体与测序误差进行分类的机器学习模型过滤所述测序读取包括:
建立包含真实变体或测序误差的测序读取的基准真实训练数据;
创建每个测序读取的特征谱,其具有包含以下的信息:所述读取中每个碱基的测序质量,读取比对信息,序列背景(例如读取序列和插入/缺失)以及双端测序数据的插入大小;
基于训练数据训练分类器以通过使用每个读取的特征谱对具有真实变体的测序读取和具有测序误差的读取进行分类;以及
使用经训练的分类器将每个cfDNA测序读取分类为具有真实变体的读取或具有测序误差的读取。


15.用于从手术之前和之后收集的血浆样品、白细胞和切除的肿瘤样品(如果有的话)中检测微小残留病变(MRD)的方法,所述方法包括:
从手术前血液样品和切除的肿瘤样品中的至少一种中鉴定一种或更多种截短突变和所述一种或更多种截短突变的突变谱;以及
在所述手术之后使用随访血浆cfDNA样品检测MRD。


16.权利要求15所述的方法,其中在所述手术之后使用随访血浆cfDNA样品检测MRD包括:
提取覆盖截短突变位置的读取;以及
使用被分类为具有真实变体的读取来计算MRD预测得分。


17.权利要求16所述的方法,其中使用所述被分类为具有真实变体的读取来计算所述MRD预测得分包括:
对基因组中的k个位点进行采样,所述位点不包含已鉴定的突变,但匹配k个截短突变的特征;
过滤被鉴定为包含误差的读取;以及
生成所述MRD预测得分。


18.用于从手术之前和之后收集的血浆样品、白细胞和切除的肿瘤样品(如果有的话)中检测微小残留病变(MRD)的系统,所述系统包含:
计算机存储器;
通信偶连至所述计算机存储器的一个或更多个计算机处理器,所述一个或更多个计算机处理器被配置为实现包括以下的方法:
从手术前血液样品和切除的肿瘤样品中的至少一种中鉴定一种或更多种截短突变和所述一种或更多种截短突变的突变谱;以及
在所述手术之后使用随访血浆cfDNA样品检测MRD。


19.权利要求18所述的系统,其中在所述手术之后使用随访血浆cfDNA样品检测MRD包括:
提取覆盖截短突变位置的读取,以及使用被分类为具有真实变体的读取来计算MRD预测得分。


20.权利要求19所述的系统,其中使用所述被分类为具有真实变体的读取来计算所述MRD预测得分包括:
对基因组中的k个位点进行采样,所述位点不包含已鉴定的突变但匹配那些k个截短突变的特征;
过滤被鉴定为包含误差的读取;以及
生成所述MRD预测得分。


21.存储指令集的非暂时性存储介质,当执行所述指令时,其使得一个或更多个计算机处理器从无细胞核酸例如脱氧核糖核酸(cfDNA)和核糖核酸(cfRNA)中检测体细胞单核苷酸变体(SNV),所述指令集包含以下指令:
对于包含测序数据集的cfDNA/cfRNA样品,合并重叠读取伴侣;
对于包含序列数据集的cfDNA/cfRNA样品,估计总体肿瘤cfDNA分数;
对于所述测序数据集中的基因座,确定基因型似然;
从包含所述序列数据集的cfDNA/cfRNA样品中消除种系多态性;
使用并入了所估计的总体肿瘤cfDNA分数的概率模型分析所述cfDNA/cfRNA样品,以确定所述cfDNA/cfRNA样品中肿瘤来源的DNA(ctDNA/ctRNA)的分数;
使用并入了cfDNA/cfRNA样品特性的一组过滤器,消除低质量的体细胞SNV候选;
从包含所述测序数据集的cfDNA/cfRNA样品中消除不一致的重叠读取伴侣;
使用区分测序误差与真实变体的机器学习模型消除具有测序误差的读取;以及
使用截短突变谱和所述机器学习模型从所述cfDNA/cfRNA样品中确定早期微小残留病变(MRD)。


22.用于从无细胞核酸例如脱氧核糖核酸(cfDNA)和核糖核酸(cfRNA)中检测体细胞单核苷酸变体(SNV)的方法,所述方法包括:
对于包含测序数据集的cfDNA/cfRNA样品,合并重叠读取伴侣;
对于包含序列数据集的cfDNA/cfRNA样品,估计总体肿瘤cfDNA分数;
对于所述测序数据集中的基因座,确定基因型似然;
从包含所述序列数据集的cfDNA/cfRNA样品中消除种系多态性;
使用并入了所估计的总体肿瘤cfDNA分数的概率模型分析所述cfDNA/cfRNA样品,以确定所述cfDNA/cfRNA样品中肿瘤来源的DNA(ctDNA/ctRNA)的分数;
使用并入了cfDNA/cfRNA样品特性的一组过滤器,消除低质量的体细胞SNV候选;
从所述包含测序数据集的cfDNA/cfRNA样品中消除不一致的重叠读取伴侣;
使用区分测序误差与真实变体的机器学习模型消除具有测序误差的读取;以及
使用截短突变谱和所述机器学习模型从所述cfDNA/cfRNA样品中确定早期微小残留病变(MRD)。


23.用于从对象的多个无细胞核酸(cfNA)分子中检测体细胞单核苷酸变体(SNV)的方法,其包括:
(a)调取由测序仪产生的多个序列读取,其中所述多个序列读取的至少一个子集包含来自所述多个cfNA分子或其衍生物的序列;
(b)将概率模型应用于多个遗传基因座中的每一个处的所述多个序列读取,以估计所述多个cfNA分子的总体肿瘤负荷,其中所述估计的总体肿瘤负荷包含所述多个cfNA分子中肿瘤来源的cfNA分子的定量测量,其中所述多个遗传基因座包含潜在的SNV位点;
(c)对于所述多个遗传基因座中的每一个,至少部分地基于所述总体肿瘤负荷,确定所述对象的一种或更多种基因型的似然,其中所述一种或更多种基因型选自正常基因型、肿瘤基因型和联合正常肿瘤基因型;
(d)对于所述多个遗传基因座中的每一个,至少部分地基于(c)中确定的所述一种或更多种基因型的所述似然和所述多种cfNA分子中肿瘤来源的cfNA分子的所述定量测量,检测一种或更多种SNV;以及
(e)从(d)中检测的所述一种或更多种SNV中过滤出一种或更多种种系多态性,从而获得一种或更多种体细胞SNV。


24.权利要求23所述的方法,其还包括:
(f)使用选自以下的一种或更多种过滤器过滤出在(e)中获得的所述一种或更多种体细胞SNV,从而获得经过滤的一组体细胞SNV:链偏倚过滤器、碱基质量过滤器、读取伴侣过滤器、测序误差过滤器、插入或缺失(插失)和均聚物引发的误差过滤器和公共数据库过滤器。


25.权利要求24所述的方法,其还包括:
(g)将所述概率模型应用于所述多个遗传基因座中的每一个处的所述多个序列读取,以重新估计所述总体肿瘤负荷,其中所述多个遗传基因座包含在(f)中获得的所述经过滤的一组体细胞SNV。


26.权利要求23所述的方法,其中所述多个无细胞核酸(cfNA)分子包含无细胞脱氧核糖核酸(cfDNA)分子或无细胞核糖核酸(cfRNA)分子。


27.权利要求23所述的方法,其中估计所述总体肿瘤负荷包括组合来自跨越所述潜在SNV位点的所述多个序列读取的信息,以降低所述多个序列读取中由在一个或更多个所述潜在SNV位点处的所述测序中的误差引起的噪声。


28.权利要求25所述的方法,其中重新估计所述总体肿瘤负荷包括组合来自跨越所述经过滤的一组体细胞SNV的所述多个序列读取的信息,以降低所述多个序列读取中由在所述经过滤的一组体细胞SNV的一个或更多个处的所述测序中的误差引起的噪声。


29.权利要求27所述的方法,其中组合所述信息包括在给定所述总体肿瘤负荷的情况下,计算使在多个预定SNV热点中的每一个处观察到所述多个序列读取的似然最大化的值。


30.权利要求23所述的方法,其中确定所述遗传基因座的所述似然包括在给定一个或更多个基因型的情况下,确定观察到覆盖所述遗传基因座的所述多个序列读取中的数个序列读取的似然。


31.权利要求23所述的方法,其中确定所述遗传基因座的所述似然包括计算最大后验概率估计。
<...

【专利技术属性】
技术研发人员:向红·婕思敏·周李硕李文渊
申请(专利权)人:加利福尼亚大学董事会
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1