肿瘤突变负荷检测方法、装置和存储介质制造方法及图纸

技术编号:21481445 阅读:31 留言:0更新日期:2019-06-29 05:42
一种肿瘤突变负荷检测方法、装置和存储介质,该方法包括:获取单个测试样本的突变频率数据,包括该样本目标区域的位点突变频率,将位点突变频率与设定的阈值进行比较得到大于阈值的单核苷酸变异,并去除单核苷酸变异中的无义突变得到有效单核苷酸变异个数;获取单个测试样本的Indel突变频率数据,包括该样本目标区域的Indel突变频率,将Indel突变频率与设定的阈值进行比较得到大于阈值的Indel突变个数;根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值,估值公式包括有效单核苷酸变异个数的权重项和Indel突变个数的权重项。本发明专利技术的方法,在不依赖公共数据库和正常配对对照样本的前提下,准确地对肺癌样本的TMB指标进行检测。

【技术实现步骤摘要】
肿瘤突变负荷检测方法、装置和存储介质
本专利技术涉及肿瘤检测
,具体涉及一种肿瘤突变负荷检测方法、装置和存储介质。
技术介绍
细胞程序性死亡蛋白1(ProgrammedCellDeathprotein1,PD-1)是一种通常表达于细胞表面的蛋白,通过降低免疫细胞对细胞的炎症反应而调控免疫系统,防止自身免疫的发生。PD-1的配体PD-L1可以特异性地中和PD-1,从而重新启动免疫系统对细胞的杀伤作用。这种现象又被叫做免疫检查点抑制。通过免疫检查点抑制机制(如CTLA-4和PD-L1)开发的药物在近几年的癌症治疗中被发现有着令人鼓舞的治疗效果。细胞的癌变通常是由体细胞中的基因突变长期积累的结果,但不是所有的体细胞突变都会导致细胞癌变。目前主流观点认为,只有在驱动基因上的特异突变才赋予细胞癌变的特性,这种突变叫做驱动突变(drivermutation)。而驱动突变又会引发其他的基因突变,这导致癌细胞中的基因突变数量往往高于正常的体细胞。肿瘤突变负荷(TMB)是反映肿瘤细胞中总的基因突变程度的一个指标,通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。多个大规模临床研究发现,免疫检查点抑制剂的疗效很大程度上取决于患者癌细胞中所携带的基因突变的数量。在接受免疫检查点抑制剂治疗的患者中,TMB高与TMB低的患者对免疫疗法的疗效差异十分明显。因此,TMB的精确测量可以预测免疫检查点抑制剂的疗效,使癌症患者有机会获得更加精准的治疗。最初的TMB采用全外显子组测序方法,对照患者的正常组织和癌组织,找出癌细胞特有的体细胞突变。可是对癌组织和正常组织同时测序成本较高,科学家开始探索只对癌症单个样本测序来测量TMB的可行性。2017年底,FDA批准的FoundationOneCDx基因检测试剂盒就采用了单样本测量TMB的方法,即只对癌症样本测序,然后通过统计方法和人群数据库信息在基因突变中确定胚系突变并过滤。这在一定程度上降低了TMB检测的成本要求。但是这类方法有几个缺陷。首先,不同癌种间TMB的差异较大,用同样的数据库过滤方法并不能保证对所有癌种的胚系基因突变进行精确的去除;其次,这种方法高度依赖公共数据库的质量和多样性,对不在数据库中的人种的突变背景无法做出精确的描述。
技术实现思路
本申请提供一种肿瘤突变负荷检测方法、装置和存储介质,在不依赖公共数据库和配对正常样本的前提下,准确地对肺癌样本的TMB指标进行检测。根据第一方面,一种实施例中提供一种肿瘤突变负荷检测方法,包括如下步骤:获取单个测试样本的突变频率数据,该突变频率数据包括该样本目标区域的位点突变频率,将上述位点突变频率与设定的位点突变频率阈值进行比较,得到位点突变频率大于上述位点突变频率阈值的单核苷酸变异,并去除上述单核苷酸变异中的无义突变得到有效单核苷酸变异个数;获取单个测试样本的Indel突变频率数据,该Indel突变频率数据包括该样本目标区域的Indel突变频率,将上述Indel突变频率与设定的Indel突变频率阈值进行比较,得到Indel突变频率大于上述Indel突变频率阈值的Indel突变个数;根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值,其中上述估值公式包括上述有效单核苷酸变异个数的权重项和上述Indel突变个数的权重项。在优选实施例中,上述肿瘤突变负荷的估值公式如下:S/100+sgn(I)其中,S指上述有效单核苷酸变异个数,I指Indel突变个数,sgn()为符号函数,在I大于或等于个数阈值的情况下,sgn(I)输出值为1,否则输出值为0。在优选实施例中,上述个数阈值为2。在优选实施例中,上述测试样本的位点突变频率是根据上述测试样本的测序深度进行校正得到的校正位点突变频率。在优选实施例中,上述校正位点突变频率通过如下公式得到:θadj=θj×τ(min(1,Dj/Dlimit),α,β);其中,θadj为在当前位点的校正位点突变频率,θj为在当前位点实际观测的位点突变频率,τ是以α和β为形状参数的Beta分布的累计概率分布函数,Dj为上述测试样本在当前位点的实际测序深度,Dlimit为设定的最低校正测序深度。在优选实施例中,上述位点突变频率阈值通过如下方法确定,该方法即SNV变异训练或SNV变异统计方法:获取一组训练样本的ACGT格式文件,该ACGT格式文件包含选定的目标区域中每个位点的位置信息、测序深度信息和突变到任意其它三种非参考碱基的突变频率;统计所有训练样本中每种三碱基突变(mutationalsignature)的平均突变频率,并将其作为每种三碱基突变的先验突变频率;从所有训练样本中提取每一位点的突变频率最大值,上述突变频率最大值满足的条件是,在同一个位点SNP的比例高于阈值p的次数在所有训练样本中至少出现设定次数n,若没有满足上述条件,该突变位点的突变频率被置换为该位点所有训练样本的突变频率平均值;将所得到的突变频率最大值或突变频率平均值乘以设定的系数值后得到的数值如果大于1,则将突变频率设为1,如果该数值小于1,则突变频率取该数值,然后将突变频率与先验突变频率进行加权,得到该突变位点的加权突变频率,作为位点后验突变频率;求出所有训练样本在上述目标区域中各个位点的测序深度平均值;将上述位点后验突变频率和上述测序深度平均值提供给TNER方法,在给定的显著性水平下得出上述位点突变频率阈值。在优选实施例中,上述阈值p是0.05,上述设定次数n是10,上述系数值是5,上述给定的显著性水平是0.001。在优选实施例中,上述先验突变频率通过如下方法确定:获取每个训练样本中的背景突变和SNP突变,其中杂合子和纯合子SNP的突变频率分别在0.5和1处聚集并呈高斯分布,而背景突变的突变频率在0.001-0.1处聚集并呈伽马分布;通过对上述背景突变和SNP突变的突变频率形成的混合分布进行拟合,找出混合分布的概率密度分布中背景突变与杂合子SNP突变之间概率密度分布的最低点所对应的突变频率,将该突变频率作为背景突变频率的阈值,将突变频率小于该阈值的突变作为真实背景突变;在上述真实背景突变中对每个训练样本的相同的三碱基突变进行归类后求三碱基平均背景突变频率,然后将所有训练样本中相同的三碱基平均背景突变频率的平均值作为三碱基突变的先验突变频率。上述三碱基突变(mutationalsignature)是指6种基础单碱基突变形式(A→T、A→G、A→C、C→A、C→T、C→G)与其上下文各一个碱基的组合,共有96种。在优选实施例中,上述方法在得到位点突变频率大于上述位点突变频率阈值的单核苷酸变异之后,去除变异频率在5%以下、45%~55%之间和95%~100%之间的单核苷酸变异,再去除上述单核苷酸变异中的无义突变得到有效单核苷酸变异个数。在优选实施例中,上述Indel突变频率阈值通过如下方法确定,该方法即Indel变异训练或Indel变异统计方法:获取一组训练样本的Indel格式文件,该Indel格式文件包含选定的目标Indel组中每个Indel的信息,将每个Indel以染色体+位置+突变前碱基+突变类型+突变后碱基进行编码,在编码过程中只选取突变后碱基编码的第一位组成每个Indel的突变编码;在所有训练样本中找出所有至少出本文档来自技高网
...

【技术保护点】
1.一种肿瘤突变负荷检测方法,其特征在于,所述方法包括如下步骤:获取单个测试样本的突变频率数据,所述突变频率数据包括该样本目标区域的位点突变频率,将所述位点突变频率与设定的位点突变频率阈值进行比较,得到位点突变频率大于所述位点突变频率阈值的单核苷酸变异,并去除所述单核苷酸变异中的无义突变得到有效单核苷酸变异个数;获取单个测试样本的Indel突变频率数据,所述Indel突变频率数据包括该样本目标区域的Indel突变频率,将所述Indel突变频率与设定的Indel突变频率阈值进行比较,得到Indel突变频率大于所述Indel突变频率阈值的Indel突变个数;根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值,其中所述估值公式包括所述有效单核苷酸变异个数的权重项和所述Indel突变个数的权重项。

【技术特征摘要】
1.一种肿瘤突变负荷检测方法,其特征在于,所述方法包括如下步骤:获取单个测试样本的突变频率数据,所述突变频率数据包括该样本目标区域的位点突变频率,将所述位点突变频率与设定的位点突变频率阈值进行比较,得到位点突变频率大于所述位点突变频率阈值的单核苷酸变异,并去除所述单核苷酸变异中的无义突变得到有效单核苷酸变异个数;获取单个测试样本的Indel突变频率数据,所述Indel突变频率数据包括该样本目标区域的Indel突变频率,将所述Indel突变频率与设定的Indel突变频率阈值进行比较,得到Indel突变频率大于所述Indel突变频率阈值的Indel突变个数;根据肿瘤突变负荷的估值公式计算肿瘤突变负荷的数值,其中所述估值公式包括所述有效单核苷酸变异个数的权重项和所述Indel突变个数的权重项。2.根据权利要求1所述的方法,其特征在于,所述肿瘤突变负荷的估值公式如下:S/100+sgn(I)其中,S指所述有效单核苷酸变异个数,I指Indel突变个数,sgn()为符号函数,在I大于或等于个数阈值的情况下,sgn(I)输出值为1,否则输出值为0;优选地,所述个数阈值为2。3.根据权利要求1所述的方法,其特征在于,所述测试样本的位点突变频率是根据所述测试样本的测序深度进行校正得到的校正位点突变频率;优选地,所述校正位点突变频率通过如下公式得到:θadj=θj×T(min(1,Dj/Dlimit),α,β);其中,θadj为在当前位点的校正位点突变频率,θj为在当前位点实际观测的位点突变频率,τ是以α和β为形状参数的Beta分布的累计概率分布函数,Dj为所述测试样本在当前位点的实际测序深度,Dlimit为设定的最低校正测序深度。4.根据权利要求1所述的方法,其特征在于,所述位点突变频率阈值通过如下方法确定:获取一组训练样本的ACGT格式文件,该ACGT格式文件包含目标区域中每个位点的位置信息、测序深度信息和突变到任意其它三种非参考碱基的突变频率;统计所有训练样本中每种三碱基突变的平均突变频率,并将其作为每种三碱基突变的先验突变频率;从所有训练样本中提取每一位点的突变频率最大值,所述突变频率最大值满足的条件是,在同一个位点SNP的比例高于阈值p的次数在所有训练样本中至少出现设定次数n,若没有满足所述条件,该突变位点的突变频率被置换为该位点在所有训练样本中的突变频率平均值;将所得到的所述突变频率最大值或突变频率平均值乘以设定的系数值后得到的数值如果大于1,则将突变频率设为1,如果所述数值小于1,则突变频率取所述数值,然后将所述突变频率与先验突变频率进行加权,得到该突变位点的加权突变频率,作为位点后验突变频率;求出所有训练样本在所述目标区域中各个位点的测序深度平均值;将所述位点后验突变频率和所述测序深度平均值提供给TNER方法,在给定的显著性水平下得出所述位点突变频率阈值;优选地,所述阈值p是0.05,所述设定次数n是10,所述系数值是5,所述给定的显著性水平是0.001。5.根据权利要求4所述的方法,其特征在于,所述先验突变频率通过如下方法确定:获取每个训练样本中的背景突变和SNP突变,其中杂合子和纯合子SNP的突变频率分别在0.5和1处聚集并呈高斯分...

【专利技术属性】
技术研发人员:倪帅李淼陈龙昀张艳鹏但旭陈超
申请(专利权)人:深圳裕策生物科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1