一种鉴定肿瘤纯度样本的模型构建方法及应用技术

技术编号:23364294 阅读:36 留言:0更新日期:2020-02-18 17:51
本发明专利技术属于肿瘤纯度检测领域,具体涉及一种鉴定肿瘤纯度样本的模型构建方法及应用,包括:基于已知肿瘤纯度肿瘤样本的靶向捕获测序数据,获取包括如下的指标数据:体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数;将上述指标数据与已知纯度肿瘤样本的肿瘤纯度进行关联构建鉴定模型;上述方法中,结合体细胞突变和生殖细胞变异,综合体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数等指标数据构建的模型,解决了区间芯片捕获测序如panel测序突变位点少肿瘤纯度鉴定困难的问题,可以比较准确地识别出低纯度样本,实现各个不同指标之间多重相互交叉确认,可信度较高。

A model construction method and application of tumor purity samples

【技术实现步骤摘要】
一种鉴定肿瘤纯度样本的模型构建方法及应用
本专利技术属于肿瘤纯度检测领域,具体涉及一种鉴定肿瘤纯度样本的模型构建方法及应用。
技术介绍
肿瘤组织细胞成分结构复杂,除了肿瘤细胞,还包括基质细胞、免疫细胞、成纤维细胞、脉管系统和细胞外基质等,共同构成肿瘤微环境。肿瘤纯度是指肿瘤组织中肿瘤细胞所占的比例。肿瘤纯度估算结果可能改变生物学和临床对结果的解释。研究显示肿瘤纯度与肿瘤患者的临床特征、基因组表达和生物学特性均显著相关,忽视肿瘤纯度的影响可导致肿瘤基因分型、复发风险及疗效预测等过程产生系统性偏倚,准确评估肿瘤纯度有助于客观分析肿瘤样本。TCGA认为,60%的肿瘤纯度足以将肿瘤信号与其他细胞的信号区分开来,但这种肿瘤样本的纯度水平是否会影响基因组分析的解释,仍有待评估。许多肿瘤领域的生物信息分析例如微卫星不稳定性(MSI)和肿瘤突变负荷(TMB)分析等都会受样本的肿瘤纯度影响。对于低肿瘤纯度的样本,例如低于20%,这些生物信息分析的效果将会大受影响。因此,需要有一种方法对这些样本的肿瘤纯度进行质控。传统的肿瘤纯度计算方法是根据肿瘤细胞的视觉或病理图像分析来估计,往往受组织病理学、观察者和试剂仪器精确度等各方面的影响。随着基因组技术的进步,许多新的计算肿瘤纯度的方法已经出现。这些方法利用不同类型的基因组信息进行估计,如基因表达、体细胞拷贝数变异、体细胞突变和DNA甲基化。评估肿瘤纯度和倍性依赖于统计信号,这些信号可以在肿瘤样本中区分肿瘤细胞和正常细胞。肿瘤NGS数据的统计分化主要来自两种类型的遗传变异。一种类型的事件是体细胞拷贝数改变(SCNAs)。将肿瘤样本的SCNA位点的测序覆盖率与其匹配的正常样本进行比较,构成统计学差异。常用的分析软件为CNAnorm和ABSOLUTE。第二种是单核苷酸变异(SNVs)。将肿瘤样本的SNV位点的等位基因测序覆盖率与匹配的正常样本进行比较,例如PurityEst。基于全外或WGS等大基因组数据,突变位点较多,当前已有较成熟的方法估计肿瘤细胞纯度。但针对定制的区间芯片捕获测序,例如panel测序,因为捕获区间较少,大概总共只有几百Kbps到几Mbps的区域,所能捕获的变异数目相对较少,CNV估计方法存在挑战,目前还没有很适用的方法能针对芯片捕获数据估算肿瘤纯度。经过近期开发测试,本专利技术建立了一种鉴定肿瘤纯度样本的模型构建方法及应用,解决了芯片捕获数据突变位点少,估算肿瘤纯度困难的问题,可以比较准确地识别出低纯度肿瘤样本,实现各个不同指标之间多重相互交叉确认,可信度较高。
技术实现思路
因此,本专利技术要解决的技术问题在于提供一种鉴定肿瘤纯度样本的模型构建方法及应用,解决了芯片捕获数据突变位点少,估算肿瘤纯度困难的问题,可以比较准确地识别出低纯度肿瘤样本,实现各个不同指标之间多重相互交叉确认,可信度较高。为此,本专利技术提供了如下的技术方案:一种鉴定肿瘤纯度样本的模型构建方法,包括:基于已知肿瘤纯度肿瘤样本的靶向捕获测序数据,获取包括如下的指标数据:体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数;将上述指标数据与已知肿瘤纯度肿瘤样本的肿瘤纯度进行关联构建鉴定模型。在所述的模型构建方法中,所述靶向捕获测序数据包括目标捕获区域和/或非目标捕获区域的测序数据。在所述的模型构建方法中,在获取指标数据之前,还包括取已知肿瘤纯度肿瘤样本及其配对样本的靶向捕获测序数据与参考基因组进行比对的步骤,得到的比对结果,备用。在所述的模型构建方法中,所述体细胞拷贝数变化幅度的数据的获取方法,包括:将所述比对结果进行基因组覆盖度统计,将所得的基因组覆盖数据进行分段,计算染色体臂的reads的数目,随后按照下述计算公式(1)统计染色体臂的L2R中位数或平均值;所述计算公式(1)中的和分别代表覆盖肿瘤样本和配对样本基因组分段bins的染色体臂reads的数目;Nt和Nn分别代表肿瘤样本和配对样本的reads总数;选取k≤39个偏离L2R中位数或平均值最大的染色体臂reads的数目相加计算CNA分值,即得。在所述的模型构建方法中,所述杂合子种系单核苷酸变异的数据的获取方法,包括:将所述比对结果进行变异检测,获取配对样本中存在的种系的杂合位点,计算所述杂合位点在肿瘤样本中的BAF与标准BAF值的偏离值,统计染色体臂上的杂合位点的BAF偏离值的绝对中位差或平均值;选取k≤39个最大的绝对中位差值或平均值相加计算BAF分值,即得。在所述的模型构建方法中,所述等位基因变异分数的数据的获取方法,包括:将所述比对结果进行变异检测,计算体细胞突变的VAF众数,依据体细胞突变的VAF值集合,获得体细胞突变VAF的分布密度,取分布密度最高点对应的VAF众数值,即得。在所述的模型构建方法中,在所述构建鉴定模型步骤中,通过数据训练方法进行单指标或多指标联合阈值确认;所述数据训练方法为线性模型确认或机器学习确认;优选的,将获得的指标数据分别与已知纯度肿瘤样本的纯度构建线性模型。在所述的模型构建方法中,当采用二代测序时,采用LOESS的算法对所述靶向捕获测序数据进行GC校正。一种鉴定肿瘤纯度样本的方法,包括利用所述的鉴定肿瘤纯度样本的模型构建方法构建的模型。进一步的,包括将待测肿瘤样本的所述指标数据导入对应的鉴定模型中,鉴定肿瘤样本纯度。所述的鉴定肿瘤纯度样本的模型构建方法构建的模型或所述的一种鉴定肿瘤纯度样本的方法在定性或定量鉴定肿瘤纯度、肿瘤微卫星不稳定性检测、肿瘤突变负荷检测或临床解读中的用途。本专利技术技术方案,具有如下优点:1.本专利技术提供的一种鉴定肿瘤纯度样本的模型构建方法,包括:基于已知肿瘤纯度肿瘤样本的靶向捕获测序数据,获取包括如下的指标数据:体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数;将上述指标数据与已知肿瘤纯度肿瘤样本的肿瘤纯度进行关联构建鉴定模型;上述方法中,结合体细胞突变和生殖细胞变异,综合体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数等指标数据构建的模型,解决了区间芯片捕获测序如panel测序突变位点少肿瘤纯度鉴定困难的问题,可以比较准确地识别出低纯度样本,实现各个不同指标之间多重相互交叉确认,可信度较高,广泛适用于芯片捕获测序如panel测序。2.本专利技术提供的一种鉴定肿瘤纯度样本的模型构建方法,所述靶向捕获测序数据包括目标捕获区域(ontarget)和/或非目标捕获区域(offtarget)的测序数据,最大限度利用数据,额外提供Off区域的变异位点信息和ontarget和offtarget区域(on+offtarget)CNA信息,进一步解决了芯片捕获区域小,突变位点少的问题。3.本专利技术提供的一种鉴定肿瘤纯度样本的模型构建方法,当采用二代测序如Illumina测序时,采用LOESS的算法对所述靶向捕获测序数据进行GC校正,由于二代测序如Illumina测序数据显示的区域GC(本文档来自技高网
...

【技术保护点】
1.一种鉴定肿瘤纯度样本的模型构建方法,其特征在于,包括:/n基于已知肿瘤纯度肿瘤样本的靶向捕获测序数据,获取包括如下的指标数据:体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数;/n将上述指标数据与已知肿瘤纯度肿瘤样本的肿瘤纯度进行关联构建鉴定模型。/n

【技术特征摘要】
1.一种鉴定肿瘤纯度样本的模型构建方法,其特征在于,包括:
基于已知肿瘤纯度肿瘤样本的靶向捕获测序数据,获取包括如下的指标数据:体细胞拷贝数变化幅度、杂合子种系单核苷酸变异和体细胞等位基因变异分数;
将上述指标数据与已知肿瘤纯度肿瘤样本的肿瘤纯度进行关联构建鉴定模型。


2.根据权利要求1所述的模型构建方法,其特征在于,所述靶向捕获测序数据包括目标捕获区域和/或非目标捕获区域的测序数据。


3.根据权利要求1或2所述的模型构建方法,其特征在于,在获取指标数据之前,还包括取已知肿瘤纯度肿瘤样本及其配对样本的靶向捕获测序数据与参考基因组进行比对的步骤,得到的比对结果,备用。


4.根据权利要求3所述的模型构建方法,其特征在于,所述体细胞拷贝数变化幅度的数据的获取方法,包括:
将所述比对结果进行基因组覆盖度统计,将所得的基因组覆盖数据进行分段,计算染色体臂的reads的数目,随后按照下述计算公式(1)统计染色体臂的L2R中位数或平均值;所述计算公式(1)中的和分别代表覆盖肿瘤样本和配对样本基因组分段bins的染色体臂reads的数目;Nt和Nn分别代表肿瘤样本和配对样本的reads总数;



选取k≤39个偏离L2R中位数或平均值最大的染色体臂reads的数目相加计算CNA分值,即得。


5.根据权利要求3所述的模型构建方法,其特征在于,所述杂合子种系单核苷酸变异的数据的获取方法,包括:
将所述比对结果进行变异检测,获取配对样本中存在的...

【专利技术属性】
技术研发人员:黄毅易鑫林浩翔刘久成吴玲清
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1