异常组织中单样本体细胞突变位点检测方法、装置和存储介质制造方法及图纸

技术编号:16837927 阅读:34 留言:0更新日期:2017-12-19 20:15
一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质,所述方法包括:获取异常样本和模拟的正常样本的有效测序序列;在上述有效测序序列中,对异常样本与模拟的正常样本不一致的碱基,根据突变碱基频率判断异常样本和模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据差异判断突变类型;以及通过对突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。所述方法具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。

Detection method, device and storage medium of single sample somatic mutation loci in abnormal tissues

A single sample of somatic mutations detection method, device and storage medium is a kind of abnormal tissue, the method includes: effective sequencing of normal samples and abnormal samples for simulation; the effective sequencing sequence, normal samples of abnormal samples and Simulation of inconsistent bases, according to the normal sample base mutation base frequency abnormal samples and simulation, and then use the difference of Fisher exact test base type, according to the difference judgment mutation; and based on the types of mutations are filtered to remove false positive mutation and germ cell mutation, high reliability somatic mutations are. The method has the characteristics of high sensitivity and specificity, not only for the detection of known mutation genes, but also for finding new mutation genes.

【技术实现步骤摘要】
异常组织中单样本体细胞突变位点检测方法、装置和存储介质
本专利技术涉及突变检测
,具体涉及一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质。
技术介绍
基因组测序技术为癌症研究提供新的方向和契机,近几十年来,研究者通过测序技术发现了大量新的肿瘤驱动基因(drivergene),加速了癌症分子标记物的发现和个体化医疗的进程。常规的实验设计是同时收集肿瘤样本和对照样本,通过比较肿瘤样本和对照样本之间的差异,找到体细胞突变(somaticmutation)。这是理想的实验设计方案,但实际上有部分肿瘤组织很难取到对照样本或在保存的过程中丢失了对照样本,这部分样本仍然具有很高的研究价值,因此针对非成对样本的体细胞突变检测就十分关键。目前针对肿瘤体细胞突变的检测大部分都是基于成对样本开发的,例如常用的samtools、varscan、GATK等软件。Broad开发的mutect软件虽然有单样本模式的体细胞变异检测,但效果不尽如人意,假阳性率高达99%以上。由此可见,目前基于非成对样本的体细胞突变检测方法有很大的挑战,如何识别生殖遗传突变是关键,但是目前的数据库无论是人类多态性遗传位点数据库dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)还是千人基因组计划发布的多态性数据库(http://www.internationalgenome.org)都无法包含人类所有的生殖遗传突变信息,因此需要借助其它信息来过滤掉生殖遗传突变。
技术实现思路
本专利技术提供一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质,应用简单模型,具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。根据第一方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测方法,包括如下步骤:获取异常样本和模拟的正常样本的有效测序序列;在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。进一步地,上述异常样本是肿瘤样本。上述获取异常样本和模拟的正常样本的有效测序序列之前,还包括将上述异常样本和模拟的正常样本的测序序列分别比对至参考基因组进行数据预处理的步骤;进一步地,上述数据预处理包括如下至少一项:过滤掉非目标物种基因组序列和测序重复序列;过滤掉序列比对质量值小于预设值的序列,优选地,上述预设值是1;保留重叠区域内两条成对序列中质量值较高的序列;和过滤掉截断比对的序列、错配碱基富集的序列和比对有空隙的序列。进一步地,上述根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型包括:分别对上述异常样本和上述模拟的正常样本,选择测序位点深度均大于最低深度阈值的位点,若突变碱基频率大于频率阈值,则可认为在此位点有该碱基;优选地,上述最低深度阈值是10×;优选地,上述频率阈值是2%。进一步地,上述根据上述差异判断突变类型包括:若上述模拟的正常样本中无变异碱基而上述异常样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;若上述模拟的正常样本和上述异常样本中都有变异碱基,且两者的差异检验p值大于0.05,则认为是生殖细胞突变;以及若上述模拟的正常样本中有变异碱基而上述异常样本中没有变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。进一步地,上述过滤去除假阳性变异包括过滤去除如下至少一项:碱基质量值低于预设值;所在序列比对质量值低于预设值;突变位置集中在序列末端;突变具有链偏向性;突变周围覆盖深度低于预设值;和突变周围有插入缺失富集。进一步地,上述过滤去除生殖细胞突变包括:过滤去除常见生殖细胞突变;和根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变;优选地,上述根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变包括:按照如下突变碱基频率的计算公式:其中,AF表示突变碱基频率,p表示异常纯度,C表示异常拷贝数,M表示突变位点的拷贝数,若g值等于0或接近于0,则认为是体细胞突变;若g值等于1或接近于1,则认为是生殖细胞突变;若g值介于0到1之间,则认为无法判断是体细胞突变还是生殖细胞突变;以及若g值小于0,则认为是亚克隆体细胞突变。根据第二方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:数据获取装置,用于获取异常样本和模拟的正常样本的有效测序序列;变异检测装置,用于在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和过滤装置,用于通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。根据第三方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:数据预处理装置,用于将异常样本和模拟的正常样本的测序序列,分别比对至参考基因组进行数据预处理得到有效测序序列;数据获取装置,用于获取异常样本和模拟的正常样本的有效测序序列;变异检测装置,用于在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和过滤装置,用于通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。根据第四方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如第一方面的方法。根据第五方面,一种实施例中提供一种计算机可读存储介质,包括程序,上述程序能够被处理器执行以实现如第一方面的方法。本专利技术的异常组织中单样本体细胞突变位点检测方法,应用于异常基因组点突变检测,对于缺少正常对照样本的异常组织样本,通过采用模拟的正常样本,经过数据预处理、变异检测和过滤处理,实现单样本体细胞突变位点检测,具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。附图说明图1为本专利技术一种实施例中的异常组织中单样本体细胞突变位点检测方法的流程示意图;图2为本专利技术一种实施例中的异常组织中单样本体细胞突变位点检测装置的结构框图;图3为本专利技术一种实施例中26个测序深度100X以上的外显子肿瘤样本,采用本专利技术的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据的特异性情况;柱状表示样本的真阳性(truepositive)和假阳性(falsepositive)的突变数目(No.ofmutations);图4为本专利技术一种实施例中26个测序深度100X以上的外显子肿瘤样本,采用本专利技术的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据的灵敏性情况;柱状表示样本的真阳性(t本文档来自技高网...
异常组织中单样本体细胞突变位点检测方法、装置和存储介质

【技术保护点】
一种异常组织中单样本体细胞突变位点检测方法,其特征在于,包括如下步骤:获取异常样本和模拟的正常样本的有效测序序列;在所述有效测序序列中,对所述异常样本与所述模拟的正常样本不一致的碱基,根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据所述差异判断突变类型;和通过对所述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。

【技术特征摘要】
1.一种异常组织中单样本体细胞突变位点检测方法,其特征在于,包括如下步骤:获取异常样本和模拟的正常样本的有效测序序列;在所述有效测序序列中,对所述异常样本与所述模拟的正常样本不一致的碱基,根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据所述差异判断突变类型;和通过对所述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。2.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述获取异常样本和模拟的正常样本的有效测序序列之前,还包括将所述异常样本和模拟的正常样本的测序序列分别比对至参考基因组进行数据预处理的步骤,所述数据预处理包括如下至少一项:过滤掉非目标物种基因组序列和测序重复序列;过滤掉序列比对质量值小于预设值的序列,优选地,所述预设值是1;保留重叠区域内两条成对序列中质量值较高的序列;和过滤掉截断比对的序列、错配碱基富集的序列和比对有空隙的序列。3.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型包括:分别对所述异常样本和所述模拟的正常样本,选择测序位点深度均大于最低深度阈值的位点,若突变碱基频率大于频率阈值,则可认为在此位点有该碱基;优选地,所述最低深度阈值是10×;优选地,所述频率阈值是2%。4.根据权利要求3所述的单样本体细胞突变位点检测方法,其特征在于,所述根据所述差异判断突变类型包括:若所述模拟的正常样本中无变异碱基而所述异常样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;若所述模拟的正常样本和所述异常样本中都有变异碱基,且两者的差异检验p值大于0.05,则认为是生殖细胞突变;以及若所述模拟的正常样本中有变异碱基而所述异常样本中没有变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。5.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述过滤去除假阳性变异包括过滤去除...

【专利技术属性】
技术研发人员:王佳茜高志博陈超李淼杨洁
申请(专利权)人:深圳裕策生物科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1