肿瘤体细胞突变位点检测方法及其装置制造方法及图纸

技术编号:24211823 阅读:38 留言:0更新日期:2020-05-20 17:13
本发明专利技术提供肿瘤体细胞突变位点检测方法及其装置。所述方法包括:将取自同一肿瘤患者的肿瘤体细胞样本和白细胞样本进行测序,将测序结果与参考基因组序列进行比对,生成相应的bam文件;去除bam文件中PCR扩增导致的偏差,得到修正的bam文件;将修正的肿瘤体细胞样本bam文件与修正的白细胞样本bam文件进行对比,生成肿瘤体细胞样本全部变异检测信息的vcf文件,并对vcf文件进行注释;根据预设的过滤条件对肿瘤体细胞样本的变异检测信息进行过滤,得到真实的肿瘤体细胞突变位点信息结果。本方法实现了过滤一步操作,保证过滤的准确性,可快速获取肿瘤体细胞突变位点信息,结果真实可靠,为肿瘤患者的精准治疗提供重要依据。

Detection method and device of tumor somatic mutation site

【技术实现步骤摘要】
肿瘤体细胞突变位点检测方法及其装置
本专利技术涉及生物信息学,具体地说,涉及肿瘤体细胞突变位点检测方法及其装置。
技术介绍
体细胞突变指的是除性细胞外的体细胞发生的突变,一般不会遗传给后代。基因组的不稳定性,会促进细胞中体细胞突变的积累,某些突变会进一步驱动癌症的发生。检测肿瘤细胞的体细胞突变、尤其是肿瘤的驱动突变,是解析肿瘤发生和发展的重要手段,同时可以为肿瘤患者的精准治疗提供重要依据。目前,寻找肿瘤体细胞突变的常用软件如Varscan、GATK、SomaticSniper等软件,生成的vcf文件中,都混有大量的假阳性突变,如何从原始vcf文件中将假阳性位点过滤掉,一直是生物信息学科研人员需要面对的挑战。针对肿瘤的体细胞突变的过滤问题,尚无令人满意、被广泛认可的过滤软件可以一步实现这个功能。目前研究者大多根据位点的特定信息,如位点的突变频率、reads数、链偏、碱基的平均质量等,根据经验自行编写程序甚至人工对位点进行过滤,并没有全面考虑待检测位点与周围位点的情况、所在reads碱基平均错误率、突变碱基在reads上的平均距离、复杂突变、位点人群频率等情况,不能实现过滤一步操作,难以保证过滤的准确性。并且,当样本测序质量较差时,软件运行速度缓慢。
技术实现思路
本专利技术的目的是提供肿瘤体细胞突变位点检测方法及其装置,可实现一步到位完成过滤。为了实现本专利技术目的,第一方面,本专利技术提供一种肿瘤体细胞突变位点检测方法,包括以下步骤:S1、将取自同一肿瘤患者的肿瘤体细胞样本和白细胞样本分别进行测序,将测序得到的fastq文件与参考基因组序列进行比对,分别对应生成肿瘤体细胞样本bam文件和白细胞样本bam文件;S2、利用软件Picard,分别去除肿瘤体细胞样本bam文件和白细胞样本bam文件中PCR扩增导致的冗余序列,再利用Samtools,保留比对到唯一位置的reads,得到修正的肿瘤体细胞样本bam文件和修正的白细胞样本bam文件;S3、利用Samtoolsmpileup和Varscan,用白细胞的数据作为对照,分别获得肿瘤体细胞样本单碱基变异和插入缺失的vcf文件,并用annovar对vcf文件进行注释;S4、根据预设的过滤条件对肿瘤体细胞样本的变异检测信息进行过滤,得到真实的肿瘤体细胞突变位点信息结果。本专利技术中,预设的过滤条件为根据位点的突变频率、reads数、链偏、碱基的平均质量等,以及待测位点与周围位点的情况、待测位点所在reads碱基平均错误率、突变碱基在reads上的平均距离、复杂突变、位点人群频率等情况进行过滤。预设的过滤条件可以按如下步骤进行:A、第一轮过滤A1、保留vcf文件中含有SOMATIC和PASS标签的变异位点,同时读取上述变异位点在白细胞样本中的变异频率,只保留白细胞样本中变异频率<1%的位点;A2、读取位点的refgene注释信息,只保留位于外显子和剪切区域的单碱基变异、只保留位于外显子区域的插入缺失变异;A3、读取vcf文件中每个位点的DP4信息,只保留变异位点所在reads数>8的位点;A4、读取vcf文件中每个位点的DP4信息,并计算链偏,去除链偏<10%或>90%且集中在正链的位点;A5、去除同义突变;A6、根据千人基因组、exac03、esp6500siv2数据库注释的结果,去除人群频率>0.5%的位点;A7、对于插入缺失突变,根据插入和缺失的碱基长度,从参考基因组序列中截取该位置前后4倍于该插入缺失碱基长度的序列,与插入缺失碱基进行匹配,将匹配>4次(即插入缺失位于重复区域)的位点过滤掉;B、第二轮过滤:经过第一轮过滤所得位点,将位点坐标输出到bed中,利用bam-readcount,读取这些位点的信息,包括位点所在reads上的相对位置、距reads结束的相对位置、突变碱基平均质量值、突变碱基所在reads的碱基平均错误率;对于插入缺失突变:B1、如果插入缺失碱基所在reads上的相对位置<0.3,则过滤掉;B2、检测插入缺失碱基所在外显子是否含有复杂突变(如果包含复杂突变,保留复杂突变,去掉单一的插入缺失);对于单碱基变异位点:B3、过滤掉突变碱基平均质量值<25的位点;B4、过滤掉突变位点所在reads上的相对位置<0.3的位点;B5、将突变位点距reads结束的相对位置<0.3以及突变位点距reads结束的相对位置>0.7的过滤掉;B6、将突变碱基所在reads的碱基平均错误率>0.1的过滤掉(如突变碱基所在外显子含有复杂突变,则该条过滤条件忽略);C、第三轮过滤:对第二轮过滤所得单碱基变异位点做进一步过滤;利用bam-readcount读取突变位点前后20~30个碱基(优选20个碱基)的情况,如果位点周围有超过2个、碱基平均质量值>20、变异频率大于1/2待过滤变异位点、且频率小于30%(多态位点不算做环境噪音),则过滤掉;D、第四轮过滤:对第三轮过滤所得单碱基变异位点进行最后过滤;利用Samtools读取修正的肿瘤体细胞样本bam文件中覆盖到这些单碱基变异位点的reads,计算携带变异位点的reads数,计算该位点距离reads头尾的距离,如果距离相同的reads数大于携带该突变碱基reads数的30%,则过滤掉(防止测序过程中,某个cycle异常导致假阳性);将剩余的位点输出,即为真实的肿瘤体细胞突变位点。优选地,所述参考基因组序列为人类基因组hg19。前述的方法,步骤S1中采用二代及二代以上测序技术进行测序。前述的方法,步骤S3包括:利用annovar软件,基于refgene、千人基因组(1000g)、exac03、esp6500siv2、cosmic等数据库分别对单碱基变异位点和插入缺失位点的vcf文件进行注释。本专利技术中,所有过滤掉的位点都会单输出到一个文件中,并注明该位点被过滤掉的原因,使用方便。第二方面,本专利技术提供用于实现上述检测方法的肿瘤体细胞突变位点检测装置,包括:序列比对模块,用于将肿瘤体细胞样本和白细胞样本测序得到的reads结果分别与参考基因组序列进行比对,并将比对结果对应生成各自样本的bam文件;去除冗余模块:去除bam文件中由于PCR扩增造成的冗余序列;查找变异模块:利用软件Samtools和Varscan,利用白细胞数据作为对照,获得肿瘤组织中的体细胞变异的vcf文件;注释模块:利用annovar软件,对肿瘤组织的vcf文件进行注释;数据过滤模块,用于对肿瘤体细胞样本的变异检测信息进行过滤,获取真实的肿瘤体细胞突变位点信息并输出结果。借由上述技术方案,本专利技术至少具有下列优点及有益效果:(一)本专利技术全面考虑了二代测序数据中,可能造成变异位点假阳性的情况;(二)本专利技术将待测位点周围环境纳入过滤考量的范本文档来自技高网...

【技术保护点】
1.肿瘤体细胞突变位点检测方法,其特征在于,包括以下步骤:/nS1、将取自同一肿瘤患者的肿瘤体细胞样本和白细胞样本分别进行测序,将测序得到的fastq文件与参考基因组序列进行比对,分别对应生成肿瘤体细胞样本bam文件和白细胞样本bam文件;/nS2、利用软件Picard,分别去除肿瘤体细胞样本bam文件和白细胞样本bam文件中PCR扩增导致的冗余序列,再利用Samtools,保留比对到唯一位置的reads,得到修正的肿瘤体细胞样本bam文件和修正的白细胞样本bam文件;/nS3、利用Samtools mpileup和Varscan,用白细胞的数据作为对照,分别获得肿瘤体细胞样本单碱基变异和插入缺失的vcf文件,并用annovar对vcf文件进行注释;/nS4、根据预设的过滤条件对肿瘤体细胞样本的变异检测信息进行过滤,得到真实的肿瘤体细胞突变位点信息结果。/n

【技术特征摘要】
1.肿瘤体细胞突变位点检测方法,其特征在于,包括以下步骤:
S1、将取自同一肿瘤患者的肿瘤体细胞样本和白细胞样本分别进行测序,将测序得到的fastq文件与参考基因组序列进行比对,分别对应生成肿瘤体细胞样本bam文件和白细胞样本bam文件;
S2、利用软件Picard,分别去除肿瘤体细胞样本bam文件和白细胞样本bam文件中PCR扩增导致的冗余序列,再利用Samtools,保留比对到唯一位置的reads,得到修正的肿瘤体细胞样本bam文件和修正的白细胞样本bam文件;
S3、利用Samtoolsmpileup和Varscan,用白细胞的数据作为对照,分别获得肿瘤体细胞样本单碱基变异和插入缺失的vcf文件,并用annovar对vcf文件进行注释;
S4、根据预设的过滤条件对肿瘤体细胞样本的变异检测信息进行过滤,得到真实的肿瘤体细胞突变位点信息结果。


2.根据权利要求1所述的方法,其特征在于,预设的过滤条件为根据位点的突变频率、reads数、链偏、碱基的平均质量、待测位点与周围位点的情况、待测位点所在reads碱基平均错误率、突变碱基在reads上的平均距离、复杂突变、位点人群频率情况进行过滤。


3.根据权利要求1所述的方法,其特征在于,预设的过滤条件按如下步骤进行:
A、第一轮过滤
A1、保留vcf文件中含有SOMATIC和PASS标签的变异位点,同时读取上述变异位点在白细胞样本中的变异频率,只保留白细胞样本中变异频率<1%的位点;
A2、读取位点的refgene注释信息,只保留位于外显子和剪切区域的单碱基变异、只保留位于外显子区域的插入缺失变异;
A3、读取vcf文件中每个位点的DP4信息,只保留变异位点所在reads数>8的位点;
A4、读取vcf文件中每个位点的DP4信息,并计算链偏,去除链偏<10%或>90%且集中在正链的位点;
A5、去除同义突变;
A6、根据千人基因组、exac03、esp6500siv2数据库注释的结果,去除人群频率>0.5%的位点;
A7、对于插入缺失突变,根据插入和缺失的碱基长度,从参考基因组序列中截取该位置前后4倍于该插入缺失碱基长度的序列,与插入缺失碱基进行匹配,将匹配>4次的位点过滤掉;
B、第二轮过滤:经过第一轮过滤所得位点,将位点坐标输出到bed中,利用bam-readcount,读取这些位点的信息,包括位点所在reads上的相对位置、距reads结束的相对位置、突变碱基平均质量值、突变碱基所在reads的碱基平均错误率;
对于插入缺失突变...

【专利技术属性】
技术研发人员:高司航张静波李孟键伍启熹王建伟刘倩唐宇
申请(专利权)人:北京优迅医学检验实验室有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1