【技术实现步骤摘要】
一种高通量测序中假阳性变异位点的筛选方法
本专利技术属于生物
,具体涉及一种高通量测序中假阳性变异位点的筛选方法。
技术介绍
随着二代高通量测序技术的普及,近几年获取了大量的基因组重测序数据,其中包括了肿瘤相关的COSMIC(CatalogueofSomaticMutationsinCancer,COSMIC)数据库和千人基因组数据库(1000GenomeProject),已经积累了上万个重测序数据样本信息。虽然当前有许多软件或分析流程可以用来对二代测序数据进行SNV分析,但是测序和流程分析中存在的许多问题还亟待解决,如检测获得的SNV的准确性。通过优化分析流程,设置过滤和比对的参数信息,也不能确定获得的所有SNV是正确的。在研究中发现,已有的SNV数据库中存在一些可能是错误的突变位点信息,这些潜在的错误SNV位点对后续的数据分析和数据挖掘可能会造成影响,导致研究结论可信度降低。由于基因组序列的复杂性程度比较高,导致我们得到的SNV信息可能存在假阳性。例如,人类基因组上的假基因序列和相对应的蛋白质编码基因之间存 ...
【技术保护点】
1.一种高通量测序中假阳性变异位点的筛选方法,其特征在于,按照以下步骤具体进行:/n步骤1、下载参考基因组序列,通过计算机语言脚本对上述参考基因组序列的正链信息进行覆盖,覆盖时每次向前步移1bp,获取模拟的二代测序数据,得到了100bp的二代测序reads;/n步骤2、将步骤1中获得的reads比对到参考基因组序列上,从比对的结果中查找出99个核苷酸全部匹配、且只有一个错配信息的位点信息,这些位点即为初始的潜在假阳性SNV位点;/n步骤3、获得步骤2中假阳性SNV位点对应的反链信息,将上述正链信息和反链信息合并得到潜在的假阳性SNV位点数据库;/n步骤4、将步骤3中获得的数 ...
【技术特征摘要】
1.一种高通量测序中假阳性变异位点的筛选方法,其特征在于,按照以下步骤具体进行:
步骤1、下载参考基因组序列,通过计算机语言脚本对上述参考基因组序列的正链信息进行覆盖,覆盖时每次向前步移1bp,获取模拟的二代测序数据,得到了100bp的二代测序reads;
步骤2、将步骤1中获得的reads比对到参考基因组序列上,从比对的结果中查找出99个核苷酸全部匹配、且只有一个错配信息的位点信息,这些位点即为初始的潜在假阳性SNV位点;
步骤3、获得步骤2中假阳性SNV位点对应的反链信息,将上述正链信息和反链信息合并得到潜在的假阳性SNV位点数据库;
步骤4、将步骤3中获得的数据库位点与COSMIC数据库中所有单个替换突变的位点信息进行比较,比较后将相同的位点信息保留,即获得在COSMIC数据库中潜在的假阳性变异位点。
2.根据权利要求1所述的一种高通量测序中假阳性变异位点的筛选方法,其特征在于,所述步骤1...
【专利技术属性】
技术研发人员:夏王晓,苟兴春,张欣,
申请(专利权)人:西安医学院,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。