当前位置: 首页 > 专利查询>西安医学院专利>正文

一种高通量测序中假阳性变异位点的筛选方法技术

技术编号:26732479 阅读:29 留言:0更新日期:2020-12-15 14:36
本发明专利技术公开了一种高通量测序中假阳性变异位点的筛选方法,首先下载参考基因组序列,通过计算机语言脚本对上述参考基因组序列的正链信息进行覆盖,覆盖时每次向前步移1bp,获取模拟的二代测序数据,将获得的reads比对到参考基因组序列上,从比对的结果中查找出99个核苷酸全部匹配、且只有一个错配信息的位点信息即为初始的潜在假阳性SNV位点,获得假阳性SNV位点对应的反链信息,将正链信息和反链信息合并得到潜在的假阳性SNV位点数据库,获得的数据库位点与COSMIC数据库中所有单个替换突变的位点信息进行比较,比较后将相同的位点信息保留,即获得在COSMIC数据库中潜在的假阳性变异位点。

【技术实现步骤摘要】
一种高通量测序中假阳性变异位点的筛选方法
本专利技术属于生物
,具体涉及一种高通量测序中假阳性变异位点的筛选方法。
技术介绍
随着二代高通量测序技术的普及,近几年获取了大量的基因组重测序数据,其中包括了肿瘤相关的COSMIC(CatalogueofSomaticMutationsinCancer,COSMIC)数据库和千人基因组数据库(1000GenomeProject),已经积累了上万个重测序数据样本信息。虽然当前有许多软件或分析流程可以用来对二代测序数据进行SNV分析,但是测序和流程分析中存在的许多问题还亟待解决,如检测获得的SNV的准确性。通过优化分析流程,设置过滤和比对的参数信息,也不能确定获得的所有SNV是正确的。在研究中发现,已有的SNV数据库中存在一些可能是错误的突变位点信息,这些潜在的错误SNV位点对后续的数据分析和数据挖掘可能会造成影响,导致研究结论可信度降低。由于基因组序列的复杂性程度比较高,导致我们得到的SNV信息可能存在假阳性。例如,人类基因组上的假基因序列和相对应的蛋白质编码基因之间存在高度的相似性区域,本文档来自技高网...

【技术保护点】
1.一种高通量测序中假阳性变异位点的筛选方法,其特征在于,按照以下步骤具体进行:/n步骤1、下载参考基因组序列,通过计算机语言脚本对上述参考基因组序列的正链信息进行覆盖,覆盖时每次向前步移1bp,获取模拟的二代测序数据,得到了100bp的二代测序reads;/n步骤2、将步骤1中获得的reads比对到参考基因组序列上,从比对的结果中查找出99个核苷酸全部匹配、且只有一个错配信息的位点信息,这些位点即为初始的潜在假阳性SNV位点;/n步骤3、获得步骤2中假阳性SNV位点对应的反链信息,将上述正链信息和反链信息合并得到潜在的假阳性SNV位点数据库;/n步骤4、将步骤3中获得的数据库位点与COSMI...

【技术特征摘要】
1.一种高通量测序中假阳性变异位点的筛选方法,其特征在于,按照以下步骤具体进行:
步骤1、下载参考基因组序列,通过计算机语言脚本对上述参考基因组序列的正链信息进行覆盖,覆盖时每次向前步移1bp,获取模拟的二代测序数据,得到了100bp的二代测序reads;
步骤2、将步骤1中获得的reads比对到参考基因组序列上,从比对的结果中查找出99个核苷酸全部匹配、且只有一个错配信息的位点信息,这些位点即为初始的潜在假阳性SNV位点;
步骤3、获得步骤2中假阳性SNV位点对应的反链信息,将上述正链信息和反链信息合并得到潜在的假阳性SNV位点数据库;
步骤4、将步骤3中获得的数据库位点与COSMIC数据库中所有单个替换突变的位点信息进行比较,比较后将相同的位点信息保留,即获得在COSMIC数据库中潜在的假阳性变异位点。


2.根据权利要求1所述的一种高通量测序中假阳性变异位点的筛选方法,其特征在于,所述步骤1...

【专利技术属性】
技术研发人员:夏王晓苟兴春张欣
申请(专利权)人:西安医学院
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1