一种基因测序变异位点的可视化方法技术

技术编号:17780147 阅读:27 留言:0更新日期:2018-04-22 08:52
本发明专利技术公开了一种基因测序变异位点的可视化方法,所述方法包括以下步骤:(1)获取reads比对到参考基因组位置信息;(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;(3)读取变异位点相关的reads信息,通过双向跳跃法比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads;(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;(5)统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。本发明专利技术可快速找到覆盖变异位点的对比序列,生成输出包含所有比对信息的图片,从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。

【技术实现步骤摘要】
一种基因测序变异位点的可视化方法
本专利技术涉及生物信息处理
,具体涉及一种基因测序变异位点可视化方法。
技术介绍
肿瘤循环DNA(circulatingtumourDNA,ctDNA)是血液中游离的癌细胞在细胞凋亡时释放到血液中DNA分子。这些DNA分子带有癌细胞特有的变异。不同的肿瘤的癌细胞释放到血液中的DNA分子变异不同;同一肿瘤在不同发展时期释放到血液中的ctDNA分子的变异不一样;癌症病人在治疗前后ctDNA分子的变异也不一样,所以ctDNA分子的变异是一个动态的变化过程。由于癌细胞释放的DNA分子只占血液中游离DNA的很少一部分,所以ctDNA检测到的变异频率很低(通常低于1%)。为了检测这些微量的游离DNA分子的变异,一般需要1万倍左右的测序覆盖。为了降低测序和检测成本,在进行ctDNA变异检测时,我们通常采用捕获探针捕获特定少数的癌症相关的DNA分子进行检测。由于测序二代测序本身也有一定的测序错误率(当碱基的测序分值为25时,错误率为0.1%%左右),所以在进行1万倍左右的测序覆盖时,我们检测到ctDNA分子的变异很有可能是测序仪测序本身的错误造成的。在进行变异位点鉴定时,传统的方法是生成变异相关的文件(即vcf格式的文件,variantcallingformat)。里面是包含有变异的频率信息、位点覆盖率的深度和变异位点在不同的DNA链的分布。凭借这些信息虽然可以过滤掉一些假阳性的变异位点,然而很多假阳性的变异位点也满足变异频率和覆盖率深度要求。我们需要进一步的需要了解带有变异位点序列比对情况和序列比对错误率,同时也要看所有的reads(高通量测序读到的碱基序列片段,即测序的最小单位)的变异位点,在实际情况中由于比对错误和测序错误的原因也会产生假阳性的位点,为了进一步的进行过滤,目前可以把比对的原始文件载入IGV等比对浏览器然后手动查看。由于原始的序列比对文件很大,所以在载入IGV等浏览器需要花费大量的时间。同时由于人类的参考基因组非常大(~3Gb),测序的覆盖率深度很高(>10000倍),需要进行很多的操作才能最终看到单个变异位点的周围的序列比对情况。一般的基因检测样本有多达20个以上的需要复核的点,这个复核过程需要花费大量的时间。这对于进行大规模进行基因样本检测时,如果按照这样操作的话则工作量非常大。所以在基因检测行业默认是不会对大规模的商业样本进行人工核验的。因此,为了解决这个变异位点后期复核的问题,我们需要对变异位点的鉴定和可视化作出改进。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基因测序变异位点的可视化方法,解决目前变异位点的鉴定工作量大,生成输出包含比对信息的图片工作量大,花费时间长的问题。为实现上述目的,本专利技术采取的技术方案如下:一种基因测序变异位点的可视化方法,所述方法包括以下步骤:(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。上述技术方案中通过双向跳跃法比对reads的覆盖范围和变异位点的重叠情况,可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列,在进行比对的同时保存上一次的比对信息,避免变异位点的反复循环比对,只需要读取比对序列文件和位点变异位点文件一次,就可以为所有变异位点提取对应的序列变异位点;针对变异位点直接编码,快速生成输出包含比对信息的图片,生成图片效率极大提高,避免人工操作,可大批量生成输出图片;生成输出的图片能够展示所有的比对信息,并按照变异位点与参考碱基变异的相关性进行排序,无需人工调整,从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。作为本专利技术所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(3)中,包括以下步骤:3.1)检索每个reads的覆盖范围和变异位点的重叠情况,当reads覆盖的染色体号大于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时,取下一个变异位点再进行比对,直至变异位点的染色体号大于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止;3.2)当reads覆盖的染色体号小于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时,取上一个变异位点再进行比对,直至变异位点的染色体号小于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止;3.3)比较变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads的比对相关属性;3.4)迭代比对,直至到文件读取完毕,终止。上述技术方案能够快速比对reads覆盖范围和变异位点的重叠情况,可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列,在进行比对的同时保存上一次的比对信息,避免变异位点的反复循环比对,只需要读取比对序列文件和变异位点文件一次,就可以为所有变异位点提取对应的reads。作为本专利技术所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(4)中,基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。上述技术方案能够快速获取变异位点的比对情况,排除其它非指定变异碱基的干扰,有利于鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。作为本专利技术所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异碱基对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。作为本专利技术所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异类型对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异类型的reads具有更高优先级。作为本专利技术所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异碱基的出现次数对保存的reads序进行优先级排序时,其中变异碱基的出现次数多的reads具有更高优先级。上述技术方案中基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序,检索变异位点的变异碱基,如果是单个位点变异,则检查所有reads在此位置的变异碱基,把变异碱基与变异位点指定的碱基相同的reads序列排在最前面,后面reads按照变异碱基出现的次数排序,携带有出现次数多的reads序列排在最前面,在携带变异碱基相同reads内部排序是按照其所在染色体的位置从小到大排序;如果变异位点为插入或者缺失变异,和前面一样,首先把和变异碱基指定变异类型相同的排在最前面,优先级设为一,然后把这个携带有插入缺失变异的reads优先级本文档来自技高网
...
一种基因测序变异位点的可视化方法

【技术保护点】
一种基因测序变异位点的可视化方法,其特征在于,包括以下步骤:(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。

【技术特征摘要】
1.一种基因测序变异位点的可视化方法,其特征在于,包括以下步骤:(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。2.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(3)中,包括以下步骤:3.1)检索每个reads的覆盖范围和变异位点的重叠情况,当reads覆盖的染色体号大于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时,取下一个变异位点再进行比对,直至变异位点的染色体号大于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止;3.2)当reads覆盖的染色体号小于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时,取上一个变异位点再进行比对,直至变异位点的染色体号小于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止;3.3)比较变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads的...

【专利技术属性】
技术研发人员:龚浩车健为
申请(专利权)人:广州漫瑞生物信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1