一种适用于基因组重复序列的结构变异验证系统及方法技术方案

技术编号:36948749 阅读:11 留言:0更新日期:2023-03-22 19:09
本发明专利技术公开一种适用于基因组重复序列的结构变异验证系统及方法,包括:序列比对模块,用于对已排序后的BAM文件,参考基因组的fasta文件以及VCF文件进行序列比对,得到重比对结果,并发送给去重模块;去重模块,用于对接收的重比对结果,进行去重,并将去重后的结果发送给结构变异评估模块;结构变异评估模块,用于对接收到的去重后的结果,通过基于距离度量的结构变异评估方法,进行评估,实现基因组重复序列的结构变异验证。本发明专利技术的结构变异验证系统有助于帮助人们高效,准确且全面的审查结构变异发生的测序证据,增强和简化了人工审查的过程。过程。过程。

【技术实现步骤摘要】
一种适用于基因组重复序列的结构变异验证系统及方法


[0001]本专利技术属于基因组结构变异识别
,具体涉及一种适用于基因组重复序列的结构变异验证系统及方法。

技术介绍

[0002]从DNA双螺旋结构的发现开始,生命科学研究进入分子水平,在20世纪70年代出现的测序技术为破译遗传密码做出了巨大贡献。近几年出现的单分子测序技术,可以在单个分子水平读取核苷酸序列,也被称为第三代测序技术,主要代表有Pacific Bioscience(PacBio)和Oxford Nanopore Technology(ONT)平台。与传统的第一代和第二代测序技术相比,第三代测序能够产生更长的碱基读长,能直接对RNA进行测序,无需逆转录,测序速度极快。此外,单分子测序技术提供了以更高分辨率、更全面地检测结构变异的机会。第三代单分子测序平均序列长度为15kbp或更高,因此可以大幅提高结构变异检测的可靠性和分辨率,尤其是在人类基因组重复序列区域和复杂结构变异检测。
[0003]基因组结构变异(Structural Variation)是指长度超过50bp的基因组重排,通常包括缺失,插入,倒位,重复和易位等。结构变异和每个人都息息相关,主要体现在人类疾病(癌症,自闭症,阿尔茨海默症等),染色体进化(基因丢失和转座子活性),基因调控(转录因子的重排)和其他表现型(交配和内在生殖隔离)等方面。因此,结构变异的特性对人类医学和遗传学都具有重要意义。它有助于疾病的早期发现,并有助于阐明其潜在的遗传和分子过程。
[0004]准确识别结构变异是基因组学中一个突出但重要的问题。单分子测序技术的快速发展为全基因组结构变异检测提供了更好的分辨率和更全面的检测机会。近年来,基于单分子测序技术的基因组结构变异检测的研究与工具层出不穷,例如2018年发表的Sniffles,2019年发表的Svim,2020年发表的CuteSV等工具。然而,即使是最先进的工具结果依然存在着大量的假阳性,因此有必要对结构变异检测的结果进行验证评估。
[0005]目前,结构变异验证评估相关的研究并不多,可用的方法主要有Vapor与TT

Mars等。然而,两种工具对于基因组中重复序列区域内的结构变异无法有效的验证评估,并且可视化效果比较差,此外,TT

Mars的结果过分依赖于高质量的基因组组装序列。因此,针对基因组内重复序列区域内的结构变异,目前尚无有效的结构变异验证工具。

技术实现思路

[0006]为克服现有技术中的问题,本专利技术的目的是在于提供一种适用于基因组重复序列的结构变异验证系统及方法,该方法能够实现对基因组重复序列的结构变异的准确评估。
[0007]为达到上述目的,本专利技术所采用的技术方案如下:
[0008]一种适用于基因组重复序列的结构变异验证系统,包括:
[0009]序列比对模块,用于对已排序后的BAM文件,参考基因组的fasta文件以及VCF文件,通过基于kmer的哈希比对算法进行序列比对,得到包含结构变异的测序序列read与参
考基因组的ref序列以及结构变异预测序列pre的重比对结果,并发送给去重模块;
[0010]去重模块,用于对接收的包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果,进行去重,并将去重后的结果发送给结构变异评估模块;
[0011]结构变异评估模块,用于对接收到的去重后的结果,通过基于距离度量的结构变异评估方法进行评估,实现基因组重复序列的结构变异验证。
[0012]一种适用于基因组重复序列的结构变异验证方法,包括以下步骤:
[0013]1)对已排序后的BAM文件,参考基因组的fasta文件以及VCF文件,通过基于kmer的哈希比对算法进行序列比对,得到包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果;
[0014]2)对包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果,进行去重;
[0015]3)对去重后的结果,通过基于距离度量的结构变异评估方法进行评估,实现基因组重复序列的结构变异验证。
[0016]进一步的,步骤1)的具体过程为:
[0017]提取VCF文件内各个结构变异的起止坐标;
[0018]根据结构变异的起止坐标,从BAM文件中取到某个结构变异s所覆盖的全部m条测序序列read以及对应的参考基因组序列ref,将结构变异s插入到参考基因组序列ref构造出一条结构变异预测序列pre;
[0019]然后,对参考基因组序列ref进行kmer序列的遍历,每得到一个新的kmer序列,在哈希表中索引是否存在相同的kmer序列;如果存在,则在测序序列read以及参考基因组序列ref中匹配的kmer序列位置以1bp继续移动查看下一个碱基是否相同,直到两者的碱基不相同为止,记录匹配序列在测序序列read以及参考基因组序列ref的起始坐标,匹配序列的长度以及匹配序列的方向,得到包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果。
[0020]进一步的,哈希表通过以下过程确定:
[0021]将测序序列read分别与对应的参考基因组序列ref与结构变异预测序列pre进行重比对;针对CCS与ONT的测序数据,选择kmer序列的长度为31,对测序序列read进行遍历,并且选择kmer序列的起始坐标为kmer序列的哈希值,储存于哈希表中;对测序序列read的反向互补序列进行遍历,将kmer序列以及kmer序列对应的起始坐标储存于哈希表中。
[0022]进一步的,步骤2)的具体过程为:
[0023]若参考基因组ref序列内没有重复序列,则重比对的结果在平面直角坐标系中为一条长度等于参考基因组序列ref长度的线段,在序列比对图中体现为沿主对角线的一条线段;
[0024]若参考基因组ref序列内包含重复序列,则重比对的结果包括若干长度不等的线段,在序列比对图中体现为不沿着主对角线的若干条线段,记录重复序列的ref的坐标范围。
[0025]进一步的,步骤2)还包括以下步骤:
[0026]按照重复序列的ref坐标顺序对测序序列read与参考基因组的ref序列重比对得
到的结果进行遍历,在序列比对图中,针对位于结构变异左侧的片段,去重的同时保留位于主对角线上的片段;针对位于结构变异右侧的片段,去重的同时保留位于主对角线偏移结构变异长度截距的直线上的片段。
[0027]进一步的,步骤3)的具体过程如下:
[0028]将测序序列read与参考基因组序列ref的重比对生成的片段和测序序列read与结构变异预测序列pre的重比对生成的片段分别进行可视化,生成序列比对图;重比对生成的片段在序列比对图中体现为若干条线段;假设测序序列read与参考基因组序列ref完全一致,则生成的序列比对图中有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于基因组重复序列的结构变异验证系统,其特征在于,包括:序列比对模块,用于对已排序后的BAM文件,参考基因组的fasta文件以及VCF文件,通过基于kmer的哈希比对算法进行序列比对,得到包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果,并发送给去重模块;去重模块,用于对接收的包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果,进行去重,并将去重后的结果发送给结构变异评估模块;结构变异评估模块,用于对接收到的去重后的结果,通过基于距离度量的结构变异评估方法进行评估,实现基因组重复序列的结构变异验证。2.一种适用于基因组重复序列的结构变异验证方法,其特征在于,包括以下步骤:1)对已排序后的BAM文件,参考基因组的fasta文件以及VCF文件,通过基于kmer的哈希比对算法进行序列比对,得到包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果;2)对包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果,进行去重;3)对去重后的结果,通过基于距离度量的结构变异评估方法进行评估,实现基因组重复序列的结构变异验证。3.根据权利要求2所述的一种适用于基因组重复序列的结构变异验证方法,其特征在于,步骤1)的具体过程为:提取VCF文件内各个结构变异的起止坐标;根据结构变异的起止坐标,从BAM文件中取到某个结构变异s所覆盖的全部m条测序序列read以及对应的参考基因组序列ref,将结构变异s插入到参考基因组序列ref构造出一条结构变异预测序列pre;然后,对参考基因组序列ref进行kmer序列的遍历,每得到一个新的kmer序列,在哈希表中索引是否存在相同的kmer序列;如果存在,则在测序序列read以及参考基因组序列ref中匹配的kmer序列位置以1bp继续移动查看下一个碱基是否相同,直到两者的碱基不相同为止,记录匹配序列在测序序列read以及参考基因组序列ref的起始坐标,匹配序列的长度以及匹配序列的方向,得到包含结构变异的测序序列read与参考基因组的ref序列以及结构变异预测序列pre的重比对结果。4.根据权利要求3所述的一种适用于基因组重复序列的结构变异验证方法,其特征在于,哈希表通过以下过程确定:将测序序列read分别与对应的参考基因组序列ref与结构变异预测序列pre进行重比对;针对CCS与ONT的测序数据,选择kmer序列的长度为31,对测序序列read进行遍历,并且选择kmer序列的起始坐标为kmer序列的哈希值,储存于哈希表中;对测序序列read的反向互补序列进行遍历,将kmer序列以及kmer序列对应的起始坐标储存于哈希表中。5.根据权利要求2所述的一种适用于基因组重复序列的结构变异验证方法,其特征在于,步骤2)的具体过程为:若参考基因组ref序列内没有重复序列,则重比对的结果在平面直角坐标系中为一条长度等于参考基因组序列ref长度的线段,在序列比对图中体现为沿主对角线的一条线段;
若参考基因组ref序列内包含重复序列,则重比对的结果包括若干长度不等的线段,在序列比对图中体现为不沿着主对角线的若干条线段,记录重复序列的ref的坐标范围。6.根据权利要求5所述的一种适用于基因组重复序列的结...

【专利技术属性】
技术研发人员:叶凯车肖飞王松渤
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1