一种双端测序样本标重方法、系统及介质技术方案

技术编号:37080696 阅读:16 留言:0更新日期:2023-03-29 19:56
本发明专利技术公开了一种双端测序样本标重方法,包括:将双端测序样本中的DNA片段对应的双端读长分别比对至全基因组参考序列对应位置上,片段的双端读长在相邻位置,获得双端读长的比对信息,在每条读长的比对信息中增加一个辅助字段,辅助字段包含该读长对应的另一端读长的起始位置;将比对完成的读长按照参考序列位点进行排序,将有序的读长保存在SAM文件中;从有序SAM文件中顺序读取读长,将在同一比对位置的读长作为一组候选读长重复序列,根据辅助字段从候选读长重复序列中筛选片段重复序列;删除重复序列或者标记为重复序列,并写入新的SAM文件中,本发明专利技术降低双端测序样本标重过程中读取数据的吞吐量,减少运行时间,提高运行效率。效率。效率。

【技术实现步骤摘要】
一种双端测序样本标重方法、系统及介质


[0001]本专利技术涉及生物信息领域,具体涉及一种双端测序样本标重方法、系统及介质,用于基因测序。

技术介绍

[0002]新一代测序(NGS)是一种大规模平行基因测序技术,能够以超高的通量、超强的可扩展性和超快的速度进行基因测序。该技术用于确定整个基因组或DNA的目标区域中核苷酸的顺序。在确定核苷酸序列前,需要对DNA样本构建测序文库,通过物理(超声)打断或者化学试剂(酶切)切断原始的DNA序列,然后选择特定长度范围的序列去进行聚合酶链式反应(PCR)扩增并上机测序。在PCR过程中,对相同的DNA片段扩增几倍乃至几十倍,以便增大这些DNA片段在溶液中分布的密度,使得在取样时能被获取到。测序仪器通过光学成像识别DNA片段两端的核苷酸序列,该方法被称之为双端测序,在光学成像过程中,由于聚合酶活性的限制,导致双端测序并不能测序完整的DNA片段,DNA片段中间部分未被测序,如图1所示,其中,DNA是一种双螺旋桨结构,共有两条主链,相互平行而走向相反形成双螺旋构型,我们将方向从左至右的主链称之为正链,从右至左的主链称之为负链。
[0003]在整个测序过程中,有两种引入重复核苷酸序列的途径,称之为PCR重复和光学重复。PCR重复在PCR过程中引入,是指同一段DNA片段经过扩增后,被测序仪器多次测序,产生重复核苷酸序列。光学重复则在测序过程中引入,为提高测序通量,增加了测序芯片密度,由于光波的衍射,捕获的荧光亮点导致形状出现重影,产生重复核苷酸序列。而在基因检测的过程中,大量重复核苷酸序列会影响到检测结果,尤其在变异检测过程中,大量重复核苷酸序列会引入变异结果的假阳性和假阴性,显著降低变异检测的准确性。因此,需要对检测样本中的重复序列进行识别,选择其中一条核苷酸序列,对其它序列中的重复数据标重,如图2所示。
[0004]现有的双端测序样本标重主要方法为:
[0005]将读长比对至全基因组参考序列上,全基因组参考序列是DNA双螺旋结构上的一条正链序列,在比对时,将负链按序拼接在正链之后,然后将比对在负链上读长,将其位置转换至正链,并只记录读长在参考序列从左至右的起始位置,以便简化后续排序,标重等处理流程。假设全基因组参考序列为L,将负链追加至参考序列后,0至L

1为正链位置,L到2L

1为负链位置,若负链位置n,L<=n<2L从负链位置n转换至正链位置p的方法:p=2L

n

1。
[0006]读长与参考序列的主要比对信息包括:比对位置,读长方向(如图中正链上的读长1是正向的,读长2是反向的)和匹配结果,匹配结果记录整个读长与参考序列的关系,主要包括3种:一一对应叫做序列匹配;只有参考序列存在序列,读长不存在,此种情况叫做序列缺失;只有读长存在的序列,参考序列不存在,此种情况叫做序列插入。
[0007]新一代测序产生的核苷酸序列使用FASTQ格式保存,每条连续的核苷酸成为一个读长,包含每个核苷酸测序质量,读长的一个标识名称等,双端序列的读长的标识名称相同。使用比对工具将FASTQ文件中的读长比对到全基因组参考序列的对应位置,并将读长、
核苷酸质量、比对位置等信息以SAM格式保存至文件,对SAM文件按照比对位置排序生成一个以参考序列位点排序的SAM文件,再从有序SAM文件查找可能的重复读长,并对重复读长进行标记,然后再遍历有序SAM文件,标记或删除重复读长,并写入到新的SAM文件中。
[0008]在基因测序及生物信息分析领域,由于生成的SAM文件数据量很大,不能一次缓冲在计算机内存中,查找读长的另一端读长信息性能差,现有技术中两次读取有序SAM文件,对存储的读取数据的吞吐量要求高,在样本群体研究中,分布式并发进行序列标重容易形成共享存储读取吞吐量的性能瓶颈。

技术实现思路

[0009]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种双端测序样本标重方法、系统及介质,降低双端测序样本标重过程中的存储读取数据的吞吐量,减少运行时间,提高运行效率。
[0010]为了解决上述技术问题,本专利技术采用的技术方案为:
[0011]一种双端测序样本标重方法,实施步骤包括:
[0012]1)将双端测序样本中的每一个DNA片段对应的双端读长分别比对至全基因组参考序列对应位置上,片段的双端读长在相邻位置,获得双端读长的比对信息,包括比对位置、读长方向和匹配结果,在每条读长的比对信息中增加一个辅助字段,辅助字段包含该读长对应的另一端读长的起始位置;
[0013]2)将比对完成的读长按照参考序列位点进行排序,将有序的读长保存在SAM文件中;
[0014]3)从有序SAM文件中顺序读取读长,将在同一比对位置的读长作为一组候选读长重复序列,根据辅助字段从候选读长重复序列中筛选片段重复序列;
[0015]4)删除重复序列或者标记为重复序列,并写入新的SAM文件中。
[0016]可选地,所述步骤1)中起始位置为:当读长的方向为正向时,起始位置为其比对位置,当读长的方向为反向时,起始位置为其比对位置加上序列匹配长度与序列缺失长度之和。
[0017]可选地,所述步骤3)中从有序SAM文件中顺序读取读长采用滑窗技术。
[0018]可选地,所述步骤3)中根据辅助字段从候选读长重复序列中筛选片段重复序列具体步骤为:
[0019]31)计算所述候选读长对应的DNA片段的位置区间:根据该读长的辅助字段信息得到DNA片段对应另一端读长的起始位置,所述候选读长的起始位置与DNA片段另一端读长的起始位置作为DNA片段的位置区间,其中,起始位置数值较小的为区间起始位置,数值较大的为区间结束位置;
[0020]32)查找片段重复序列:按DNA片段位置区间的起始位置由小到大排序,当起始位置相同时,按照区间的结束位置由小到大排序,对具有相同位置区间的多个DNA片段,根据预设策略选择一个DNA片段为主要片段,其它DNA片段对应的读长为重复读长,并对这些重复读长进行标记。
[0021]可选地,所述步骤32)中预设策略为核苷酸质量值和最大。
[0022]可选地,所述步骤32)中标记方式采用SAM规范中的Duplicate标识将重复读长标
记。
[0023]本专利技术还提供一种双端测序样本标重系统,包括计算机设备,该计算机设备被编程或配置以执行上述双端测序样本标重方法的步骤,或该计算机设备的存储器上存储有被编程或配置以执行上述双端测序样本标重方法的计算机程序。
[0024]本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行上述双端测序样本标重方法的计算机程序。
[0025]和现有技术相比,本专利技术具有下述优点:
[0026]1.本专利技术通过在比对过程中增加读长对应DNA片段位置等辅助字段信息,标重时省去了遍历和查找双端读长的对应的DNA片段的过程,减少了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双端测序样本标重方法,其特征在于,实施步骤包括:1)将双端测序样本中的每一个DNA片段对应的双端读长分别比对至全基因组参考序列对应位置上,片段的双端读长在相邻位置,获得双端读长的比对信息,包括比对位置、读长方向和匹配结果,在每条读长的比对信息中增加一个辅助字段,辅助字段包含该读长对应的另一端读长的起始位置;2)将比对完成的读长按照参考序列位点进行排序,将有序的读长保存在SAM文件中;3)从有序SAM文件中顺序读取读长,将在同一比对位置的读长作为一组候选读长重复序列,根据辅助字段从候选读长重复序列中筛选片段重复序列;4)删除重复序列或者标记为重复序列,并写入新的SAM文件中。2.根据权利要求1所述的一种双端测序样本标重方法,其特征在于,所述步骤1)中的起始位置为:当读长的方向为正向时,起始位置为其比对位置,当读长的方向为反向时,起始位置为其比对位置加上序列匹配长度与序列缺失长度之和。3.根据权利要求1所述的一种双端测序样本标重方法,其特征在于,所述步骤3)中从有序SAM文件中顺序读取读长采用滑窗技术。4.根据权利要求1所述的一种双端测序样本标重方法,其特征在于,所述步骤3)中根据辅助字段从候选读长重复序列中筛选片段重复序列具体步骤为:31)计算所述候选读长对应的DNA片段的位置区间:根据该读长的辅...

【专利技术属性】
技术研发人员:王振国马丑贤杨仁武谢金武
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1