一种串联序列解析方法、装置和存储介质制造方法及图纸

技术编号:28298261 阅读:21 留言:0更新日期:2021-04-30 16:24
本申请公开了一种串联序列解析方法、装置和存储介质。本申请的方法包括,从引物序列或其反向互补序列中截取锚片段P,在测序片段中与锚片段P完全匹配处截取与引物序列等长的片段S;将两者进行精确比对,保留比对长度占引物序列50%以上的结果,记录引物序列及其类型;根据引物序列的类型判断全长插入片段和连接点,根据连接点的引物类型,进行两端延伸,分析全长插入片段和非全长插入片段。本申请的方法,通过较短的锚片段P进行引物序列的快速定位,结合精确比对,提升了引物序列的比对效率;通过识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了引物比对假阳性导致的拆分错误的问题,提升了拆分准确性和数据拆分率。

【技术实现步骤摘要】
一种串联序列解析方法、装置和存储介质
本申请涉及核酸测序数据分析
,特别是涉及一种串联序列解析方法、装置和存储介质。
技术介绍
为了提升数据利用率,降低测序成本,目前的全长转录组产品,是先把目的片段基于特定的酶将多个目的片段连接起来,形成串联序列,然后再构建文库进行上机测序。但是在片段连接的过程中,由于酶活性或者片段本身的一些结构特征等影响,会出现部分片段嵌合的现象。并且,测序还会引入碱基错误率,尤其是ONT平台的数据,其错误率高达10%左右。这些因素极大的阻碍了测序数据的拆分。如何准确地进行数据拆分,是后续信息分析的基础,将极大的影响下游结果的准确性。目前常用的做法是基于blast比对,定位接头序列的位置,然后基于相邻的两个接头序列的关系进行数据拆分。因为需要考虑测序错误率,所以一般在blast匹配接头都是容错匹配,这样会引入一些错误的接头匹配位置;而拆分是基于相邻的接头进行判断其类别,所以会出现错误拆分的情况,其拆分准确率较低。此外,一般的测序数据都是几十万条,blast比对的速度较慢,运算成本也较高。因此,如何准确、有效的进行串联序列解析,仍然是本领域的研究重点和难点之一。
技术实现思路
本申请的目的是提供一种新的串联序列解析方法、串联序列解析装置和存储介质。为了实现上述目的,本申请采用了以下技术方案:本申请的第一方面公开了一种串联序列解析方法,包括以下步骤:引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;解析测序片段步骤,包括根据引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。本申请中测序片段是指测序下机获得的尚未经过解析的片段,例如reads;当然,在进行本申请的串联序列解析之前,可以对下机获得的测序片段预先进行质检,过滤去除其中不符合测序质量要求的片段,在此不作具体限定。本申请中primer即引物,5端primer序列即5’端的引物序列,5端primer反向互补序列即5’端的引物序列的反向互补序列,3端primer序列即3’端的引物序列,3端primer序列反向互补序列即3’端的引物序列的反向互补序列。本申请中,得分最高的primer中,primer得分是指primer定位中精确比对的得分。本申请的截取测序片段起点是指对测序片段进行优化后,去除其接头序列等其它序列后的起点。本申请的第一个连接点primer和最后一个连接点primer是指一个测序片段中按从5’到3’端的顺序排列的所有连接点primer。需要说明的是,相邻的两个primer除了以上的几种情况以外,其它情况,例如相邻两个primer分别为5端primer和3端primer、5端primer和5端primer、5端primer和5端primer反向互补序列等,都属于非正常连接,拆分时会去掉。另外,本申请中,判断连接点的条件必须是相邻的两个primer之间的距离小于或等于10bp,因为实验操作时是加的6bp的连接片段,不满足小于或等于10bp这个条件的,不能认定为连接点。还需要说明的是,本申请的串联序列解析方法,通过锚片段快速定位,结合精确比对,极大的提升了比对效率;通过先识别连接点,再根据连接点的引物类型,进行两端延伸,有效地避免了primer比对假阳性导致的拆分错误的问题,极大的提升了拆分的准确性和数据拆分率,能够快速、准确、有效的进行串联序列解析。可以理解,本申请的关键在于利用锚片段P进行快速定位,并通过识别连接点的方式,提高拆分准确性和数据拆分率;至于获得所有测序片段的全部的全长插入片段和非全长插入片段后,后续的测序数据处理和分析,都可以参考现有技术,在此不作具体限定。本申请的一种实现方式中,锚长度的大小为4-10bp。需要说明的是,锚长度即锚片段P的长度,取决于primer的长度以及测序错误率;可以理解,锚片段P越长,其能够将待分析primer匹配到测序片段中的能力越强,但是,相应的匹配的速度和效率会受影响。本申请之所以不直接用primer序列进行比对,就是为了采用更短的锚片段P实现primer序列的快速定位。原则上,锚长度这个值越大,理论上就越快,但是可能就会漏掉很多因为测序错误不能匹配上,导致拆分率低;如果越小,肯定就越慢,一般建议的范围为4-10bp即可。本申请的一种实现方式中,截取与待分析primer序列等长的片段S,具体包括,根据锚片段P在待分析primer序列中的位置,在测序片段中截取片段S,使得锚片段P在片段S中的位置与其在待分析primer序列中的位置相同。本申请的一种实现方式中,精确比对采用Smith-Waterman算法进行局部序列比对。本申请的第二方面公开了一种串联序列解析装置,包括引物定位模块本文档来自技高网...

【技术保护点】
1.一种串联序列解析方法,其特征在于:包括以下步骤,/n引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;/n解析测序片段步骤,包括根据所述引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。/n...

【技术特征摘要】
1.一种串联序列解析方法,其特征在于:包括以下步骤,
引物定位步骤,包括将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反向互补序列作为待分析primer序列,分别进行如下操作,根据锚长度对待分析primer序列进行连续截取得到锚片段P,在测序片段中与锚片段P完全匹配处截取与待分析primer序列等长的片段S;将待分析primer序列与片段S进行精确比对,保留比对长度占待分析primer序列的50%以上的结果,根据比对结果,记录在测序片段中相应位置上匹配的待分析primer序列及其类型;
解析测序片段步骤,包括根据所述引物定位步骤获得的测序片段中的待分析primer序列的类型判断全长插入片段和连接点;其中,全长插入片段判断条件为相邻的两个primer之间的距离大于10bp,并且满足下列情形之一:(i)前后相邻的两个primer分别为5端primer序列和3端primer反向互补序列,(ii)前后相邻的两个primer分别为3端primer序列和5端primer反向互补序列;连接点判断条件为相邻的两个primer之间的距离小于或等于10bp,并且满足下列情形之一:(i)相邻的两个primer分别为5端primer反向互补序列和3端primer序列,(ii)相邻的两个primer分别为3端primer反向互补序列和5端primer序列,(iii)相邻的两个primer分别为3端primer反向互补序列和3端primer序列;根据连接点位置确定插入片段序列及其类型具体包括:(i)第一个连接点的primer,往前回溯至满足所述全长插入片段判断条件且得分最高的primer处,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则从截取测序片段起点至该第一个连接点的primer处的片段,记录为非全长插入片段;(ii)最后一个连接点的primer,往后延伸至满足所述全长插入片段判断条件且得分最高的primer,截取这两个primer之间的序列,记录为全长插入片段;如果不存在满足所述全长插入片段判断条件的primer,则截取该最后一个连接点的primer至测序片段末尾的序列,记录为非全长插入片段;(iii)中间的连接点,截取两个primer之间的序列,若满足所述全长插入片段判断条件,则记录为全长插入片段,否则为非全长插入片段;对所有的测序片段分别进行全长插入片段判断,获得全部的全长插入片段和非全长插入片段,即完成串联序列解析。


2.根据权利要求1所述的串联序列解析方法,其特征在于:所述锚长度的大小为4-10bp。


3.根据权利要求1所述的串联序列解析方法,其特征在于:所述截取与待分析primer序列等长的片段S,具体包括,根据锚片段P在待分析primer序列中的位置,在测序片段中截取片段S,使得锚片段P在片段S中的位置与其在待分析primer序列中的位置相同。


4.根据权利要求1-3任一项所述的串联序列解析方法,其特征在于:所述精确比对采用Smith-Waterman算法进行局部序列比对。


5.一种串联序列解析装置,其特征在于:包括引物定位模块和解析测序片段模块;
所述引物定位模块,包括用于将5端primer序列、5端primer反向互补序列、3端primer序列和3端primer序列反...

【专利技术属性】
技术研发人员:朱欠华杨林峰黎剑波
申请(专利权)人:武汉华大基因技术服务有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1