碱基序列比对系统及方法技术方案

技术编号:10052847 阅读:204 留言:0更新日期:2014-05-16 00:51
本发明专利技术公开一种碱基序列比对系统及方法。根据本发明专利技术一个实施例的碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:种子序列生成单元,从所述第一序列及所述第二序列中分别生成一个以上的片段,并由此构成第一种子序列集合及第二种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述第一种子序列集合中的种子序列在对应区间内的第一映射值以及包含于所述第二种子序列集合中的种子序列在对应区间内的第二映射值;比对单元,选择计算出的所述第一映射值及所述第二映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述第一序列及所述第二序列的映射位置。

【技术实现步骤摘要】
碱基序列比对系统及方法
本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
测序仪用于从原始碱基序列中生成作为长度较短的碱基序列的短片段(read),此时将有一对短片段配对(pair)生成。这样形成配对的短片段是在原始DNA中的预定距离内生成,且根据测序仪的种类的不同,形成为在参考序列中具有反向互补(reversecomplement)方向或相同方向。此时生成的两个短片段之间的距离(insertsize)及各短片段的长度为事先根据碱基序列分析目的进行设定,且在相同实验中生成的短片段都具有类似的值。在这些成对的短片段中把先生成的称为5'短片段,后生成的称为3'短片段,而且将5'短片段与3'短片段的方向为反向互补关系的称为双末端短片段(paired-endread),反之5'短片段与3'短片段具有相同方向的称为配对短片段(mate-pairread)。在对这种双末端短片段或配对短片段进行比对(alignment)时要同时考虑以下三个条件。(1)各短片段与参考序列之间的碱基序列同源性(homology)(2)两个短片段的比对方向(3)两个短片段的比对位置之间的距离现有技术中的比对算法构成为根据条件(1)将两个短片段分别比对到参考序列上之后,在两个短片段的比对位置中选择满足上述条件(2)、(3)的位置。然而如果这样进行双末端短片段或配对短片段的比对,则为了首先获得满足上述条件(1)的各短片段的比对位置,对参考序列中不满足上述条件(2)、(3)的位置也都要进行搜寻,因此存在不必要的计算量过多的问题。
技术实现思路
本专利技术实施例的目的在于提供一种能够确保映射(mapping)准确度的同时通过改善映射过程的复杂度而提高处理速度的针对一对短片段的比对方案。根据本专利技术一个实施例的碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:种子序列生成单元,从所述第一序列及所述第二序列中分别生成一个以上的片段,并由此构成第一种子序列集合及第二种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述第一种子序列集合中的种子序列在对应区间内的映射值即第一映射值、以及包含于所述第二种子序列集合中的种子序列在对应区间内的映射值即第二映射值;比对单元,选择计算出的所述第一映射值及所述第二映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述第一序列及所述第二序列的映射位置。根据本专利技术另一实施例的碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:误差估计单元,分别计算所述第一序列及所述第二序列的最小误差估计值;比对单元,从所述第一序列与所述第二序列中选择计算出的所述最小误差估计值较小的序列,并计算该序列的相对所述参考序列的比对位置,且在以计算出的所述比对位置为基准而设定的可映射范围内执行针对剩余序列的全局比对。根据本专利技术一个实施例的碱基序列比对方法,用于在碱基序列比对系统中将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括如下步骤:在种子序列生成单元中,从所述第一序列及所述第二序列中分别生成一个以上的片段,并由此构成第一种子序列集合及第二种子序列集合;在映射值计算单元中,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述第一种子序列集合中的种子序列在对应区间内的映射值即第一映射值、以及包含于所述第二种子序列集合中的种子序列在对应区间内的映射值即第二映射值;在比对单元中,选择计算出的所述第一映射值及所述第二映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述第一序列及所述第二序列的映射位置。根据本专利技术另一实施例的碱基序列比对方法,用于在碱基序列比对系统中将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括如下步骤:在误差估计单元中,分别计算所述第一序列及所述第二序列的最小误差估计值;在比对单元中,从所述第一序列与所述第二序列中选择计算出的所述最小误差估计值较小的序列,并计算该序列的相对所述参考序列的比对位置;以及在所述比对单元中,在以计算出的所述比对位置为基准而设定的可映射范围内执行针对剩余序列的全局比对。根据本专利技术的各实施例,在将双末端短片段或配对短片段比对到参考序列时,预先选择具有形成配对的可能性的区间,并在对应区间内执行针对所述双末端短片段或配对短片段的比对,从而与现有方法相比可以显著减少计算量。并且,还可以提供一种在对双末端短片段或配对短片段进行比对时,不仅在特定碱基被置换的情况下可以进行比对,而且在特定碱基被插入或删除而存在缺口(gap)状不一致的情况下也可以进行比对的比对算法。附图说明图1为用于说明根据本专利技术一个实施例的碱基序列比对方法100的图。图2为用于举例说明根据本专利技术一个实施例的碱基序列比对方法100的步骤104中的最小误差估计值(MEB)计算过程的图。图3为用于详细说明根据本专利技术一个实施例的碱基序列比对方法100中的比对步骤114的顺序图。图4为用于详细说明根据本专利技术一个实施例的碱基序列比对方法100中的有效配对搜寻过程的顺序图。图5为示出根据本专利技术一个实施例的碱基序列比对系统500的模块图。图6为示出根据本专利技术另一实施例的碱基序列比对系统600的模块图。符号说明:500、600:碱基序列比对系统502:种子序列生成单元504:映射值计算单元506:比对单元602:误差估计单元604:比对单元具体实施方式以下参照附图说明本专利技术的具体实施方式。然而这仅仅是示例,本专利技术并不局限于此。在对本专利技术进行说明时,如果遇到对有关本专利技术的公知技术的具体说明有可能不必要地干扰本专利技术的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本专利技术中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。本专利技术的技术思想由权利要求书确定,以下的实施例只是为了将本专利技术的技术思想有效地传递给本专利技术所属
中具有普通知识的人员而采用的一种手段。在对本专利技术的实施例进行具体说明之前,首先对本专利技术中使用的术语进行如下说明。首先,“短片段序列(readsequence)”(或者简称为“短片段(read)”)是指基因组测序仪(genomesequencer)中输出的短碱基序列数据。短片段的长度因基因组测序仪的种类而不同,通常构成为35~500bp(basepair)范围的多种长度,在DNA碱基的情况下,通常用A、C、G、T等四个字母表示。在本专利技术的实施例中,基因组测序仪输出一对配对(pair)的短片段。此时,将所述一对短片段中的第一个短片段称为5’短片段而将第二个短片段称为3’短片段,所述5’短片段与3’短片段的方向可形成为反向互补(reversecomplement)关系(双末端短片段),或者形成为相同的方向(配对短片段)。例如,对于双末端短片段而言,如果5’短片段为正向(forward)短片段,则3’短片段将是反向互补(reversecomplement)短片段,与之相反,如果5’短片段为反向互补短片段,则3’短片段将是正向短片段。并且,对于配对短片段而言,如果5’短片段为正向短片段,则3’短片段也将是正向短片段,与之相反,如果5’短本文档来自技高网
...
碱基序列比对系统及方法

【技术保护点】
一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:种子序列生成单元,从所述第一序列及所述第二序列中分别生成一个以上的片段,并由此构成第一种子序列集合及第二种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述第一种子序列集合中的种子序列在对应区间内的映射值即第一映射值、以及包含于所述第二种子序列集合中的种子序列在对应区间内的映射值即第二映射值;比对单元,从所述多个区间中选择计算出的所述第一映射值及所述第二映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述第一序列及所述第二序列的映射位置。

【技术特征摘要】
2012.10.29 KR 10-2012-01206501.一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:误差估计单元,针对所述第一序列及所述第二序列各自的正向序列及反向互补序列,从第一个碱基开始到末尾碱基为止以一个碱基为单位逐个移动而与所述参考序列进行精确匹配,并将判断为无法实现精确匹配的位置的个数设定为所述第一序列及所述第二序列各自的正向序列及反向互补序列的最小误差估计值;种子序列生成单元,选择所述第一序列及所述第二序列各自的正向序列及反向互补序列中所述最小误差估计值为预先设定的最大误差允许值以下的序列,并从所述选择的各个序列中分别生成一个以上的片段,由此构成所述选择的各个序列的种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述选择的各个序列的种子序列集合中的种子序列在对应区间内的映射值;比对单元,从所述多个区间中选择包含于所述选择的各个序列的种子序列集合中的种子序列的映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述选择的各个序列的映射位置。2.如权利要求1所述的碱基序列比对系统,其特征在于,所述种子序列集合只包括从所述选择的序列提取的一个以上的片段中与所述参考序列相匹配的片段。3.如权利要求2所述的碱基序列比对系统,其特征在于,与所述参考序列相匹配的片段为进行与所述参考序列之间的精确匹配的结果,不一致的碱基数为设定个数以下的片段。4.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射值计算单元基于包含在所述种子序列集合中的种子序列在对应区间内的总映射长度而计算所述映射值。5.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射值计算单元基于包含在所述种子序列集合中的种子序列在对应区间内的总映射个数而计算所述映射值。6.如权利要求1所述的碱基序列比对系统,其特征在于,所述比对单元在所述第一区间内执行针对所述选择的各个序列的全局比对,并将进行所述全局比对的结果计算出的比对位置对当中满足预先设定的序列之间的距离范围的比对位置对选择为所述选择的序列的比对位置。7.如权利要求1所述的碱基序列比对系统,其特征在于,当无法选择所述第一区间时,所述比对单元便选择包含在所述选择的各个序列的种子序列集合中的种子序列的映射值中的某一映射值为基准值以上的第二区间,并在选择的所述第二区间内搜寻所述选择的各个序列的映射位置。8.如权利要求7所述的碱基序列比对系统,其特征在于,所述比对单元在所述第二区间内计算相对所述选择的序列中的一个序列的比对位置,并在以计算出的所述比对位置为基准而设定的可映射范围内执行针对剩余序列的全局比对。9.如权利要求8所述的碱基序列比对系统,其特征在于,所述选择的序列为所述选择的序列当中在所述第二区间内的映射值更大的序列。10.如权利要求8所述的碱基序列比对系统,其特征在于,所述可映射范围是以所述计算的比对位置为基准向所述参考序列的前后端各延伸k×D长度的区间,其中,k为加权值,D为预先设定的序列之间的距离。11.如权利要求10所述的碱基序列比对系统,其特征在于,所述加权值k为1.8以下。12.一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:误差估计单元,分别计算所述第一序列及所述第二序列的最小误差估计值;比对单元,从所述第一序列与所述第二序列中选择计算出的所述最小误差估计值较...

【专利技术属性】
技术研发人员:朴旻胥朴商贤吕润九
申请(专利权)人:三星SDS株式会社延世大学校产学协力团
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1