【技术实现步骤摘要】
碱基序列比对系统及方法
本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
测序仪用于从原始碱基序列中生成作为长度较短的碱基序列的短片段(read),此时将有一对短片段配对(pair)生成。这样形成配对的短片段是在原始DNA中的预定距离内生成,且根据测序仪的种类的不同,形成为在参考序列中具有反向互补(reversecomplement)方向或相同方向。此时生成的两个短片段之间的距离(insertsize)及各短片段的长度为事先根据碱基序列分析目的进行设定,且在相同实验中生成的短片段都具有类似的值。在这些成对的短片段中把先生成的称为5'短片段,后生成的称为3'短片段,而且将5'短片段与3'短片段的方向为反向互补关系的称为双末端短片段(paired-endread),反之5'短片段与3'短片段具有相同方向的称为配对短片段(mate-pairread)。在对这种双末端短片段或配对短片段进行比对(alignment)时要同时考虑以下三个条件。(1)各短片段与参考序列之间的碱基序列同源性(homology)(2)两个短片段的比对方向(3)两个短片段的比对位置之间的距离现有技术中的比对算法构成为根据条件(1)将两个短片段分别比对到参考序列上之后,在两个短片段的比对位置中选择满足上述条件(2)、(3)的位置。然而如果这样进行双末端短片段或配对短片段的比对,则为了首先获得满足上述条件(1)的各短片段的比对位置,对参考序列中不满足上述条件(2)、(3)的位置也都要进行搜寻,因此存在不必要的计算量过多的问题。
技术实现思路
本专利技术实施例的目的在于提供一种能够 ...
【技术保护点】
一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:种子序列生成单元,从所述第一序列及所述第二序列中分别生成一个以上的片段,并由此构成第一种子序列集合及第二种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述第一种子序列集合中的种子序列在对应区间内的映射值即第一映射值、以及包含于所述第二种子序列集合中的种子序列在对应区间内的映射值即第二映射值;比对单元,从所述多个区间中选择计算出的所述第一映射值及所述第二映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述第一序列及所述第二序列的映射位置。
【技术特征摘要】
2012.10.29 KR 10-2012-01206501.一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:误差估计单元,针对所述第一序列及所述第二序列各自的正向序列及反向互补序列,从第一个碱基开始到末尾碱基为止以一个碱基为单位逐个移动而与所述参考序列进行精确匹配,并将判断为无法实现精确匹配的位置的个数设定为所述第一序列及所述第二序列各自的正向序列及反向互补序列的最小误差估计值;种子序列生成单元,选择所述第一序列及所述第二序列各自的正向序列及反向互补序列中所述最小误差估计值为预先设定的最大误差允许值以下的序列,并从所述选择的各个序列中分别生成一个以上的片段,由此构成所述选择的各个序列的种子序列集合;映射值计算单元,将所述参考序列划分为多个区间,并按所述多个区间分别计算包含于所述选择的各个序列的种子序列集合中的种子序列在对应区间内的映射值;比对单元,从所述多个区间中选择包含于所述选择的各个序列的种子序列集合中的种子序列的映射值均为基准值以上的第一区间,并在所述第一区间内搜寻所述选择的各个序列的映射位置。2.如权利要求1所述的碱基序列比对系统,其特征在于,所述种子序列集合只包括从所述选择的序列提取的一个以上的片段中与所述参考序列相匹配的片段。3.如权利要求2所述的碱基序列比对系统,其特征在于,与所述参考序列相匹配的片段为进行与所述参考序列之间的精确匹配的结果,不一致的碱基数为设定个数以下的片段。4.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射值计算单元基于包含在所述种子序列集合中的种子序列在对应区间内的总映射长度而计算所述映射值。5.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射值计算单元基于包含在所述种子序列集合中的种子序列在对应区间内的总映射个数而计算所述映射值。6.如权利要求1所述的碱基序列比对系统,其特征在于,所述比对单元在所述第一区间内执行针对所述选择的各个序列的全局比对,并将进行所述全局比对的结果计算出的比对位置对当中满足预先设定的序列之间的距离范围的比对位置对选择为所述选择的序列的比对位置。7.如权利要求1所述的碱基序列比对系统,其特征在于,当无法选择所述第一区间时,所述比对单元便选择包含在所述选择的各个序列的种子序列集合中的种子序列的映射值中的某一映射值为基准值以上的第二区间,并在选择的所述第二区间内搜寻所述选择的各个序列的映射位置。8.如权利要求7所述的碱基序列比对系统,其特征在于,所述比对单元在所述第二区间内计算相对所述选择的序列中的一个序列的比对位置,并在以计算出的所述比对位置为基准而设定的可映射范围内执行针对剩余序列的全局比对。9.如权利要求8所述的碱基序列比对系统,其特征在于,所述选择的序列为所述选择的序列当中在所述第二区间内的映射值更大的序列。10.如权利要求8所述的碱基序列比对系统,其特征在于,所述可映射范围是以所述计算的比对位置为基准向所述参考序列的前后端各延伸k×D长度的区间,其中,k为加权值,D为预先设定的序列之间的距离。11.如权利要求10所述的碱基序列比对系统,其特征在于,所述加权值k为1.8以下。12.一种碱基序列比对系统,用于将包含第一序列及第二序列的一对碱基序列比对到参考序列,包括:误差估计单元,分别计算所述第一序列及所述第二序列的最小误差估计值;比对单元,从所述第一序列与所述第二序列中选择计算出的所述最小误差估计值较...
【专利技术属性】
技术研发人员:朴旻胥,朴商贤,吕润九,
申请(专利权)人:三星SDS株式会社,延世大学校产学协力团,
类型:发明
国别省市:韩国;KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。