考虑整个短片段的碱基序列比对系统及方法技术方案

技术编号:10053982 阅读:234 留言:0更新日期:2014-05-16 02:45
本发明专利技术公开一种考虑整个短片段的碱基序列比对系统及方法。根据本发明专利技术一个实施例的碱基序列比对系统包括:片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段(fragment)序列;比对单元,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global?alignment)。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种。根据本专利技术一个实施例的碱基序列比对系统包括:片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段(fragment)序列;比对单元,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global?alignment)。【专利说明】
本专利技术的实施例涉及一种用于分析基因组的碱基序列的技术。
技术介绍
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
技术实现思路
本专利技术实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列比对方案。为了解决如上所述的技术问题,根据本专利技术一个实施例的碱基序列比对(alignment)系统包括:片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段(fragment)序列;比对单元,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global alignment)ο另外,为了解决如上所述的技术问题,根据本专利技术一个实施例的用于将短片段(read)序列比对于参考序列的方法包括如下步骤:在片段序列生成单元中,从所述短片段序列的整个区间生成一个以上的片段(fragment)序列;在比对单元中,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global alignment)。根据本专利技术的实施例,由于在进行短片段序列的比对时不再只是考虑短片段的特定区域,而是通过考虑整个短片段而选择种子序列(片段序列),因此与只考虑短片段的一部分的算法相比时,可以提高准确度。【专利附图】【附图说明】图1为用于说明根据本专利技术一个实施例的碱基序列比对方法的图。图2为用于举例表示根据本专利技术一个实施例的碱基序列比对方法中估计短片段序列的误差个数的过程的图。图3为用于举例表示根据本专利技术一个实施例的片段序列生成过程的图。图4为用于举例表示根据本专利技术另一实施例的片段序列生成过程的图。图5为用于举例表示根据本专利技术又一实施例的片段序列生成过程的图。图6为根据本专利技术一个实施例的碱基序列比对系统的模块图。符号说明:600:碱基序列比对系统602:片段序列生成单元604:比对单元606:筛选单元608:误差个数估计单元【具体实施方式】以下,参照【专利附图】【附图说明】本专利技术的【具体实施方式】。然而这仅仅是示例,本专利技术并不局限于此。 在对本专利技术进行说明时,如果遇到对有关本专利技术的公知技术的具体说明有可能不必要的干扰本专利技术的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本专利技术中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。本专利技术的技术思想由权利要求书确定,以下的实施例只是为了将本专利技术的技术思想有效地传递给本专利技术所属
中具有普通知识的人员而采用的一种手段。在对本专利技术的实施例进行具体说明之前,首先对本专利技术中使用的术语进行如下说明。首先,“短片段序列(read sequence)"(或者简称为“短片段(read)”)是指基因组测序仪(genome sequencer)中输出的短碱基序列数据。短片段序列的长度因基因组测序仪的种类而不同,通常构成为35~500bp (base pair)范围的多种长度,在DNA碱基的情况下,通常用字母A、C、G、T表示。“参考序列(reference sequence)"指可对利用所述短片段序列形成整个碱基序列提供参考的碱基序列。在碱基序列分析中,通过将基因组测序仪所输出的大量短片段参照参考序列进行映射而完成整个碱基序列。在本专利技术中,所述参考序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为参考序列。“碱基(base)”为构成参考序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示,将这些分别称为碱基。即,对于DNA而言,可用四种碱基表不,短片段序列也是如此。“种子序列(seed)”是指为了短片段序列的映射而作为将短片段序列与参考序列进行比较时的单位的序列。从理论上讲,为了将短片段映射于参考序列,需要把整个短片段从参考序列的最前端部分开始依次比较的同时计算短片段的映射位置。然而由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力,因此实际上要先把作为短片段的一部分所构成的片,即种子序列映射于参考序列而找出整个短片段序列的候选位置,然后将整个短片段序列映射于对应候选位置(Global Alignment)。“片段序列”是指作为用于构成所述种子序列的候选对象的所述短片段的片段。即,在本专利技术的实施例中是从短片段中提取一个以上的片段序列,并从提取的片段序列中只收集与参考序列相匹配的片段序列来构成种子序列集合。此时,将包含于所述种子序列集合中的片段序列称为种子序列。图1为用于说明根据本专利技术一个实施例的碱基序列比对方法100的图。在本专利技术的实施例中,碱基序列比对方法100指通过将基因组测序仪(genome sequencer)中输出的短片段序列与参考序列进行比较而确定短片段序列在所述参考序列中的映射(或比对)位置的一系列过程。首先,如果从基因组测序仪(genome sequencer)接收到短片段序列(步骤102),则尝试整个短片段序列与所述参考序列之间的精确匹配(exact matching)(步骤104)。执行所述步骤104的结果,如果针对整个短片段的精确匹配成功,则不执行后续的比对步骤而判断为比对成功(步骤106)。将人类的碱基序列作为对象进行实验的结果显示,如果将基因组测序仪中输出的100万个短片段序列精确匹配于人类的碱基序列,则在总共200万次的比对中(正向序列100万次,反向互补(reverse complement)方向序列100万次)出现231,564次的精确匹配。因此,执行所述步骤104的结果约可以减少11.6%的比对工作量。然而,如果与之相反,即在所述步骤106中判断为对应短片段序列并不精确匹配的情况下,则是估计将对应短片段序列比对于所述参考序列时可能出现的误差个数(步骤108)。图2为用于举例表示所述步骤108中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:朴旻胥
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1