【技术实现步骤摘要】
基因序列读取方法及读取系统
本专利技术涉及生物信息
,特别涉及一种基因序列读取方法及读取系统。
技术介绍
在当前的基因测序过程中,由不同测序平台产生的序列的错误存在一定差别,主要有以下4种:碱基的置换(substitution)错误,碱基的插入(insertion)错误,碱基的删除(deletion)错误和模糊碱基的出现(如用N来指示可能的4种碱基A、C、G、T)。比如,Illumina平台的错误主要是碱基的置换错误,Roche454、Heliscope、IonTorrent和PacificBioscience公司的RS平台的错误主要是碱基的插入和删除错误。从纠错方法的算法基础来分,目前使用的纠错方法主要有以下3种:1)基于k-spectrum的方法;2)基于suffixtree/suffixarray的方法;3)基于multiplesequencealignment(MSA)的方法。然而现有软件技术针对的都是特定的测序平台、基因测序序列的部分错误类型,还没有一种能够适用于绝大多数平台,较好地解决各种序列错误的软件技术,所以有时很难找到合适的算法进行纠错。直 ...
【技术保护点】
一种基因序列读取方法,其特征在于,所述分析方法包括如下步骤:根据原始基因序列的相关信息,确定合适的纠错算法,并使用所述纠错算法对所述原始基因序列进行纠错,得到待处理基因序列;根据预设的进程数量以及所述待处理基因序列的总大小,将所述待处理基因序列进行分块处理,得到多个分块基因序列;以及,并发读取所述分块基因序列。
【技术特征摘要】
1.一种基因序列读取方法,其特征在于,所述分析方法包括如下步骤:根据原始基因序列的相关信息,确定合适的纠错算法,并使用所述纠错算法对所述原始基因序列进行纠错,得到待处理基因序列;根据预设的进程数量以及所述待处理基因序列的总大小,将所述待处理基因序列进行分块处理,得到多个分块基因序列;以及,并发读取所述分块基因序列。2.根据权利要求1所述的基因序列读取方法,其特征在于,所述根据预设进程数量以及所述待分析基因序列的总大小,将待处理基因序列进行分块处理,包括:初始化基因序列并行分割程序;获取所述待分析基因序列的总大小size;根据预设的进程数量p以及所述待分析基因序列的总大小size,确定分块大小size/p,根据所述分块大小size/p对所述待分析基因序列进行分块处理,得到所述多个分块基因序列。3.根据权利要求2所述的基因序列读取方法,其特征在于,所述根据预设进程数量p以及所述待分析基因序列的总大小size,确定分块大小size/p,根据所述分块大小size/p对所述待分析基因序列进行分块处理,包括:设定进程i的分块基因序列的起始位置为i*size/p,终止位置为(i+1)*size/p;寻找所述起始位置后的第一个序列的开始点start(i),所述终止位置后的第一个序列的开始点或者文件终止符end(i);确定进程i的分块基因序列在所述待分析基因序列中的起始地址为start(i),终止地址为end(i)的基因序列。4.根据权利要求3所述的基因序列读取方法,其特征在于,所述并发读取所述多个分块基因序列,包括:对所述分块基因序列的起始地址和终止地址进行视图分块处理;并发读取所述分块基因序列的序列数据到内存。5.根据权利要求1~4中任一项所述的基因序列读取方法,其特征在于...
【专利技术属性】
技术研发人员:滕彦宁,魏彦杰,孟金涛,郭宁,葛健秋,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。