一种基于比对算法构建的探针特异性数据库制造技术

技术编号:21895816 阅读:54 留言:0更新日期:2019-08-17 16:04
本发明专利技术涉及计算机和生物信息学技术领域,公开一种基于比对算法构建的探针特异性数据库,使得探针特异性分析结果既准确又能缩短运算时间,迅速得到结果。本发明专利技术中构建数据库为主要步骤,包括设置探针杂交的最小长度,打碎基因组;将探针比对到基因组上;统计每条序列所能抓取基因组的次数;对每个位置的所有序列取最大的数字为包含这个位置短序列的最大可能抓取次数;构建探针比对数据库;还原结果等步骤。本发明专利技术中的数据库,可以极大限度的提高探针比对的效率,且只需要对特定实验条件环境构建一次,即可持续使用。此外,本数据库可适用于最普通的PC或服务器,只需要下载构建好的数据库即可自行对探针特异性进行分析。

Probe-specific database based on alignment algorithm

【技术实现步骤摘要】
一种基于比对算法构建的探针特异性数据库
本专利技术设计计算机和生物信息领域,具体涉及一种基于比对算法构建的探针特异性数据库。
技术介绍
利用基因探针的各种核酸分子杂交技术,在分子生物学和分子遗传学的研究方面应用极为广泛,是DNA分析的基础。例如提取出一段核酸片断是否带有必要的基因,可以利用制备的基因探针来进行分子杂交加以判断。利用基因探针还可以对分子克隆进行筛选,以获得所需的阳性克隆。基因探针对遗传病的诊断尤其重要。现已知许多遗传病的致病基因及其突变类型,其中由单基因突变所致的遗传病就达6000多种。如世界上最常见、发生率最高的单基因遗传病地中海贫血症,是由于蛛蛋白肽链合成的障碍所致,应用珠蛋白基因探针对地中海贫血症风险胎儿作产前DNA分折,是比较可靠和可行的诊断方法。而利用这一方法广泛地开展遗传病的产前基因诊断可防止患儿出生,降低发病率,具有重大的社会意义和经济意义。另外,采用基因探针技术对传染性流行病病原体如细菌、病毒的检测可以得到直接、可靠的结果,并且灵敏度很高,有时甚至存在一个病原体即可检出。如可在那些持续感染乙肝病毒(HBV)而血清学检查阴性的血清标本中检出HBV。基因探针对癌基因的分析结果不仅对阐明癌症的发生机制具有重要意义,也为在基因水平上对癌症进行诊断、分类、分型和预后开辟了新的途径。基因探针的特异性程度对实验测试结果的准确性至关重要,直接影响结果的可靠性,若基因探针的特异性不够明显,那么实验中抓取的基因很有可能不是目标基因,从而导致后续结果的错误判断。因此,对基因探针的特异性进行分析显得尤为关键。在现有技术中,BLAST(BasicLocalAlignmentSearchTool,基本局部比对搜索工具)是目前对基因探针进行比对分析最常用的方法之一,BLAST软件系列是由NCBI(NationalCenterforBiotechnologyInformation)发布的序列相似搜索程序,BLAST采用seed-and-extend近似匹配技术来快速搜索序列之间的相似段。但是,BLAST存在比对不精确、分析结果不准确、运行速度慢等问题,另外,网络版的BLAST虽使用方便,容易操作,但不利于操作大批量的数据库;单机版的BLAST虽可以处理大量数据库但是需要耗费本地机的大量资源。因此,开发可以准确高效处理并且节省运算资源的比对算法,以构建分析数据库显得尤为必要。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于比对算法构建的探针特异性数据库,其中构建数据库为主要步骤,可能耗时较长,但是构建完成之后,可以将所有分析从数十分钟到数个小时降到几秒内完成,包括以下步骤:S1、根据实验环境和探针的特性设置探针杂交的最小长度k,然后将基因组以1bp的步移打碎成k的短序列片段。S2、通过bwa软件或者结合力的算法,将探针比对到基因组上,输出每条序列所有的比对位置。S3、统计每条序列所能抓取基因组的次数,并记录在这个序列本身所在的位置上。S4、重复S3,对序列间相交的部分,对每个位置的所有序列取最大的数字为包含这个位置短序列的最大可能抓取次数,通过特定的ASCII编码成单个字符存储。S5、通过S4,构建一个和基因组fasta一模一样长度的探针比对数据库,通过samtools软件构建fasta格式的fai索引文件。S6、将探针转换为bed文件,通过bedtools提取每条探针所在位置的比对信息,将字符解码成每个碱基的比对信息,并按照实验条件还原成每条探针的可能杂交的特异性结果。优选地,步骤S1中探针杂交的最小长度k≥1。优选地,步骤S2中将探针比对到基因组上的方法一般是通过bwa软件或者结合力的算法。优选地,步骤S4中特定的系统指ASCII编码系统。优选地,步骤S5中基因组及fai索引文件我FASTA格式。优选地,所述探针为基因探针。本专利技术的有益效果是:提供了一种基于比对算法构建的探针特异性数据库,借用了常规的比对工具,得到的结果和原有结果完全一致,而通过本算法得到的数据库,可以极大限度的提高探针比对的效率,平时数个小时的计算只需要几秒钟即可完成,不仅节省了CPU、内存资源也降低了HPC的IO负担,而且本数据库只需要对特定实验条件环境构建一次,即可持续使用,不需要重复的计算。进一步,由于本专利技术中的数据库可适用于最普通的PC或服务器,只需要下载构建好的数据库即可自行对探针特异性进行分析。而对于提供给网络上的探针分析服务器,可极大的降低负载,提高运算速度,也降低使用者的等待时间。附图说明图1为本专利技术的算法示意图图2为数据库示意图图3为比对结果转换示意图具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术的算法如图1所示,包括以下步骤:S1、针对100bp的探针和实验环境,将基因组以1bp步移,打碎成71bp的序列。S2、通过bwa软件和特定的参数,将序列比对到hg19上。S3、按照图1所示,统计每条序列所能抓取基因组的次数,并记录在这个序列本身所在的位置上。S4、将上一步的数字通过特定的ASCII编码成单个字符存储,如图1所示。S5、构建一个和基因组fasta一模一样长度的探针比对数据库,如图2所示。通过samtools软件构建fasta格式的fai索引文件。S1到S5需要耗时2天。S6、将探针转换为bed文件,通过bedtools提取每条探针所在位置的比对信息,将字符解码成每个碱基的比对信息,并按照实验条件还原成每条探针的可能杂交的特异性结果,如图3所示,此步3万根探针探针大约耗时在5秒,而常规blast算法,即高估了每条探针抓取次数,又耗时1个小时以上,从准确度和耗时上都有显著提升。本文档来自技高网
...

【技术保护点】
1.一种基于比对算法构建的探针特异性数据库,其特征在于,包括以下步骤:S1. 根据实验环境和探针的特性设置探针杂交的最小长度k,然后将基因组以1bp的步移打碎成k的短序列片段;S2. 将探针比对到基因组上,输出每条序列所有的比对位置;S3. 统计每条序列所能抓取基因组的次数,并记录在这个序列本身所在的位置上;S4. 重复S3,对序列间相交的部分,对每个位置的所有序列取最大的数字为包含这个位置短序列的最大可能抓取次数,通过特定的系统编码成单个字符存储;S5. 通过S4,构建一个和基因组一模一样长度的探针比对数据库,通过samtools软件构建fai索引文件;S6. 将探针转换为bed文件,通过bedtools提取每条探针所在位置的比对信息,将字符解码成每个碱基的比对信息,并按照实验条件还原成每条探针的可能杂交的特异性结果。

【技术特征摘要】
1.一种基于比对算法构建的探针特异性数据库,其特征在于,包括以下步骤:S1.根据实验环境和探针的特性设置探针杂交的最小长度k,然后将基因组以1bp的步移打碎成k的短序列片段;S2.将探针比对到基因组上,输出每条序列所有的比对位置;S3.统计每条序列所能抓取基因组的次数,并记录在这个序列本身所在的位置上;S4.重复S3,对序列间相交的部分,对每个位置的所有序列取最大的数字为包含这个位置短序列的最大可能抓取次数,通过特定的系统编码成单个字符存储;S5.通过S4,构建一个和基因组一模一样长度的探针比对数据库,通过samtools软件构建fai索引文件;S6.将探针转换为...

【专利技术属性】
技术研发人员:杨冰蔡霖霖钱刚郎洪天潘石玄伟李璐璐
申请(专利权)人:杭州链康医学检验实验室有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1