【技术实现步骤摘要】
一种并行多重序列比对方法
本专利技术属于计算机
,具体涉及一种并行多重序列比对方法。
技术介绍
多重序列比对是对三个以上的生物学序列(如蛋白质序列、DNA序列或RNA序列)所作的序列比对。一般来说,是输入一组假定拥有演化关系的序列。从多重序列比对的结果可推导出序列的同源性,而种系发生关系也可引导出这些序列共同的演化始祖。多重序列比对常用来研究序列的保守性,或是蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸。传统的多重序列比对方法通常过分依赖于动态规划而导致时间复杂度过高,用户在进行大量同源序列的比对时往往要花费数天甚至数月的时间。
技术实现思路
针对现有技术中的上述不足,本专利技术提供了一种并行多重序列比对方法。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种并行多重序列比对方法,包括以下步骤:S1、获取生物学序列数据;S2、利用每个线程对各个序列进行K-mer特征提取;S3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;< ...
【技术保护点】
1.一种并行多重序列比对方法,其特征在于,包括以下步骤:/nS1、获取生物学序列数据;/nS2、利用每个线程对各个序列进行K-mer特征提取;/nS3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;/nS4、采用并行聚类算法根据相似度矩阵对序列进行分组;/nS5、在每个分组中选择与其它序列平均相似度最高的序列作为中心序列,对每个分组的中心序列分配一个线程构建后缀树;/nS6、对每个分组或分组内的的一个非中心序列分配一个线程根据后缀树提取中心序列与其它每个序列的同源区段;/nS7、对每个分组或分组内的的一个非中心序列分配一个线程采用Smith-Waterman算法 ...
【技术特征摘要】
1.一种并行多重序列比对方法,其特征在于,包括以下步骤:
S1、获取生物学序列数据;
S2、利用每个线程对各个序列进行K-mer特征提取;
S3、利用每个线程计算任意两个序列之间的相似度,得到相似度矩阵;
S4、采用并行聚类算法根据相似度矩阵对序列进行分组;
S5、在每个分组中选择与其它序列平均相似度最高的序列作为中心序列,对每个分组的中心序列分配一个线程构建后缀树;
S6、对每个分组或分组内的的一个非中心序列分配一个线程根据后缀树提取中心序列与其它每个序列的同源区段;
S7、对每个分组或分组内的的一个非中心序列分配一个线程采用Smith-Waterman算法对非同源子序列对进行比对,将比对结果和同源区段拼接得到双序列比对结果;
S8、对每个分组或分组内的的一个非中心序列分配一个线程将双序列比对结果融合;
S9、对每个分组分配一个线程根据融合后的比对结果构建每个分组的代表序列,得到多重序列比对结果。
2.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S2具体包括:
提取每个序列中设定长度的全部连续子序列作为特征,并统计特征频次作为对应序列的特征值。
3.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S3中计算任意两个序列之间的相似度具体包括:
选取两个序列对应特征中较小的特征值,计算选取的所有特征值的和,得到两个序列之间的相似度。
4.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S4具体包括:
初始随机生成的k个均值点;
将每个观测分配到聚类中,使得组内平方和达到最小,表示为
其中,表示第t趟迭代中第i个聚类,分别表示第t趟迭代中第i和j个聚类对应的聚类中心,xp表示第p个数据点;
根据得到的每一个聚类,以聚类中观测值的图心,作为新的均值点,表示为
其中,xj表示第j个数据点。
5.根据权利要求1所述的并行多重序列比对方法,其特征在于,所述步骤S5具体包括:
在每个分组中选择一条序列与其它序列的相似度求和并计算平均值,得到该序列与其它序列的平均相似度;
选择该分组中平均相似度最高的序列作为中心序列,对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。