一种病原微生物参考知识库的最大多样性聚类构建方法技术

技术编号:28477213 阅读:9 留言:0更新日期:2021-05-15 21:46
本发明专利技术涉及生物技术领域,具有涉及一种病原微生物参考知识库的最大多样性聚类构建方法。该构建采用贪心缩放算法,通过特定方法计算冗余基因组的多序列相似性,去除扩展相似度高的序列,可以保证在去除大量冗余信息的同时,最大程度保留微生物基因组的多样性。实验表明,本发明专利技术提供的病原微生物知识库的最大多样性聚类方法准确性高、检测效率高且数据冗余率低,尤其适用于大规模的病原微生物全基因组序列。序列。

【技术实现步骤摘要】
一种病原微生物参考知识库的最大多样性聚类构建方法


[0001]本专利技术涉及生物
,特别涉及一种病原微生物参考知识库的最大多样性聚类构建方法。

技术介绍

[0002]高通量测序的持续发展导致可用的基因组测序数据空前增长,如此庞大的数据集给数据的存储和计算带来了巨大的挑战。为了从测序样本中精准鉴定病原微生物的种类,需要提前构建临床级病原微生物参考基因组知识库,知识库的质量直接决定了致病原检测结果的精确性,而知识库的大小决定了检测的速度。专家共识建议知识库中病原体的种类应该涵盖细菌、真菌、寄生虫、病毒、支原体或衣原体、分枝杆菌等,涵盖的种类建议超过2万种。建设时不仅需要包括染色体,还需要考虑线粒体、转录组序列及非编码序列等。因此,知识库的完整性和准确性是临床应用检测的关键。
[0003]当前病原微生物的知识库建立的方法是采用从国际公共数据库中通过获取、整合、筛选等一系列处理过程进行建立。通常知识库的建立方式有三种,分别是冗余方法、菌株代表序列法和打断重组法。第一,冗余方法是将获取的数据经过序列校正后全部纳入参考知识库,保留了物种的所有信息,可以实现所有物种的准确比对和筛查,但缺点是知识库的数据量庞大且重复序列多,极大降低了检测速度,这对实际临床应用患者往往是不可取的。第二,菌株代表序列法是从所有的序列中选取每个菌种的一条代表序列,其优点是可以实现快速检测。但是,菌株代表序列法也有明显的缺点,由于同种菌株的序列存在变异差异,舍弃大部分的基因组序列会丢失较多的病原微生物信息,造成检测的假阳性非常高。第三,打断重组法是将同一菌种的基因组进行打断后重新组装,可以尽可能保留基因组的亚种变异信息,但是由于病原微生物的种类繁多,从种的水平将基因组打断后重新组装非常困难。同时,在组装过程中打断重组法也会引入两个新的问题:一是由于受组装软件的限制,组装效率受打断后的读长(reads)长度、组装软件参数、基因组GC含量、基因组长度等多个因素影响,导致组装性能低;二是对于通过组装获取的病原微生物基因组的准确性需要进一步验证。
[0004]当前病原微生物知识库的构建方法存在的难题较多,主要原因是可用参考基因组冗余度高且数据量大,数据量甚至达到了TB级别,这极大影响了致病菌的检测速度,从而导致感染类疾病不能及时得到精准筛查。急危重症等临床级应用知识库通常需要人工筛选,耗费了巨大的人工成本。随着新的病原微生物基因组不断被发布,病原知识库需要不断地迭代更新,如果更新不及时会影响病原微生物的检测精度,导致漏检现象发生。因此,建立非冗余病原检测的知识库用于病原微生物检测参考知识库,达到非冗余基因组的准确性,提高致病微生物的检测速度和精度,节省计算和存储资源,具有重要的临床价值。

技术实现思路

[0005]有鉴于此,本专利技术提供一种病原微生物参考知识库的最大多样性聚类构建方法。
该方法准确性高、检测效率高且数据冗余率低,是尤其适用于大规模的病原微生物全基因组序列。
[0006]本专利技术提供一种病原微生物参考知识库的最大多样性聚类构建方法,包括:步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组R
x
作为独立集分别构建参考知识库Q
x
;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Q
x
的构建方法包括:(1)将冗余基因组R
x
进行索引,然后采用多进程模式进行并行排序,获得原始冗余集R
x

;(2)将原始冗余集R
x

中序列最长的确定为核心基因组序列S1,将剩余序列S
n
分别与S1进行比对,获得每条S
n
序列与S1相匹配的子序列集A;对子序列集A进行序列聚类,得到子序列集A的扩展最大精确匹配子序列集A';其中,n为原始冗余集R
x

的序列总数,n为≥2的整数;(3)计算S1和S
n
之间的扩展相似性S
extended
;所述计算公式为S
extended
=Length(A')/Length(S1),其中,Length(A')和Length(S1)为序列中碱基的个数;将S
extended
取值范围在0~100%之间的序列标记为冗余基因组序列,否则标记为核心基因组序列,计算获得核心基因组集C1和冗余序列集R1;(4)将获得的核心基因组集C1作为参考基因组,将原始冗余集R
x

中除C1和R1外的剩余序列标记为T1,将T1中的序列逐条与C1的所有序列按照步骤(2)~(3)的方法进行比对;所述比对方法具体为:C1中的每条序列对应步骤(2)中的S1,任意取C1中的一条序列记为S1’
;T1中的每条序列对应步骤(2)中的S
n
,任意取T1中的一条序列记为S
n

;那么,将Sn

与S1

按照步骤(2)进行比对,如果满足步骤(3)中的扩展相似性S
extended
阈值,S
n

被标记为冗余序列;如果不满足步骤(3)中的扩展相似性S
extended
阈值,则S
n

继续与C1中的其他序列进行比对,如果均不满足步骤(3)中的扩展相似性S
extended
阈值,则S
n

被标记为核心基因组;当T1中的所有序列都被标记完成后,将T1中的所有核心基因组序列与C1合并得到核心基因组集C2;(5)将C2作为参考基因组,将原始冗余集R
x

中除了R2和C2之外的所有剩余序列标记为T2,将T2中的序列逐条与C2的序列进行比对,当T2中的所有序列都被标记完成后,将T2中的所有核心基因组序列与C2合并得到核心基因组集C3;依次类推,将每一轮比对结束后获得的核心序列C
m
作为下一轮比对的参考基因组,m为≥3的整数;将原始冗余集Rx

中除了R
m
和C
m
之外的所有剩余序列标记为T
m
,将T
m
中的序列逐条与C
m
的序列进行比对,当T
m
中的所有序列都被标记完成后,将T
m
中的所有核心基因组序列与C
m
合并得到核心基因组集C
m+1
;依次循环比对,直至原始冗余集R
x

的剩余序列为空,即所有的序列被标记为核心序列或冗余序列,循环结束;形成核心序列集C和冗余集R,核心基因组集C即为参考知识库Q
x
;步骤3:按照步骤(1)~(5)分别构建得到每类病原微生物的参考知识库Q1~ Q...

【技术保护点】

【技术特征摘要】
1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,包括:步骤1:收集病原微生物的全基因组序列,获得所有病原微生物的总冗余基因组R;步骤2:根据病原微生物的界的分类对所述总冗余基因组R进行分箱,将每一种类的病原微生物的冗余基因组R
x
作为独立集分别构建参考知识库Q
x
;其中,x为大于0的整数,代表病原微生物的种类数;所述参考知识库Q
x
的构建方法包括:(1)将冗余基因组R
x
进行索引,然后采用多进程模式进行并行排序,获得原始冗余集R
x

;(2)将原始冗余集R
x

中序列最长的确定为核心基因组序列S1,将剩余序列S
n
分别与S1进行比对,获得每条S
n
序列与S1相匹配的子序列集A;对子序列集A进行序列聚类,得到子序列集A的扩展最大精确匹配子序列集A';其中,n为原始冗余集R
x

的序列总数,n为≥2的整数;(3)计算S1和S
n
之间的扩展相似性S
extended
;所述计算公式为S
extended
=Length(A')/Length(S1),其中,Length(A')和Length(S1)为序列中碱基的个数;将S
extended
取值范围在0~100%之间的序列标记为冗余基因组序列,否则标记为核心基因组序列,计算获得核心基因组集C1和冗余序列集R1;(4)将获得的核心基因组集C1作为参考基因组,将原始冗余集R
x

中除C1和R1外的剩余序列标记为T1,将T1中的序列逐条与C1的所有序列按照步骤(2)~(3)的方法进行比对;所述比对方法具体为:C1中的每条序列对应步骤(2)中的S1,任意取C1中的一条序列记为S1’
;T1中的每条序列对应步骤(2)中的S
n
,任意取T1中的一条序列记为Sn

;那么,将S
n

与S1’
按照步骤(2)进行比对,如果满足步骤(3)中的扩展相似性S
extended
阈值,S
n

被标记为冗余序列;如果不满足步骤(3)中的扩展相似性S
extended
阈值,则S
n

继续与C1中的其他序列进行比对,如果均不满足步骤(3)中的扩展相似性S
extended
阈值,则S
n

被标记为核心基因组;当T1中的所有序列都被标记完成后,将T1中的所有核心基因组序列与C1合并得到核心基因组集C2;(5)将C2作为参考基因组,将原始冗余集R
x

中除了R2和C2之外的所有剩余序列标记为T2,将T2中的序列逐条与C2的序列进行比对,当T2中的所有序列都被标记完成后,将T2中的所有核心基因组序列与C2合并得到核心基因组集C3;依次类推,将每一轮比对结束后获得的核心基因组集C
m
作为下一轮比对的参考基因组,m为≥1的整数;将原始冗余集R
x

中除了R
m
和C
m
之外的所有剩余序列标记为T
m
,将T
m
中的序列逐条与C
m
的序列进行比对,当T
m
中的所有序列都被标记完成后,将T
m
中的所有核心基因组序列与C
m
合并得到核心基因组集C
m+1
;依次循环比对,直至原始冗余集R
x

的剩余序列为空,即所有的序列被标记为核心序列或冗余序列,循环结束;形成核心序列集C和冗余集R,核心基因组集C即为参考知识库Q
x
;步骤3:按照步骤(1)~(5)分别构建得到每类病原微生物的参考知识库Q1~ Q
x
,合并,获得病原微生物参考知识库。2.根据权利要求1所述的最大多样性聚类构建方法,其特征在于,所述分箱具体为:将同种病原微生物的基因组序列进行合并,不同种的病原微生物的基因组进行分箱。3.根据权利要求1所述的最大多样性聚类构建方法,其特征在于,所述索引为:对所述原始冗余集中的每条序列进行编号,取值范围为:0~(n

1),其中n为冗余基因组Rx的序列总数,获取每条序列的编号和序列长度。
4.根据权利要求3所述的构建方法,其特征在于,所述并行排序为:根据冗余基因组R
x
中序列的编号对进程号进行求余计算,按照序列长度进行降序排列,获得原始冗余集R
x

。5.根据权利要求4所述的最大多样性聚类构建方法,其特征在于,所述并行排序的判定条件为seq_num%p_num_ = c_id,其中,seq_num表示序列编号,取值范围为:0~(n

1)之间的整数,其中n为冗余基因组R
x
的序列总数;p_num表示进程总数或采用的CPU核数,取值范围为:大于等于1的正整数;c_id为当前进程的进程号,取值范围为:0~(n

1)之间的整数,其中n为冗余基因组R
x
的序列总数;%表示取余运算符,即序列编号对进程总数取余后等于当前进程号,则表示该基因组存储在当前进程的内存区。6.根据权利要求1所述的最大多样性聚类构建方法,其特征在于,采用子序列扩展最大匹配的比对策略对子序列集A进行序列聚类。7.根据权利要求6所述的最大多样性聚类构建方法,其特征在于,所述子序列扩展最大匹配的比对策略选自以下情况之一:

如果子序列m1、子序列m2被子序列m3所覆盖,则m3作为扩展后的匹配子序列;

如果子序列m3被子序列m1的5'端和子序列m2的3'端所覆盖,则将m1、m2、m3进行拼接,得到子序列w,最终将子序列w作为扩展后的匹配子序列;

如果子序列m1的5'端和子序列m2的3'端有重叠部分,且覆盖子序列m3 ,则将m1和m2进行拼接,得到子序列w,最终将子序列w作为扩展后的匹配子序列;

如果子序列m1和子序列m2没有重叠部分,且不覆盖m3,则采用奖惩得分矩阵对m1、m2和m3分别向两...

【专利技术属性】
技术研发人员:李瑞琳盖伟
申请(专利权)人:杭州萧山微岩医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1