一种宏基因组重叠群无监督聚类方法及系统技术方案

技术编号：27589113 阅读：147 留言：0更新日期：2021-03-10 10:05

本发明专利技术公开了一种宏基因组重叠群无监督聚类方法，所述方法是在聚类之前首先将各个样本的reads放在一起组建基因文库，然后通过组装工具将reads组装成contigs，根据四联寡核苷酸的频率以及co

全部详细技术资料下载

【技术实现步骤摘要】
一种宏基因组重叠群无监督聚类方法及系统

[0001]本专利技术涉及生物信息分析
，尤其涉及一种宏基因组重叠群的无监督聚类方法及系统。

技术介绍

[0002]在宏基因组技术出现之前，人们对于微生物的相关研究主要是通过人工对单一微生物物种进行纯培养。但是自然环境中，绝大多数微生物很难或者不能在培养基上纯培养。随着第二代测序技术的发展，宏基因组技术应运而生。它可以直接从自然环境中获取样本全部微生物的遗传物质，而不需要像传统方法一样在培养基上纯培养。这为科学家研究微生物的群落结构，微生物之间的相互作用以及微生物与环境，疾病之间的关系提供了新的研究思路。第二代测序得到的短的鸟枪宏基因组reads片段可以被reads组装工具组装成更长的基因片段contigs，由于组装工具的局限性，不能组装出完整的基因，而只是零散的基因片段。采用机器学习的方法可以将零散的基因片段分类，从而得到完整的基因，以供后续的物种注释和功能分析。
[0003]现有的宏基因组分类方法一般分为两种，有监督分类和无监督聚类方法。早期，宏基因组组装工具不能很好的对测序得到的reads片段进行组装，大多数分类方法的数据对象是reads片段,由于reads片段很短只有50bp到200bp，携带信息很少，很难对reads进行有效的分类，随着组装工具的准确率上升，可以达到百分之98。越来越多的方法针对组装后contigs片段进行分类，这里我们讨论对组装后的contigs片段分类的方法。有监督分类方法，利用已知的基因作为参考，根据基因序列的同源性以及序列组成的相...

【技术保护点】

【技术特征摘要】
1.一种宏基因组重叠群无监督聚类方法，其特征在于，包括步骤：S1.将多个reads通过片段的重叠组装成contigs；S2.采用特征向量化方法计算contigs的四联寡核苷酸频率和丰度，得到contigs的四联核苷酸频率和丰度；S3.设置K-means算法中的初始物种个数K1，并随机选择K1个contigs作为初始聚类中心；S4.根据得到的contigs的四联核苷酸频率和丰度，计算K1个contigs中的每个contigs到各个聚类中心的概率，并将每个contigs分配给计算得到的概率中概率最大的聚类中心；S5.使用每个簇的样本均值更新聚类中心；S6.重复执行步骤S4-S5，直到聚类中心不再发生变化时执行步骤S7；S7.判断聚类得到的簇中每一个contigs到聚类中心序列的相似概率是否超过最小概率阈值，若是，则得到与contigs相对应的序列集bins，并执行步骤S8；若否，则得到无法分类的序列，并将无法分类的序列集合记为集合S1；S8.使用宏基因组质量检测工具对得到的bins进行质量检测，根据质量检测结果筛选出满足预设阈值的bins，并将筛选出的bins放到集合Q中；将不满足预设阈值的bins混合，记为集合S2；S9.将得到的集合S1和集合S2整合为集合S，给定物种数量K，同时初始化K个中心点medoid；S10.计算每个contigs和K个中心点medoid之间的概率，将contigs分配到概率最大的medoid代表的类中；S11.重复执行步骤S9-S10，直到所有的medoids不再变化时执行步骤S12；S12.判断聚类得到的簇中每一个contigs到medoid的相似概率是否超过最小概率阈值，若是，则返回步骤S8，直到集合Q中不再添加新的bins，则聚类完成；若否，则得到无法分类的序列，并将无法分类的序列集合记为集合S1。2.根据权利要求1所述的一种宏基因组重叠群无监督聚类方法，所述步骤S4中根据得到的contigs的四联核苷酸频率和丰度，计算K1个contigs中的每个contigs到各个聚类中心的概率，具体为：根据贝叶斯公式计算两个contigs来自同一基因的后验概率，表示为：其中，T和R分别表示两个contigs来自不同或者相同菌株的两种情况；D表示两个contigs的四联寡核苷酸频率之间的欧氏距离；根据泊松分布评估序列S和聚类中心点G在宏基因组数据K中相似的概率，表示为：P
cov
(S∈G|cov(G
k
))＝Poisson(cov(S
k
)|cov(G
k
))其中，cov(S
k
)和cov(G
k
)表示序列S和聚类中心序列G在宏基因组数据k中的覆盖度，P
cov
(S
k
∈G
K
|cov(G
k
))为泊松概率密度函数，给定均值λ＝cov(G
k
)；假定所有宏基因组样本是被独立测序的，则序列S和聚类心中序列G之间覆盖度相似概率需要考虑所有宏基因组样本，表示为：
其中，M表示宏基因组样本的数量；每个contigs到各个聚类中心的概率，表示为：其中，P(S∈G)表示每个contigs到各个聚类中心的概率。3.根据权利要求2所述的一种宏基因组重叠群无监督聚类方法，其特征在于，所述步骤S9中给定物种数量K，同时初始化K个中心点medoid，具体为：用reading frames工具将样本中的DNA序列翻译为蛋白质序列，在所有已经被翻译或者未被翻译的序列中，识别34种具有分类信息的标志基因的DNA和蛋白质的隐马尔可夫模型profiles；找出标志基因所对应的DNA序列，并结合FragGeneScan软件预测的基因做去冗余的整合；采用HMMER3软件对整合后的基因进行107个单标记分析，对进行单标记分析的基因进行过滤，得到最短的标记基因序列个数，作为聚类中菌株的数量，以及将最短的标记基因序列作为聚类中心点，并进行聚类中心初始化。4.根据权利要求1所述的一种宏基因组重叠群无监督聚类方法，其特征在于，所述步骤S9中将得到的集合S1和集合S2整合为集合S后还包括删除集合S1和集合S2。5.根据权利要求4所述的一种宏基因组重叠群无监督聚类方法，其特征在于，所述步骤S10中还包括对于第i个类中除对应的medoid
i
之外的其他contigs，按顺序计算当其他contigs成为新的medoid时准则函数的值，寻找准则函数最小时对应的点作为新...

【专利技术属性】
技术研发人员：李小波，姜忠俊，
申请(专利权)人：浙江师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人