基于马尔科夫模型的噬菌体分类的方法技术

技术编号：37373828 阅读：20 留言：0更新日期：2023-04-27 07:17

本发明专利技术提供了基于马尔科夫模型的噬菌体分类的方法，以科层级为例，对某个科构建的马尔科夫模型，计算该模型与其他科的病毒基因组的对数似然值LL，使用这些LL值拟合高斯分布的均值和方差从而得到该模型的对数似然值LL的高斯分布。在应用时，针对未分类的基因组得到LL值后，依据模型的高斯分布计算得到P值。后续可以根据P值划定可信度门槛。本发明专利技术不仅对较短的基因组片段(如几千碱基对长度)进行更准确的分类学分类指定，而且对与已知病毒基因组同源性较低的基因组片段预测指定准确的分类学分类。学分类。学分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于马尔科夫模型的噬菌体分类的方法

[0001]本专利技术涉及病毒组分类学
，特别涉及基于马尔科夫模型的噬菌体分类的方法。

技术介绍

[0002]病毒是地球上最大的未开发遗传多样性储存库，随着宏基因组测序的广泛应用，新的病毒基因组序列急剧的累积。噬菌体通过调节自然环境中细菌的丰度，在平衡全球生态系统中发挥着重要作用。噬菌体还与人体的健康密切相关，目前已经发现噬菌体的丰度和组成变化与溃疡性结肠炎、克罗恩病和糖尿病等相关。从宏病毒组数据中鉴定和组装成病毒基因组序列后，对序列进行分类学分类是病毒组研究的基础。但是新鉴定出的病毒中包含大量的新颖病毒序列以及长度从几百碱基到几千碱基的短基因组片段，这些基因组序列给病毒组的分类提出了挑战。
[0003]目前较为通用的方法是基于Blast的搜索方法。先使用Prodigal注释基因组编码的所有蛋白，然后使用Blast方法从已知序列库中查找基因组包含的每个蛋白匹配的最相似的已知蛋白，最后根据每个蛋白的最佳匹配蛋白所属的家族或属进行投票决定查询基因组的家族或属。该方法优点为假阳性较低，精确度较高；其缺点为对短片断的序列和远同源的基因组预测较为困难。
[0004]另一类分类方法的代表为vConTACT，其基于基因组间的基因共享来构建网络，然后根据网络来聚类成病毒簇从而对噬菌体基因组进行分类，其优点在于能够自动化、可信的给出属级别的分类，可以适用到大的宏基因组数据集；其缺点为较小的基因组或基因组片段难以被分类，存在较多的病毒序列空间未能被其分类。
[0005]因...

【技术保护点】

【技术特征摘要】
1.一种基于马尔科夫模型的噬菌体分类的方法，其特征在于，包括如下步骤：S1.将NCBI噬菌体基因组使用Prodigal翻译成蛋白质序列，建立蛋白质库T；S2.取所述蛋白质库T的蛋白质序列，计算长度为k的肽段肽段状态下相邻的下一个氨基酸(N
xk+1
)的条件概率；N
x1
...N
xk
为长度为肽段x1...x
k
在蛋白库T中的数量，N
x1
...N
x(k+1)
为长度为肽段x1...x
k+1
在蛋白库T中的数量，得到k阶马尔科夫模型的状态转移概率矩阵，α为可以调整的伪计数，见式(1)将未分类基因组使用Prodigal翻译成蛋白质，获得未分类基因组的蛋白质序列V＝y1...

【专利技术属性】
技术研发人员：彭友松，卢聪毓，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人