当前位置: 首页 > 专利查询>湖南大学专利>正文

基于马尔科夫模型的噬菌体分类的方法技术

技术编号:37373828 阅读:20 留言:0更新日期:2023-04-27 07:17
本发明专利技术提供了基于马尔科夫模型的噬菌体分类的方法,以科层级为例,对某个科构建的马尔科夫模型,计算该模型与其他科的病毒基因组的对数似然值LL,使用这些LL值拟合高斯分布的均值和方差从而得到该模型的对数似然值LL的高斯分布。在应用时,针对未分类的基因组得到LL值后,依据模型的高斯分布计算得到P值。后续可以根据P值划定可信度门槛。本发明专利技术不仅对较短的基因组片段(如几千碱基对长度)进行更准确的分类学分类指定,而且对与已知病毒基因组同源性较低的基因组片段预测指定准确的分类学分类。学分类。学分类。

【技术实现步骤摘要】
基于马尔科夫模型的噬菌体分类的方法


[0001]本专利技术涉及病毒组分类学
,特别涉及基于马尔科夫模型的噬菌体分类的方法。

技术介绍

[0002]病毒是地球上最大的未开发遗传多样性储存库,随着宏基因组测序的广泛应用,新的病毒基因组序列急剧的累积。噬菌体通过调节自然环境中细菌的丰度,在平衡全球生态系统中发挥着重要作用。噬菌体还与人体的健康密切相关,目前已经发现噬菌体的丰度和组成变化与溃疡性结肠炎、克罗恩病和糖尿病等相关。从宏病毒组数据中鉴定和组装成病毒基因组序列后,对序列进行分类学分类是病毒组研究的基础。但是新鉴定出的病毒中包含大量的新颖病毒序列以及长度从几百碱基到几千碱基的短基因组片段,这些基因组序列给病毒组的分类提出了挑战。
[0003]目前较为通用的方法是基于Blast的搜索方法。先使用Prodigal注释基因组编码的所有蛋白,然后使用Blast方法从已知序列库中查找基因组包含的每个蛋白匹配的最相似的已知蛋白,最后根据每个蛋白的最佳匹配蛋白所属的家族或属进行投票决定查询基因组的家族或属。该方法优点为假阳性较低,精确度较高;其缺点为对短片断的序列和远同源的基因组预测较为困难。
[0004]另一类分类方法的代表为vConTACT,其基于基因组间的基因共享来构建网络,然后根据网络来聚类成病毒簇从而对噬菌体基因组进行分类,其优点在于能够自动化、可信的给出属级别的分类,可以适用到大的宏基因组数据集;其缺点为较小的基因组或基因组片段难以被分类,存在较多的病毒序列空间未能被其分类。
[0005]因此,本申请设计了一种基于马尔科夫模型的噬菌体分类的方法。

技术实现思路

[0006]本专利技术提供了基于马尔科夫模型的噬菌体分类的方法,其目的是为了解决
技术介绍
存在的上述问题。
[0007]为了达到上述目的,本专利技术提供了一种新型的噬菌体自动化分类的方法,适用于从宏基因组或宏病毒组数据中组装形成的基因组片段的分类学分类。
[0008]本专利技术的实施例提供了基于马尔科夫模型的噬菌体分类的方法,包括如下步骤:
[0009]S1.将NCBI噬菌体基因组使用Prodigal翻译成蛋白质序列,建立蛋白质库T;对某个分类层级(目、家族或属等)的每个分类单元构建蛋白数据库,以家族层级(Family)为例,将已有数据库中的基因组以科为单位整合成单独的基因组数据库,然后使用Prodigal进行蛋白质注释转换成每个科的蛋白质库T;
[0010]S2.取所述蛋白质库T的蛋白质序列,计算长度为k的肽段肽段状态下相邻的下一个氨基酸(N
xk+1
)的条件概率。N
x1
...N
xk
为长度为肽段x1...x
k
在蛋白库T中的数量,N
x1
...N
x+1k
为长度为肽段x1...x
k+1
在蛋白库T中的数量,得到k阶马尔科夫模型的状态转移
概率矩阵,α为可以调整的伪计数,见式(1)
[0011][0012]将未分类基因组使用Prodigal翻译成蛋白质,获得未分类基因组的蛋白质序列V=y1...y
N
,根据式(1)计算所述未分类基因组的蛋白质序列与蛋白质库T的对数似然值LL,y
i+k
为起点为i时的k长度的肽段,y
i+k
‑1为起点为i时的k

1长度的肽段,将这两个肽段代入(1)式中得到的状态转移概率矩阵P
T
,然后对未分类基因组的蛋白质序列V得到的所有概率值取Log累加后取均值得到对数似然值LL,见式(2)
[0013][0014]将所述LL拟合高斯分布的均值和方差,获得所述马尔科夫模型的LL的高斯分布和P值;
[0015]S3.所述LL得分最高所对应马尔科夫模型的基因组即为预测的噬菌体基因组。预测可信度的评估,以科层级为例,对某个科构建的马尔科夫模型,计算该模型与其他科的病毒基因组的对数似然值LL,使用这些LL值拟合高斯分布的均值和方差从而得到该模型的对数似然值LL的高斯分布;在应用时,针对未分类的基因组得到LL值后,依据模型的高斯分布计算得到P值。后续可以根据P值划定可信度门槛。
[0016]进一步的,所述P值<0.01时,预测准确率高达98%。
[0017]本专利技术的上述方案有如下的有益效果:
[0018]1、本专利技术按照分类学将病毒库中的基因组归类后,对每一类中所有的蛋白质序列建模得到每一类的模型,可以更好的评估待分类的病毒基因组的与每一类病毒所有的基因组的整体相似度。
[0019]2、本专利技术能够对较短的基因组片段(如几千碱基对长度)进行更准确的分类学分类指定;
[0020]3、本专利技术能够对与已知病毒基因组同源性较低的基因组片段预测指定准确的分类学分类。
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术的实施例不同门槛下对测试集的覆盖程度和正确率;
[0023]图2是本专利技术的实施例对于不同长度的基因组序列比较;
[0024]图3是本专利技术的实施例对新颖病毒的预测能力比较;
[0025]图4是本专利技术实施例的基于马尔科夫模型的噬菌体分类的方法的流程图。
具体实施方式
[0026]为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0027]除非另有定义,下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的,并不是旨在限制本专利技术的保护范围。
[0028]除非另有特别说明,本专利技术中用到的各种原材料、试剂、仪器和设备等均可通过市场购买得到或者可通过现有方法制备得到。
[0029]本专利技术针对现有的问题,提供了基于马尔科夫模型的噬菌体分类的方法。
[0030]本专利技术的实施例提供了基于马尔科夫模型的噬菌体分类的方法,包括如下步骤:
[0031]S1.将NCBI噬菌体基因组使用Prodigal翻译成蛋白质序列,建立蛋白质库T;对某个分类层级(目、家族或属等)的每个分类单元构建蛋白数据库,以家族层级(Family)为例,将已有数据库中的基因组以科为单位整合成单独的基因组数据库,然后使用Prodigal进行蛋白质注释转换成每个科的蛋白质库T;
[0032]S2.取所述蛋白质库T的蛋白质序列,计算长度为k的肽段肽段状态下相邻的下一个氨基酸(N
xk+1
)的条件概率。N
x1
...N
xk
为长度为肽段x1...x
k
在蛋白库T中的数量,N本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于马尔科夫模型的噬菌体分类的方法,其特征在于,包括如下步骤:S1.将NCBI噬菌体基因组使用Prodigal翻译成蛋白质序列,建立蛋白质库T;S2.取所述蛋白质库T的蛋白质序列,计算长度为k的肽段肽段状态下相邻的下一个氨基酸(N
xk+1
)的条件概率;N
x1
...N
xk
为长度为肽段x1...x
k
在蛋白库T中的数量,N
x1
...N
x(k+1)
为长度为肽段x1...x
k+1
在蛋白库T中的数量,得到k阶马尔科夫模型的状态转移概率矩阵,α为可以调整的伪计数,见式(1)将未分类基因组使用Prodigal翻译成蛋白质,获得未分类基因组的蛋白质序列V=y1...

【专利技术属性】
技术研发人员:彭友松卢聪毓
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1