一种生物病毒的计算机自动分类方法技术

技术编号:2822143 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及生物信息学技术领域,公开了一种生物病毒的计算机自动分类方法,该方法包括:A.对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B.对所述特征空间的某类病毒类型样本构建种系进化树;C.根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;D.形成封闭的同类病毒的样本子空间。利用本发明专利技术,使利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。

【技术实现步骤摘要】

本专利技术涉及生物信息学
,尤其涉及一种生物病毒的计算机自 动分类方法。
技术介绍
随着基因组计划的实施,产生了海量生物序列数据,研究如何去组织、 分类和分析那些随着基因工程而产生的海量的生物序列数据是一项重要 的工作。虽然确定生物分子结构和功能最可靠的方式依然是通过直接的生物实验,但是因为获得DNA基因序列以及相应的RNA和蛋白质序列比通过 生物试验确定它们的结构和功能容易的多,所以研究如何能从这些生物序 列获取生物信息的计算方法就变得十分有意义。长期以来病毒的分类主要依靠形态学方法,随着分子生物学和生物信 息学的发展,从分子水平上研究物种进化成为可能,这为研究病毒分类提 供了新的途径。早期的研究工作主要是利用不同物种中同一基因序列的异同或其编码 的氨基酸序列的异同来研究生物的进化,以及通过对比不同物种中同一蛋 白质的结构来研究生物的进化,取得了相当的成果。因为生物的所有遗传 信息都包含在其全基因组序列中,所以如果能从完整基因组的角度来研究 物种进化,将会取得更好的效果。近年来,由于较多模式生物基因组测序任务的完成,为从整个基因组 的角度来研究分子进化提供了条件。目前,最流行的研究病毒进化关系的办法是通过多重序列比对(MSA) 的方法。然而使用这种方法无论是去研究全基因组序列还是研究基因序列 中编码氨基酸的区域,都有非常明显的缺陷。如果研究编码区,进行序列分析的时候将被限定在基因序列中特定的区域。为此,我们必须首先知道基因序列中,哪一部分是编码区,而且我 们还必须通过主观决定选择哪些区域来比较,选择不同的区域将会产生不 同的进化树。如果参与比对的多个序列在长度上差异很大或者序列之间的 相似程度很低,都会导致多重序列比对得到的结果质量很差,从而产生不 可信的进化树。病毒在进化过程中通常会有基因重组的现象出现,这进一 步使得多重序列比对的结果变得不可信。更重要的是,对很长的序列进行 多序列比对,计算时间复杂度将会非常大,在实际中经常是不可能实现的。 尽管多重序列比对方法有可能为病毒种系分析提供很好的基准,它却 不适于被用来研究病毒分类问题,因为构建多重序列比对本身就是一个让 人困惑的问题。
技术实现思路
(一) 要解决的技术问题有鉴于此,本专利技术的主要目的在于提供一种生物病毒的计算机自动分 类方法,使利用计算机实现生物病毒的自动分类成为可能,为病毒的研究 提供更便捷的方式和更广阔的空间。(二) 技术方案为达到上述目的,本专利技术提供了一种生物病毒的计算机自动分类方 法,该方法包括A、 对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B、 对所述特征空间的某类病毒类型样本构建种系进化树;c、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采 用超椭球对每类样本子空间进行近似覆盖; D、形成封闭的同类病毒的样本子空间。上述方案中,所述步骤A包括通过统计多核苷酸出现频率及全基因 组序列长度,将不同长度的病毒全基因组序列映射到同一特征空间中。上述方案中,所述步骤B包括通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。上述方案中,所述步骤C包括按照构建的种系进化树关系,采用超 椭球这一几何形体对该类病毒样本子空间进行近似覆盖。上述方案中,所述步骤D包括所有映射点落在这个封闭子空间里的 病毒都属于同一类,而映射点落在封闭子空间以外的病毒都属于其它类。(三)有益效果 从上述技术方案可以看出,本专利技术具有以下有益效果1、 本专利技术提出了基于序列特征来进行全基因组序列比较的方法,使 利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更 便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。2、 利用本专利技术,只需知道病毒的全基因组序列即可,这在病毒研究 中几乎是最容易获得的数据。3、 利用本专利技术,通过训练样本得到的样本子空间是一个封闭的有限 空间,这符合知道的是"有限的",未知的是"无限的"这一基本事实。4、 利用本专利技术,在构建某一类病毒的识别系统的时候,只用到了本 类的样本,这就保证了,在继续往系统中添加新的需要识别的病毒类的时 候,不用改变以前已经构建好的部分,这是一个可以增量学习的分类系统。附图说明图1为本专利技术提供的生物病毒的计算机自动分类的方法流程图;图2为依照本专利技术实施例对序列进行特征提取的示意图;图3为依照本专利技术实施例生成的进化树的示意图;图4为依照本专利技术实施例对样本子空间进行近似覆盖的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本专利技术进一步详细说明。如图1所示,图1为本专利技术提供的生物病毒的计算机自动分类的方法 流程图,该方法包括以下步骤步骤101:对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;步骤102:对所述特征空间的某类病毒类型样本构建种系进化树; 步骤103:根据所述种系进化树反映的同类型病毒样本之间的相互关 系,采用超椭球对每类样本子空间进行近似覆盖; 步骤104:形成封闭的同类病毒的样本子空间。上述步骤101包括:通过统计多核苷酸出现频率及全基因组序列长度, 将不同长度的病毒全基因组序列映射到同一特征空间中。如图2所示,图2为依照本专利技术实施例对序列进行特征提取的示意图。 对于一个长度为n的病毒全基因序列,它是由字符集A^a,g,c,t)构成的字 符序列,这个字符集的长度是F4。设L-tuple代表一个由字符集A构成的 长度为L的片断序列,满足L〈N。 L-tuple所有可能的值组成的集合w,可 以描绘如下其中K满足下式选择一个长度为L的窗口 (长度为L指的是该窗口能容下的最多字符 数)从序列的起始段开始以步长为S的速度向后滑动,直到(>2-^+//的 位置为止(满足"-丄-5+/ > 0)。通过这种方法我们可以得到个序列片断L-tuple,其中运算符号"[]"表示向上取整,而且这M个L-tuple都是属于集合w,的元素。如果依次对w,中元素的出现次数做个统计,可以得到如下结果cf ,……,《)使用出现频率描述可以得到// :这样我们便得到了序列X的有失集合Wl中K个元素出现的频率,用它们作为元素X的K个特征,再加上序列中含有的核苷酸数量这一特征,就可以把冠状病毒全基因组序列X映射到这个K+l维的特征空间了 。上述步骤102包括通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。上述步骤103包括按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样本子空间进行近似覆盖。上述步骤104包括所有映射点落在这个封闭子空间里的病毒都属于 同一类,而映射点落在封闭子空间以外的病毒都属于其它类。基于上述图1所示的生物病毒的计算机自动分类的方法流程图,以下 将本专利技术提供的方法应用于研究"疱疹病毒科病毒"的分类问题。使用从GenBank获得的病毒数据库做为研究对象,在该数据库中共有1077个病 毒的全基因组序列,其中疱疹病毒科病毒有27个。我们取其中的14个作 为已知病毒(具体信息见表l),将其作为训练样本。Accession NogsnusIDNC—001806.1HerpesviridaeHuman herpesvirus 1NC—001798.1H本文档来自技高网
...

【技术保护点】
一种生物病毒的计算机自动分类方法,其特征在于,该方法包括:A、对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B、对所述特征空间的某类病毒类型样本构建种系进化树;C、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;D、形成封闭的同类病毒的样本子空间。

【技术特征摘要】

【专利技术属性】
技术研发人员:王守觉貊睿
申请(专利权)人:中国科学院半导体研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1