一种基于基因本体信息的蛋白质序列表示方法技术

技术编号:15640087 阅读:46 留言:0更新日期:2017-06-16 03:41
本发明专利技术涉及一种新的基于基因本体信息的蛋白质序列表示方法,首先使用BLAST程序搜索Swiss‑Prot数据库找到蛋白质序列P所有的相似蛋白质序列,将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息;然后在基因本体库中搜寻P蛋白质所具有的标注基因本体信息;根据预测问题具有的M个标签,将P蛋白质定义为M个元素的离散向量。本方法通过将序列集中的蛋白质GO信息,融合成新的蛋白质P的向量描述,使得采用GO方法维度大大降低,用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。

【技术实现步骤摘要】
一种新的基于基因本体信息的蛋白质序列表示方法
本专利技术涉及生物信息学、蛋白质伪氨基酸成分和传统的蛋白质序列分析
,尤其涉及一种新的基于基因本体信息的蛋白质序列表示方法。
技术介绍
随着近二十年来测序技术的进步,生物信息学进入到后基因组时代。如何分析数以亿计的基因组序列,如蛋白质工作于哪些亚细胞、具有何种功能、具有什么样的二级结构、三级结构和四级结构,这些基因又是如何使生命体具有活性,哪些蛋白质可能是潜在的药物靶标等一系列的问题的答案,是当前研究的热点。由于上述问题采用生物实验技术存在费时费力的原因,生物信息学近年得到了极大发展,一系列在线预测器面世。虽然这些预测器所预测的结果还需要生物实验进行验证,但预测的结果对生物学家还是具有很大的帮助,如缩小实验的范围,对基因药物设计进行辅助作用等。这些预测器有些是基于序列信息的,有些是基于结构信息,还有些是基于最新的测序信息。基于序列信息的预测器的预测效果一般比基于结构信息的低,但其所需信息大都存在所以得到极大的发展。在基于序列信息的预测器中大都采用伪氨基酸成分来描述蛋白质序列,这些伪氨基酸成分如:二联体成分、三联体成分、灰色理论因子、复杂度因子等有的能很好的描述蛋白质序列局部氨基酸顺序信息,有的能很好的描述蛋白质序列的全局氨基酸顺序信息,对基于序列的蛋白质结构和功能分类预测都起到了积极作用。近年随着基因本体论的出现,它已经成为生物信息领域中一个极为重要的方法和工具,极大的加深了我们对生物数据的整合和利用。采用基因本体(GoOntology)信息对蛋白质结构和功能进行预测比其它方法如功能域和伪氨基酸成分预测效果都要好。基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:1)细胞组分;2)分子功能;3)生物过程。基因本体库中所含有的术语也从几千增加到5万多。基因本体是一个有向无环图型的本体,目前GO中使用了is_a、part_of和regulates三种关系。基于基因本体信息进行相关预测的方法中常用的是采用0-1离散向量法,蛋白质序列如果含有每个基因本体则这个向量对应的元素为1,如果没有则为0。这种方法仅仅是简单的计算了有无信息,有些学者对此进行了改进,计算出某个蛋白质中具体基因本体出现的次数,这样就将0-1离散向量改为整数向量,增加了频次信息。上述这些方法由于基因本体库中的词汇的增加,会造成维数灾难。为此有些学者针对所预测问题与基因本体的相关性,并不采用所有基因本体所有的词库,而是采用部分,这样就减少了离散向量的维度,去掉了些无关信息。除了采用离散向量方法,还有基于基因本体的语义相似度算法,主要包括基因本体同一分支中的术语相似度计算法和基因本体跨分支术语相似度算法,这些对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义。但由于基因本体术语的急剧增加,这些算法的复杂度和计算时间也增加。上述方法都是基于对基因本体进行简单的求和统计或者进行相似性计算,但由于并不是所有的蛋白质在GO数据库中都有相关的信息,这是基于GO信息方法的缺陷,为此本专利技术将GO信息与其他相似蛋白质GO信息相融合,并针对所预测问题的分类数量,降低GO描述向量方法的维度,设计出一种新的基于GO信息的蛋白质序列描述方法对基于序列信息的蛋白质功能和结构类型预测等提供帮助。
技术实现思路
本专利技术要解决的技术问题是提供一种新的基于基因本体信息的蛋白质序列表示方法,旨在通过其他蛋白质GO信息,融合成新的蛋白质P的向量描述,以解决蛋白质亚细胞对标签定位预测率较低的问题。为解决以上技术问题,本专利技术的技术方案是:一种新的基于基因本体信息的蛋白质序列表示方法,其特征在于包括以下步骤:(1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列;(2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为;(4)假设P蛋白质功能或者其它预测问题具有M个标签,分别表示为A1,A2,…,AM,将P蛋白质定义为M个元素的离散向量,如下式所示:δ1表示P蛋白质属于第一个标签的概率,δ2表示P蛋白质属于第二个标签的概率,依次类推,δM表示P蛋白质属于第M个标签的概率,它们初始值都为0;δi(i=1,2,…,M)的计算方法如下:依次对P蛋白质所含有GO信息在训练数据集中找到对应的蛋白质,如在训练集中有n个蛋白质含有信息的蛋白质,分别为P1、P2、…、Pn,假设P1所属的标签为Ai和Aj,则δi和δj分别加1,P2具有标签为Ar、At、Ay,则δr、δt、δy分别加1,直至将P蛋白质所具有的GO信息按照上述方法计算完毕,这样就得到了含有GO信息的蛋白质描述新方法。所述方法用于蛋白质亚细胞多标签定位预测中,相关预测器预测绝对成功率提高5~10%。本专利技术提出的方法与现有GO信息方法相比,具有维数大大降低,现有方法维数达到上万,而采用本方法,维数与所预测的标签数一样,一般也就几十维,如果所预测的蛋白质没有GO信息,则采用其最相似的蛋白质GO信息,扩大了GO信息方法使用的范围。本方法用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,此处例子为预测动物蛋白质亚细胞多标签预测算法。采用本专利技术新的基于基因本体信息的蛋白质序列表示方法,具体步骤如下:1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列。可以将蛋白质P直接输入到Swiss-Prot数据库BLAST工具网页上,其网址为http://www.uniprot.org/blast/,BLAST运行参数为默认,也可以在NCBI上下载BLAST进行本地配置,本机配置版本:blast-2.2.28+,在蛋白质数据库Swiss-Prot中下载所有蛋白质序列;如输入蛋白质Q63564,可以得到按照相似度高低排列的一系列相似蛋白质Q8BG39、A0A091DVS5、HOVBF0…。2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;如蛋白质Q63564具有的GO信息为(GO:0001669,GO:0016021,GO:0022857,GO:0030054,GO:0030672,GO:0043195,GO:0055085)。(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为。由于Q63564在数据库中已经有其基因本本文档来自技高网
...

【技术保护点】
一种新的基于基因本体信息的蛋白质序列表示方法,其特征在于包括以下步骤:(1)使用BLAST程序搜索Swiss‑Prot数据库找到蛋白质序列P所有的相似蛋白质序列;(2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为

【技术特征摘要】
1.一种新的基于基因本体信息的蛋白质序列表示方法,其特征在于包括以下步骤:(1)使用BLAST程序搜索Swiss-Prot数据库找到蛋白质序列P所有的相似蛋白质序列;(2)将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息,GO数据库网站为http://www.geneontology.org/;(3)在基因本体库中搜寻P蛋白质所具有的标注基因本体信息,如果P蛋白质没有相关信息,则按照与P蛋白质相似度的高低,依次搜寻相似蛋白质序列的GO信息,直到找到至少一个GO本体信息作为P蛋白质的GO信息,表示为;(4)假设P蛋白质功能或者其它预测问题具有M个标签,分别表示为A1,A2,…,AM,将P蛋白质定义为M个元素的离散向量,如下式所示:δ1表...

【专利技术属性】
技术研发人员:肖绚程翔
申请(专利权)人:景德镇陶瓷大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1