一种基于结构域和GO注释的蛋白互作关系预测方法技术

技术编号:36420393 阅读:28 留言:0更新日期:2023-01-20 22:27
一种基于结构域和GO注释的蛋白互作关系预测方法:数据下载,包括:从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据,下载目标物种结构域数据,下载目标物种的蛋白GO注释数据;进行数据预处理:目标物种序列比对,GO注释分类,整合目标物种数据;生成目标物种数据集:随机生成非互作蛋白,生成目标物种预处理数据,将目标物种数据用特征向量表示,生成目标物种数据集;目标物种蛋白互作关系预测:蛋白互作关系预测模型的构建及参数优化,蛋白互作关系预测;蛋白互作关系预测结果的评价。本发明专利技术更符合蛋白互作的生物学特性,提高了预测的准确率,特征数量多,覆盖具备GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。

【技术实现步骤摘要】
ontology and co

expression.BMC Genomics,2009,10:288.
[0009][3]Hao,T.,Z.Zeng,B.Wang,et al.,The protein

protein interaction network of eyestalk,Y

organ and hepatopancreas in Chinese mitten crab Eriocheirsinensis.BMC SystBiol,2014,8:39.
[0010][4]Hao,T.,L.Zhao,D.Wu,et al.,The Protein

Protein Interaction Network of LitopenaeusvannameiHaemocytes.Front Physiol,2019,10:156.
[0011][5]Wojcik,J.and V.Schachter,Protein

protein interaction map inference using interacting domain profile pairs.Bioinformatics,2001.17Suppl 1:p.S296

305.
[0012][6]Deng,M.,et al.,Inferring domain

domain interactions from protein

protein interactions.Genome Res,2002.12(10):p.1540

8.
[0013][7]Kim,W.K.,J.Park,and J.K.Suh,Large scale statistical prediction of protein

protein interaction by potentially interacting domain(PID)pair.Genome Inform,2002.13:p.42

50.
[0014][8]Hayashida,M.,et al.,Conditional random field approach to prediction of protein

protein interactions using domain information.BMC SystBiol,2011.5Suppl 1:p.S8.
[0015][9]Singhal,M.and H.Resat,A domain

based approach to predict protein

protein interactions.BMC Bioinformatics,2007,8:199.
[0016][10]Zhang,X.,et al.,Prediction of human protein

protein interaction by a domain

based approach.J TheorBiol,2016.396:p.144

53.

技术实现思路

[0017]本专利技术所要解决的技术问题是,为了克服现有技术的不足,提供一种从蛋白结构信息和生物学特性两方面出发,结合结构域信息和GO注释中包含的蛋白生物过程、分子功能、亚细胞位置信息的基于结构域和GO注释的蛋白互作关系预测方法
[0018]本专利技术所采用的技术方案是:一种基于结构域和GO注释的蛋白互作关系预测方法,包括如下步骤:
[0019]1)数据下载,包括:
[0020](1.1)从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;
[0021](1.2)下载目标物种结构域数据;
[0022](1.3)下载目标物种的蛋白GO注释数据;
[0023]2)进行数据预处理,包括:
[0024](2.1)目标物种序列比对;
[0025](2.2)GO注释分类;
[0026](2.3)整合目标物种数据;
[0027]3)生成目标物种数据集,包括:
[0028](3.1)随机生成非互作蛋白,生成目标物种预处理数据;
[0029](3.2)将目标物种数据用特征向量表示;
[0030](3.3)生成目标物种数据集;
[0031]4)目标物种蛋白互作关系预测
[0032](4.1)蛋白互作关系预测模型的构建及参数优化;
[0033](4.2)蛋白互作关系预测;
[0034](4.3)蛋白互作关系预测结果的评价。
[0035]本专利技术的一种基于结构域和GO注释的蛋白互作关系预测方法,具有如下优点:
[0036]1、本专利技术的方法结合结构域信息和GO注释信息,更符合蛋白互作的生物学特性。
[0037]2、GO注释包含三个部分:生物过程、分子功能和亚细胞位置。其中生物过程和分子功能均未在其他方法中用作蛋白互作关系预测的特征,本专利技术的方法引入了这两种新的特征,提高了预测的准确率。
[0038]3、本专利技术的方法中采用第四层级GO注释作为特征,注释信息比1

3层更加精确。另一方面,所有第四层级GO注释均作为模型预测的特征,特征数量多,覆盖具备GO注释特征的蛋白范围大。
附图说明
[0039]图1是本专利技术一种基于结构域和GO注释的蛋白互作关系预测方法的流程图。
具体实施方式
[0040]下面结合实施例和附图对本专利技术的一种基于结构域和GO注释的蛋白互作关系预测方法做出详细说明。
[0041]如图1所示,本专利技术的一种基于结构域和GO注释的蛋白互作关系预测方法,包括如下步骤:
[0042]1)数据下载,包括:
[0043](1.1)从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;
[0044]从STRING数据库(https://cn.string

db.org)搜索目标物种,下载其蛋白序列文件和蛋白互作关系文件。
[0045](1.2)下载目标物种结构域数据;
[0046]从Pfam数据库(http://pfam.org)下载最新的适用于HMMER软件分析的结构域数据。
[0047](1.3)下载目标物种的蛋白GO注释数据;
[0048]提取1.1目标物种蛋白序列文件中所有的蛋白序列ID并保存到一个文本文件中,在Uniprot数据库(https://www.uniprot.org)的在线查询工具导入该文本文件,获得每个目标物种蛋白的GO注释数据。
[0049]2)进行数据预处理,包括:...

【技术保护点】

【技术特征摘要】
1.一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,包括如下步骤:1)数据下载,包括:(1.1)从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据;(1.2)下载目标物种结构域数据;(1.3)下载目标物种的蛋白GO注释数据;2)进行数据预处理,包括:(2.1)目标物种序列比对;(2.2)GO注释分类;(2.3)整合目标物种数据;3)生成目标物种数据集,包括:(3.1)随机生成非互作蛋白,生成目标物种预处理数据;(3.2)将目标物种数据用特征向量表示;(3.3)生成目标物种数据集;4)目标物种蛋白互作关系预测(4.1)蛋白互作关系预测模型的构建及参数优化;(4.2)蛋白互作关系预测;(4.3)蛋白互作关系预测结果的评价。2.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.1)步所述的目标物种序列比对,是通过HMMER软件官网下载HMMER比对工具并安装,利用HMMER比对工具将目标物种结构域数据和有蛋白互作关系的目标物种蛋白序列数据进行比对,获得每个有互作关系的目标物种蛋白对应的结构域数据。3.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.2)步所述的GO注释分类,是通过GeneOntology数据库下载包含GO注释层级关系的go

basic.obo文件,通过不同GO注释之间的层级关系向上回溯将所有GO注释归类。将第四层级GO注释作为蛋白特征的一部分,第四层级GO注释共包含4769个GO注释。4.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,步骤2)第(2.3)步所述的整合目标物种数据,是将目标物种蛋白的GO注释按照GO注释的层级结构匹配到第四层级GO注释,使蛋白的GO注释均用第四层级GO注释表示;随后将目标物种蛋白序列数据中的蛋白序列ID、每个有互作关系的目标物种蛋白对应的结构域数据和每个目标物种蛋白的第四层级GO注释数据相对应并列表。5.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,步骤3)第(3.1)步所述的随机生成目标物种非蛋白互作关系数据,进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据,但是从STRING数据库下载的目标物种蛋白互作关系数据中不包含目标物种的非蛋白互作关系数据,因此需要生成目标物种的非互作蛋白关系数据。具体进行如下过程:(3.1.1)将目标物种蛋白互作关系数据中可信度分数大于等于900分以上的蛋白互作关系,构成目标物种蛋白互作关系数据集;(3.1.2)随机选择目标物种蛋白互作关系数据集中的任意两个蛋白,在下载的目标物种蛋白互作关系数据中搜索这两个蛋白,判断这两个蛋白是否存在蛋白互作关系,是则为
蛋白互作关系的数据,若没有查询到两个蛋白存在蛋白互作关系,则判定这两个蛋白为非互作关系蛋白,并作为非蛋白互作关系数据集中的一组数据;(3.1.3)重复第(3.1.2)步,直至非蛋白互作关系数据集中的非蛋白互作关系的蛋白对与目标物种蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同;(3.1.4)将非蛋白互作关系数据集与目标物种蛋白互作关系数据集进行合并,构成目标物种预处理数据。6.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法,其特征在于,步骤3)第(3.2)步所述的将目标物种数据用特征向量表示:首先,用目标物种蛋白对应的结构域数据和目标物种蛋白的第四...

【专利技术属性】
技术研发人员:郝彤孙金生苟一飞
申请(专利权)人:天津师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1