一种基于结构域和GO注释的蛋白互作关系预测方法技术

技术编号：36420393 阅读：28 留言：0更新日期：2023-01-20 22:27

一种基于结构域和GO注释的蛋白互作关系预测方法：数据下载，包括：从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据，下载目标物种结构域数据，下载目标物种的蛋白GO注释数据；进行数据预处理：目标物种序列比对，GO注释分类，整合目标物种数据；生成目标物种数据集：随机生成非互作蛋白，生成目标物种预处理数据，将目标物种数据用特征向量表示，生成目标物种数据集；目标物种蛋白互作关系预测：蛋白互作关系预测模型的构建及参数优化，蛋白互作关系预测；蛋白互作关系预测结果的评价。本发明专利技术更符合蛋白互作的生物学特性，提高了预测的准确率，特征数量多，覆盖具备GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。GO注释特征的蛋白范围大。

全部详细技术资料下载

【技术实现步骤摘要】
ontology and co
‑
expression.BMC Genomics,2009,10:288.
[0009][3]Hao,T.,Z.Zeng,B.Wang,et al.,The protein
‑
protein interaction network of eyestalk,Y
‑
organ and hepatopancreas in Chinese mitten crab Eriocheirsinensis.BMC SystBiol,2014,8:39.
[0010][4]Hao,T.,L.Zhao,D.Wu,et al.,The Protein
‑
Protein Interaction Network of LitopenaeusvannameiHaemocytes.Front Physiol,2019,10:156.
[0011][5]Wojcik,J.and V.Schachter,Protein
‑
protein interaction map inference using interacting domain profile pairs.Bioinformatics,2001.17Suppl 1:p.S296
‑
305.
[0012][6]Deng,M.,et al.,Inferring domain
‑
domain interactions from protein

【技术保护点】

【技术特征摘要】
1.一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，包括如下步骤：1)数据下载，包括：(1.1)从STRING数据库下载目标物种蛋白序列数据和目标物种蛋白互作关系数据；(1.2)下载目标物种结构域数据；(1.3)下载目标物种的蛋白GO注释数据；2)进行数据预处理，包括：(2.1)目标物种序列比对；(2.2)GO注释分类；(2.3)整合目标物种数据；3)生成目标物种数据集，包括：(3.1)随机生成非互作蛋白，生成目标物种预处理数据；(3.2)将目标物种数据用特征向量表示；(3.3)生成目标物种数据集；4)目标物种蛋白互作关系预测(4.1)蛋白互作关系预测模型的构建及参数优化；(4.2)蛋白互作关系预测；(4.3)蛋白互作关系预测结果的评价。2.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，步骤2)第(2.1)步所述的目标物种序列比对，是通过HMMER软件官网下载HMMER比对工具并安装，利用HMMER比对工具将目标物种结构域数据和有蛋白互作关系的目标物种蛋白序列数据进行比对，获得每个有互作关系的目标物种蛋白对应的结构域数据。3.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，步骤2)第(2.2)步所述的GO注释分类，是通过GeneOntology数据库下载包含GO注释层级关系的go
‑
basic.obo文件，通过不同GO注释之间的层级关系向上回溯将所有GO注释归类。将第四层级GO注释作为蛋白特征的一部分，第四层级GO注释共包含4769个GO注释。4.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，步骤2)第(2.3)步所述的整合目标物种数据，是将目标物种蛋白的GO注释按照GO注释的层级结构匹配到第四层级GO注释，使蛋白的GO注释均用第四层级GO注释表示；随后将目标物种蛋白序列数据中的蛋白序列ID、每个有互作关系的目标物种蛋白对应的结构域数据和每个目标物种蛋白的第四层级GO注释数据相对应并列表。5.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，步骤3)第(3.1)步所述的随机生成目标物种非蛋白互作关系数据，进行蛋白互作关系预测需要具备同等数量的蛋白互作关系数据和非蛋白互作关系数据，但是从STRING数据库下载的目标物种蛋白互作关系数据中不包含目标物种的非蛋白互作关系数据，因此需要生成目标物种的非互作蛋白关系数据。具体进行如下过程：(3.1.1)将目标物种蛋白互作关系数据中可信度分数大于等于900分以上的蛋白互作关系，构成目标物种蛋白互作关系数据集；(3.1.2)随机选择目标物种蛋白互作关系数据集中的任意两个蛋白，在下载的目标物种蛋白互作关系数据中搜索这两个蛋白，判断这两个蛋白是否存在蛋白互作关系，是则为
蛋白互作关系的数据，若没有查询到两个蛋白存在蛋白互作关系，则判定这两个蛋白为非互作关系蛋白，并作为非蛋白互作关系数据集中的一组数据；(3.1.3)重复第(3.1.2)步，直至非蛋白互作关系数据集中的非蛋白互作关系的蛋白对与目标物种蛋白互作关系数据集中的具有蛋白互作关系的蛋白对数量相同；(3.1.4)将非蛋白互作关系数据集与目标物种蛋白互作关系数据集进行合并，构成目标物种预处理数据。6.根据权利要求1所述的一种基于结构域和GO注释的蛋白互作关系预测方法，其特征在于，步骤3)第(3.2)步所述的将目标物种数据用特征向量表示：首先，用目标物种蛋白对应的结构域数据和目标物种蛋白的第四...

【专利技术属性】
技术研发人员：郝彤，孙金生，苟一飞，
申请(专利权)人：天津师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人