一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法技术

技术编号:26973701 阅读:42 留言:0更新日期:2021-01-06 00:07
本发明专利技术公开了一种基于句嵌入Infersent的模型预测蛋白质‑蛋白质相互作用的方法,其是基于自然语言处理模型Infersent结合基因本体去预测蛋白质‑蛋白质相互作用(Protein‑Protein Interaction,简称PPI)。该方法包括结合GO图结构,得到GO术语词向量;对基因本体论注释(GOA)文件进行筛选提取,生成GO注释公理;在基于句嵌入Infersent的模型上结合GO注释公理与GO术语词向量去训练PPI阳性阴性数据集,最终得到预测PPI的模型。本发明专利技术针对现阶段预测PPI准确率与AUC不够高的问题,提出了一种新的预测PPI的方法,提高了预测准确率与AUC。

【技术实现步骤摘要】
一种基于句嵌入Infersent模型的蛋白质-蛋白质相互作用预测方法
本专利技术涉及生物信息与自然语言处理领域,尤其涉及一种基于基因本体、句嵌入模型在蛋白质-蛋白质相互作用(PPI)预测领域中的应用。
技术介绍
蛋白质-蛋白质相互作用(PPI)是许多生物信息学应用程序(例如蛋白质功能和药物发现)的一项基本指标。因此,准确预测蛋白质之间的相互作用将有助于我们理解潜在的分子机制,并显著促进药物的发现。通过基因本体(GO)信息可以较为准确的预测出PPI。先前的基因本体信息预测PPI的大多数研究都是利用信息内容(IC)。最近,一些研究利用自然语言处理领域的词嵌入技术去学习代表GO术语和蛋白质的向量,以此来预测PPI。基因本体是生物学功能注释的一个标准词汇术语,是一种统一的术语,用于描述跨物种的同源基因及基因产物的功能。本专利技术利用有监督句嵌入技术捕获GO结构与GO注释信息以预测PPI。将基因本体与强大的自然语言处理技术结合在一起,即使不使用蛋白质序列信息,我们的方法也提供了一条通用的计算流程来预测蛋白质与蛋白质的相互作用。专利本文档来自技高网...

【技术保护点】
1.一种基于基因本体的蛋白质-蛋白质相互作用预测的方法,其特征在于,包含以下步骤:/nS1、GO的本体被构造成一个图,其中GO术语作为图中的节点,GO术语之间的关系称为边。使用Onto2Vec技术,从GO图结构文件go.owl中得到GO术语词向量;/nS2、是通过将基因或基因产物与GO术语相关联来创建GO注释;在GOA文件中筛选提取有相应权重的每条GO注释记录,组织生成GO注释公理;/nS3、结合步骤S1中的所述GO注释公理,将蛋白质相互作用阳性阴性数据集的蛋白质逐行替换为注释它的GO术语,得到最终的训练数据;/nS4、构建基于Infersent的InfersentPPI模型,结合步骤S2中的...

【技术特征摘要】
1.一种基于基因本体的蛋白质-蛋白质相互作用预测的方法,其特征在于,包含以下步骤:
S1、GO的本体被构造成一个图,其中GO术语作为图中的节点,GO术语之间的关系称为边。使用Onto2Vec技术,从GO图结构文件go.owl中得到GO术语词向量;
S2、是通过将基因或基因产物与GO术语相关联来创建GO注释;在GOA文件中筛选提取有相应权重的每条GO注释记录,组织生成GO注释公理;
S3、结合步骤S1中的所述GO注释公理,将蛋白质相互作用阳性阴性数据集的蛋白质逐行替换为注释它的GO术语,得到最终的训练数据;
S4、构建基于Infersent的InfersentPPI模型,结合步骤S2中的所述GO术语词向量,在InfersentPPI模型上对步骤S3中的所述训练数据进行迭代训练,最终得到预测PPI的模型,输出PPI预测结果;
所述步骤S1进一步包含以下步骤:
S1.1、取出go.owl文件中的GO图结构记录,每条GO图结构记录由多个GO唯一标识码与其关系词组成,GO图结构记录组织成文件,得到GO结构公理文件;
S1.2、将步骤S1.1中的所述GO结构公理文件逐行输入Word2vec的skip-gram模型;
S1.3、在Skip-gram模型中进行训练,如下:
给定一个序列的训练单词x1,x2,.....,x3,Skip-gram模型的目的是最大化下列公式:



其中c是训练上下文窗口的大小,T是训练词集合的大小,wi是序列中的第i个训练词;
S1.4、训练结束得到GO术语的词向量组织成文件输出;
所述步骤S2进一步包含以下步骤:
S2.1、根据待处理基因本体论注释文件的EvidenceCode字段内容,对GOA的每条记录进行筛选,删除EvidenceCode字段内容为‘IEA’或’ND’的记录,得到筛选后的GOA文件,提取出筛选后的GOA文件的每一行记录的UniProtKB唯一标识码与GO唯一标识码,得到GO注释记录文件,GO注释记录文件中重复的记录不删除,重复的次数代表这条注释记录的有效引用的数量,可作为对应注释记录的权重;
S2.2、提取步骤S1.2中的所述GO注释记录文件的相同UniProtKB唯一标识码以及对应的所有GO唯一标识码,将其集中在同一行,组织成文件,得到GO注释公理文件;
所述步骤S3进一步包含以下步骤:
S3.1、提取出蛋白质-蛋白质相互作用阳性阴性数据集每一行记录的一对蛋白质,映射为两个UniProtKB唯一标识码,无法映射为UniProtKB唯一标识码的蛋白质将其所在的蛋白质对进行删除,根据数据集的性质生成对应蛋白质对的属性标签’positive’或’negative’,蛋白质对与属性标签组织成PPI记录文件,该PPI记录文件中每一行的内容是由两个UniProtKB唯一标识...

【专利技术属性】
技术研发人员:江莹莹李美晶
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1