当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于元路径和双向编码器的生物网络链接预测方法技术

技术编号:27254603 阅读:38 留言:0更新日期:2021-02-04 12:33
本发明专利技术属于计算机科学领域,公开了一种基于元路径和双向编码器的生物网络链接预测方法。首选构建了多源异构的药物信息网络,同时设计多种语义路径进行序列采样,构成大规模的语义信息库;其次,将深度Transformer编码器与掩码语言模型(masked language model)有机融合设计出深度双向的编码表征模型有效地提取每个节点的低纬表征向量;最后,利用归纳矩阵补全(Inductive matrix completion)技术进行疾病

【技术实现步骤摘要】
一种基于元路径和双向编码器的生物网络链接预测方法


[0001]本专利技术属于计算机科学领域,涉及人工智能技术应用,具体涉及一种基于元路径和双向编码器的生物网络链接预测方法。

技术介绍

[0002]针对一组生物医学实体及其已知的相互作用,旨在预测实体之间的其他潜在相互作用(链接)是生物医学领域最重要的任务之一,因此,越来越多的研究者利用计算机技术来预测各种生物医学网络中的潜在相互作用。
[0003]在生物医学领域的传统方法已经投入大量精力来开发生物学相关的特征,例如,化学亚结构,基因本体论(gene ontology)和拓扑结构相似性。与此同时,有监督的学习方法和半监督图的推理模型被用来预测潜在的相互作用。这些方法主要基于相似性假设,即具有相似生物特征或结构特征的实体可能具有相似的联系。但是,基于生物学特征的预测方法通常会面临两个问题:(1)生物学特征提取过程成本很高,甚至有些生物特征很难获得,尽管可以通过预处理删除那些没有特征的生物实体,但这通常会导致数据集规模较小,丢失重要的信息,因此在实际应用中并不实用;(2)生物学特征以可能不够精确,无法代表生物医学实体,并且可能无法建立稳定准确的模型。
[0004]试图自动学习网络节点的低纬向量的网络表征方法有望解决上述两个问题,并且被广泛应用于生物链路预测中。例如,基于矩阵分解的技术被用于药物-疾病关联的预测;一些研究者提出了流形正则化的矩阵分解技术,通过合并了拉普拉斯正则化以学习更好的药物表示,进而提高药物-药物相互作用的预测,除之之外,也有人提出一些基于随机游走的网络表征方法和基于深度神经网络的表征方法。但是现有方法只关注网络的节点之间的结构特征,而忽略了网络实体之间的语义信息;或者只能捕获较短的结构和元路径,无法深度挖掘网络节点之间的结构和语义关系。

技术实现思路

[0005]为了克服上述技术的不足,本专利技术提供了一种基于元路径和双向编码器的生物网络链接预测方法。首选构建了多源异构的药物信息网络,同时设计多种元路径进行序列采样,构成大规模的语义信息库;其次,将深度Transformer编码器与掩码语言模型(masked languagemodel)有机融合设计出深度双向的编码表征模型有效地提取每个节点的低纬表征向量;最后,利用归纳矩阵补全(Inductive matrix completion)技术进行疾病-蛋白关联关系、蛋白-药物相互作用、药物-副作用关联关系等生物链接预测,进而完成从疾病—靶标—药物—副作用的药物研发技术体系。
[0006]本专利技术所采用的技术方案是:
[0007]一种基于元路径和双向编码器的生物网络链接预测方法,包括如下步骤:
[0008]1)参数初始化,包括:网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer 编码器的层数n,语言模型的掩码序列比率k∈(0,1),掩码序列被特殊字符
[MASK]替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p

∈(0,1-p);
[0009]2)构建药物信息网络和元路径;
[0010]3)对网络中的所有节点进行编号x
i
∈{x
i
|i=1,2,...,num},其中num代表节点的总个数,并对每个节点x
i
∈{x
i
|i=1,2,...,num}根据所述步骤2)的元路径依次进行采样;
[0011]4)将所有的语义序列输入深层双向Transformer编码器进行表征学习,获得节点的低维表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制(multi-head self-attention mechanism)和全连接网络;
[0012]5)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点的表征向量转至步骤6),否则转至步骤4);
[0013]6)利用归纳矩阵补全方法进行疾病-蛋白关联预测;
[0014]7)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测靶标-药物相互作用;
[0015]8)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测药物-副作用关联关系。作为本专利技术的进一步改进,所述步骤2)通过以下步骤实现:
[0016]2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公开数据库构建包含药物、靶标、疾病和副作用4种节点类型、6种边缘的药物信息网络,并且删除度小于deg的节点,所述6种边缘包括药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;
[0017]2.2)根据不同的生物通路、药物机理构建23种元路径,分别为:药物-蛋白,药物-蛋白
ꢀ-
药物,药物-蛋白-蛋白,药物-蛋白-疾病,药物-蛋白-蛋白-药物,药物-蛋白-蛋白
-ꢀ
疾病,药物-蛋白-药物-蛋白,药物-蛋白-药物-疾病,药物-蛋白-药物-副作用,药物
-ꢀ
蛋白-疾病-蛋白,药物-蛋白-疾病-药物,蛋白-药物-药物,蛋白-药物-蛋白,蛋白
-ꢀ
药物-疾病,蛋白-药物-副作用,蛋白-药物-药物-蛋白,蛋白-药物-药物-疾病,蛋白
-ꢀ
药物-药物-副作用,蛋白-药物-蛋白-蛋白,蛋白-药物-蛋白-疾病,蛋白-药物-疾病
-ꢀ
蛋白,蛋白-药物-疾病-药物,蛋白-药物-副作用-药物;
[0018]作为本专利技术的进一步改进,所述步骤4)通过以下步骤实现:
[0019]4.1)对所有的语义序列进行分词,包括去除特殊字符和多余字符、空格分词过程,最后采用掩码语言模型对语义序列进行处理,从所有的语义序列中按掩码比率k随机选取掩码序列,针对每个掩码序列,生成一个随机数rand∈[0,1],如果rand<p,则该序列被替换为[MASK],其中p∈(0,1)为掩码序列被[MASK]替换的概率;如果 p≤rand<p+p

,则从语义序列中随机选则一个序列用来替换该掩码序列,其中 p

∈(0,1-p)是掩码序列被其他序列替换的概率;如果p+p

≤rand<1,则该掩码序列保持不变;
[0020]4.2)将每个节点的初始表征向量和位置向量进行叠加记为并输入多头注意力机制学习得到向量并利用残差连接和归一化处理得到其次,利用全连接前馈网络进一步学习,全连接前馈网络也进行残差连接和归一化操作;最终得到节点的低维表征向量。
[0021]作为本专利技术的进一步改进,所述步骤6)通过以下步骤实现:
[0022]6.1)计算网络中疾病-蛋白相互关联的个数Ninter,并从疾病-蛋白关联网络中随
机选择同样数量的Ninter个负样本,将这些正样本和负本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,包括以下步骤:1)参数初始化,包括:网络序列长度l,节点读书的阈值deg,表征向量维度dim,Transformer编码器的层数n,语言模型的掩码序列比率k∈(0,1),掩码序列被特殊字符[MASK]替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p

∈(0,1-p);2)构建药物信息网络和元路径;3)对网络中的所有节点进行编号x
i
∈{x
i
|i=1,2,...,num},其中num代表节点的总个数,并对每个节点x
i
∈{x
i
|i=1,2,...,num}根据所述步骤2)的元路径依次进行采样;4)将所有的语义序列输入深层双向Transformer编码器进行表征学习,获得节点的低维表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;5)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点的表征向量转至步骤6),否则转至步骤4);6)利用归纳矩阵补全方法进行疾病-蛋白关联预测;7)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测靶标-药物相互作用;8)与步骤6)中疾病-蛋白关联预测相同,利用归纳矩阵补全方法预测药物-副作用关联关系。2.如权利要求1所述的一种基于元路径和双向编码器的生物网络链接预测方法,其特征在于,所述步骤2)通过以下步骤实现:2.1)通过DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公开数据库构建包含药物、靶标、疾病和副作用4种节点类型、6种边缘的药物信息网络,并且删除度小于deg的节点,所述6种边缘包括药物-药物相互作用,药物-蛋白相互作用,药物-疾病关联关系,药物-副作用关联关系,蛋白-疾病关联关系,药物-药物结构相似度,蛋白-蛋白序列相似性;2.2)根据不同的生物通路、药物机理构建23种元路径,分别为:药物-蛋白,药物-蛋白-药物,药物-蛋白-蛋白,药物-蛋白-疾病,药物-蛋白-蛋白-药物,药物-蛋白-蛋白-疾病,药物-蛋白-药物-蛋白,药物-蛋白-药物-疾病,药物-蛋白-药物-副作用,药物-蛋白-疾病-蛋白,药物-蛋白-疾病-药物,蛋白-药物-药物,蛋白-药物-蛋白,蛋白-药物-疾病,蛋白-药物-...

【专利技术属性】
技术研发人员:彭绍亮王小奇李非辛彬肖霞王红张兴龙
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1