一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法技术

技术编号:31696535 阅读:20 留言:0更新日期:2022-01-01 10:56
本发明专利技术公开了一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,包括建立训练演化模型、建立属性矩阵、卷积运算、全联接后,输出链接情况以及模型验证。本发明专利技术通过将深度学习中用于图像识别的技术应用到医学数据处理中,提高动态蛋白质之间链接预测的准确性,为药物靶标查找提供理论依据。为药物靶标查找提供理论依据。为药物靶标查找提供理论依据。

【技术实现步骤摘要】
一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法


[0001]本专利技术涉及医学数据处理领域,尤其涉及一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法。

技术介绍

[0002]在生物系统的转变过程中,蛋白质的演化过程并非一成不变,而是动态变化的。通过构造模型的方法来研究蛋白质相互作用网络,可以较好地刻画蛋白质相互作用的演化机制。但是,利用构造模型的方法来研究动态蛋白质相互作用时,应该考虑在蛋白质演化过程中,历史蛋白质随着时间推移对整个演化过程产生作用可能产生的衰减,而不是将不同时刻的蛋白质的作用视为等同或者直接忽略。基于建立好的动态蛋白质模型可以考虑预测下一时候蛋白质之间的链接情况。
[0003]预测基于衰减系数的动态蛋白质网络模型中蛋白质之间链接,问题转化为:在基于衰减系数的时间序列模型中,已知前T

1个时刻,每个时刻对应的节点之间的链接情况。预测在T时刻节点之间的链接情况。
[0004]深度学习中的卷积神经网络算法通常在图片识别处理中应用,在图片识别处理中通常输入的是x*y像素的图像,通过多个“卷积层”和“抽样层”对输入数据进行降维处理,最终在输出层输出。在“卷积层”主要是通过使用卷积滤波器抽取一种特征,将其全部集中在“抽样层”。该方法在图像识别中的准确率远高于其他算法。
[0005]考虑在将蛋白质的历史变化情况纳入考量建立演化模型的基础上,将深度学习与动态蛋白质网络中蛋白质之间的链接预测连接起来,提高生物信息识别结果的准确性。
专利技术内容
[0006]本专利技术主要解决当前已有蛋白质之间的链接预测的简单预测,方法准确率不高。本专利技术提供一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,将蛋白质之间的链接预测通过基于衰减系数的建模和深度学习方法结合起来,这样可以建立更准确的动态蛋白质演化模型,并提高蛋白质之间链接预测的准确性,从而更方便的为药物靶标的查找提供可靠的理论依据。
[0007]本专利技术的目的是通过以下技术方案来实现的:
[0008]一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,该系统包括训练演化模型、建立属性矩阵、卷积运算、全联接后验证模型的好坏。通过这四个部分大模块对蛋白质之间链接进行预测;
[0009]所述训练演化模型,当在基于衰减系数的时间序列模型中,已知前T

1个时刻,每个时刻对应的节点之间的链接情况。预测在T时刻节点之间的链接情况,通过在该模型上关键蛋白质出现的情况训练衰减系数并判断该模型的准确性;
[0010]所述建立属性矩阵,在对前k个时刻的已知链接情况进行预测时,输入对应的应该
是各个时刻节点的属性值,这里考虑的节点的属性值就是各个节点之间共同邻居的数目。两个节点之间是否有边,与这两个节点本身存在的共同邻居的数目是密切相关的,共同邻居的数目越多,这两个节点之间存在链接的可能性也越大。找出各个时刻节点之间的共同邻居,建立与拓扑结构相关的属性矩阵。但是各个时刻的蛋白质数量以及彼此之间存在的链接数目是不同的,因此在输入时会导致序列的长度不一样,可以对长度较短的序列加0补充,从而使得输入的各个链接序列的长度相等。
[0011]所述卷积运算,采用一个高度为l的滤波器从前面建立的属性序列中抽取局部的节点特征信息。每个节点特征n
i
可以通过滤波器窗口对属性序列进行卷积运算得到,通过卷积运算可以得到一个序列特征向量;
[0012]所述全联接后验证模型的好坏,在全联接层使用Dropout方法对模型进行调整,以免过度拟合现象的出现。通过计算,就可以得到第k+1时刻节点之间链接的估算情况,将作为训练好的卷积神经网络模型的输入,得到的输出也对应一个由0和1组成的二维矩阵,其中0和1分别对应于两个节点之间是否有边存在。采用AUC(ROC曲线下面积)从整体验证模型的好坏。
[0013]本专利技术的有益效果是:训练处基于衰减系数的动态蛋白质网络演化模型,在此基础上使用卷积神经网络算法进行蛋白质之间的链接预测,极大地提高了预测效果的准确性,提供了可靠的药物靶标定位的理论依据。
附图说明
[0014]图1为本专利技术基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法总的结构框图;
[0015]图2为卷积神经网络在动态蛋白质网络链接预测中的流程图。
具体实施方式
[0016]下面结合附图和具体实施例对本专利技术作进一步详细说明。
[0017]如图1所示,本专利技术基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,该系统包括建立训练演化模型、建立属性矩阵、卷积运算、全联接后,输出链接情况以及模型验证。
[0018]如图2所示,所述属性矩阵建立中包含的内容是:所积神经网络的输入层为各个时刻蛋白质存在属性的序列化矩阵表示,在对前k个时刻的已知链接情况进行预测时,输入对应的应该是各个时刻节点的属性值,这里考虑的节点的属性值就是各个节点之间共同邻居的数目。
[0019]两个节点之间是否有边,与这两个节点本身存在的共同邻居的数目是密切相关的,共同邻居的数目越多,这两个节点之间存在链接的可能性也越大。
[0020]对于两个节点m和n,它们之间的共同邻居CN
mn
的计算公式为:
[0021]CN
mn
=N(m)∩N(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0022]其中N(m)和N(n)表示节点m和节点n各自的邻居节点。
[0023]找出各个时刻节点之间的共同邻居,建立与拓扑结构相关的属性矩阵。但是各个时刻的蛋白质数量以及彼此之间存在的链接数目是不同的,因此在输入时会导致序列的长
度不一样,可以对长度较短的序列加0补充,从而使得输入的各个链接序列的长度相等。
[0024]属性矩阵的抽取可以进一步拓展,加上二阶邻居信息,或者是采取随机游走的方法对当前抽取属性特征的节点进行更深入的研究。
[0025]所述卷积运算包含的内容是:采用一个高度为l的滤波器从前面建立的属性序列中抽取局部的节点特征信息。每个节点特征ni可以通过滤波器窗口对属性序列进行卷积运算得到
[0026]n
i
=f(w
i
*S
i,i+l
‑1+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0027]这里,b
i
是偏置项,f是激活函数.
[0028]通过卷积运算可以得到一个序列特征向量:
[0029]n=[n1,n2,...n
2n

l+2
]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0030]将其全部集中在“抽样层”。
[0031]所述全联接方式连接的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,其特征在于,该系统包括训练基于衰减系数的动态蛋白质网络演化模型、建立属性矩阵作为链接输入、在属性矩阵上进行卷积运算、通过全联接方式连接后,输出存在的链接情况以及验证模型的好坏;所述训练基于衰减系数的动态蛋白质网络演化模型,已知前T

1个时刻,每个时刻对应的节点之间的链接情况,预测在T时刻节点之间的链接情况,通过在该模型上关键蛋白质出现的情况训练衰减系数并判断该模型的准确性;所述建立属性矩阵作为链接输入,其中卷积神经网络的输入层为各个时刻蛋白质存在属性的序列化矩阵表示,在对前k个时刻的已知链接情况进行预测时,输入对应的为各个时刻节点的属性值,考虑的节点的属性值就是各个节点之间共同邻居的数目;所述在属性矩阵上进行卷积运算,采用一个高度为l的滤波器从前面建立的属性序列中抽取局部的节点特征信息;每个节点特征n
i
可以通过滤波器窗口对属性序列进行卷积运算得到;所述通过全联接方式连接后,输出存在的链接情况,在全联接层使用Dropout方法对模型进行调整,以免过度拟合现象的出现;输出对应的是一个0,1组成的向量,也对应着各个时刻节点之间存在的边的情况,如果对应的边存在,那么输出值为1;不存在,输出值为0;第k+1时刻节点之间属性特征要结合前k个时刻出现的节点对m

和n

存在的共同邻居的情况CNm

n

计算;所述整体验证模型的好坏,采用ROC曲线下面积来验证,如果是随机选取,那么AUC的值应该在0.5;当AUC的值与1越接近,说明建立的模型越理想,一旦AUC的值小于0.5,其效果还比不上随机选取链接的情况,所建立的模型不理想。2.根据权利要求1所述的一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,其特征在于,建立基于衰减系数的动态蛋白质网络演化模型;...

【专利技术属性】
技术研发人员:戴彩艳胡孔法丁有伟佘侃侃
申请(专利权)人:南京中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1