基于自注意力神经网络和粗化算法的蛋白质分类方法技术

技术编号:26306186 阅读:36 留言:0更新日期:2020-11-10 20:05
本发明专利技术公开了一种基于自注意力神经网络和粗化算法的蛋白质分类方法。其步骤为:(1)构建自注意力神经网络;(2)生成蛋白质训练集;(3)利用粗化算法粗化图结构;(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;(5)训练自注意力神经网络;(6)对无标签蛋白质样本进行识别。本发明专利技术搭建并训练了一个自注意力神经网络,能更好地捕获蛋白质的层次结构信息,采用粗化算法使得本发明专利技术在处理大型蛋白质分子时有着较短的处理时间和较大的空间利用率。

【技术实现步骤摘要】
基于自注意力神经网络和粗化算法的蛋白质分类方法
本专利技术属于物理
,更进一步涉及图像分类
中的一种基于自注意力神经网络和粗化算法的蛋白质分类方法。本专利技术可根据蛋白质图的结构特征和分子节点属性,通过自注意力对图结构和节点属性提取蛋白质分子的属性信息,并根据该信息来进行分类,比如判断某个蛋白质分子是否为酶分子。
技术介绍
蛋白质分子作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示,即通常用于表征一组对象(即节点)及其关系(即边缘)。在常规的蛋白质分类技术中,通常需要通过一系列的物理或者化学实验才能判断某个蛋白质的特性,比如判断某一个蛋白质分子是否为酶。机器学习作为一种先进技术,现在也被应用于这些工作中,这些蛋白质分子被作为一个图结构数据输入到一个特定的机器学习模型中,然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上,把未知的蛋白质分子结构以及其属性信息输入进去,最终得出一个这个蛋白质的化学物理特性。上海极链网络科技有限公司在其申请的专利文献“一种蛋白质图像分类方法本文档来自技高网...

【技术保护点】
1.一种基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,构建并训练一个自注意力神经网络,采用粗化算法对蛋白质样本建模生成的图结构进行粗化处理,该方法的具体步骤包括:/n(1)构建自注意力神经网络:/n(1a)搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层;/n(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别...

【技术特征摘要】
1.一种基于自注意力神经网络和粗化算法的蛋白质分类方法,其特征在于,构建并训练一个自注意力神经网络,采用粗化算法对蛋白质样本建模生成的图结构进行粗化处理,该方法的具体步骤包括:
(1)构建自注意力神经网络:
(1a)搭建一个十层的自注意力神经网络,其结构依次为:第一全连接层→第一正则化层→第二全连接层→第二正则化层→第三全连接层→第三正则化层→第一激活函数层→第一图卷积网络层→第四全连接层→第二激活函数层;
(1b)将第一至第四全连接层的参数分别设置为N*256,256*128,128*64和3*N*64*1,第一至第三正则化层的大小分别设置为256,128和64,第一至第二激活函数分别设置为ReLU函数和Softmax函数,其中,在蛋白质数据集内,每一个蛋白质样本都由若干个节点组成,N则表示该数据集内所有样本的节点数中的最大值;
(2)生成蛋白质训练集:
(2a)随机选取至少5000个蛋白质样本组成训练集,每一个蛋白质样本均包含其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质分子的类别标签;
(2b)对训练集内的每个蛋白质分子进行建模,生成由节点和连接边组成的包含多边形结构和单链结构的图结构;
(3)利用粗化算法粗化图结构:
(3a)利用粗化算法的多边形优化算法,将每个包含多边形结构的图结构中每个多边形结构都缩为一个节点后,删除该多边形结构原有的内部连接边;
(3b)利用粗化算法的单链池化算法,将每个包含单链结构的图结构中每个单链结构的中间节点与该中间节点对应的连接边删除后,在该单链结构的首尾节点间生成一条连接边;
(4)利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值;
(5)训练自注意力神经网络:
(5a)将粗化后图结构对应的正则化拉普拉斯特征矩阵、邻接矩阵和图标签依次输入到自注意力神经网络中;
(5b)用梯度下降法,更新自注意力神经网络的权值直到损失函数收敛为止,得到训练好的自注意力神经网络;
(6)对无标签蛋白质样本进行识别:
(6a)将一个无标签待识别的蛋白质样本输入到自注意力神经网络中,输出一个类别特征向量,C表示该蛋白质样本可能属于的类别数量,该类别特征向量中的每个元素值表示该蛋白...

【专利技术属性】
技术研发人员:鱼滨张一帆张琛谢宇李春奕
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1