一种基于几何图神经网络的蛋白质信号肽的预测方法及装置制造方法及图纸

技术编号:26508404 阅读:73 留言:0更新日期:2020-11-27 15:36
本发明专利技术涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置,其方法包括:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测信号肽。本发明专利技术结合几何图神经网络和字符序列,在保留了特征提取的原始信息同时,减少了模型过拟合,提高了信号肽预测的准确率。

【技术实现步骤摘要】
一种基于几何图神经网络的蛋白质信号肽的预测方法及装置
本专利技术涉及生物信息和深度学习领域,尤其涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置。
技术介绍
在生物体内,大部分的蛋白质不是以单体的形式行使功能,而是以相互作用的形式行使不同的生物功能。其中,蛋白质相互作用(Protein-ProteinInteraction,PPI)是指由两个或两个以上的分子蛋白通过共价键的形式形成蛋白质复合体的过程。蛋白质相互作用在大多数生化功能中承担着重要的角色。例如,信号分子由蛋白质相互作用,将细胞外的信号传入细胞内部,而信号传递是许多功能发挥的基础。对于蛋白质相互作用,从本质上来讲,其是通过蛋白质上部分残基的相互结合来实现的,这些残基被称为蛋白质相互作用位点(Protein-ProteinInteractionSites,PPIS)。信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。信号肽作为一种短氨基酸序列,其大小大约16-30个氨基酸,引导蛋白质在膜间进行转移,进而将蛋白质运输到目标位置。现有预测蛋白质信号肽及其切割位点的方法包括基于监督模型、基于生成式模型和基于同源性序列比对的方法。但这些方法或容易发生过拟合现象或不能很好地处理较长的氨基酸序列或无法准确识别切割位点。
技术实现思路
本专利技术针对现有中预测蛋白质信号肽的方法中存在的过拟合和无法准确识别切割位点的问题,在本专利技术的第一方面提供了一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。在本专利技术的一些实施例中,所述信号肽的字符序列表示为:,其中,X表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。为了提高预测的准确率,更全面的表征信号肽的物理化学性质、空间结构、统计等特征,在本专利技术的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。在本专利技术的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。进一步的,所述几何图神经网络模型的表示为:其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种关系下节点v的邻居节点,zv表示节点v映射到隐藏空间的向量,zu节点u映射到隐藏空间的向量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏空间的邻居集合;r表示节点zv与zu关系,τ表示隐藏空间中节点之间的关系运算符;q表示高聚合层的聚合函数,表示聚合的虚拟节点的特征,表示隐藏层的特征,表示非线性激活函数,表示线性权重矩阵,l表示节点所在网络的层序号。在本专利技术的一些实施例的步骤S104中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。在本专利技术的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置,包括获取模块、提取模块、融合模块、构建模块、预测模块,所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。进一步的,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。在本专利技术的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术第一方面所述的方法。在本专利技术的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术第一方面所述的方法。有益效果:1.本专利技术融合了蛋白质信号肽的多种特征进行特征提取,通过保留原始信号肽的编码信息,保留了蛋白质的同源性;2.由于几何图神经网络的层数解决了神经网络在训练过程中,由于层数过深而导致空间信息丢失,特别是信号肽的空间结构的信息丢失问题,进而减少模型的过拟合的发生,同时提高了预测的准确性。附图说明图1为本专利技术的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测方法的基本流程图;图2为本专利技术的一些实施例中的几何图神经网络模型图;图3为本专利技术的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测装置的基本结构图;图4为本专利技术的电子设备的基本结构图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。参考图1,一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:S101.获取数据集中的蛋白质序列,提取其中信号肽的字符序列;S102.对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;S103.将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;S104.根据所述字符序列和所述多维向量构建信号肽的特征图;S105.将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。需要说明的是,在步骤S101中,获取数据集中的蛋白质序列,然后获取其中的信号肽片段,利用现有技术或机器学习方法的常用分类器均可实现;此外常见蛋白质序列数据集包括但不限于SignalP5.0数据本文档来自技高网...

【技术保护点】
1.一种基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,包括如下步骤:/n获取数据集中的蛋白质序列,提取其中信号肽的字符序列;/n对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;/n将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;/n根据所述字符序列和所述多维向量构建信号肽的特征图;/n将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。/n

【技术特征摘要】
1.一种基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,包括如下步骤:
获取数据集中的蛋白质序列,提取其中信号肽的字符序列;
对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;
将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;
根据所述字符序列和所述多维向量构建信号肽的特征图;
将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。


2.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述信号肽的字符序列表示为:


其中,X表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。


3.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。


4.根据权利要求1所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,
所述低聚合层用于聚合节点在一种关系下的邻居信息;
所述高聚合层用于聚合所述低聚合层的邻居信息;
所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。


5.根据权利要求4所述的基于几何图神经网络的蛋白质信号肽的预测方法,其特征在于,所述几何图神经网络模型的表示为:



其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种关系下
节点v的邻居节点,zv表示节点v映射到隐藏空间的向量,zu节点u映射到隐藏空间的向量,i
表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏...

【专利技术属性】
技术研发人员:华权高舒芹赵愿安
申请(专利权)人:武汉金开瑞生物工程有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1