基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法技术

技术编号:27581047 阅读:27 留言:0更新日期:2021-03-09 22:35
本发明专利技术公开了一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,引入蛋白质结构特性,将其与蛋白质原始序列、氨基酸理化属性相结合来构建位点特征空间;采用模块化密集卷积网络捕获不同层级的特征信息,在特征学习过程中减少信息丢失和信息串扰;并引入压缩

【技术实现步骤摘要】
基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法


[0001]本专利技术涉及赖氨酸乙酰化位点预测研究与分析领域,尤其涉及一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法。

技术介绍

[0002]赖氨酸乙酰化是一种保守的蛋白质翻译后修饰,与多种代谢疾病密切相关,因此,赖氨酸乙酰化位点的识别对于代谢疾病治疗的研究具有重要意义。蛋白质结构特性包含高度有用的结构信息,为蛋白质翻译后修饰的鉴定提供了有力的依据;特征学习过程中,不同层级特征间的信息存在互补,同时关注不同层级特征的信息能够有效提高特征质量。现有的深度学习方法采用蛋白质序列层面的信息作为输入,未考虑到蛋白质结构特性;特征提取时仅考虑了高层级特征,导致信息严重丢失,进而降低预测结果。

技术实现思路

[0003]本专利技术的目的在于避免现有技术的不足之处而提供一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法。
[0004]本专利技术的目的可以采用如下的技术措施来实现,设计一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,包括:
[0005]从蛋白质结构特性、蛋白质原始序列和氨基酸理化属性信息三个方面描述赖氨酸乙酰化位点,构建位点初始特征空间;
[0006]采用模块化密集卷积网络,从位点的初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,通过密集跳跃连接同时关注低层级特征和高层级特征;
[0007]引入压缩-激发(SE)层评估特征的重要性,加权每个特征图,实现三类信息的自适应动态融合;
[0008]基于融合特征和softmax层构建赖氨酸乙酰化位点分类器,预测潜在的赖氨酸乙酰化位点;
[0009]训练基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型;
[0010]通过十折交叉验证、独立测试、模型泛化能力测试和对未知赖氨酸乙酰化位点的识别能力四种类型的实验来评估提出的模型。
[0011]其中,从蛋白质结构特性、蛋白质原始序列和氨基酸理化属性信息三个方面描述赖氨酸乙酰化位点,构建位点初始特征空间的步骤包括:
[0012](1)赖氨酸乙酰化位点的实验数据收集和预处理;
[0013](2)通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入。
[0014]其中,赖氨酸乙酰化位点的实验数据收集和预处理,包括步骤:
[0015]从蛋白质赖氨酸修饰数据库(PLMD)收集并下载了6078条、3645条和1860条经实验
验证的人类、小家鼠和大肠杆菌赖氨酸乙酰化蛋白质数据。
[0016]考虑到SPIDER3服务器无法处理含有非标准氨基酸的蛋白质序列,本专利技术手动删除了这些蛋白质序列。以人类这一物种为例,利用CD-HIT工具进行序列去冗余避免序列同源性较大而造成模型的偏差,阈值设定为0.4,保留了4977条乙酰化蛋白质序列。本专利技术将过滤后的4977条乙酰化蛋白质序列随机选择10%(498条)构建独立测试数据集,剩余乙酰化蛋白质序列作为训练数据集,便于与其他赖氨酸乙酰化位点预测器进行比较。
[0017]其中,通过编码方式将收集到的蛋白质数据转化为数值向量,构建位点初始特征空间,并作为预测模型的输入,包括步骤:
[0018](1)使用one-of-21编码位点的蛋白质原始序列信息,对于长度为L的基序,将得到L
×
21维的蛋白质原始序列信息的向量表示;
[0019](2)采用Atchley因子编码位点的氨基酸理化属性信息,每个氨基酸残基由5个Atchley因子表示,对于长度为L的基序,将得到L
×
5维的氨基酸理化属性信息的向量表示;
[0020](3)通过SPIDER3获取蛋白质结构特性信息,包括3种属性中的8个指数,即二级结构:α螺旋P(H)、β链P(C)、γ环P(E),局部骨干扭转角:ψ、θ、τ,可及表面积:ASA。对于长度为L的基序,将得到L
×
8维的蛋白质结构特性信息的向量表示。
[0021]其中,采用模块化密集卷积网络,从位点的初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,通过密集跳跃连接同时关注低层级特征和高层级特征,包括步骤:
[0022](1)引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块;
[0023](2)采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补。
[0024]其中,引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块,包括步骤:
[0025]基于蛋白质结构特性、蛋白质原始序列和氨基酸理化属性分别构建了结构模块、序列模块和理化模块和三个特征提取子模块,各子模块间参数空间相互独立,有效避免了三类信息之间的串扰,提高特征的质量。
[0026]其中,采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时考虑低层级和高层级特征,实现不同层级特征间的信息互补,包括步骤:
[0027]由于结构模块、序列模块和理化模块网络结构相同,这里仅对序列模块进行说明:
[0028](1)首先,序列模块接收长度为L的位点基序的one-of-21编码作为输入,然后通过一维卷积层生成蛋白质原始序列信息的低级特征图,如公式(1)所示。
[0029]X0=σ(I*W+b)
ꢀꢀꢀꢀꢀꢀ
(1)
[0030]其中,I为one-of-21编码向量。为权重矩阵,S为过滤器的大小(S=3),D是过滤器数量(D=96)。b为偏置项,σ为激活函数。X0为一维卷积层的输出,大小为L
×
D。
[0031](2)采用密集卷积块提取蛋白质原始序列信息的高级特征表示,密集卷积过程如公式(2)所示。
[0032]X
l
=σ([X0;X1;...;X
l-1
]*W

+b

)
ꢀꢀꢀꢀ
(2)
[0033]其中,X
l-1
为密集卷积块中第l-1个卷积层生成的特征图,[
·
]表示沿特征维串联。
为权重矩阵,D

为密集卷积块中1到l-1层卷积的过滤器总数,D

为密集卷积块中第l个卷积层过滤器数(D

=32)。b

为偏置项,σ为激活函数,X
l
表示密集卷积块中第l个卷积层生成的特征图。密集卷积块的输出为低级特征图X0与密集卷积块中每个卷积层生成的特征图X1,X2,...,X
l
的特征维串联,即[X0;X1;...;X
l
]。
[0034](3)采用过渡层将(2)得到的蛋白质原始序列信息的特征图再进行卷积运算和激活操作,过渡层过程如公式(3)所示。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法,其特征在于,包括:S1获取赖氨酸乙酰化位点实验数据并进行预处理,通过编码方式将预处理后的数据转化为数值向量,构建位点初始特征空间;S2采用模块化密集卷积网络,从位点初始特征空间分别提取蛋白质结构特性、蛋白质原始序列和氨基酸理化属性的高级特征,并通过密集跳跃连接获取低层级特征和高层级特征;S3引入压缩-激发SE层评估特征的重要性,加权每个特征图,实现蛋白质结构特性、蛋白质原始序列和氨基酸理化属性三类信息的自适应动态融合,得到融合特征;S4基于融合特征和softmax层构建赖氨酸乙酰化位点预测模型,预测潜在的赖氨酸乙酰化位点;S5训练基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型;S6通过十折交叉验证、独立测试、模型泛化能力测试和对未知赖氨酸乙酰化位点的识别能力四种类型实验,评估赖氨酸乙酰化位点预测模型。2.根据权利要求1所述的基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型,其特征在于,步骤S1中,获取赖氨酸乙酰化位点实验数据并进行预处理包括:S11从蛋白质赖氨酸修饰数据库获取经实验验证的赖氨酸乙酰化蛋白质序列;S12利用CD-HIT工具进行序列去冗余,阈值设定为0.4;S13将过滤后的赖氨酸乙酰化蛋白质序列随机选择10%,构建独立测试数据集,剩余赖氨酸乙酰化蛋白质序列作为训练数据集。3.根据权利要求2所述的基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型,其特征在于,步骤S1中,通过编码方式将预处理后的数据转化为数值向量,具体包括:1)使用one-of-21编码位点的蛋白质原始序列信息,得到蛋白质原始序列信息的向量表示;2)采用Atchley因子编码位点的氨基酸理化属性信息,每个氨基酸残基由5个Atchley因子表示,得到氨基酸理化属性信息的向量表示;3)通过SPIDER3获取蛋白质结构特性信息,包括3种属性中的8个指数,二级结构:α螺旋P(H)、β链P(C)、γ环P(E);局部骨干扭转角:ψ、θ、τ;可及表面积:ASA;得到蛋白质结构特性信息的向量表示。4.根据权利要求1所述的基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型,其特征在于,步骤S2具体包括:1)引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块;2)采用堆叠密集卷积块对每个模块进行高级特征的提取,通过密集跳跃连接同时获取低层级特征和高层级特征。5.根据权利要求4所述的基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型,其特征在于,引入模块化网络结构的设计思想,构建结构、序列和理化三个信息模块,具体包括:基于蛋白质结构特性、蛋白质原始序列和氨基酸理化属性分别构建了结构模块、序列模块和理化模块和三个特征提取子模块,各子模块间参数空间相互独立。6.根据权利要求5所述的基于模块化密集卷积网络的赖氨酸乙酰化位点预测模型,其
特征在于,采用堆叠密集卷积块对序列模块进行高级特征的提取,具体包括:1)序列模块接收长度为L的位点基序的one-of-21编码作为输入,然后通过一维卷积层生成蛋白质原始序列信息的低级特征图,如公式(1)所示:X0=σ(I*W+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,I为one-of-21编码向量,为权重矩阵,S为过滤器的大小(S=3),D是过滤器数量(D=96),b为偏置项,σ为激活函数,X0为一维卷积层的输出,大小为L
×
D;2)采用密集卷积块提取蛋白质原始序列信息的高级特征表示,密集卷积过程如公式(2)所示:X
l
=σ([X0;X1;...;X
l-1
]*W

+b

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,X
l-1
为密集卷积块中第l-1个卷积层生成的特征图,[
·
]表示沿特征维串联,为权重矩阵,D

为密集卷积块中1到l-1层卷积的过滤器总数,D

为密集卷积块中第l个卷积层过滤器数(D

=32),b

为偏置项,σ为激活函数,X
l
表示密集卷积块中第l个卷积层生成的特征图,密集卷积块的输出为低级特征图X0与密集卷积块中每个卷积层生成的特征图X1,X2,...,X
l
的特征维串联,即[X0;X1;...;X
l
];3)采用过渡层将2)得到的蛋白质原始序列信息的特征图再进行卷积运算和激活操作,过渡层过程如公式(3)所示:X=σ([X0;X1;...;X
l
...

【专利技术属性】
技术研发人员:王会青颜志良刘丹赵虹赵健赵静赵森
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1