基于集成学习的分子识别特征功能预测方法技术

技术编号:31926075 阅读:55 留言:0更新日期:2022-01-15 13:11
本发明专利技术公开了一种基于集成学习的分子识别特征功能预测方法,主要解决现有分子识别特征预测器不能进一步划分分子识别特征功能的问题。其方案是:下载固有无序蛋白质数据及其在功能注释,划分训练数据和测试数据,对其蛋白质序列进行特征表示,并设计其残基标签;选取单输入的二元关联策略机器学习模型;使用训练数据训练不同的机器学习模型;使用集成策略对不同机器学习模型训练结果进行集成得到预测模型;将待研究的蛋白质序列数据输入到预测模型中,输出该蛋白质的分子识别特征功能预测结果。本发明专利技术实验流程简单、耗费资源小、成本低、预测结果的可靠性高,可用于预测蛋白质序列中分子识别特征的功能,为药物靶点作用位置提供参考。提供参考。提供参考。

【技术实现步骤摘要】
基于集成学习的分子识别特征功能预测方法
[0001]本专利技术属于生物信息学
,特别涉及一种分子识别特征的功能预测方法,可用于预测蛋白质序列中分子识别特征的功能,为药物靶点作用位置提供参考。

技术介绍

[0002]分子识别特征,是指蛋白质中包含10到70个残基之间的固有无序区,在与其伙伴结合之后从无序区转变成有序区的区域。所述伙伴,包括指碳水化合物、离子、脂质、核酸、蛋白质和小分子。分子识别特征的功能包括分子识别组装器(molecular recognition assembler)、分子识别清除剂(molecular recognition scavenger)、分子识别效应器(molecular recognition effector)、分子识别显示位点(molecular recognition display sites)和分子识别伴侣(molecular recognition chaperone)。其中分子识别组装器,用于组装复合物和目标活动;分子识别清除剂,用于储存或中和小的配体;分子识别效应器,用于调节其伙伴分子的活性;分子识别显示位点,用于使得翻译后修饰不表达;分子识别伴侣,用于协助核酸折叠。
[0003]在药物发现领域,传统的药物发现模式是针对蛋白质的结构活性位点区域进行实验,近些年研究人员发现,将药物作用位点设置为分子识别特征,对于某些疾病的治疗有着很好的效果,在对分子识别特征的研究中有研究人员认为,蛋白质的某些功能发挥作用与分子识别特征的功能密切相关,因此,分子识别特征的功能对药物与靶标的作用方式同样有很大的作用,分子识别特征的功能研究有很大的潜在生物学意义。
[0004]现有对于分子识别特征功能的预测主要集中在生物实验方面,例如通过X射线衍射或者通过质子核磁共振来确定分子识别特征的功能,这些方式对于新的蛋白质进行分子识别特征功能预测不但实验流程复杂,资源耗费大,而且成本高。

技术实现思路

[0005]本专利技术的目的在于提供一种基于集成学习的蛋白质分子识别特征功能预测方法,以解决现有技术实验流程复杂,资源耗费大,成本高的不足,。
[0006]本专利技术的技术思路是:将蛋白质分子识别特征的功能预测看成一个多标记学习任务,使用二元关联策略,充分利用现有的数据集,采取不同的机器学习方法构建单个模型,利用集成学习中的权重法,权重值由遗传算法得到,融合单个模型获得最终的预测模型,通过预测模型对蛋白质分子识别特征的功能进行预测。
[0007]根据上述思路,本专利技术的技术方案包括如下:
[0008](1)下载固有无序蛋白质及其功能注释数据,根据固有无序蛋白质功能注释筛选蛋白质序列,并基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2;
[0009](2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵PSFM,该矩阵的每一行代表蛋白质序列对应位置残基的特征表示;
[0010](3)根据PSFM矩阵,得到训练位置特异性频率矩阵集M1和测试位置特异性矩阵集
M2,即由训练蛋白质序列集H1所有蛋白质序列的位置性特异矩阵组成训练位置特异性频率矩阵集M1,由测试蛋白质序列集H2所有蛋白质序列的位置性特异矩阵组成测试位置特异性频率矩阵集M2;
[0011](4)将训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2中的数据分别表示为训练残基数据集和测试残基数据集,再根据功能注释对训练残基数据集和测试残基数据集中每个残基设计标签,并根据每个残基标签对训练残基特征数据集和测试残基数据集进行筛选,得到训练数据集S1和测试数据集S2;
[0012](5)构建蛋白质分子识别特征功能的预测模型:
[0013]5a)选取支持向量机模型,将训练集数据集S1输入到模型中,采用最大化间隔距离法对支持向量机模型进行训练,得到训练好的支持向量机模型;
[0014]5b)选取逻辑回归模型,将训练集数据集S1输入到模型中,采用反向传播梯度下降法对逻辑回归模型进行训练,得到训练好的逻辑回归模型;
[0015]5c)选取决策树模型,将训练集数据集S1输入到模型中,采用基尼系数作为划分节点的依据对训练集数据集进行划分,得到划分后的决策树模型;
[0016]5d)选取随机森林模型,并将训练集数据集S1输入到模型中,采用自助采样法对随机森林模型中的多个决策树进行集成,得到集成后的随机森林模型;
[0017]5e)使用集成学习策略将训练好的支持向量机模型、训练好的逻辑回归模型和划分后的决策树模型、集成后的随机森林模型进行并联,组成的分子识别特征功能的预测模型;
[0018](6)将测试数据集S2的残基特征输入到分子识别特征功能预测模型中,输出五维向量,该五维向量为残基的分子识别特征功能的预测结果。
[0019]本专利技术与现有的分子识别特征的功能技术相比,具有以下创新点:
[0020]1)本专利技术在构建蛋白质分子识别特征功能的预测模型时,对于每个功能训练一个结果,然后将五个训练结果并联得到训练后的的模型,可以多次使用训练数据集正样本,有助于提高模型预测的准确性;
[0021]2)本专利技术在构建蛋白质分子识别特征功能的预测模型时,使用集成学习策略让预测模型融合了四种机器学习模型,使预测模型具有不同模型的优点,提升预测模型准确性;
[0022]3)本专利技术使用预测模型来预测蛋白质的分子识别特征功能,相对于现有实验流程简单,实验周期短,有利于对大规模的蛋白质分子识别特征功能进行预测,资源耗费小,成本低。
附图说明
[0023]图1是本专利技术的实现流程图;
[0024]图2是本专利技术和随机猜想实验在测试数据集S2下的宏准确度及五种分子识别特征功能准确度的比较图。
具体实施方式
[0025]以下结合附图对本专利技术的具体实施例和效果作进一步详细描述。
[0026]参照图1,本实例的实现步骤如下:
[0027]步骤1,获取固有无序蛋白质相关数据及其功能注释,并根据功能注释初步筛选蛋白质序列。
[0028]1.1)从公开网站下载DisProt数据库中2020_12版本的数据集,其中包括1590条固有无序蛋白质序列和对应的7种功能注释,7种功能注释分别为熵链、生物浓缩、分子识别组装器、分子识别伴侣、分子识别显示位点、分子识别效应器和分子识别清除剂,其中分子识别组装器、分子识别伴侣、分子识别显示位点、分子识别效应器和分子识别清除剂为5种分子识别特征功能;
[0029]1.2)删除1.1)中不包含分子识别组装器功能、分子识别伴侣功能、分子识别显示位点功能、分子识别效应器功能、分子识别清除剂功能和出现错误表示的蛋白质序列,得到585条蛋白质序列及其功能注释。
[0030]步骤2,根据蛋白质序列获得残基的特征表示设计标签,并筛选数据获得训练数据集和测试数据集。
[0031]2.1)基于序列相似度将固有无序蛋白质数据划分训练蛋本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的蛋白质分子识别特征功能预测方法,其特征在于,包括:(1)下载固有无序蛋白质及其功能注释数据,根据固有无序蛋白质功能注释筛选蛋白质序列,并基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2;(2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵PSFM,该矩阵的每一行代表蛋白质序列对应位置残基的特征表示;(3)根据PSFM矩阵,得到训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2,即由训练蛋白质序列集H1所有蛋白质序列的位置性特异矩阵组成训练位置特异性频率矩阵集M1,由测试蛋白质序列集H2所有蛋白质序列的位置性特异矩阵组成测试位置特异性频率矩阵集M2;(4)将训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2中的数据分别表示为训练残基数据集和测试残基数据集,再根据功能注释对训练残基数据集和测试残基数据集中每个残基设计标签,并根据每个残基标签对训练残基特征数据集和测试残基数据集进行筛选,得到训练数据集S1和测试数据集S2;(5)构建蛋白质分子识别特征功能的预测模型:5a)选取支持向量机模型,将训练集数据集S1输入到模型中,采用最大化间隔距离法对支持向量机模型进行训练,得到训练好的支持向量机模型;5b)选取逻辑回归模型,将训练集数据集S1输入到模型中,采用反向传播梯度下降法对逻辑回归模型进行训练,得到训练好的逻辑回归模型;5c)选取决策树模型,将训练集数据集S1输入到模型中,采用基尼系数作为划分节点的依据对训练集数据集进行划分,得到划分后的决策树模型;5d)选取随机森林模型,并将训练集数据集S1输入到模型中,采用自助采样法对随机森林模型中的多个决策树进行集成,得到集成后的随机森林模型;5e)使用集成学习策略将训练好的支持向量机模型、训练好的逻辑回归模型和划分后的决策树模型、集成后的随机森林模型进行并联,组成的分子识别特征功能的预测模型;(6)将测试数据集S2的残基特征输入到分子识别特征功能预测模型中,输出五维向量,该五维向量为残基的分子识别特征功能的预测结果。2.根据权利要求1所述的方法,其中(1)基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2,实现如下:(1a)使用BlastClust软件包,对原始的蛋白质序列进行聚类,在长度覆盖率大于70%,序列相似度25%下对收集到的585条固有无序蛋白质进行聚类,共得到508类;(1b)将(1a)的聚类结果按类分成两份,第一份共有258类,第二份共有250类,将第一份中所有序列作为训练蛋白质序列集H1,将第二份所有序列作为测试蛋白质序列集H2,其中H1中包含蛋白质序列数283,H2中包含蛋白质序列数282。3.根据权利要求1所述的方法,其中(2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵,实现如下:(2a)将长度为L的蛋白质序列P表示为:P=R1R2…
R
L
,其中R
t
代表第t位残基,1≤t≤L;(2b)使用PSI

BLAST软件包,根据蛋白质序列P计算得到蛋白质位置特异性频率矩阵
PSFM:其中F
t,j
代表蛋白质序列P中第t个残基出现第j个标准残基的频率,1≤t≤L,1≤j≤20,20代表标准残基的数量。4.根据权利要求1所述的方法,其中(4)中根据每个残基的标签对训练残基特征数据集和测试残基数据集进行筛选,得到训练数据集S1和测试数据集S2,实现如下:(3a)将训练残基数据集和测试残基数据集中没有固有无序蛋白质功能的残基删除,并将有熵链和生物浓缩两种功能之一,且有5种分子识别特征功能之一的残基删除;(3b)将训练残基数据集和测试残基数据集中仅包含熵链和生物浓缩至少一种功能的残基作为负样本,将该负样本的标签设计为[0,0,0,0,0];(3c)将训练残基数据集和测试残基数据集中仅包含5种分子识别特征功能至少一种的残基作为正样本,该正样本的标签使用一个五维向量[y1,y2,y3,y4,y5]表示,y1代表该残基是否具有分子识别组装器功能,y2代表该残基是否具有分子识别伴侣功能,y3代表该残基是否具有分子识别显示位点功能,y4代表该残基是否具有分子识别效应器功能,y5代表该残基是否具有分子识别清除剂功能,至此得到训练数据集S1和测试数据集S2。5.根据权利要求1所述的方法,其中(5a)中采用最大化间隔距离法对支持向量机模型进行训练,是对训练数据集S1中的5种分子识别特征功能分别训练,计算支持向量机模型超平面方向参数和超平面位置参数得到5个训练结果,将这5个训练结果并联得到训练后的支持向量机模型,实现如下:(5a1)基于残基特征对训练数据集S1中的分子识别组装器功能y1进行训练:(5a11)构建约束条件为:y
i1
(w
1T
x
i
+b1)≥1的最大化间隔距离的数学模型:其中w1为预测分子识别组装器功能支持向量机模型的超平面方向参数,b1为预测分子识别组装器功能支持向量机模型的超平面位置参数,x
i
代表第i个残基的特征,y
i1
第i个残基的分子识别组装器功能,i=1,2,

m,m为训练数据集S1的残基个数;(5a12)利用最小序列优化算法对(5a11)构建的数学模型进行求解,求得预测分子识别组装器功能支持向量机模型的超平面方向参数w1和超平面位置参数b1,得到分子识别组装器功能的训练结果,即第一个训练结果;(5a2)基于残基特征对训练数据集S1中的分子识别伴侣功能y2进行训练:(5a21)构建约束条件为:y
i2
(w
2T
x
i
+b2)≥1的最大化间隔距离的数学模型:其中w2为预测分子识别伴侣功能支持向量机模型的超平面方向参数,b2为预测分子识别伴侣功能支持向量机模型的超平面位置参数,x
i
代表第i个残基的特征,y
i2
第i个残基的分子识别伴侣功能;(5a22)利用最小序列优化算法对(5a21)构建的数学模型进行求解,求得预测分子识别伴侣功能支持向量机模型的超平面方向参数w2和超平面位置参数b2,得到分子识别伴侣功能的训练结果,即第二个训练结果;(5a3)基于残基特征对训练数据集S1中的分子识别显示位点功能y3进行训练:
(5a31)构建约束条件为:y
i3
(w
3T
x
i
+b3)≥1的最大化间隔距离的数学模型:其中w3为预测分子识别显示位点功能支持向量机模型的超平面方向参数,b3为预测分子识别显示位点功能支持向量机模型的超平面位置参数,x
i
代表第i个残基的特征,y
i3
第i个残基的分子识别显示位点功能;(5a32)利用最小序列优化算法对(5a31)构建的数学模型进行求解,求得预测分子识别显示位点功能支持向量机模型的超平面方向参数w3和超平面位置参数b3,得到分子识别显示位点功能的训练结果,即第三个训练结果;(5a4)基于残基特征对训练数据集S1中的分子识别效应器功能y4进行训练:(5a41)构建约束条件为:y
i4
(w
4T
x
i
+b4)≥1的最大化间隔距离的数学模型:其中w4为预测分子识别效应器功能支持向量机模型的超平面方向参数,b4为预测分子识别效应器功能支持向量机模型的超平面位置参数,x
i
代表第i个残基的特征,y
i4
第i个残基的分子识别效应器功能;(5a42)利用最小序列优化算法对(5a41)构建的数学模型进行求解,求得预测分子识别效应器功能支持向量机模型的超平面方向参数w4和超平面位置参数b4,得到分子识别效应器功能的训练结果,即第四个训练结果;(5a5)基于残基特征对训练数据集S1中的分子识别清除剂功能y5进行训练:(5a51)构建约束条件为:y
i5
(w
5T
x
i
+b5)≥1的最大化间隔距离的数学模型:其中w5为预测分子识别清除剂功能支持向量机模型的超平面方向参数,b5为预测分子识别清除剂功能支持向量机模型的超平面位置参数,x
i
代表第i个残基的特征,y
i5
第i个残基的分子识别清除剂功能;(5a52)利用最小序列优化算法对(5a51)构建的数学模型进行求解,求得预测分子识别清除剂功能支持向量机模型的超平面方向参数w5和超平面位置参数b5,得到分子识别清除剂功能的训练结果,即第五个训练结果;(5a6)将(5a1)至(5a5)获得的5个训练结果并联得到训练好的支持向量机模型。6.根据权利要求1所述的方法,其中(5b)中采用反向传播梯度下降法对逻辑回归模型进行训练,是对训练数据集S1中的5种分子识别特征功能分别训练,更新逻辑回归模型参数得到5个训练结果,将这5个训练结果并联得到训练好的逻辑回归模型,实现如下:(5b1)基于残基特征对训练数据集S1中的分子识别组装器功能y1进行训练:(5b11)初始化预测分子识别组装器功能的逻辑回归模型参数θ1;(5b12)将训练数据集S1的残基特征输入到预测分子识别组装器功能的逻辑回归模型,得到概率值输出y1',计算该概率值输出y1'与分子识别组装器功能y1之间的交叉熵损失Loss:Loss=

[y1lny1'+(1

y1)ln(1

y1')];(5b13)使用反向传播梯度下降算法,更新预测分子识别组装器功能的逻辑回归模型参数θ1,直到训练数据集S1的Loss不再降低,得到分子识别组装器功能的训练结果;
(5b2)基于残基特征对训练数据集S1中的分子识别伴侣功能y2进行训练:(5b21)初始化预测分子识别伴侣功能的逻辑回归模型参数θ2;(5b22)将训练数据集S1的残基特征输入到预测分子识别伴侣功能的逻辑回归模型,得到概率值输出y2',计算该概率值输出y2'与分子识别伴侣功能y2之间的交叉熵损失Loss:Loss=

[y2lny2'+(1

y2)ln(1

y2')];(5b23)使用反向传播梯度下降算法,更新预测分子识别伴侣功能的逻辑回归模型参数θ2,直到训练数据集S1的Loss不再降低,得到分子识别伴侣功能的训练结果;(5b3)基于残基特征对训练数据集S1中的分子识别显示位点功能y3进行训练:(5b31)初始化预测分子识别显示位点功能的逻辑回归模型参数θ3;(5b32)将训练数据集S1的残基特征输入到预测分子识别显示位点功能的逻辑回归模型,得到概率值输出y3',计算该概率值输出y3'与分子识别显示位点功能y3之间的交叉熵损失Loss:Loss=

[y3lny3'+(1

y3)ln(1

y3')];(5b33)使用反向传播梯度下降算法,更新预测分子识别显示位点功能的逻辑回归模型参数θ3,直到训练数据集S1的Loss不再降低,得到分子识别显示位点功能的训练结果;(5b4)基于残基特征对训练数据集S1中的分子识别效应器功能y4进行训练:(5b41)初始化预测分子识别效应器功能的逻辑回归模型参数θ4;(5b42)将训练数据集S1的残基特征输入到预测分子识别效应器功能的逻辑回归模型,得到概率值输出y4',计算该概率值输出y4'与分子识别效应器功能y4之间的交叉熵损失Loss:Loss=

[y4lny4'+(1

y4)ln(1

y4')];(5b43)使用反向传播梯度下降算法,更新预测分子识别效应器功能的逻辑回归模型参数θ4,直到训练数据集S1的Loss不再降低,得到分子识别效应器功能的训练结果;(5b5)基于残基特征对训练数据集S1中的分子识别清除剂功能y5进行训练:(5b51)初始化预测分子识别清除剂功能的逻辑回归模型参数θ5;(5b52)将训练数据集S1的残基特征输入到预测分子识别清除剂功能的逻辑回归模型,得到概率值输出y5',计算该概率值输出y5'与分子识别清除剂功能y5之间的交叉熵损失Loss:Loss=

[y5lny5'+(1

y5)ln(1

y5')];(5b53)使用反向传播梯度下降算法,更新预测分子识别清除剂功能的逻辑回归模...

【专利技术属性】
技术研发人员:鱼亮李浩铮
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1