基于集成学习的分子识别特征功能预测方法技术

技术编号：31926075 阅读：66 留言：0更新日期：2022-01-15 13:11

本发明专利技术公开了一种基于集成学习的分子识别特征功能预测方法，主要解决现有分子识别特征预测器不能进一步划分分子识别特征功能的问题。其方案是：下载固有无序蛋白质数据及其在功能注释，划分训练数据和测试数据，对其蛋白质序列进行特征表示，并设计其残基标签；选取单输入的二元关联策略机器学习模型；使用训练数据训练不同的机器学习模型；使用集成策略对不同机器学习模型训练结果进行集成得到预测模型；将待研究的蛋白质序列数据输入到预测模型中，输出该蛋白质的分子识别特征功能预测结果。本发明专利技术实验流程简单、耗费资源小、成本低、预测结果的可靠性高，可用于预测蛋白质序列中分子识别特征的功能，为药物靶点作用位置提供参考。提供参考。提供参考。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成学习的分子识别特征功能预测方法
[0001]本专利技术属于生物信息学
，特别涉及一种分子识别特征的功能预测方法，可用于预测蛋白质序列中分子识别特征的功能，为药物靶点作用位置提供参考。

技术介绍

[0002]分子识别特征，是指蛋白质中包含10到70个残基之间的固有无序区，在与其伙伴结合之后从无序区转变成有序区的区域。所述伙伴，包括指碳水化合物、离子、脂质、核酸、蛋白质和小分子。分子识别特征的功能包括分子识别组装器(molecular recognition assembler)、分子识别清除剂(molecular recognition scavenger)、分子识别效应器(molecular recognition effector)、分子识别显示位点(molecular recognition display sites)和分子识别伴侣(molecular recognition chaperone)。其中分子识别组装器，用于组装复合物和目标活动；分子识别清除剂，用于储存或中和小的配体；分子识别效应器，用于调节其伙伴分子的活性...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的蛋白质分子识别特征功能预测方法，其特征在于，包括：(1)下载固有无序蛋白质及其功能注释数据，根据固有无序蛋白质功能注释筛选蛋白质序列，并基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2；(2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵PSFM，该矩阵的每一行代表蛋白质序列对应位置残基的特征表示；(3)根据PSFM矩阵，得到训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2，即由训练蛋白质序列集H1所有蛋白质序列的位置性特异矩阵组成训练位置特异性频率矩阵集M1，由测试蛋白质序列集H2所有蛋白质序列的位置性特异矩阵组成测试位置特异性频率矩阵集M2；(4)将训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2中的数据分别表示为训练残基数据集和测试残基数据集，再根据功能注释对训练残基数据集和测试残基数据集中每个残基设计标签，并根据每个残基标签对训练残基特征数据集和测试残基数据集进行筛选，得到训练数据集S1和测试数据集S2；(5)构建蛋白质分子识别特征功能的预测模型：5a)选取支持向量机模型，将训练集数据集S1输入到模型中，采用最大化间隔距离法对支持向量机模型进行训练，得到训练好的支持向量机模型；5b)选取逻辑回归模型，将训练集数据集S1输入到模型中，采用反向传播梯度下降法对逻辑回归模型进行训练，得到训练好的逻辑回归模型；5c)选取决策树模型，将训练集数据集S1输入到模型中，采用基尼系数作为划分节点的依据对训练集数据集进行划分，得到划分后的决策树模型；5d)选取随机森林模型，并将训练集数据集S1输入到模型中，采用自助采样法对随机森林模型中的多个决策树进行集成，得到集成后的随机森林模型；5e)使用集成学习策略将训练好的支持向量机模型、训练好的逻辑回归模型和划分后的决策树模型、集成后的随机森林模型进行并联，组成的分子识别特征功能的预测模型；(6)将测试数据集S2的残基特征输入到分子识别特征功能预测模型中，输出五维向量，该五维向量为残基的分子识别特征功能的预测结果。2.根据权利要求1所述的方法，其中(1)基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2，实现如下：(1a)使用BlastClust软件包，对原始的蛋白质序列进行聚类，在长度覆盖率大于70％，序列相似度25％下对收集到的585条固有无序蛋白质进行聚类，共得到508类；(1b)将(1a)的聚类结果按类分成两份，第一份共有258类，第二份共有250类，将第一份中所有序列作为训练蛋白质序列集H1，将第二份所有序列作为测试蛋白质序列集H2，其中H1中包含蛋白质序列数283，H2中包含蛋白质序列数282。3.根据权利要求1所述的方法，其中(2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵，实现如下：(2a)将长度为L的蛋白质序列P表示为：P＝R1R2…
R
L
，其中R
t
代表第t位残基，1≤t≤L；(2b)使用PSI
‑
BLAST软件包，根据蛋白质序列P计算得到蛋白质位置特异性频率矩阵
PSFM：其中F
t,j
代表蛋白质序列P中第t个残基出现第j个标准残基的频率，1≤t≤L，1≤j≤20，20代表标准残基的数量。4.根据权利要求1所述的方法，其中(4)中根据每个残基的标签对训练残基特征数据集和测试残基数据集进行筛选，得到训练数据集S1和测试数据集S2,实现如下：(3a)将训练残基数据集和测试残基数据集中没有固有无序蛋白质功能的残基删除，并将有熵链和生物浓缩两种功能之一，且有5种分子识别特征功能之一的残基删除；(3b)将训练残基数据集和测试残基数据集中仅包含熵链和生物浓缩至少一种功能的残基作为负样本，将该负样本的标签设计为[0,0,0,0,0]；(3c)将训练残基数据集和测试残基数据集中仅包含5种分子识别特征功能至少一种的残基作为正样本，该正样本的标签使用一个五维向量[y1,y2,y3,y4,y5]表示，y1代表该残基是否具有分子识别组装器功能，y2代表该残基是否具有分子识别伴侣功能，y3代表该残基是否具有分子识别显示位点功能，y4代表该残基是否具有分子识别效应器功能，y5代表该残基是否具有分子识别清除剂功能，至此得到训练数据集S1和测试数据集S2。5.根据权利要求1所述的方法，其中(5a)中采用最大化间隔距离法对支持向量机模型进行训练，是对训练数据集S1中的5种分子识别特征功能分别训练，计算支持向量机模型超平面方向参数和超平面位置参数得到5个训练结果，将这5个训练结果并联得到训练后的支持向量机模型，实现如下：(5a1)基于残基特征对训练数据集S1中的分子识别组装器功能y1进行训练：(5a11)构建约束条件为：y
i1
(w
1T
x
i
+b1)≥1的最大化间隔距离的数学模型：其中w1为预测分子识别组装器功能支持向量机模型的超平面方向参数，b1为预测分子识别组装器功能支持向量机模型的超平面位置参数，x
i
代表第i个残基的特征，y
i1
第i个残基的分子识别组装器功能，i＝1,2,
…
m，m为训练数据集S1的残基个数；(5a12)利用最小序列优化算法对(5a11)构建的数学模型进行求解，求得预测分子识别组装器功能支持向量机模型的超平面方向参数w1和超平面位置参数b1，得到分子识别组装器功能的训练结果，即第一个训练结果；(5a2)基于残基特征对训练数据集S1中的分子识别伴侣功能y2进行训练：(5a21)构建约束条件为：y
i2
(w
2T
x
i
+b2)≥1的最大化间隔距离的数学模型：其中w2为预测分子识别伴侣功能支持向量机模型的超平面方向参数，b2为预测分子识别伴侣功能支持向量机模型的超平面位置参数，x
i
代表第i个残基的特征，y
i2
第i个残基的分子识别伴侣功能；(5a22)利用最小序列优化算法对(5a21)构建的数学模型进行求解，求得预测分子识别伴侣功能支持向量机模型的超平面方向参数w2和超平面位置参数b2，得到分子识别伴侣功能的训练结果，即第二个训练结果；(5a3)基于残基特征对训练数据集S1中的分子识别显示位点功能y3进行训练：
(5a31)构建约束条件为：y
i3
(w
3T
x
i
+b3)≥1的最大化间隔距离的数学模型：其中w3为预测分子识别显示位点功能支持向量机模型的超平面方向参数，b3为预测分子识别显示位点功能支持向量机模型的超平面位置参数，x
i
代表第i个残基的特征，y
i3
第i个残基的分子识别显示位点功能；(5a32)利用最小序列优化算法对(5a31)构建的数学模型进行求解，求得预测分子识别显示位点功能支持向量机模型的超平面方向参数w3和超平面位置参数b3，得到分子识别显示位点功能的训练结果，即第三个训练结果；(5a4)基于残基特征对训练数据集S1中的分子识别效应器功能y4进行训练：(5a41)构建约束条件为：y
i4
(w
4T
x
i
+b4)≥1的最大化间隔距离的数学模型：其中w4为预测分子识别效应器功能支持向量机模型的超平面方向参数，b4为预测分子识别效应器功能支持向量机模型的超平面位置参数，x
i
代表第i个残基的特征，y
i4
第i个残基的分子识别效应器功能；(5a42)利用最小序列优化算法对(5a41)构建的数学模型进行求解，求得预测分子识别效应器功能支持向量机模型的超平面方向参数w4和超平面位置参数b4，得到分子识别效应器功能的训练结果，即第四个训练结果；(5a5)基于残基特征对训练数据集S1中的分子识别清除剂功能y5进行训练：(5a51)构建约束条件为：y
i5
(w
5T
x
i
+b5)≥1的最大化间隔距离的数学模型：其中w5为预测分子识别清除剂功能支持向量机模型的超平面方向参数，b5为预测分子识别清除剂功能支持向量机模型的超平面位置参数，x
i
代表第i个残基的特征，y
i5
第i个残基的分子识别清除剂功能；(5a52)利用最小序列优化算法对(5a51)构建的数学模型进行求解，求得预测分子识别清除剂功能支持向量机模型的超平面方向参数w5和超平面位置参数b5，得到分子识别清除剂功能的训练结果，即第五个训练结果；(5a6)将(5a1)至(5a5)获得的5个训练结果并联得到训练好的支持向量机模型。6.根据权利要求1所述的方法，其中(5b)中采用反向传播梯度下降法对逻辑回归模型进行训练，是对训练数据集S1中的5种分子识别特征功能分别训练，更新逻辑回归模型参数得到5个训练结果，将这5个训练结果并联得到训练好的逻辑回归模型，实现如下：(5b1)基于残基特征对训练数据集S1中的分子识别组装器功能y1进行训练：(5b11)初始化预测分子识别组装器功能的逻辑回归模型参数θ1；(5b12)将训练数据集S1的残基特征输入到预测分子识别组装器功能的逻辑回归模型，得到概率值输出y1'，计算该概率值输出y1'与分子识别组装器功能y1之间的交叉熵损失Loss：Loss＝
‑
[y1lny1'+(1
‑
y1)ln(1
‑
y1')]；(5b13)使用反向传播梯度下降算法，更新预测分子识别组装器功能的逻辑回归模型参数θ1，直到训练数据集S1的Loss不再降低，得到分子识别组装器功能的训练结果；
(5b2)基于残基特征对训练数据集S1中的分子识别伴侣功能y2进行训练：(5b21)初始化预测分子识别伴侣功能的逻辑回归模型参数θ2；(5b22)将训练数据集S1的残基特征输入到预测分子识别伴侣功能的逻辑回归模型，得到概率值输出y2'，计算该概率值输出y2'与分子识别伴侣功能y2之间的交叉熵损失Loss：Loss＝
‑
[y2lny2'+(1
‑
y2)ln(1
‑
y2')]；(5b23)使用反向传播梯度下降算法，更新预测分子识别伴侣功能的逻辑回归模型参数θ2，直到训练数据集S1的Loss不再降低，得到分子识别伴侣功能的训练结果；(5b3)基于残基特征对训练数据集S1中的分子识别显示位点功能y3进行训练：(5b31)初始化预测分子识别显示位点功能的逻辑回归模型参数θ3；(5b32)将训练数据集S1的残基特征输入到预测分子识别显示位点功能的逻辑回归模型，得到概率值输出y3'，计算该概率值输出y3'与分子识别显示位点功能y3之间的交叉熵损失Loss：Loss＝
‑
[y3lny3'+(1
‑
y3)ln(1
‑
y3')]；(5b33)使用反向传播梯度下降算法，更新预测分子识别显示位点功能的逻辑回归模型参数θ3，直到训练数据集S1的Loss不再降低，得到分子识别显示位点功能的训练结果；(5b4)基于残基特征对训练数据集S1中的分子识别效应器功能y4进行训练：(5b41)初始化预测分子识别效应器功能的逻辑回归模型参数θ4；(5b42)将训练数据集S1的残基特征输入到预测分子识别效应器功能的逻辑回归模型，得到概率值输出y4'，计算该概率值输出y4'与分子识别效应器功能y4之间的交叉熵损失Loss：Loss＝
‑
[y4lny4'+(1
‑
y4)ln(1
‑
y4')]；(5b43)使用反向传播梯度下降算法，更新预测分子识别效应器功能的逻辑回归模型参数θ4，直到训练数据集S1的Loss不再降低，得到分子识别效应器功能的训练结果；(5b5)基于残基特征对训练数据集S1中的分子识别清除剂功能y5进行训练：(5b51)初始化预测分子识别清除剂功能的逻辑回归模型参数θ5；(5b52)将训练数据集S1的残基特征输入到预测分子识别清除剂功能的逻辑回归模型，得到概率值输出y5'，计算该概率值输出y5'与分子识别清除剂功能y5之间的交叉熵损失Loss：Loss＝
‑
[y5lny5'+(1
‑
y5)ln(1
‑
y5')]；(5b53)使用反向传播梯度下降算法，更新预测分子识别清除剂功能的逻辑回归模...

【专利技术属性】
技术研发人员：鱼亮，李浩铮，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人