一种预测肽毒素生物功能的机器学习模型制造技术

技术编号：40219145 阅读：6 留言：0更新日期：2024-02-02 22:25

本发明专利技术提出了一种预测肽毒素生物功能的机器学习模型，该学习模型的建立方法包括如下步骤：步骤1、获取肽毒素序列并进行处理；步骤2、采用嵌入了机器学习分类器的PU学习方案，对肽毒素进行学习，并通过特征选择和超参数调整获得了该预测肽毒素生物功能的机器学习模型，借此，该模型可精准预测的生物功能包括：心脏毒性、神经毒性、细胞溶解、溶血，凝血，血管活性、降血压和脂质结合等，该系统还对溶血毒素和三指毒素的生物功能表现出良好的预测能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于预测肽毒素的机器学习模型，特别涉及一种预测肽毒素生物功能的机器学习模型。

技术介绍

1、目前，肽毒素大多存在于有毒生物的毒液中，如锥螺、海葵、蛇、蜘蛛、蝎子、蜈蚣等。了解了肽毒素的生物学功能，有利于肽毒素在不同领域的充分利用，例如，血管活性肽有机会被用作预测癌症风险的生物标志物，而神经毒素可能在治疗某些神经系统疾病方面有潜在的应用，其中突触前的神经毒素已被用于治疗偏头痛和脑瘫等。肽毒素的其它应用领域还包括开发为治疗心血管疾病、慢性疼痛、炎症、高血压、血栓、癌症和神经系统疾病的药物。

2、大量的天然肽毒素仍未被开发。肽毒素的传统功能研究既费时又费钱。机器学习和深度学习技术可以训练大量的生物数据迅速做出预测。目前，这些技术在生物活性肽的发现方面已有一些成功，如抗菌肽(amps)、抗癌肽(acps)和抗炎肽(aips)。对于这三类肽，大量的研究已获得了一定数量的活性肽和非活性肽，可通过常规的分类模型来实现。但是，这些模型大多基于结构简单、分子量相对较小的合成肽，并不适用于肽毒素的预测。肽毒素具有独特的结构组成和理化性质，其生物功能多种多样。目前，缺乏对肽毒素进行功能预测的工具，阻碍了从这些毒素中发现药物。这主要是因为肽毒素的活性数据仍然很少；受高昂的药理实验费用的限制，充足的非活性肽数据不易获得。

技术实现思路

1、本专利技术提出一种预测肽毒素生物功能的机器学习模型，为解决上述难题，本专利技术将pu学习方案用于多肽生物功能的预测，首次构建了特异性针对肽毒素的功能预测模型。

2、本专利技术的技术方案是这样实现的：采用pu学习方案对样本进行标记，已知生物活性的样本标记为0，生物活性不确定的肽毒素标记为-1；随机排除20％的阳性样本，采用机器学习分类器(需提供机器学习分类器是如何嵌入的，如果嵌入的方式为现有技术，则不用提供)对肽毒素进行学习，预测之前被排除的20％的阳性样本为阳性的可能性，计算阳性样本可能性的平均值，即为区分阳性样本与不确定活性样本的阈值；通过24次迭代训练，对每个样本被预测为阳性进行投票，并通过特征选择和超参数调整获得了该预测肽毒素生物功能的机器学习模型。

3、作为一种优选的实施方式，步骤1中获取肽毒素序列并进行处理的方法包括如下步骤：

4、步骤10、从数据库uniprot中获取氨基酸数为小于100个氨基酸的肽毒素序列，并进行筛选；

5、步骤11、筛选后的肽毒素分为训练集和测试集两个数据集，其中训练集占80％，测试集占20％；

6、步骤12、将hemopi数据集与筛选后的肽毒素进行结合；

7、步骤13、结合后的肽毒素分为训练集和测试集两个数据集，其中训练集占80％，测试集占20％；

8、步骤14、计算每个肽毒素序列的属性，并将其转换为0-1的范围。

9、作为一种优选的实施方式，步骤10中进行筛选的方法为，从uniprot数据库中获取肽毒素的信号肽信息，综合运用pandas和numpy删除每个肽毒素的信号肽部分，删除含非标准氨基酸的多肽，去除重复序列，计算每个肽毒素的特征属性，将其中明确标记的三指毒素提取出作为外部验证，剩余的肽毒素用于后续模型的训练和测试。

10、作为一种优选的实施方式，步骤14中计算每个肽毒素序列的属性，并将其转换为0-1的范围的方法为，根据每个肽毒素的成熟序列使用modlamp计算出56个属性，该56个属性包括47肽描述符和9个全局描述符，并使用sklearn预处理模块的minmaxscaler将计算出的属性转换为0-1的范围。

11、作为一种优选的实施方式，步骤2中机器学习分类器包括14种，分别为：1逻辑回归,线性判别和二次判别分析(linear(lda)and quadratic(qda)discriminantanalysis),支持向量机(support vector machines svc)(3个径向基函数核分别为rbf(svc_rbf),polynomial(svc_poly)和sigmoid(svc_sig)),k近邻(k-neighborsclassifier knn),高斯贝叶斯(gaussian bayes gnb),决策树(decision treesclassifier dtc),多层感知机(neural network multilayer perceptron mlp),随机森林(random forest classifier rf),adaboost classifier ada和梯度提升(gradientboosting classifier gbc)和lightgbm分类器。

12、作为一种优选的实施方式，步骤2中pu学习方案为基于适配器的分类器或两步法。

13、作为一种优选的实施方式，步骤2中特征选择的方法为，应用皮尔逊积矩相关系数来提取特征，计算每个特征与特定标签的相关度，相关值大于0.02的特征被认为是有信息的和非冗余的，其他特征被删除，其中皮尔逊积矩相关系数的公式为：

14、rij＝cij/(ciicij)1/2；

15、其中，r是相关系数矩阵，c是协方差矩阵，i和j是两个特征。

16、作为一种优选的实施方式，步骤2中超参数调整的方法为，通过scikit-learn的model-selection软件包的网格搜索与交叉验证进行自动调整，使用分层的十倍交叉验证法，通过超参数的循环，根据模型的aupr值得到最佳的参数组合，并在使用模型进行预测之前，通过pyod的平均knn排除异常值。

17、作为一种优选的实施方式，步骤2中机器学习分类器采用的评价指标包括真阳性率、平衡精度，加权精度，加权召回率，马修斯相关系数，f1得分，曲线下面积接收操作特性和精度和召回率曲线下面积，并通过上述评价指标衡量机器学习分类器的质量。

18、作为一种优选的实施方式，真阳性率的公式为：

19、tpr＝tp/(tp+fn)

20、所述平衡精度的公式为：

21、bacc＝1/2(tp/(tp+fn)+tn/(fp+tn))

22、所述加权精度的公式为：

23、p＝(p/(p+n))(tp/(tp+fp))+(n/(p+n))(tn/(tn+fn))

24、所述加权召回率的公式为：

25、r＝(p/(p+n))(tp/(tp+fn))+(n/(p+n))(tn/(tn+fp))

26、所述马修斯相关系数的公式为：

27、mcc＝(tp×tn-fp×fn)/((tp+fp)(tp+fn)(tn+fp)(tn+fn))1/2

28、所述f1得分的公式为：

29、f1＝2pr/(p+r)

30、其中tp为真阳性的数量、tn为真阴性的数量、fp为假阳性的数量和fn为假阴性的数量，p为阳性的数量和n为阴性的数量。

31、本文档来自技高网...

【技术保护点】

1.一种预测肽毒素生物功能的机器学习模型，其特征在于，该学习模型的建立方法包括如下步骤：

2.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤1中获取肽毒素序列并进行处理的方法包括如下步骤：

3.根据权利要求2所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤10中进行筛选的方法为，从Uniprot数据库中获取肽毒素的信号肽信息，综合运用pandas和numpy删除每个肽毒素的信号肽部分，删除含非标准氨基酸的多肽，去除重复序列，计算每个肽毒素的特征属性，将其中明确标记的三指毒素提取出作为外部验证，剩余的肽毒素用于后续模型的训练和测试。

4.根据权利要求2所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤14中计算每个肽毒素序列的属性，并将其转换为0-1的范围的方法为，根据每个肽毒素的成熟序列使用modlamp计算出56个属性，该56个属性包括47肽描述符和9个全局描述符，并使用sklearn预处理模块的MinMaxScaler将计算出的属性转换为0-1的范围。

5.根据权利要

6.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤2中PU学习方案为基于适配器的分类器和/或两步法。

7.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤2中特征选择的方法为，应用皮尔逊积矩相关系数来评估每个特征与特定标签的相关度，相关值大于0.02的特征被认为是有信息的和非冗余的，其他特征被删除，其中皮尔逊积矩相关系数的公式为：

8.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤2中超参数调整的方法为，通过scikit-learn的model-selection软件包的网格搜索与交叉验证进行自动调整，使用分层的十倍交叉验证法，通过超参数的循环，根据模型的AUPR值得到最佳的参数组合，并在使用模型进行预测之前，通过PyOD的平均KNN排除异常值。

9.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤2中机器学习分类器采用的评价指标包括真阳性率、平衡精度，加权精度，加权召回率，马修斯相关系数，F1得分，曲线下面积接收操作特性和精度和召回率曲线下面积，并通过上述评价指标衡量机器学习分类器的质量。

10.根据权利要求9所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述真阳性率的公式为：

...

【技术特征摘要】

1.一种预测肽毒素生物功能的机器学习模型，其特征在于，该学习模型的建立方法包括如下步骤：

2.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤1中获取肽毒素序列并进行处理的方法包括如下步骤：

3.根据权利要求2所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤10中进行筛选的方法为，从uniprot数据库中获取肽毒素的信号肽信息，综合运用pandas和numpy删除每个肽毒素的信号肽部分，删除含非标准氨基酸的多肽，去除重复序列，计算每个肽毒素的特征属性，将其中明确标记的三指毒素提取出作为外部验证，剩余的肽毒素用于后续模型的训练和测试。

4.根据权利要求2所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤14中计算每个肽毒素序列的属性，并将其转换为0-1的范围的方法为，根据每个肽毒素的成熟序列使用modlamp计算出56个属性，该56个属性包括47肽描述符和9个全局描述符，并使用sklearn预处理模块的minmaxscaler将计算出的属性转换为0-1的范围。

5.根据权利要求1所述的一种预测肽毒素生物功能的机器学习模型，其特征在于，所述步骤2中机器学习分类器包括14种，分别为：1逻辑回归、线性判别、二次判别分析、支持向量机、polynomial、sigmoid、k近邻、高斯贝叶斯、决策树、多层感知机、随机森林、...

【专利技术属性】
技术研发人员：初燕燕，赵俊，于日磊，杨金波，
申请(专利权)人：青岛海洋生物医药研究院股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人