一种基于机器学习预测磷酸酶最佳催化温度的方法技术

技术编号:41125014 阅读:32 留言:0更新日期:2024-04-30 17:52
本发明专利技术属于生物技术和信息处理交叉领域,具体涉及一种基于机器学习预测磷酸酶最佳催化温度的方法。本发明专利技术通过机器学习模型来实现,其中的回归模型通过多序列比对,去掉序列中的保守氨基酸,从磷酸酶的氨基酸序列中提取氨基酸频率和蛋白质分子量信息作为特征,使用K近邻回归算法预测磷酸酶的最佳催化温度。相比于未去保守氨基酸直接预测磷酸酶最佳催化温度,应用多序列比对,本发明专利技术去掉序列保守氨基酸的策略可以使得预测模型R<supgt; 2</supgt;值从0.599增加到0.755,准确性得到大提高,具有实用价值。

【技术实现步骤摘要】

本专利技术属于生物技术和信息处理交叉领域,具体涉及基于机器学习预测磷酸酶最佳催化温度的方法


技术介绍

1、酶最佳催化温度的数据主要来自于brenda数据库(jeske, l., placzek, s.,schomburg, i., chang, a., and schomburg, d. (2019) brenda in 2019: a europeanelixir core data resource. nucleic acids res. 47, d542– d549, doi: 10.1093/nar/gky1048;schomburg, i. et al. the brenda enzyme information system–from adatabase to an expert system. j. biotechnol. 261, 194–206 (2017)),磷酸酶家族(ec3.1.3.-)是brenda数据库中有最佳催化温度记录数相对较多的家族。磷酸酶(phosphatase)属于卤酸脱卤酶(haloacid dehalogenas本文档来自技高网...

【技术保护点】

1.一种基于机器学习预测磷酸酶最佳催化温度模型的建立方法,其特征在于,包括以下步骤:

2.如权利要求1所述的建立方法,其特征在于,S1步中,数据是从BRENDA数据库和UniProt数据库下载的磷酸酶EC编号EC 3.1.3.-、最佳催化温度、UniProt id和序列信息;

3.如权利要求1所述的建立方法,其特征在于,S2步中,对数据集划分了五个温度段即0-30℃, 30-50℃, 50-65℃, 65-85℃,85-100℃,从包含最少数据的温度段85-100℃中取1/4的数据,其它各个温度取与最少温度段所取得样本数量相同,共同构成测试集,其余数据作为训练集;...

【技术特征摘要】

1.一种基于机器学习预测磷酸酶最佳催化温度模型的建立方法,其特征在于,包括以下步骤:

2.如权利要求1所述的建立方法,其特征在于,s1步中,数据是从brenda数据库和uniprot数据库下载的磷酸酶ec编号ec 3.1.3.-、最佳催化温度、uniprot id和序列信息;

3.如权利要求1所述的建立方法,其特征在于,s2步中,对数据集划分了五个温度段即0-30℃, 30-50℃, 50-65℃, 65-85℃,85-100℃,从包含最少数据的温度段85-100℃中取1/4的数据,其它各个温度取与最少温度段所取得样本数量相同,共同构成测试集,其余数据作为训练集;

4.如权利要求1所述的建立方法,其特征在于,s2步中,从磷酸酶序列中提取四组特征集,包括氨基酸频率、二肽频率、蛋白质分子量以及蛋白质描述符,所述蛋白质描述符包括联合三元组特征和组成、过渡、分布;

5.如权利要求1所述的建立方法,其特征在于,s4步中,拟合不同机器学习算法多元线性回归、随机森林回归、k近邻回归、adaboost回归和最小角度回归larscv算法,调整参数,为预测磷酸酶最佳催化温度建立合适的回归模型。

6.如权利要求1所述的建立方法,其特征在于,s5步中,根据十次蒙特卡洛交叉验证r2的均值作为模型评估标准,得到最好预测模型算法k近邻。

7.如权利要求1所述的建立...

【专利技术属性】
技术研发人员:游淳曹银银
申请(专利权)人:中国科学院天津工业生物技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1