【技术实现步骤摘要】
本专利技术属于生物技术和信息处理交叉领域,具体涉及基于机器学习预测磷酸酶最佳催化温度的方法。
技术介绍
1、酶最佳催化温度的数据主要来自于brenda数据库(jeske, l., placzek, s.,schomburg, i., chang, a., and schomburg, d. (2019) brenda in 2019: a europeanelixir core data resource. nucleic acids res. 47, d542– d549, doi: 10.1093/nar/gky1048;schomburg, i. et al. the brenda enzyme information system–from adatabase to an expert system. j. biotechnol. 261, 194–206 (2017)),磷酸酶家族(ec3.1.3.-)是brenda数据库中有最佳催化温度记录数相对较多的家族。磷酸酶(phosphatase)属于卤酸脱卤酶(haloacid d
...【技术保护点】
1.一种基于机器学习预测磷酸酶最佳催化温度模型的建立方法,其特征在于,包括以下步骤:
2.如权利要求1所述的建立方法,其特征在于,S1步中,数据是从BRENDA数据库和UniProt数据库下载的磷酸酶EC编号EC 3.1.3.-、最佳催化温度、UniProt id和序列信息;
3.如权利要求1所述的建立方法,其特征在于,S2步中,对数据集划分了五个温度段即0-30℃, 30-50℃, 50-65℃, 65-85℃,85-100℃,从包含最少数据的温度段85-100℃中取1/4的数据,其它各个温度取与最少温度段所取得样本数量相同,共同构成测试集,
...【技术特征摘要】
1.一种基于机器学习预测磷酸酶最佳催化温度模型的建立方法,其特征在于,包括以下步骤:
2.如权利要求1所述的建立方法,其特征在于,s1步中,数据是从brenda数据库和uniprot数据库下载的磷酸酶ec编号ec 3.1.3.-、最佳催化温度、uniprot id和序列信息;
3.如权利要求1所述的建立方法,其特征在于,s2步中,对数据集划分了五个温度段即0-30℃, 30-50℃, 50-65℃, 65-85℃,85-100℃,从包含最少数据的温度段85-100℃中取1/4的数据,其它各个温度取与最少温度段所取得样本数量相同,共同构成测试集,其余数据作为训练集;
4.如权利要求1所述的建立方法,其特征在于,s2步中,从磷酸酶序列中提取四组特征集,包括氨基酸频率、二肽频率、蛋白质分子量以及蛋白质描述符,所述蛋白质描述符包括联合三元组特征和组成、过渡、分布;
5.如权利要求1所述的建立方法,其特征在于,s4步中,拟合不同机器学习算法多元线性回归、随机森林回归、k近邻回归、adaboost回归和最小角度回归larscv算法,调整参数,为预测磷酸酶最佳催化温度建立合适的回归模型。
6.如权利要求1所述的建立方法,其特征在于,s5步中,根据十次蒙特卡洛交叉验证r2的均值作为模型评估标准,得到最好预测模型算法k近邻。
7.如权利要求1所述的建立...
【专利技术属性】
技术研发人员:游淳,曹银银,
申请(专利权)人:中国科学院天津工业生物技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。