一种基于组合型机器学习模型的蛋白质溶解性预测方法技术

技术编号:33706861 阅读:13 留言:0更新日期:2022-06-06 08:31
本发明专利技术公开了一种基于组合型机器学习模型的蛋白质溶解性预测方法,包括:从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录,作为训练数据集;训练卷积神经网络模型;蛋白质氨基酸序列作为输入,蛋白质可溶解的概率作为输出;提取训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型,该模型的输出为蛋白质可溶解的概率;根据训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数,确定最终的组合型模型;将需要预测溶解性的蛋白质序列输入到组合型模型,输出对应的蛋白质可溶的概率。该方法预测的准确性较高,提高了科研及生产的效率。及生产的效率。及生产的效率。

【技术实现步骤摘要】
一种基于组合型机器学习模型的蛋白质溶解性预测方法


[0001]本专利技术属于人工智能和蛋白质工程
,涉及一种蛋白质溶解性的机器学习预测方法,尤其涉及一种基于组合机器学习模型的由蛋白质的初级氨基酸序列预测其在大肠杆菌中溶解性的方法。

技术介绍

[0002]溶解性是蛋白质的重要性质之一,并且该性质与蛋白质在学术领域及工业领域的应用密切相关,例如酶工程、合成生物学及结构生物学等。“蛋白质结构倡议(Protein Structure Initiativa,简称为PSI)”项目致力于集中全球大量结构生物学实验室的力量,解决30万余个蛋白质序列结构。在该项目中,蛋白质在表达系统内的不可溶解性表达使得大量的蛋白质序列无法被纯化结晶,而导致最终实验失败。类似的,在常用的表达系统中异源表达目的蛋白是在合成生物学中常用的技术手段。其中,蛋白的可溶解性也是该方法广泛应用的最大技术障碍。
[0003]溶解性是一个用来描述蛋白分子在某特定状态下在其饱和溶液中浓度的热力学数值。影响蛋白质溶解性的因素可以分为内部因素及外部因素两类。外部因素指的是蛋白分子所存在的周围环境的总称,比如说PH值、离子强度、温度、是否存在可溶解添加剂等等。在常见的表达系统中,影响蛋白溶解性主要的外在因素取决于所选取的宿主细胞,比如细菌、酵母、动植物细胞等等。虽然可以通过调节细胞培养环境提升目标蛋白的溶解性,但为了确保宿主细胞的正常生长,使用这种方法来达到实验目的可行性较为有限。影响蛋白质溶解性的内在因素主要是由其一级结构,即构成蛋白质的氨基酸序列,决定的。比如,有实验数据表明暴露在蛋白质结构表面的带电的氨基酸对蛋白质的溶解度有很大影响,可以通过突变非重要氨基酸的方法提高蛋白溶解性。
[0004]近年来,随着机器学习以及深度学习技术的发展,凭借其优秀的从训练数据中学习与目标任务的相关特征并对未知数据做出预测的能力,大量相关的技术被应用在了各种生物技术的应用场景之中。过往蛋白质研究过程中积累了大量有关于蛋白质溶解性的相关数据,尤其是在最常见的宿主细胞大肠杆菌中表达的数据。利用这些数据作为训练数据集训练深度学习模型,该方法不仅可以快速并准确的预测任意已知序列的蛋白质溶解性,并且可以帮助我们更深入的理解决定蛋白质溶解性的重要的内在因素。但其预测精度还有待提高;因此,在大肠杆菌中,如何提高基于蛋白质氨基酸序列预测蛋白质溶解性的准确性,成为当下亟需解决的问题。

技术实现思路

[0005]本专利技术提出了一种基于组合型机器学习模型的蛋白质溶解性预测方法,目的在于在大肠杆菌中提高基于蛋白质氨基酸序列预测蛋白质溶解性的准确性。
[0006]为实现上述目的,本专利技术采取的技术方案为:
[0007]本专利技术提供一种基于组合型机器学习模型的蛋白质溶解性预测方法,包括:
[0008]S101、从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录,作为训练数据集;
[0009]S102、使用所述训练数据集训练卷积神经网络模型;其中,蛋白质氨基酸序列作为输入数据,蛋白质可溶解的概率作为输出数据;
[0010]S103、提取所述训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型,该模型的输出为蛋白质可溶解的概率;
[0011]S104、根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数,确定最终的组合型模型;
[0012]S105、将需要预测溶解性的蛋白质序列输入到所述组合型模型,输出对应的蛋白质可溶的概率。
[0013]进一步地,所述S101步骤包括:
[0014]根据预设条件在TargetTrack数据库中筛选出在大肠杆菌中表达的蛋白质序列及溶解性相关的记录;
[0015]根据蛋白质溶解性相关的记录,将提取的蛋白质氨基酸序列分成可溶解与不可溶解两类,作为训练数据集。
[0016]进一步地,所述S101步骤中,将提取的蛋白质氨基酸序列中长于阈值氨基酸长度的且长于阈值部分的氨基酸截取掉。
[0017]进一步地,所述S102步骤中,所述卷积神经网络模型具有多个大小不一的卷积核,在输入数据经过卷积核计算后,将结果连接成为一个向量;然后经过若干全连接层,再经过softmax层的计算,最终输出对应输入蛋白质可溶解及不可溶解的概率。
[0018]进一步地,所述S103步骤包括:
[0019]使用SRCATCH软件预测训练数据集中蛋白质每个氨基酸所在的二级结构;
[0020]根据蛋白质氨基酸序列,计算基于蛋白质序列的相关特征;所述相关特征包括:蛋白质长度、分子量、转角形成残疾比率、亲水性、疏水性和电荷数;
[0021]采用蛋白质每个氨基酸所在的二级结构及计算出的基于蛋白质序列的相关特征训练支持向量机模型,并使用网格搜索确定最佳的模型超参数。
[0022]进一步地,所述104步骤包括:
[0023]使用网格搜索的方法赋给两个模型不同的系数;两个模型不同的系数加和为一;
[0024]根据所述训练数据集的蛋白质可溶解的概率,确定出正确率最高的两个模型的线性组合系数,作为最终的组合模型。
[0025]与现有技术相比,本专利技术具有如下有益效果:
[0026]一种基于组合型机器学习模型的蛋白质溶解性预测方法,包括:从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录,作为训练数据集;使用所述训练数据集训练卷积神经网络模型;其中,蛋白质氨基酸序列作为输入数据,蛋白质可溶解的概率作为输出数据;提取所述训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型,该模型的输出为蛋白质可溶解的概率;根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数,确定最终的组合型模型;将需要预测溶解性的蛋白质序列输入到所述组合型模型,输出对应的蛋白质可溶的概率。本专利技术借助于机器学习和从公共数据库中提取的训练数据
集,训练可以由蛋白质序列预测蛋白质在大肠杆菌中溶解性的机器学习模型,能够帮助学术界及工业界的蛋白质科学家们有针对性的选择在大肠杆菌中可溶解表达的蛋白质,预测的准确性较高,从而极大的提高科研及生产的效率,有利于节省实验成本。
附图说明
[0027]图1为本专利技术实施例提供的基于组合型机器学习模型的蛋白质溶解性预测方法的流程图;
[0028]图2为本专利技术实施例提供的卷积神经网络模型及其原理图。
具体实施方式
[0029]为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。
[0030]在本专利技术的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于组合型机器学习模型的蛋白质溶解性预测方法,其特征在于,包括:S101、从TargetTrack数据库中提取在大肠杆菌中表达的蛋白质氨基酸序列及溶解性相关的记录,作为训练数据集;S102、使用所述训练数据集训练卷积神经网络模型;其中,蛋白质氨基酸序列作为输入数据,蛋白质可溶解的概率作为输出数据;S103、提取所述训练数据集中蛋白质每个氨基酸所在的二级结构及基于蛋白质序列的相关特征训练支持向量机模型,该模型的输出为蛋白质可溶解的概率;S104、根据所述训练数据集计算训练后的卷积神经网络模型和支持向量机模型的线性组合系数,确定最终的组合型模型;S105、将需要预测溶解性的蛋白质序列输入到所述组合型模型,输出对应的蛋白质可溶的概率。2.根据权利要求1所述的一种基于组合型机器学习模型的蛋白质溶解性预测方法,其特征在于,所述S101步骤包括:根据预设条件在TargetTrack数据库中筛选出在大肠杆菌中表达的蛋白质序列及溶解性相关的记录;根据蛋白质溶解性相关的记录,将提取的蛋白质氨基酸序列分成可溶解与不可溶解两类,作为训练数据集。3.根据权利要求2所述的一种基于组合型机器学习模型的蛋白质溶解性预测方法,其特征在于,所述S101步骤中,将提取的蛋白质氨基酸序列中...

【专利技术属性】
技术研发人员:范子灵梁恒宇周鹏韩超陈民良幸志伟马英宁张一平张皓
申请(专利权)人:河南省健康元生物医药研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1