提高合成蛋白质稳定性的系统和方法技术方案

技术编号:31081734 阅读:15 留言:0更新日期:2021-12-01 12:27
一种训练神经网络以改良蛋白质特性的计算机执行方法,包括从数据库收集一组氨基酸序列,将每个氨基酸序列编译成折叠蛋白质的三维晶体结构,用所述三维晶体结构的子集训练神经网络,用所述神经网络识别目标蛋白质中的待突变候选残基,并用所述神经网络识别要取代所述候选残基的预测氨基酸残基,以产生突变蛋白质,其中,所述突变蛋白质显示出比所述目标蛋白质在特性上的改良。还描述了用于改良蛋白质特性的系统。还描述了使用该系统生成的改良的蓝色荧光蛋白。蓝色荧光蛋白。蓝色荧光蛋白。

【技术实现步骤摘要】
【国外来华专利技术】convolutional neural networks for amino acid environment similarity analysis,
”ꢀ
BMC Bioinformatics, 18:302, 2017,通过引用并入本文)描述了一种通用框架,其在提供有关周围蛋白质微环境的信息的情况下通过预测氨基酸的特性将3D卷积神经网络(3DCNN)应用于蛋白质结构分析。该神经网络在相对于野生型序列分配氨基酸方面达到42%的预测准确率,并且优于其他依赖于识别预先分配的基于结构的特征的计算机方法。此外,给定模型蛋白T4溶菌酶的结构数据,3D CNN通常在已知突变不稳定的位置预测野生型残基,并且在给出这些已知不稳定突变体的结构时,显示出对野生型残基的强烈偏好。

技术实现思路

[0008]鉴于蛋白质组必须同时表现出几种不相关甚至相互冲突的表型,如折叠几何结构、稳定性、催化作用和结合特异性,作为远离活性位点的位置处的结构离群的氨基酸可能会影响折叠和稳定性,但不会影响功能似乎是合理的。因此,本领域需要改进的蛋白质工程技术,利用人工智能来学习不同氨基酸的共有微环境,并扫描整个结构以识别偏离结构共有性(structural consensus)的残基。这些残基被认为具有低野生型概率且被认为是不稳定位点,因此是诱变和稳定性工程的良好候选者。本文讨论的系统和方法的实施提供了这种改进的蛋白质工程技术。
[0009]一方面,训练神经网络以改良蛋白质特性的计算机实施方法包括从数据库收集一组氨基酸序列,为该组氨基酸编译一套具有化学环境的三维晶体结构,将化学环境转化为体素化矩阵,用体素化矩阵的子集训练神经网络,用神经网络识别目标蛋白质中的待突变候选残基,并用神经网络识别要取代候选残基的预测氨基酸残基,以产生突变蛋白质,其中所述突变蛋白质在特性上表现出优于所述目标蛋白质的改良。在一个实施例中,该方法还包括以下步骤:将选自氢位置、部分电荷、β因子、二级结构、芳香性、电子密度、极性及其组合的特征的空间排列添加到至少一个三维晶体结构中。
[0010]在一个实施例中,该方法还包括调整该组氨基酸序列以反映其自然频率。在一个实施例中,该方法还包括从序列中的随机位置对该组氨基酸序列中至少50%的氨基酸进行取样。在一个实施例中,该方法还包括使用三维晶体结构或体素化矩阵的第二子集训练第二独立神经网络,以及基于两个神经网络的结果识别候选和预测残基。在一个实施例中,特征是稳定性、成熟度、折叠或其组合。
[0011]另一方面,用于改良蛋白质特性的系统包括处理器和具有存储在其上的指令的非暂时性计算机可读介质,当由处理器执行时执行以下步骤,包括提供包含残基序列的目标蛋白质,提供一组围绕氨基酸的三维模型并为每个三维模型提供一组蛋白质特征值,估计每个三维模型中各个点的一组参数,用三维模型、参数和蛋白质特征值训练神经网络,用神经网络识别目标蛋白质中的待突变候选残基,并用神经网络识别替代候选残基的预测氨基酸残基,产生突变蛋白质,其中突变蛋白质在特性上表现出优于目标蛋白质的改良。
[0012]在一个实施例中,蛋白质特征是稳定性。在一个实施例中,所述步骤包括重新编译折叠氨基酸序列的至少一个氨基酸序列以产生更新的三维模型。在一个实施例中,所述步骤包括在重新编译之前向折叠氨基酸序列的至少一个氨基酸序列添加特征的空间排列。
[0013]在另一方面,本专利技术涉及包含secBFP2变体的蛋白质,该变体相对于全长野生型secBFP2在选自T18、S28、Y96、S114、V124、T127、D151、N173和R198的一个或多个残基处具有
一个或多个突变。在一个实施例中,该蛋白质包含secBFP2变体,该变体包含SEQ ID NO:2至SEQ ID NO:28中的一个的氨基酸序列。在一个实施例中,secBFP2变体包含SEQ ID NO:2至SEQ ID NO:28中的一个的氨基酸序列的变体。在一个实施例中,secBFP2变体包含融合蛋白,该融合蛋白包含SEQ ID NO:2至SEQ ID NO:28中的一个的氨基酸序列。在一个实施例中,BFP包含SEQ ID NO:2至SEQ ID NO:28中的一个的氨基酸序列的片段。
[0014]在另一方面,本专利技术涉及包含核苷酸序列的核酸分子,该核苷酸序列编码包含secBFP2变体的蛋白质。在一个实施例中,核苷酸序列编码如SEQ ID NO:2至SEQ ID NO:28中所述的氨基酸序列、其变体、其融合蛋白或其片段。在一个实施例中,该分子为质粒。在一个实施例中,该分子是表达载体。在一个实施例中,核酸分子还包含用于插入异源蛋白质编码序列的多克隆位点。在另一方面,本专利技术包括:包含上述蛋白质的组合物、包含上述核酸分子的组合物、包含上述蛋白质或上述核酸分子的试剂盒。
[0015]附图简述专利或申请文件至少包含一幅彩色图纸。在请求并支付必要费用后,专利局将提供带有彩色图纸副本的本专利或专利申请出版物。
[0016]参考以下描述和附图,上述目的和特征以及其他目的和特征将变得显而易见,包含这些描述和附图是为了提供对本专利技术的理解,并构成说明书的一部分,其中相似的数字表示相似的元素,并且其中:图1A是用于增加合成蛋白质特性的计算机执行的神经网络的示意图;图1B是测定微环境中心氨基酸残基的方法的实施流程图;图1C是在测试期间增加合成蛋白质特性的方法的实施流程图;图1D是用于在训练期间增加合成蛋白质特性的神经网络的实施框图;图1E是用于增加合成蛋白质特性的卷积神经网络的实施框图;图2A是用于增加合成蛋白质特性的方法和系统的实施的实验结果图;图2B是用于增加合成蛋白质特性的方法和系统的实施方案的另一个实验结果图;图3A是用于增加合成蛋白质特性的方法和系统的实施方案的另一个实验结果图;图3B是使用增加合成蛋白质特性的系统的实施方案所建议的修饰合成的蛋白质的照片;图4A是用于增加合成蛋白质特性的方法和系统的实施方案的另一个实验结果图;图4B是通过增加合成蛋白质特性的系统的实施方案所建议的蛋白质修饰的示意图;图5是一组用于增加合成蛋白质特性的系统的实施方案的实验结果照片;图6和图7是用于增加合成蛋白质特性的系统的实施方案的实验结果图;图8是显示17种蓝色荧光蛋白变体相对于野生型蛋白的荧光倍数变化的图表;图9是显示蓝色荧光蛋白变体相对于野生型蛋白的荧光倍数变化的图表;图10提供了蓝色荧光蛋白变体“bluebonnet”的荧光的示例性图像,与亲本蛋白和其他蓝色荧光蛋白相比,该变体包含S28A、S114T、N173H和T127L突变;和图11A和11B是描述增加合成蛋白质特性的系统的实施方案的框图。
[0017]详细说明应当理解,本专利技术的附图和描述已经简化,以说明与清楚理解本专利技术相关的元件,
同时为了清楚起见,消除了在相关系统和方法中发现的许多其他元件。本领域普通技术人员可以认识到,在实施本专利技术时,其他元件和/或步骤是期望的和/或需要的。然而,由于此类元件和步骤在本领域中是众所周知的,并且由于它们不利于更好地理解本专利技术,因此本文不提供对此类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练神经网络以改良蛋白质特性的计算机执行的方法,包括:从数据库中收集一组氨基酸序列;为所述一组氨基酸编制一套具有化学环境的三维晶体结构;将所述化学环境转换为体素化矩阵;利用所述体素化矩阵的子集训练神经网络;利用所述神经网络识别目标蛋白质中的待突变候选残基;和利用所述神经网络识别预测的氨基酸残基以取代所述候选残基,从而产生突变蛋白质;其中,所述突变蛋白质相对所述目标蛋白质在特性上显示出改良。2.如权利要求1所述的计算机执行的方法,所述方法还包括将选自以下的特征的空间排列添加到至少一个三维晶体结构中的步骤:氢位置、部分电荷、β因子、二级结构、芳香性、电子密度和极性。3.如权利要求1所述的计算机执行的方法,所述方法还包括调整所述一组氨基酸序列以反映其自然频率。4.如权利要求1所述的计算机执行的方法,所述方法还包括从所述序列中的随机位置对所述一组氨基酸序列中的至少50%的氨基酸进行采样。5.如权利要求1所述的计算机执行的方法,所述方法进一步包括利用三维晶体结构的第二子集训练第二独立神经网络,以及基于两个神经网络的结果识别候选残基和预测残基。6.如权利要求1所述的方法,其中所述特性是稳定性、成熟度或折叠。7.一种用于改良蛋白质特性的系统,包括处理器和存储有指令的非暂时性计算机可读介质,当由处理器执行时,所述指令执行的步骤包括:提供包含残基序列的目标蛋白质;提供一组围绕氨基酸的三维模型并为每个三维模型提供一组蛋白质特性值;在每个三维模型的不同点估算一组参数;利用所述三维模型、所述参数和所述蛋白质特性值训练神经网络;利用所述神经网络识别所述目标蛋白质中的待突变候选残基;和利用所述神经网络识别预测的氨基酸残基以取代所述候选残基,产生突变蛋白质;其中,所述突变蛋白质相对所述目标蛋白质在特性上表现出改良。8.如权利要求7所述的系统,其中所述蛋白质特性是稳定性。9.如权利要求7所述的系统,其中所述步骤包括重新编译所述折叠氨基酸序列中的至少一个氨基酸序列以产生更新的三维模型。10.如权利要求9所述的系统,其中所述步骤包括在重新编译之前向折叠氨基酸序列的至少一个氨基酸序列添加特征的空间排列。11.一种包含secBFP2变体的蛋白质,所述变体相对于全长野生型secBFP2在一个或多个残基处具有一个或多个突变,所述残基选自:T18、S28、Y96、S114、V124、T127、D151、N173和R198。12.如权利要求11所述的蛋白质,其中所述蛋白质选自:包含选自SEQ ID NO:2至SEQ ID NO:28的氨基酸序列的蛋白质、包含选自SEQ ID NO:2至SEQ ID NO:28的氨基酸序列的
蛋白质的变体、包含选自SEQ ID NO:2至SEQ ID NO:28的氨基酸序列的融合蛋白以及包含选自SEQ ID NO:2至SEQ ID NO:28的氨基酸序列的蛋白质的片段。13.一种核酸分子,其包含编码如权利要求11所述的蛋白质的核苷酸序列。14.如权利要求13所述的核酸分子,其中所述分子是质粒。15.如权利要求13所述的核酸分子,其中...

【专利技术属性】
技术研发人员:安德鲁
申请(专利权)人:德克萨斯大学董事会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1