基于特征组合与智能搜索的蛋白质适应度预测方法及系统技术方案

技术编号：40156374 阅读：8 留言：0更新日期：2024-01-26 23:32

本发明专利技术公开了一种基于特征组合与智能搜索的蛋白质适应度预测方法及系统，所述方法包括：采用n种特征编码对预处理后数据集中的样本突变体进行序列特征提取，得到n种序列组合特征；对于每种算法，构建n个机器学习模型；利用每种特征编码方法得到的组合特征与对应标签对n个机器学习模型进行训练；对训练好的模型进行评估以确定最佳算法；对最佳算法下排名靠前的序列组合特征中的特征进行重要性排序；根据排序的特征，采用特征选择方法进行最佳特征子集搜索；根据最佳特征子集确定最佳模型；利用最佳模型对预测集中突变体的适应度值进行预测。本发明专利技术将特征组合、特征重要性和特征选择相结合，节省了最佳特征子集获取时间，有效提高了模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能与蛋白质工程，特别涉及一种基于特征组合与智能搜索的蛋白质适应度预测方法、系统、终端设备及计算机可读存储介质。

技术介绍

1、蛋白质功能由其氨基酸序列决定，氨基酸序列的多样性导致蛋白质功能多样性，二者之间的映射关系可用蛋白质适宜度地形(proteinfitness landscape)表示。蛋白质适应度地形是指蛋白质氨基酸序列与其目标性质(如催化活性、热稳定性、底物特异性等，称为适应度)之间形成的一个高维表面，蛋白质工程改造可视为在这个高维表面上寻找最高点所对应的氨基酸序列。但是，一方面，由于氨基酸序列空间非常庞大，该适应度地形空间会随着所考虑氨基酸残基的数量呈指数增长，无法通过实验、计算或其它手段进行穷尽探索；另一方面，具有功能性的蛋白极其稀少，估计范围最高为1011中只有一个，最低为1077中只有一个，且大部分序列的适应度都较差，随着具有期望功能水平的增加，具有该功能的序列数量呈指数减少。除此之外，突变序列之间可能存在上位性效应，即两个或多个突变的效应不等同于各自突变效应的简单相加，导致蛋白质适应度地形会进一步变得更加崎岖复杂。因此，在蛋白质适应度地形上寻找高适应度突变体是一项极具挑战性的工作。

2、近些年来，随着计算机的发展以及各种算法的进步，机器学习(machinelearning)在蛋白质设计改造中获得了极大的重视和发展，已经逐渐发展成一种高效的蛋白质分子设计新策略。该方法不需要事先知道蛋白质的三维结构以及蛋白质的催化机制等信息，可通过学习现有数据中的信息，建立模型学习突变体序列-功能之

3、此外，机器学习指导蛋白质工程的发展关键还取决于氨基酸序列特征的提取与编码，即如何从氨基酸序列中提取出与目标性质显著相关的特征并将其转换成计算机能够识别的语言。目前，应用最广泛的便是分子描述符，其可以从氨基酸序列中提取能够反映氨基酸残基的各种生物学、物理及化学性质的特征，并可直接用于机器学习模型的训练。常用的分子描述符有反映氨基酸残基各种理化性质的氨基酸索引aaindex以及各种描述符，包括氨基酸组成描述符(包括二肽、三肽组成)、三联体组合信息描述符、自相关描述符和序列顺序耦合数描述符等等。但由于蛋白质工程中的任务要求是多元化的，涉及到蛋白质分子设计改造的各个方面，而现有的分子描述符体现的都是氨基酸残基某一方面的性质，故没有任何一种描述符可以满足蛋白质工程中所有任务的需要。此外，针对某一特定任务，若仅使用单一的描述符进行特征提取，则可能会面临序列特征不充分、无法捕获真正与目标任务相关的特征，导致机器学习模型的性能有限；已有研究表明将多种描述符进行组合使用可进一步增加模型的性能，但此法会造成特征冗余，使模型更加复杂并导致过拟合。

4、因此，如何获取有效的氨基酸序列特征信息并提高机器学习在有限数据集下的模型性能，对于机器学习指导蛋白质工程的发展至关重要。

技术实现思路

1、为了解决上述现有技术的不足，本专利技术提供了一种基于特征组合与智能搜索的蛋白质适应度预测方法，该方法能够有效提高机器学习在有限数据集下的模型性能，并对蛋白质适应度值进行准确的预测。

2、本专利技术的第一个目的在于提供一种基于特征组合与智能搜索的蛋白质适应度预测方法。

3、本专利技术的第二个目的在于提供一种基于特征组合与智能搜索的蛋白质适应度预测系统。

4、本专利技术的第三个目的在于提供一种终端设备。

5、本专利技术的第四个目的在于提供一种计算机可读存储介质。

6、本专利技术的第一个目的可以通过采取如下技术方案达到：

7、一种基于特征组合与智能搜索的蛋白质适应度预测方法，所述方法包括：

8、对获取的数据集进行预处理；数据集包括多个样本，每个样本为单点突变体数据或组合突变体数据；

9、采用每一种氨基酸索引和多种蛋白质描述符相结合的n种特征编码方法对预处理后数据集中的样本突变体进行序列特征提取，得到n种序列组合特征；预处理后数据集中所有样本突变体的适应度值作为每种序列组合特征的标签；

10、采用多种集成算法，对于每种集成算法，构建n个机器学习模型；其中，n个机器学习模型对应n种特征编码方法；

11、利用每种特征编码方法得到的组合特征与对应的标签对每种集成算法下的n个机器学习模型进行训练；

12、对于训练好的机器学习模型，利用十折交叉验证，对机器学习模型进行评估以确定最佳算法；选择最佳算法下排名靠前的序列组合特征，采用shap算法对组合特征中的特征进行重要性排序；根据组合特征中排序的特征，采用多种特征选择方法对每个组合特征进行最佳特征子集搜索，以确定组合特征的最佳特征子集；根据最佳特征子集，对相应的机器学习模型进行评估以确定最佳模型；

13、利用最佳模型对预测集中所有突变体的适应度值进行预测。

14、进一步的，所述利用最佳模型对预测集中所有突变体的适应度值进行预测，包括：

15、对预测集中所有突变体进行预处理，得到氨基酸序列；

16、利用最佳模型对应的特征编码方法对氨基酸序列进行序列特征提取，得到序列组合特征；

17、依据最佳特征子集对序列组合特征中的相应特征进行提取；

18、将从组合特征中提取的序列特征输入最佳模型，输出突变体对应的适应度值。

19、进一步的，所述采用shap算法对组合特征中的特征进行重要性排序，包括：

20、通过shap算法计算组合特征中每个特征对模型的边际贡献，获得每个特征的shapvalue，根据每个特征的shap value绝对值的平均值大小对组合特征进行特征重要性排序。

21、进一步的，所述根据组合特征中排序的特征，采用多种特征选择方法对每个组合特征进行最佳特征子集搜索，以确定组合特征的最佳特征子集，包括：

22、根据组合特征中排序的特征，从高到低，每次选择前面i个特征依次递增至模型中，直至模型性能不再提高；其中，i为第一设定阈值；

23、或者，根据组合特征中排序的特征，使用序列向前搜索算法对所有的特征进行逐一搜索，每次往模型中递增一个使模型当下性能最优的特征，直至模型性能不再提高；

24、或者，根据组合特征中排序的特征，选择前面j个特征，使用序列向前搜索算法进行逐一探索，直至模型性能不再提高，其中，j为第二设定阈值，且j远大于i；

25、所述模型性能指模型的评估指标。

26、进一步的，所述对机器学习模型本文档来自技高网...

【技术保护点】

1.一种基于特征组合与智能搜索的蛋白质适应度预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述利用最佳模型对预测集中所有突变体的适应度值进行预测，包括：

3.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述采用Shap算法对组合特征中的特征进行重要性排序，包括：

4.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述根据组合特征中排序的特征，采用多种特征选择方法对每个组合特征进行最佳特征子集搜索，以确定组合特征的最佳特征子集，包括：

5.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述对机器学习模型进行评估，包括：

6.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述多种蛋白质描述符包括氨基酸组成描述符、二肽组成描述符、三联体组合信息描述符、Geary自相关描述符、序列顺序耦合数描述符和准序列顺序描述符。

7.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述多种集成算法包括随机森林算法、梯度提升回归算法、极度梯度

8.一种基于特征组合与智能搜索的蛋白质适应度预测系统，其特征在于，所述系统包括：

9.一种终端设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的蛋白质适应度预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-7任一项所述的蛋白质适应度预测方法。

...

【技术特征摘要】

1.一种基于特征组合与智能搜索的蛋白质适应度预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述利用最佳模型对预测集中所有突变体的适应度值进行预测，包括：

3.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述采用shap算法对组合特征中的特征进行重要性排序，包括：

5.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述对机器学习模型进行评估，包括：

6.根据权利要求1所述的蛋白质适应度预测方法，其特征在于，所述多种蛋白质...

【专利技术属性】
技术研发人员：韩双艳，张智慧，杨曼丽，李治萱，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人