多肽结合信号值预测模型的训练方法和装置制造方法及图纸

技术编号：40975481 阅读：4 留言：0更新日期：2024-04-18 21:23

本发明专利技术提供了一种多肽结合信号值预测模型的训练方法、装置、电子设备和存储介质，包括：获取样本数据集合以及每个样本数据对应的原始信号值；提取样本数据集合中每个样本数据对应的结合特征；对样本数据集合进行主成分分析并确定主成分系数；基于样本数据对应的所述主成分系数和评估信号值，得到用于预测肽段与预设参考抗体结合后的结合强度的多肽结合信号值预测模型。该模型有助于评估各种方式如组装、突变等方式获得的肽与抗体结合的能力，有助于生成能与抗体更强的结合的肽。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及多肽结合信号值预测模型的训练方法、装置、电子设备和存储介质。

技术介绍

1、在生物学领域中，对多肽之间的结合进行研究是至关重要的，例如抗体和抗原之间的结合，抗体能够防止细胞被某种抗原或感染原侵害，不仅可以被用于医疗目的，如血清疗法和单抗药，还可以反映群体的感染率、个人的康复情况以及疫苗效果的评价，抗体特异性结合的蛋白是抗原。传统获取抗体结合肽的方式是通过噬菌体展示的方式。通过噬菌体表达随机肽，用抗体与之结合，通过多轮富集最终选出来强结合的随机肽。但这种实验方案时间长，肽长度固定，真实库容与理论库容有差异，且最终只是产出少量的结合肽。对这些肽的解释带来巨大的困难。

2、随着互联网技术的发展，对于多肽结合的研究也逐渐发展，本申请通过构建机器学习模型，预测特定长度范围内的肽与抗体结合的能力。构建起来的多肽结合信号值预测模型首先有助于评估评估强信号的空间比对路径是否合理，然后有助于评估各种方式如组装，突变等方式获得的肽与抗体结合的能力，最后有助于生成能与抗体更强的结合的肽。

技术实现思路

1、本专利技术提供了一种多肽结合信号值预测模型的训练方法、装置、电子设备和存储介质，可用于解决相关领域中该技术的缺乏、有助于评估各种肽与抗体结合的能力。

2、第一方面，本专利技术提供了一种多肽结合信号值预测模型的训练方法，该方法包括：获取样本数据集合以及每个所述样本数据对应的原始信号值，样本数据包括样本肽段的序列和样本肽段与预设参考抗体结合后与背景信号

3、在一些可选的实施方式中，所述提取所述样本数据集合中每个所述样本数据对应的结合特征，包括：对于所述样本数据集合中的每个所述样本数据，提取该样本数据对应的样本肽段的序列中的子序列；确定该样本肽段的序列中的每个子序列在所述样本数据集合中出现的频率是否符合预设条件，响应于是，将该子序列加入编码子序列集合；对于所述样本数据集合中的每个所述样本数据，根据该样本数据对应的样本肽段的序列中的子序列是否包含编码子序列，对该样本数据对应的样本肽段赋值。

4、在一些可选的实施方式中，在所述获取样本数据集合以及每个所述样本数据对应的原始信号值之前，还包括：根据候选样本数据集合以及每个所述候选样本数据对应的原始信号值，确定样本数据集合。

5、在一些可选的实施方式中，所述确定样本数据集合，包括：获取候选样本数据集合以及每个所述候选样本数据对应的原始信号值，候选样本数据包括候选样本肽段的序列和候选样本肽段与根据样本肽段与预设参考抗体结合后与背景信号比较产生的评估信号值；根据所述每个候选样本数据对应的评估信号值所在的数值区间，将该候选样本数据加入该数值区间对应的信号区间候选样本集合；确定各个信号区间候选样本集合中的候选样本数据数目是否大于预设数目，响应于是，随机提取所述预设数目个该信号区间候选样本集合中的候选样本数据加入样本数据集合，响应于否，将该信号区间候选样本集合中的全部候选样本数据加入样本数据集合。

6、第二方面，本申请提供了一种多肽结合信号值的预测方法，包括：获取待预测多肽的序列；提取所述待预测多肽的结合特征，所述结合特征包括所述待预测多肽对应的编码子序列集合和/或所述待预测多肽根据其对应的子序列得到的赋值；对所述待预测多肽的结合特征进行主成分分析并确定主成分系数；将所述待预测多肽的主成分系数，输入多肽结合信号值预测模型，得到所述待预测多肽和预设参考抗体的结合信号值，其中，所述多肽结合信号值预测模型是采用如上述的方法训练得到的。

7、第三方面，本申请提供了一种多肽结合信号值预测模型的训练装置，包括：获取模块，被配置成用于获取样本数据集合以及每个所述样本数据对应的原始信号值，样本数据包括样本肽段的序列和样本肽段与预设参考抗体结合后与背景信号比较产生的评估信号值；提取模块，被配置成用于提取所述样本数据集合中每个所述样本数据对应的结合特征，结合特征包括样本肽段对应的编码子序列集合和/或样本肽段根据其对应的子序列得到的赋值；分析模块，被配置成基于所述样本数据对应的结合特征，对所述样本数据集合进行主成分分析并确定主成分系数；训练模块，被配置成基于所述样本数据对应的所述主成分系数和评估信号值，对初始多肽结合信号值预测模型进行监督训练，得到训练后的多肽结合信号值预测模型，所述多肽结合信号值预测模型用于预测肽段与预设参考抗体结合后的结合强度。

8、在一些可选的实施方式中，在所述获取模块之前，还包括：确定模块，被配置成用于根据候选样本数据集合以及每个所述候选样本数据对应的原始信号值，确定样本数据集合。

9、第四方面，本申请提供了一种多肽结合信号值的预测装置，包括：获取模块，被配置成用于获取待预测多肽的序列；提取模块，被配置成用于提取所述待预测多肽的结合特征，所述结合特征包括所述待预测多肽对应的编码子序列集合和/或所述待预测多肽根据其对应的子序列得到的赋值；主成分分析模块，被配置成用于对所述待预测多肽的结合特征进行主成分分析并确定主成分系数；确定模块，被配置成将所述待预测多肽的主成分系数，输入多肽结合信号值预测模型，得到所述待预测多肽和预设参考抗体的结合信号值，其中，所述多肽结合信号值预测模型是采用如上述任一方面的方法训练得到的。

10、第五方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述人一方面的方法。

11、第六方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如上述任一方面所述的方法。

12、因此，本专利技术实施例提供的多肽结合信号值预测模型的训练方法、装置、电子设备和存储介质，首先采用了多肽序列的子序列、赋值的方式实现短肽特征化，然后对多肽芯片上不同信号强度的肽进行随机采样，接着使用两种机器学习算法lars和sgd对采样的肽和信号随机切分后建模和模型评价，最终获得具有预测准确性的机器学习模型。采用上述方法获得的多肽结合信号值预测模型首先有助于评估评估强信号的空间比对路径是否合理，然后有助于评估各种方式如组装，突变等方式获得的肽与抗体结合的能力，最后有助于生成能与抗体更强的结合的肽。

本文档来自技高网...

【技术保护点】

1.一种多肽结合信号值预测模型的训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述提取所述样本数据集合中每个所述样本数据对应的结合特征，包括：

3.根据权利要求1所述的方法，其中，在所述获取样本数据集合以及每个所述样本数据对应的原始信号值之前，还包括：

4.根据权利要求3所述的方法，其中，所述确定样本数据集合，包括：

5.一种多肽结合信号值的预测方法，包括：

6.一种多肽结合信号值预测模型的训练装置，包括：

7.根据权利要求6所述的装置，在所述获取模块之前，还包括：

8.一种多肽结合信号值的预测装置，包括：

9.一种电子设备，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-4和/或权利要求5中任一项所述的方法。

【技术特征摘要】

1.一种多肽结合信号值预测模型的训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述提取所述样本数据集合中每个所述样本数据对应的结合特征，包括：

3.根据权利要求1所述的方法，其中，在所述获取样本数据集合以及每个所述样本数据对应的原始信号值之前，还包括：

4.根据权利要求3所述的方法，其中，所述确定样本数据集合，包括：

5.一种多肽结合信号值的...

【专利技术属性】
技术研发人员：张薛，刘兵行，黄恩恩，李英睿，
申请(专利权)人：珠海碳云智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人