【技术实现步骤摘要】
预测模型的构建方法、多肽合成难度的预测方法及装置
本专利技术涉及计算机
,更具体的,涉及一种多肽合成难度预测模型的构建方法、多肽合成难度的预测方法及装置。
技术介绍
多肽是多个氨基酸借由肽键连接起来的有机化合物,多肽合成为使用有机化学手段合成多肽的过程。工业化的多肽合成除了要求多肽产物的序列正确之外,对于产物的纯度、产量都有要求。多肽固相合成是由一系列复杂的化学反应组成的,任何一个或几个反应出现问题,都可能造成产物的序列、纯度或产量不达标,需要重新设计合成路线,增加了多肽的合成成本,延长了多肽的合成时间。这种使用常规手段无法一次合成达标的多肽,称为困难多肽。造成多肽合成困难的原因很多,比如多肽的长度,等电点,疏水度,需要添加的修饰基团的复杂度,多肽中的重复片段的长度,重复次数等等。这些因素对于多肽困难的影响是相互作用的,而且是非线性的,比如多肽长度长于30aa,会增加合成的困难,但是如果多肽长度过短,小于5aa,同样也会造成合成的困难。因而很难找到一套简单的标准,来判断多肽序列的合成难度。 >
技术实现思路
...
【技术保护点】
1.一种多肽合成难度预测模型的构建方法,其特征在于,包括:/n获取多肽合成难度预测模型的训练数据和测试数据;/n分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中,对多个机器学习模型进行训练,得到每个机器学习模型的训练结果评价指标值;/n依据每个机器学习模型的训练结果评价指标值,对每个机器学习模型的预测结果进行分析,并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。/n
【技术特征摘要】
1.一种多肽合成难度预测模型的构建方法,其特征在于,包括:
获取多肽合成难度预测模型的训练数据和测试数据;
分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中,对多个机器学习模型进行训练,得到每个机器学习模型的训练结果评价指标值;
依据每个机器学习模型的训练结果评价指标值,对每个机器学习模型的预测结果进行分析,并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取多肽合成难度预测模型的训练数据和测试数据,包括:
选取多个多肽,以合成-纯化-中控质检作为一个合成轮次分别进行合成;
获取多个多肽的合成数据,所述合成数据包括:多肽序列、目标纯度、目标产品、特征信息和合成难度;
按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据。
3.根据权利要求2所述的方法,其特征在于,获取多个多肽的合成数据中的合成难度,包括:
获取每个多肽的合成轮次;
根据预先设定的合成轮次与合成难度之间映射关系,确定每个多肽的合成难度。
4.根据权利要求2所述的方法,其特征在于,多肽的合成难度包括:普通和困难,在所述分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中之前,所述方法还包括:
利用过采样SMOTE方法对所述训练数据中合成难度为困难的样本数据进行过采样处理,增加所述训练数据中合成难度为困难的样本数据的数量。
5.根据权利要求1所述的方法,其特征在于,所述依据每个机器学习模型的训练结果评价指标值,对每个机器学习模型的预测结果进行分析,包括:
依据每个所述训练结果评价指标值的权重,对每个所述机器学习模型的训练结果评价指标值进行加权计算,得到每个机器学习模型的预测结果评分,并将预测结果评分最高的机器学习模型确定为预测结果最好的机器学习模型,其中,所述训练结果评价指标值包括准确度、敏...
【专利技术属性】
技术研发人员:盛夏,李英连,王卫国,
申请(专利权)人:江苏金斯瑞生物科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。