System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 机器学习辅助筛选及制备DPP-4抑制肽的方法技术_技高网

机器学习辅助筛选及制备DPP-4抑制肽的方法技术

技术编号:41063564 阅读:4 留言:0更新日期:2024-04-24 11:16
本发明专利技术提供一种机器学习辅助筛选及制备DPP‑4抑制肽的方法,包括以下步骤:构建训练集;提取多肽序列特征:特征提取方法为伪氨基酸组成;建立机器学习模型;预测集的准备:将蛋白质水解,关注长度为3‑15个氨基酸的肽段,所述蛋白质水解的方式为用碱性蛋白酶水解或虚拟水解;用机器学习模型对预测集中的肽进行DPP‑4活性预测;评估肽的活性、毒性和人体肠道吸收性;制备DPP‑4抑制肽;采用DPP‑4活性抑制实验和分子对接以及分子动力学模拟验证DPP‑4抑制肽。本方法不仅简化了DPP‑4抑制肽的发现,使其成为一种低成本、高效的预测方法,而且还具有实际应用价值。具体来说,可以辅助生物活性肽的精准制备,并快速确定其主要生产条件,助力行业规模化、标准化生产活性肽。

【技术实现步骤摘要】

本专利技术属于多肽的制备,具体涉及一种机器学习辅助筛选及制备多肽的方法。


技术介绍

1、因近几十年来糖尿病患病率的逐年增加,糖尿病已成为全球重要的公共卫生挑战。饮食干预是糖尿病管理中的关键组成部分,而源自食物的生物活性肽因其在健康和疾病中的重要作用而引起越来越多的关注。dpp-4是一种代谢酶,已知在餐后阶段其会导致胰高血糖素样肽-1和葡萄糖依赖性促胰岛素分泌多肽失活,从而降低血糖,(deacon,c.f.circulation and degradation of gip and glp-1.hormmetab.res.36,761–765(2004).10.1055/s-2004-826160.)因此dpp-4抑制剂是目前非常有前景的糖尿病药物。食源性蛋白例如牛奶经水解后能产生大量多肽,其中有很多多肽已被证明能很好的抑制dpp-4的活性,(nongonierma,a.b.,lalmahomed,m.,paolella,s.&fitzgerald,r.j.milkprotein isolate(mpi)as a source of dipeptidyl peptidase iv(dpp-iv)inhibitorypeptides.food chem.231,202–211(2017).10.1016/j.foodchem.2017.03.123.)因此有必要快速开发出食源性蛋白中未被发现的新型dpp-4抑制肽。

2、当前开发新的活性肽所面临的问题与挑战有很多,例如食源性活性肽数量十分庞大,很难筛选,并且常常只是重复相同的发现。实验室逐个检测面临成本过高,价格昂贵,耗时长,而且无法捕捉到广泛的化学信息等缺点。除此之外,生物活性肽的大规模商业制备也面临着重大挑战,这主要是因为蛋白质的多样性和水解混合物中存在多种肽的复杂性,使得生产高纯度、高含量、结构清晰且功能独特的生物活性肽成为一项艰巨的任务。


技术实现思路

1、为了使生物活性肽的制备更加经济、高效、精确,同时快速确定水解参数,本专利技术的技术目的是提出一种机器学习辅助筛选和制备dpp-4抑制肽的方法,以从蛋白中快速准确鉴定出dpp-4抑制肽、并制备dpp-4抑制肽。

2、实现本专利技术上述目的的技术方案为:

3、一种机器学习辅助筛选及制备dpp-4抑制肽的方法,包括以下步骤:

4、s1构建训练集:用已知dpp-4抑制活性的肽作为阳性(正)样本,用随机生成的肽作为阴性样本(负样本),阳性样本和阴性样本构成训练集;

5、s2提取多肽序列特征:特征提取方法为伪氨基酸组成法(pseaac),选定的氨基酸特征包括疏水性、亲水性、质量、pk1(α-co2h)、pk2(nh3)和25℃时的等电点(pi);

6、s3建立机器学习模型:通过伪氨基酸组成法得到的特征被输入机器学习模型,所述机器学习模型为梯度提升决策树(gbdt)、极端梯度提升、轻量级梯度提升机(lightgbm)、分类提升(catboost)和随机森林(rf)中的一种或多种;

7、s4预测集的准备:将蛋白质水解,获得长度为3-15个氨基酸的肽段,所述蛋白质水解的方式为用碱性酶水解或虚拟蛋白水解;

8、s5用机器学习模型进行预测:将预测集中长度为3-15个氨基酸的肽段输入机器学习模型进行预测,预测概率大于50%的肽段被选为备选肽;

9、s6制备含dpp-4抑制肽的蛋白:基于步骤s5选择的肽段制备具有dpp-4抑制活性的肽。

10、其中,步骤s1中所述的已知dpp-4抑制活性的肽为对既往已被验证的dpp-4抑制肽进行整理和总结,作为阳性样本。

11、优选地,步骤s1中从uniprot数据库中随机生成多肽作为阴性样本;和/或

12、步骤s2中采用伪氨基酸组成法(pseaac)的2型方法。

13、进一步优选地,生成的2型pseaac输出由20+n×k离散值组成,其中k表示确定相互作用的氨基酸距离的系数,n表示选择的氨基酸特征的数量。

14、进一步地,步骤s3机器学习模型训练完成后,采用五倍交叉验证评价机器学习模型的性能,评价指标包括接收者操作特征曲线、准确率(acc)、召回率(rec)、精度(pre)和f1分数(f1)。式(1-4)为标准定量指标的计算方式。

15、

16、

17、

18、

19、其中tn表示真阴性数,tp表示真阳性数,fn表示假阴性数,fp表示假阴性数。

20、protbert也是现有机器学习的一种模型。本专利技术选用的轻量级梯度提升机(lightgbm)等模型比protbert的训练时间更短,具有更低的计算要求,同时提供了更好的可解释性,使人们更容易理解预测是如何生成的。

21、本专利技术的优选技术方案为,步骤s3中,所述机器学习模型为轻梯度提升机(lightgbm),具体参数为:num_leaves值设置为20~40,学习率为0.0.1~0.1,max_bin设置为200~300,

22、更优选地,num_leaves值设置为31,学习率为0.05,max_bin设置为255。

23、更优选的数值是在这个数值测定下,模型的预测效果是最好的,在这个数值附近波动的话,效果会受影响,不一定能达到最佳效果。

24、步骤s4中,如果是碱性蛋白酶水解,对象则可以是任何蛋白质,如果是虚拟水解,所选的蛋白质则是目前序列已被破译的,比如鸡蛋蛋白,大豆,牛乳蛋白等。用酶水解蛋白后需要测定水解物的氨基酸序列,而虚拟水解可直接获得肽段氨基酸序列。

25、其中,步骤s4中,所述碱性蛋白酶水解的方法为:将蛋白的水溶液ph调节至7~8,然后用0.5~1%(w/w)的碱性蛋白酶消化所制备的蛋白水溶液样品,在40~60℃下加热4~10小时;120~130℃灭活,离心并取上清液,冻干,冻干所得粉末制成溶液并通过超滤离心获得不同分子量的肽。

26、蛋白的水溶液可以是蛋白和蒸馏水以3:40(w/w)的比例混合制备的样品溶液。

27、其中,步骤s4中,所述虚拟水解使用的酶包括动物蛋白酶、植物蛋白酶和微生物蛋白酶,所述动物蛋白酶选自胰蛋白酶、胃蛋白酶和糜蛋白酶中的一种或多种,所述植物蛋白酶为木瓜蛋白酶和/或茎菠萝蛋白酶,所述微生物蛋白酶选自枯草杆菌蛋白酶;使用dfbp(食源性功能多肽数据库)中的ehp-tool程序(http://www.cqudfbp.net/enzymes/hydrothesis_tools/datainput.jsp),进行蛋白质的虚拟蛋白水解。

28、现有的优化水解参数常用的方法是响应面等方法。这些方法通常涉及较高的实验和资源成本、耗时,并且可能无法有效地探索整个参数空间(nongonierma&fitzgerald,2017)。近年来,虚拟蛋白水解作为一种计算方法被用来预测蛋白质或肽在各种水本文档来自技高网...

【技术保护点】

1.一种机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S1中,从UniProt数据库中随机生成多肽作为阴性样本;和/或

3.根据权利要求2所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,生成的2型PseAAC输出由20+n×k离散值组成,其中k表示确定相互作用的氨基酸距离的系数,n表示选择的氨基酸特征的数量。

4.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S3机器学习模型训练完成后,采用五倍交叉验证评价机器学习模型的性能,评价指标包括接收者操作特征曲线、准确率、召回率、精度和F1分数。

5.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S3中,所述机器学习模型为轻量级梯度提升机,具体参数为:num_leaves值设置为20~40,学习率为0.0.1~0.1,max_bin设置为200~300;优选地,num_leaves值设置为31,学习率为0.05,max_bin设置为255。

6.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S4中,所述碱性蛋白酶水解的方法为:将蛋白的水溶液的pH调节至7~8,然后用0.5~1%(w/w)的碱性蛋白酶消化所制备的蛋白水溶液样品,在40~60℃下加热4~10小时;120~130℃灭活,离心并取上清液,冻干,冻干所得粉末制成溶液并通过超滤离心获得不同分子量的肽。

7.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S4中,所述虚拟水解使用的酶包括动物蛋白酶、植物蛋白酶和微生物蛋白酶,所述动物蛋白酶选自胰蛋白酶、胃蛋白酶和糜蛋白酶中的一种或多种,所述植物蛋白酶为木瓜蛋白酶和/或菠萝蛋白酶,所述微生物蛋白酶选自枯草杆菌蛋白酶;使用DFBP中的EHP-Tool程序,进行蛋白质的虚拟蛋白水解。

8.根据权利要求1所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,用机器学习模型进行预测后,评估备选肽的活性、毒性和人体肠道吸收性:用PeptidRanker评估肽的生物活性,选择生物活性得分超过0.5的肽;使用AdmetSAR预测肽的人体肠道吸收特性,选择肠道吸收特性好的肽;使用ToxinPred对肽进行毒性预测,选择阈值为0.0的基于SVM的预测方法来预测肽的毒性,并选择无毒肽。

9.根据权利要求1~8任一项所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,步骤S6中,采用固相肽合成、液相肽合成、Fmoc固相肽合成法中的一种或多种制备DPP-4抑制肽。

10.根据权利要求1~8任一项所述的机器学习辅助筛选及制备DPP-4抑制肽的方法,其特征在于,还包括步骤S7采用DPP-4活性抑制实验和分子对接以及分子动力学模拟验证侯选肽:采用体外抑制实验评估候选肽的DPP-4抑制活性,采用分子对接和分子动力学模拟技术验证候选肽与DPP-4的结合能力与抑制机制;所述的DPP-4抑制活性测定包括操作:将肽样品和Gly-Pro-p-硝基苯胺混合并在30~40℃下预孵育5~20分钟,然后添加0.02U/mL的DPP-4;40~80分钟后,加入乙酸钠溶液终止反应,使用酶标仪测量405nm处的吸光度,DPP-4抑制(DI)计算如下:

...

【技术特征摘要】

1.一种机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,步骤s1中,从uniprot数据库中随机生成多肽作为阴性样本;和/或

3.根据权利要求2所述的机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,生成的2型pseaac输出由20+n×k离散值组成,其中k表示确定相互作用的氨基酸距离的系数,n表示选择的氨基酸特征的数量。

4.根据权利要求1所述的机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,步骤s3机器学习模型训练完成后,采用五倍交叉验证评价机器学习模型的性能,评价指标包括接收者操作特征曲线、准确率、召回率、精度和f1分数。

5.根据权利要求1所述的机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,步骤s3中,所述机器学习模型为轻量级梯度提升机,具体参数为:num_leaves值设置为20~40,学习率为0.0.1~0.1,max_bin设置为200~300;优选地,num_leaves值设置为31,学习率为0.05,max_bin设置为255。

6.根据权利要求1所述的机器学习辅助筛选及制备dpp-4抑制肽的方法,其特征在于,步骤s4中,所述碱性蛋白酶水解的方法为:将蛋白的水溶液的ph调节至7~8,然后用0.5~1%(w/w)的碱性蛋白酶消化所制备的蛋白水溶液样品,在40~60℃下加热4~10小时;120~130℃灭活,离心并取上清液,冻干,冻干所得粉末制成溶液并通过超滤离心获得不同分子量的肽。

7.根据权利要求1所述的机器学习辅助筛选及制备dpp-4抑制肽的方...

【专利技术属性】
技术研发人员:薛勇张译匀王立扬包鑫
申请(专利权)人:中国农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1