System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种综合体外抗氧化活性多肽的快速筛选方法技术_技高网

一种综合体外抗氧化活性多肽的快速筛选方法技术

技术编号:40153508 阅读:9 留言:0更新日期:2024-01-26 23:24
本发明专利技术提供一种综合体外抗氧化活性多肽的快速筛选方法,涉及生物活性肽领域。所述综合体外抗氧化活性多肽的快速筛选方法为从公开的文献中收集从食品、植物或者动物中鉴定或者设计的抗氧化多肽,并分别构建四种ABTS、DPPH、ORAC、FRAP抗氧化多肽数据集;采用ESM‑2模型与训练模型获取数据集的特征描述符,并结合多种算法构建抗氧化多肽的二分类模型。本发明专利技术提供的筛选方法综合了多种主流体外抗氧化评价,极大缩短了抗氧化肽的筛选过程。

【技术实现步骤摘要】

本专利技术涉及生物活性肽领域,具体涉及一种综合体外抗氧化活性多肽的快速筛选方法


技术介绍

1、食源性活性肽是指在食物中存在的具有生物活性的小分子肽链。这些肽链由蛋白质在消化过程中被酶水解或发酵产生。食源性活性肽通常由2到20个氨基酸组成,并具有多种生物活性,如抗氧化、抗菌、抗炎、抗肿瘤等。这些活性肽可以通过改善免疫功能、调节血压、降低胆固醇、促进肠道健康等方式对人体产生积极的影响。通常在设计食物中的活性肽时,会优先选择较短的肽段,以提高其吸收率和生物活性,一般认为食源性活性肽的肽段长度应小于15个氨基酸残基。这是因为较短的肽段更容易被消化酶降解成更小的片段,从而增加其在肠道吸收的可能性。当肽段长度超过15个氨基酸残基时,其消化和吸收的效率会降低,机体吸收的能力也会受到限制。因此,研究食源性活性小肽对于开发具有保健功能的食品和药物具有重要意义。

2、机器学习是一种人工智能的分支,研究如何设计和开发能够自动从数据中学习的算法和模型。它通过使用统计学和计算机科学的方法,使计算机系统能够从大量数据中提取模式、规律和知识,并利用这些知识来进行预测、分类、识别等任务。机器学习的核心思想是通过训练算法,使计算机系统能够从数据中学习,并根据学习到的知识来做出决策或预测。

3、抗氧化肽是一类具有抗氧化活性的小分子肽链,可以通过中和自由基、抑制氧化反应、保护细胞免受氧化损伤等方式发挥作用。目前对于抗氧化肽的鉴定方法有采用生物信息技术网站、分子对接和传统酶解蛋白后的实验方法,普遍存在准确性不足、费时费力、需要找到合适的对照组等缺点。

4、且现有专利很少使用了机器学习的方法去预测抗氧化多肽,本专利技术可以弥补这些缺点,快速的获得抗氧化肽的大量信息,并且保证较高的准确率,可以对食源性活性肽的鉴定有推动作用。


技术实现思路

1、针对现有技术不足,本专利技术提供一种综合体外抗氧化活性多肽的快速筛选方法,能够快速的获得抗氧化肽的大量信息,并且保证较高的准确率,可以对食源性活性肽的鉴定有推动作用。

2、为实现以上目的,本专利技术的技术方案通过以下技术方案予以实现:

3、一种综合体外抗氧化活性多肽的快速筛选方法,所述快速筛选方法包括以下步骤:

4、s1、从公开的文献中收集从食品、植物或者动物中鉴定或者设计的抗氧化多肽和非抗氧化多肽,并筛选获得的抗氧化多肽,使其满足至少一项抗氧化检测,并分类后构建数据集;

5、s2、分别对数据集进行去除重复,并根据抗氧化能力进行区分后,按照8:2的比例分为训练集与测试集;

6、s3、使用evolutionaryscalemodeling-2蛋白质语言模型对多肽的特征读取,并对每个多肽生成了320个特征向量进行表示;

7、s4、使用多个机器学习模型,分别构建不同方法检测的抗氧化肽数据集,进行预测得到多个预测模型;

8、s5、使用多种指标评估上述预测模型性能,以准确率为选择标准,选择出最佳模型;

9、s6、将多肽序列代入模型,均预测出有活性的多肽,即被认为强抗氧化多肽。

10、所述步骤s1中抗氧化多肽的抗氧化检测方法为abts方法、dpph自由基清除活性方法、orac氧化自由基吸收能力方法和frap铁离子还原方法,以此进行分类并构建好四种数据集。

11、所述步骤s2中根据抗氧化能力进行区分的方法为确定使用了何种抗氧化检测方法,并确定是否使用同种标准物,去除使用不同标准物测定的多肽序列,其中abts、dpph、orac抗氧化检测方法的标准物选择为trolox当量,frap的标准物选择为了铁的还原态离子,并对有活性序列定义为1,无活性序列定义为0,将获得的抗氧化多肽数据集打乱,用于二分类模型的构建。

12、所述步骤s3中evolutionaryscalemodeling-2蛋白质语言模型的具体使用方法包括以下步骤:

13、采用evolutionaryscalemodeling-2蛋白质语言模型(esm-2模型)使用pandas库读取excel文件中的蛋白质序列数据,将每个蛋白质序列格式化为esm-2模型可接受的格式,之后加载esm-2模型、转换为模型输入、计算特征表示,从特征表示结果中提取每个序列的特征表示进行保存,对每个多肽生成了320个特征向量进行表示。

14、所述步骤s4中多个预测模型的具体建立过程包括以下步骤:

15、s4-1、读取训练集、测试集与其相对应的特征表示表格,将每个肽段所对应的特征向量转换为numpy数组,用于后续的模型训练和预测;

16、s4-2、使用多个机器学习模型分别对不同抗氧化方法得到的训练集进行模型训练,并得到多个二分类模型;

17、s4-3、使用了来自sklearn的stratifiedkfold类和roc_auc_score函数,前者是一种分层折叠交叉验证方法,实现了分层10折交叉验证,在每次分割之前数据将被随机打乱,且设置了随机种子为42,以确保可重复性,后者则用于计算模型的曲线下面积,用于评估模型的性能。

18、所述步骤s4-2中多个机器学习模型为10种常规的机器学习模型,分别为xgboost模型、lightgbm模型、randomforest模型、extratrees模型、gaussiannb模型、kneighbors模型、logisticregression模型、decisiontree模型、svc模型和lineardiscriminant模型。

19、所述步骤s5中最佳模型的具体选择方法包括以下步骤:

20、s5-1、计算多个常用的性能指标,包括准确率(acc)、平衡准确率(bacc)、灵敏度(sn)、特异度(sp)、matthews相关系数(macc)、roc曲线下面积(auc)、精确率(precision)和f1值,此外还保存每个折叠的预测结果、真实标签和预测概率,以及训练好的模型;

21、s5-2、最佳模型的选出依据最高的准确率,准确率计算公式如下:

22、

23、s5-3、获得最佳模型的索引号,使用joblib函数对模型进行保存与加载,并对测试集进行预测评估,绘制混合矩阵。

24、本专利技术提供一种综合体外抗氧化活性多肽的快速筛选方法,与现有技术相比优点在于:

25、(1)本专利技术能够快速、高效且高准确筛选具有抗氧化活性的多肽、降低了筛选周期与成本,可广泛应用于多肽的抗氧化能力的预测。

26、(2)本专利技术使用了最新的蛋白质语言模型evolutionaryscale modeling-2用于生成多肽描述符,从词向量特征、位置编码特征、残基残基相互作用特征和窗口特征等多种特征对多肽序列进行了准确的描述,与传统方法相比,能更好的表达多肽。并分别采用10种常用机器学习模型进行建模,结合如准确率、灵敏度、特异度等多种评估参数进行分析,具有更强的说服性。

27本文档来自技高网...

【技术保护点】

1.一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于,所述快速筛选方法包括以下步骤:

2.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S1中抗氧化多肽的抗氧化检测方法为ABTS方法、DPPH自由基清除活性方法、ORAC氧化自由基吸收能力方法和FRAP铁离子还原方法,以此进行分类并构建好四种数据集。

3.根据权利要求2所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S2中根据抗氧化能力进行区分的方法为确定使用了何种抗氧化检测方法,并确定是否使用同种标准物,去除使用不同标准物测定的多肽序列,其中ABTS、DPPH、ORAC抗氧化检测方法的标准物选择为Trolox当量,FRAP的标准物选择为了铁的还原态离子,并对有活性序列定义为1,无活性序列定义为0,将获得的抗氧化多肽数据集打乱,用于二分类模型的构建。

4.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S3中Evolutionary Scale Modeling-2蛋白质语言模型的具体使用方法包括以下步骤:

5.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S4中多个预测模型的具体建立过程包括以下步骤:

6.根据权利要求5所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S4-2中多个机器学习模型为10种常规的机器学习模型,分别为XGBoost模型、LightGBM模型、RandomForest模型、ExtraTrees模型、GaussianNB模型、KNeighbors模型、LogisticRegression模型、DecisionTree模型、SVC模型和LinearDiscriminant模型。

7.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤S5中最佳模型的具体选择方法包括以下步骤:

...

【技术特征摘要】

1.一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于,所述快速筛选方法包括以下步骤:

2.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤s1中抗氧化多肽的抗氧化检测方法为abts方法、dpph自由基清除活性方法、orac氧化自由基吸收能力方法和frap铁离子还原方法,以此进行分类并构建好四种数据集。

3.根据权利要求2所述的一种综合体外抗氧化活性多肽的快速筛选方法,其特征在于:所述步骤s2中根据抗氧化能力进行区分的方法为确定使用了何种抗氧化检测方法,并确定是否使用同种标准物,去除使用不同标准物测定的多肽序列,其中abts、dpph、orac抗氧化检测方法的标准物选择为trolox当量,frap的标准物选择为了铁的还原态离子,并对有活性序列定义为1,无活性序列定义为0,将获得的抗氧化多肽数据集打乱,用于二分类模型的构建。

4.根据权利要求1所述的一种综合体外抗氧化活性多肽的快速...

【专利技术属性】
技术研发人员:赵亮赵磊朱泽辉潘飞
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1