一种预测多肽毒性的方法技术

技术编号:24097557 阅读:34 留言:0更新日期:2020-05-09 11:10
本发明专利技术公开了一种预测多肽毒性的方法,通过选择ToxinPred文章中提供的数据集、SATPdb数据库和UniPort数据库中的多肽作为训练数据,再通过二肽组成矩阵的数据处理方式输入模型中训练,模型采用RF,LDA这两种模型结合进行训练生成了的预测模型,再加上BLAST比对;这样的方法能够将真正的毒性肽尽可能的全部找出,降低临床应用的危险度安全风险。

A method for predicting the toxicity of peptides

【技术实现步骤摘要】
一种预测多肽毒性的方法
本专利技术涉及生物信息领域,特别是一种预测多肽毒性的方法。
技术介绍
多肽是多个氨基酸通过缩合反应连接在一起的大分子,广泛存在于生物体细胞的各个角落,参与和执行各项生命活动。大部分多肽对于人体是没有危害的,但自然界中也存在许多有毒性的多肽,例如多数蛇毒或河豚毒素。在合成用于肿瘤免疫治疗的多肽疫苗时,由于制剂也属于多肽,因此在输入人体之前,必须判断合成得到的多肽是否具有毒性,以免引起严重的医疗事故。目前预测多肽毒性的方法并不多,文献InSilicoApproachforPredictingToxicityofPeptidesandProteins(Sudheeret.al,2013)提供了一种用SVM算法预测毒性的思路,并提供了在线工具TOXINPRED(http://crdd.osdd.net/raghava/toxinpred/)。文献使用了来自ATDB、SWISSPROT、trEMBL等数据库的5万多条阳性多肽作为训练数据,用SVM模型进行训练。文章测试结果显示该方法的分类效果最高达到了98%。然而,用SAT本文档来自技高网...

【技术保护点】
1.一种预测多肽毒性的方法,其特征在于,包括如下步骤:/n步骤一,使用三个数据库整合的多肽数据作为训练数据,将数据编码并提取特征后,选择LDA和RF为基分类器,训练拟合模型;/n所述三个数据库为:ToxinPred文章中提供的数据集、SATPdb数据库和UniPort数据库;/n数据编码并提取特征的方式包括:单肽组成以及二肽组成,QM矩阵(QuantitativeMatrix);/nLDA框架构建步骤如下:用二肽组成作为数据编码,将训练集降维到一维的直线上,并同一分类的点在一维的直线上更接近,将不同分类的点在一维的直线上更远离;对于预测集将其投影同样的一维直线上,若离某个类别更近,则预测该数据...

【技术特征摘要】
1.一种预测多肽毒性的方法,其特征在于,包括如下步骤:
步骤一,使用三个数据库整合的多肽数据作为训练数据,将数据编码并提取特征后,选择LDA和RF为基分类器,训练拟合模型;
所述三个数据库为:ToxinPred文章中提供的数据集、SATPdb数据库和UniPort数据库;
数据编码并提取特征的方式包括:单肽组成以及二肽组成,QM矩阵(QuantitativeMatrix);
LDA框架构建步骤如下:用二肽组成作为数据编码,将训练集降维到一维的直线上,并同一分类的点在一维的直线上更接近,将不同分类的点在一维的直线上更远离;对于预测集将其投影同样的一维直线上,若离某个类别更近,则预测该数据为该类别;
随机森林框架构建步骤如下:对模型精度进行评估,再根据特征选择的优先性构建分类决策树,生成分类决策树,确定随机森林模型构建所需最佳参数;
步骤二,用Uniprot数据作为测试数据,分别测试LDA分类器,RF分类器,LDA与RF集成分类器;根据随机森林预测的结果,以及LDA预测的结果,进行结合处理;
步骤三,结合blast进行进一步的判断;
若输入多肽与数据库中的多肽存在超过90%的同源性,则直接判定为阳性,不再预测。


2.根据权利要求1所述的一种预测多肽毒性的方法,其特征在于,数据编码并提取特征的方式为:单肽组成以及二肽组成;
单肽组成为:单个氨基酸在所有训练数据中的占比;具体如下所述;
每个种类的氨基酸(单肽)在所有多肽数据中的占比:



其中Ri表示所有多肽数据中对应种类的氨基酸(单肽)个数,N表示所有多肽数据中氨基酸的总个数,peptide(i)表示所有多肽数据中对应种类的氨基酸个数在所有多肽数据中氨基酸的总个数中的占比;
二肽组成为:一对氨基酸在所有训练数据中的占比;具体如下所述;
二肽表示连续的两个氨基酸排列序列,由于常见的氨基酸有20种,故排列有400种可能;
每种二肽在所有多肽数据中的占比:



其中RRi表示所有多肽数据中对应种类的二肽个数,N表示所有多肽数据中二肽的总个数,dipeptide(i)表示所有多肽数据中对应种类的二肽个数在所有多肽数据中二肽的总个数中的占比;
在训练数据进行数值转化的阶段,使用二肽组合将一条肽段序列转化为400维的数据,其中每一维的值对应400种可能的dipeptide(i)值。


3.根据权利要求1所述的一种预测多肽毒性的方法,其特征在于,数据编码并提取特征的方式为:QM矩阵;QM矩阵是根据从位置1到位置35的每种氨基酸的相对频率生成的;该矩阵表示每个位置,从1到35上20个氨基酸的贡献,从而形成维度20*35的矩阵。


4.根据权利要求1所述的一种预测多肽毒性的方法,其特征在于,
所述随机森林模型的构建步骤如下:
一,模型精度的评估;
评估方法为:将编码后的数据集选择80%作为训练集、20%作为测试集,进行10折交叉验证;将数据集随机分成10份,每一次使用9份作为训练集,剩余一份作为测试集,该过程重复10次,每次测试都会得到相应的准确率,10次结果的平均值作为对模型精度的评估;<...

【专利技术属性】
技术研发人员:莫凡王奎孙英强陈荣昌
申请(专利权)人:杭州纽安津生物科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1