The invention is applicable to the field of biotechnology, and provides a prediction method, device, terminal and storage medium for protein-protein interaction. The method includes: when receiving a request for prediction of the interaction between two proteins, obtaining two sequences of proteins to be predicted, and then using SIFT algorithm from two sequences. Two sequence features of the protein to be predicted are obtained from the sequence of the protein to be predicted. Finally, the interaction between the two sequence features of the protein to be predicted is predicted by the pre-trained WELM classifier to determine whether there is interaction between the two proteins. Thus, the pre-training with higher evaluation index is carried out. A good WELM classifier can predict the sequence features of predicted proteins, which improves the accuracy of predicted results.
【技术实现步骤摘要】
蛋白质间相互作用的预测方法、装置、终端及介质
本专利技术属于生物
,尤其涉及一种蛋白质间相互作用的预测方法、装置、终端及介质。
技术介绍
目前,国内外对于蛋白质间相互作用的研究主要包括两类,分别是生物实验方法和计算学方法。最初,蛋白质间相互作用的预测都是通过实验方法来完成的,如免疫共沉淀法、蛋白质亲和色谱法和核磁共振法等,这些实验每次只能预测有限的蛋白质对,且实验周期长,花费较大,随着生物信息学的发展,高通量预测技术渐渐发展起来,相比之前的预测技术,此类方法显著的降低了预测的成本,且高通量预测技术能够更大规模的预测蛋白质间的相互作用。现有的高通量预测技术在对大规模蛋白质间的相互作用进行预测时,常常会产生很高的假阳性和假阴性,降低了预测结果的准确性,而且在训练、寻找分类器的最佳参数时耗时较长。
技术实现思路
本专利技术的目的在于提供一种蛋白质间相互作用的预测方法、装置、终端以及介质,旨在解决由于现有技术无法提供一种有效的蛋白质间相互作用的预测方法,导致在预测蛋白质间是否有相互作用时准确性较低的问题。一方面,本专利技术提供了一种蛋白质间相互作用的预测方法,所述方法包 ...
【技术保护点】
1.一种蛋白质间相互作用的预测方法,其特征在于,所述方法包括下述步骤:当接收到对两个蛋白质之间的相互作用进行预测的请求时,获取所述两个待预测蛋白质的序列;通过SIFT算法从所述两个待预测蛋白质的序列中获取所述两个待预测蛋白质的序列特征子;通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测,以确定所述两个蛋白质之间是否存在相互作用。
【技术特征摘要】
1.一种蛋白质间相互作用的预测方法,其特征在于,所述方法包括下述步骤:当接收到对两个蛋白质之间的相互作用进行预测的请求时,获取所述两个待预测蛋白质的序列;通过SIFT算法从所述两个待预测蛋白质的序列中获取所述两个待预测蛋白质的序列特征子;通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测,以确定所述两个蛋白质之间是否存在相互作用。2.如权利要求1所述的方法,其特征在于,通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测的步骤之前,所述方法还包括:从预设蛋白质数据库中获取预设数量个蛋白质的序列;通过SIFT算法从所述预设数量个蛋白质的序列中获取所述预设数量个蛋白质的序列特征子;通过PCA算法对所述预设数量个蛋白质的序列特征子进行降维,将所述降维后的序列特征子按预设规则组合成样本,以得到训练样本集;使用所述训练样本集对初始WELM分类器进行训练,以得到所述预先训练好的WELM分类器。3.如权利要求2所述的方法,其特征在于,使用所述训练样本集对初始WELM分类器进行训练,以得到所述预先训练好的WELM分类器的步骤,包括:使用所述初始WELM分类器对所述训练样本集中每个样本之间的相互作用进行预测;根据所述每个样本的预测结果获取所述训练样本集中正样本被预测为正样本的次数、负样本被预测为负样本的次数、正样本被预测为负样本的次数以及负样本被预测为正样本的次数;通过预设的分类器评价公式获取当前训练得到的所述WELM分类器的评价指标;当所述评价指标未达到预设分类器指标时,更新所述WELM分类器的参数,以继续对所述WELM分类器进行训练。4.如权利要求2或3任一所述的方法,其特征在于,从预设蛋白质数据库中获取预设数量个蛋白质的序列的步骤之后,通过SIFT算法从所述预设数量个蛋白质的序列中获取所述预设数量个蛋白质的序列特征子的步骤之前,所述方法还包括:将所述预设数量个蛋白质的序列转换成PSSM打分矩阵,并对所述PSSM打分矩阵内的元素进行方阵变换和归一化,以对所述预设数量个蛋白质的序列进行预处理。5.如权利要求3所述的方法,其特征在于,所述分类器评价公式包括:其中,Accuracy表示分类器的准确率,Sensitivity表示分类器的敏感度,Precision表示分类器的精度,MCC表示马修斯...
【专利技术属性】
技术研发人员:李坚强,史晓峰,明仲,李赛玲,
申请(专利权)人:深圳大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。