【技术实现步骤摘要】
一种基于随机森林与相关向量机融合的抗癌肽识别方法
本专利技术涉及抗癌肽识别
,是一种基于随机森林与相关向量机融合的抗癌肽识别方法。
技术介绍
人类已经开发出许多控制和杀死癌症的技术:放射疗法,靶向疗法和化学疗法等传统方法可以一定程度上的抑制癌症,而昂贵的成本以及治疗的副作用和癌细胞对当前抗癌化疗药物的耐药性是这些治疗方案无法避免的缺陷。1972年,Boman发现了透明质酸的抗菌肽一级结构。后来,许多研究人员发现抗微生物肽具有抗肿瘤活性。然后他们将抗微生物肽命名为抗癌肽(ACP)。ACP的优势很多,例如特异性高,生产成本低,肿瘤渗透率高,易于合成和修饰等。此外,最重要的因素是ACP不会损害人体的正常生理功能。抗癌肽含有12-50个氨基酸残基。这些肽中的一些存在于具有α-螺旋或β-折叠结构的膜中,而其他具有特定的折叠。它们可以与癌细胞的阴离子细胞膜成分相互作用,然后选择性地杀死癌细胞。抗菌肽(AMPs)可用于获得ACP,许多阳离子AMPs可以破坏细菌,但不能破坏正常细胞,对多种癌细胞具有细胞毒性。尽管目前尚不完全了 ...
【技术保护点】
1.一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:包括以下步骤:/n步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;/n步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;/n步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;/n步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。/n
【技术特征摘要】
1.一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:包括以下步骤:
步骤1:对氨基酸的构成进行特征提取,确定ACP和非ACP中每种氨基酸的平均百分比,确定ACP的序列特征;
步骤2:进行RVM模型的构建,确定先验分布和后验分布,进行迭代计算,构建RVM模型;
步骤3:对RVM模型进行训练,计算后验均值和后验方差,对训练样本进行预测;
步骤4:采用RRVM算法对一给定样本进行特征抽样,并用于RVM建模的样本,在输入一个新的肽链的特征时,采用RVM模型进行预测,判断输入的新的肽链为ACP或非ACP。
2.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤1具体为:
步骤1.1:对氨基酸的构成进行特征提取,由于ACP和非ACP的构成不同,肽中全部20个氨基酸的出现频率会完全,不同绘制了平均氨基酸组成图,区分ACP和非ACP之间的区别,确定ACP和非ACP中每种氨基酸的平均百分比;
步骤1.2:根据氨基酸的亲水性和疏水性将氨基酸分为6类,每一个肽链的氨基酸可以分为6组,共有36种组合,分别计算每个ACP的36种排列出现的概率,作为ACP的另一特征;
步骤1.3:提取ACP的2种特征,氨基酸占比和氨基酸的亲水性和疏水性,氨基酸占比这一种特征是20维的,氨基酸的亲水性和疏水性这一种特征是36维的,因此,所以每一个ACP序列都被一个56维的特征所表示特征类别。
3.根据权利要求2所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述根据氨基酸的亲水性和疏水性将氨基酸分为6类,分别为强亲水性、疏水性强、弱亲水,弱疏水、脯氨酸、甘氨酸和半胱氨酸。
4.根据权利要求1所述的一种基于随机森林与相关向量机融合的抗癌肽识别方法,其特征是:所述步骤2具体为:
步骤2.1:对于给定的数据集建立非线性模型,通过下式表示非线性模型:
T=y(x)+ε(1)
其中,N是样本数,y(·)为非线性函数,ε是独立同分布的高斯噪声,且ε~N(0,σ2),T为目标变量;
确定相关向量机RVM模型,通过下式表示相关向量机RVM:
t=Φω+ε(2)
其中,ω=(ω0,···,ωN)T,ω为权重;Φ是核函数矩阵;
步骤2.2:根据Bayesian,p(t|x)满足N(t|y(x),σ2)分布,确定数据集合的似然估计,通过下式表示数据集合的似然估计:<...
【专利技术属性】
技术研发人员:赵天意,臧天仪,胡杨,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。