基于序列比对核函数预测信号肽及其断裂点位置实现方法技术

技术编号:2850520 阅读:534 留言:0更新日期:2012-04-11 18:40
一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,属于生物工程技术领域。本发明专利技术采用全局序列比对以解决所研究的氨基酸序列长度不一致的难题,并计算两氨基酸序列之间的统计相关性以表征两者之间的相似度,通过将相似度矩阵转换为非负定矩阵后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。本发明专利技术提高了以往预测信号肽的正确率以及断裂点的预测率,从而对于理解某些疾病的致病过程有极大促进作用,进而有助于开发有效的治疗方案。

【技术实现步骤摘要】

本专利技术涉及的是一种生物工程
的方法,具体的说,涉及的是一种。
技术介绍
目前信号肽的研究已成为生物信息学领域一个热点。信号肽对于控制蛋白质的分泌路径和指导蛋白质到达特定位置有重要作用,因此成为基因诊疗新药领域的一个关键工具。但是随着进入数据库的信号肽序列的急剧增加,单纯采用实验的方式识别信号肽需要高昂的资金和大量的时间。于是开发模式识别、机器学习领域的算法用于自动识别新合成的蛋白质中的信号肽成为必然。基于模式识别、机器学习的算法用于自动识别预测信号肽及判定信号肽断裂点位置的,可以比单纯采用实验的方式节省大量的时间和金钱,但是由于处理的氨基酸序列不同于以往传统的模式识别和机器学习处理的数据,必须考虑下列要求1)氨基酸序列长度不一致的问题信号肽序列长度变化很大。这种多样性使得信号肽的预测问题变得很困难。2)编码问题氨基酸序列形式上表示为字母序列,通常需要进一步进行编码为数字属性方便处理。3)正确率问题信号肽的预测正确率至少要求达到90%,信号肽断裂点的预测至少达到70%以上才算有意义。现已有针对此问题的初步探讨。Heijne在1986首先针对信号肽预测问题提出了加权矩阵算法。然而加权矩阵算法对现今数据不能得到较高的正确率。2000年Nakai K提出了神经网络可以得到较高的信号肽预测率,但是对断裂点位置的正判率不是很高,另外对问题缺乏明确的物理解释且容易出现过拟合现象。Henrik Nielsen等人提出用隐马尔可夫模型HMM(Hidden Markov Model)来分类信号肽和信号锚。HMM的方法在区分信号肽和信号锚方面有所改善,但是在剪切点预测的方面结果不如其它经典方法。经对现有技术的文献检索发现,Chou在《ProteinsStructure,Function,and Genetics》(蛋白质结构、功能、遗传学)2001,42,pp.136-139上发表的“Prediction of protein signal sequences and their cleavage sites”(“预测信号肽及其断裂点位置”),以及Liu等在《Biochemical and BiophysicalResearch Communications》(生物化学与生物物理学研究快报)2005,338,pp.1005-1011上发表的“Prediction of protein signal sequences and theircleavage sites by statistical rulers”(“基于统计规则预测信号肽及其断裂点位置”),均借助滑动窗分隔信号肽序列得到等长的氨基酸序列从而借助传统的模式识别算法进行预测,这种算法可以得到较神经网络高的信号肽预测率,但是对断裂点的正判率仍然不高。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提出一种,使其提高预测信号肽及判定信号肽断裂点位置的正确率。本专利技术是通过以下技术方案实现的,本专利技术采用全局序列比对解决氨基酸序列长度不一致的难题,并利用两氨基酸序列之间的全局序列比对值表征两者之间的相似度,进而借助支持向量机理论中只需要核矩阵即可实现分类预测的有利条件完成预测任务。借助全局序列比对得到的相似度测度具有生物学上的普遍意义,如果由其产生的针对整个数据集的相似度矩阵能够满足核函数理论中对矩阵的非负定性的要求,即可以借助SVM等非常理想的分类工具实现预测功能。但是由于此相似度不满足三角不等式,因此不能保证满足核空间的非负定条件。本专利技术通过研究发现相似度矩阵的负特征值可以剔除然后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。本专利技术方法按如下步骤进行1.属性的数字化对每组数据分别处理,将氨基酸序列Pi的属性描述映射成整数标记yi,以1表示信号肽0表示非信号肽。2.全局序列比对并建立相似度矩阵 氨基酸序列Pi和Pj的全局序列比对。针对数据库中每两个氨基酸序列,应用全局序列比对Needleman-wunsch算法可以将不同长度的氨基酸序列通过加入删除点(gap)的方式对齐,另外序列Pi和Pj比对附加产生的评判值K(i,j)在本专利技术中将作为度量两氨基酸序列的相似度。假设训练集有N个氨基酸序列,依照步骤1计算每两个对氨基酸序列对的全局比对,将所得相似度组成N×N相似度矩阵Si,j=K(i,j)。经过以下归一化处理I 归一化S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>II 对角线归一化S′′(i,j)=S′2(i,j)S′(i,i)S′(j,j)]]>得到矩阵S″。通过以下步骤除去矩阵S″的负特征值设矩阵S″具有特征值Λ={λ1,λ2,…,λN}和相应的特征向量V={V1,V2,…,VN},区别于普通的特征值分解此处要求|λi|ViTVi=1]]>与ViTVj=0]]>其中i,j=1,2,…,N且i≠j;经过实验证实矩阵S″只有少量负特征值且其绝对值相对正特征值小的多,因此可以通过大于零的特征值λi>0(i=1,2,…,N*≤N)近似重建新核矩阵S*=VD*V-1,其中D*=diag[λ1,λ2,...,λN*,0,...,0].]]>3.生成核矩阵得到新空间坐标由于新核矩阵满足非负定性条件,定义Si,j*=(Xi,Xj)=XiTXj,]]>其中Xi=(x1i,x2i,...,xji,...xNi),]]>i,j=1,2…N,矩阵S*的非零特征值为λ1,λ2,…,λN*对应的特征向量V1,V2,…,VN*。记相关矩阵为C=1NΣj=1NXiXiT,]]>可以证明矩阵C的特征值为λ1/N(i=1,2…N*),对应的特征向量满足Oi=Σj=1NvjiXj,]]>其中Vji为向量Vi的第j个元素。则氨基酸序列Pi的坐标可以表示为Xi0=((Xi,O1),(Xi,O2),···,(Xi,ON*))=(Si*V1,Si*V2,···Si*VN*),]]>Si*为矩阵S*的第i行。至此由核函数得到新空间的显式坐标形式。4.训练分类器并预测是否信号肽对新空间的N个氨基酸序列Pi(x1i,x2i,···xN*i)i=1,2,···N,]]>由训练样本集训练SVM分类器。当SVM采用线性核时核矩阵即为S*的子矩阵,对未知属性的序列预测其是否信号肽。5.预测信号肽断裂点位置按照预测氨基酸序列与本文档来自技高网
...

【技术保护点】
一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征在于包括如下步骤:1)属性的数字化:将氨基酸序列的是否属于信号肽的文字描述映射成整数属性并标记为y↓[i],以1表示信号肽、0表示非信号肽;2)全局序列比对并建立 相似度矩阵:对每组数据中的每两条氨基酸序列应用全局序列比对Needleman-wunsch算法,记录序列比对的结果;并将全局序列比对附加产生的评判值组成矩阵作为度量氨基酸序列间相似度的相似度矩阵;3)生成核矩阵得到新空间坐标:对于非 负定相似度矩阵只进行归一化处理,***和***,其中(i,j=1,2,…224),计算矩阵S↑[*]=S″的特征值Λ={λ↓[1],λ↓[2],…,λ↓[N]}与特征向量V={V↓[1],V↓[2],…,V↓[N]},要求|λ↓[i]|×(V↓[i],V↓[i])=1且相处正交,新空间坐标为X↓[i]↑[0]=(S↓[i]↑[*]V↓[1],S↓[i]↑[*]V↓[2],…S↓[i]↑[*]V↓[N↑[*]]);4)训练分类器并预测是否信号肽:分类器采用SVM分类器, 由已知属性的N↓[1]个氨基酸序列训练SVM分类器,训练样本属性对为{X↓[i]↑[0],y↓[i]}i=1,2,…N↓[1],SVM采用线性核即为矩阵S↑[*]的子矩阵,由训练所得分类器对未知属性的N↓[2]=N-N↓[1]个样本检测;  5)预测信号肽断裂点位置:按照预测信号肽与已知断裂点信号肽的相似度降序排列,得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。...

【技术特征摘要】
1.一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征在于包括如下步骤1)属性的数字化将氨基酸序列的是否属于信号肽的文字描述映射成整数属性并标记为yi,以1表示信号肽、0表示非信号肽;2)全局序列比对并建立相似度矩阵对每组数据中的每两条氨基酸序列应用全局序列比对Needleman-wunsch算法,记录序列比对的结果;并将全局序列比对附加产生的评判值组成矩阵作为度量氨基酸序列间相似度的相似度矩阵;3)生成核矩阵得到新空间坐标对于非负定相似度矩阵只进行归一化处理,S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>和S′′(i,j)=S′2(i,j)S′(i,i)S′(j,j),]]>其中(i,j=1,2,…224),计算矩阵S*=S″的特征值Λ={λ1,λ2,…,λN}与特征向量V={V1,V2,…,VN},要求|λi|×(Vi,Vi)=1且相处正交,新空间坐标为Xi0=(Si*V1,Si*V2,···Si*VN*);]]>4)训练分类器并预测是否信号肽分类器采用SVM分类器,由已知属性的N1个氨基酸序列训练SVM分类器,训练样本属性对为{Xi0,yi}i=1,2,···N1,]]>SVM采用线性核即为矩阵S*的子矩阵,由训练所得分类器对未知属性的...

【专利技术属性】
技术研发人员:刘惠刘丹青姚莉秀杨杰
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1